Hadoop 文档

General

Common

HDFS

MapReduce

MapReduce REST APIs

YARN

YARN REST APIs

YARN Service

Submarine

Hadoop Compatible File Systems

Auth

Tools

Reference

Configuration

总览

所有的mapreduce命令都由bin / mapred脚本调用。运行不带任何参数的mapred脚本将打印所有命令的描述。

用法:映射为[SHELL_OPTIONS] COMMAND [GENERIC_OPTIONS] [COMMAND_OPTIONS]

Hadoop有一个选项解析框架,该框架使用解析通用选项以及运行类。

COMMAND_OPTIONS 描述
SHELL_OPTIONS 通用的外壳选项集。这些内容记录在“ Hadoop命令参考”页面上。
GENERIC_OPTIONS 多个命令支持的一组通用选项。有关更多信息,请参见《Hadoop命令参考》。
COMMAND COMMAND_OPTIONS 以下各节介绍了各种命令及其选项。这些命令已分组为“ 用户命令”和“ 管理命令”

用户指令

对hadoop集群的用户有用的命令。

封存

创建一个hadoop存档。有关更多信息,请参见《Hadoop归档指南》

存档日志

一种将YARN聚合日志组合到Hadoop归档文件中的工具,以减少HDFS中的文件数。有关更多信息,请参见《Hadoop归档日志指南》

类路径

用法:yarn classpath [--glob | --jar <path> | -h | --help]

COMMAND_OPTION 描述
--glob 扩展通配符
--jar 路径 写类路径体现在罐子命名的路径
-h--help 打印帮助

打印获取Hadoop jar和所需库所需的类路径。如果不带参数调用,则打印由命令脚本设置的类路径,该类路径可能在类路径条目中包含通配符。其他选项可在通配符扩展后打印类路径,或将类路径写入jar文件的清单中。后者在无法使用通配符且扩展的类路径超过支持的最大命令行长度的环境中很有用。

distcp

递归复制文件或目录。有关更多信息,请参见《 Hadoop DistCp指南》

工作

与Map Reduce Jobs交互的命令。

用法:映射作业| [GENERIC_OPTIONS] | [-提交<作业文件>] | [-状态<job-id>] | [-计数器<作业ID> <组名> <计数器名>] | [-kill <job-id>] | [-事件<job-id> <from-event-#> <#-of-events>] | [-历史[全部] <jobHistoryFile | jobId> [-outfile <文件>] [-格式<human | json>]] | [-列表[全部]] | [-kill-task <任务ID>] | [-fail-task <任务ID>] | [-set-priority <作业ID> <priority>] | [-list-active-trackers] | [-list-blacklisted-trackers] | [-列表尝试ID <作业ID> <任务类型> <任务状态>] [-日志<任务ID> <任务尝试ID>] [-config <任务ID> <文件> ]

COMMAND_OPTION 描述
-提交作业文件 提交工作。
状态作业ID 打印地图并减少完成百分比和所有作业计数器。
-counter job-id 组名 计数器名 打印计数器值。
-kill 工作编号 杀死工作。
-events 作业ID 从-事件- # #-of事件 打印给定范围的作业跟踪程序接收到的事件的详细信息。
-history [所有] jobHistoryFilejobId [-outfile 文件 ] [-format humanjson ] 打印作业详细信息,失败和终止的任务详细信息。通过指定[all]选项,可以查看有关作业的更多详细信息,例如成功的任务,为每个任务进行的任务尝试,任务计数器等。可以指定一个可选的文件输出路径(而不是stdout)。格式默认为人类可读,但也可以使用[-format]选项更改为JSON。
-列表[全部] 显示尚未完成的作业。-list all显示所有作业。
-kill-task task-id 杀死任务。杀死的任务不计入失败的尝试。
-fail-task task-id 无法完成任务。失败的任务计入失败的尝试。
-set-priority 作业ID 优先级 更改作业的优先级。允许的优先级值为VERY_HIGH,HIGH,NORMAL,LOW,VERY_LOW
-list-active-trackers 列出集群中所有活动的NodeManager。
-列入黑名单的跟踪器 列出集群中黑名单中的任务跟踪器。基于MRv2的群集不支持此命令。
-list-attempt-ids 作业ID 任务类型 任务状态 根据任务类型和给定状态列出尝试ID。任务类型的有效值为REDUCE,MAP。任务状态的有效值正在运行,挂起,完成,失败,已终止。
-logs 作业ID 任务尝试ID 如果未指定taskAttemptId,则转储作业的容器日志,否则转储具有指定taskAttemptId的任务的日志。日志将转储到系统输出中。
-config 作业ID 文件 下载作业配置文件。

管道

运行管道作业。

用法:映射管道[-conf <路径>] [-jobconf <键=值>,<键=值>,...] [-输入<路径>] [-输出<路径>] [-jar <jar文件>] [-inputformat <class>] [-map <class>] [-partitioner <class>] [-reduce <class>] [-writer <class>] [-program <executable>] [-reduce <num> ]

COMMAND_OPTION 描述
-conf 路径 作业配置
-jobconf key = valuekey = value,... 添加/覆盖作业的配置
输入路径 输入目录
输出路径 输出目录
-jar jar文件 Jar文件名
-inputformat InputFormat类
地图 Java Map类别
分区程序 Java分区程序
-减少班级 Java Reduce类
作家 Java RecordWriter
- 程序可执行 可执行URI
-减少NUM 减少数量

队列

用于交互和查看作业队列信息的命令

用法:映射队列[-list] | [-信息<作业队列名称> [-showJobs]] | [-showacls]

COMMAND_OPTION 描述
-清单 获取系统中配置的作业队列列表。以及与作业队列关联的调度信息。
-info 作业队列名称 [-showJobs] 显示作业队列信息和特定作业队列的关联调度信息。如果存在-showJobs选项,则会显示提交到特定作业队列的作业列表。
-showacls 显示当前用户允许的队列名称和关联的队列操作。该列表仅包含用户有权访问的那些队列。

打印版本。

用法:映射版本

环境变量

用法:映射的envvars

显示计算的Hadoop环境变量。

管理命令

对hadoop集群的管理员有用的命令。

历史服务器

启动JobHistoryServer。

用法:mapred historyserver

管理员

运行MapReduce hsadmin客户端以执行JobHistoryServer管理命令。

用法:mapred hsadmin [-refreshUserToGroupsMappings] | [-refreshSuperUserGroupsConfiguration] | [-refreshAdminAcls] | [-refreshLoadedJobCache] | [-refreshLogRetentionSettings] | [-refreshJobRetentionSettings] | [-getGroups [用户名]] | [-帮助[cmd]]

COMMAND_OPTION 描述
-refreshUserToGroupsMappings 刷新用户到组的映射
-refreshSuperUserGroupsConfiguration 刷新超级用户代理组映射
-refreshAdminAcls 刷新ACL以管理作业历史记录服务器
-refreshLoadedJobCache 刷新作业历史记录服务器的已加载作业缓存
-refreshJobRetentionSettings 刷新作业历史记录期,作业清洁器设置
-refreshLogRetentionSettings 刷新日志保留期和日志保留检查间隔
-getGroups [用户名] 获取给定用户所属的组
-帮助[cmd] 显示给定命令或所有命令(如果未指定)的帮助。

框架上传器

收集框架jar并将其作为tarball上传到HDFS。

用法:mapred frameworkuploader -target <目标> [-fs <文件系统>] [-输入<类路径>] [-黑名单<列表>] [-白名单<列表>] [-initialReplication <num>] [-acceptableReplication <num> ] [-finalReplication <数字>] [-超时<秒>] [-nosymlink]

COMMAND_OPTION 描述
输入类路径 这是在输入类路径中搜索要包含在tarball中的jar文件。
-fs 文件系统 目标文件系统。默认为fs.defaultFS设置的默认文件系统。
-target 目标 这是框架tarball的目标位置,可以选择在其后跟带有本地化别名的#。一个示例是/usr/lib/framework.tar#framework。确保目标目录可被所有用户读取,但除管理员以外的其他用户不可写入,以保护群集安全。
-黑名单列表 这是一个逗号分隔的正则表达式数组,用于过滤要从类路径中排除的jar文件名。例如,它可以用于排除本地化不需要的测试jar或Hadoop服务。
-白名单列表 这是一个逗号分隔的正则表达式数组,其中包含某些jar文件。这可以用来提供附加的安全性,以便在运行该工具时,没有任何外部源可以在类路径中包含恶意代码。
-nosymlink 此标志可用于排除指向同一目录的符号链接。这没有被广泛使用。例如,/a/foo.jar和符号链接/a/bar.jar它指向/a/foo.jar通常会添加foo.jar中bar.jar到压缩包作为单独的文件,尽管它们实际上是相同的文件。此标志将使该工具排除/a/bar.jar,因此仅添加文件的一个副本。
-initialReplication num 这是创建框架tarball的复制计数。将该值保留为默认值3是安全的。这是经过测试的方案。
-finalReplication num 一旦收集并上传了所有块,上载器工具就会设置复制。如果需要快速的初始启​​动,则建议将其设置为委托节点数除以2,但不超过512。
-acceptableReplication num 该工具将一直等到压缩包被复制了此次数后退出。复制计数应小于或等于finalReplication中的值。这通常是finalReplication中值的90%,以适应出现故障的节点。
-超时 在工具退出之前等待达到acceptableReplication的超时(以秒为单位)。否则,该工具会记录错误并返回。