指标是Hadoop守护程序公开的统计信息,用于监视,性能调整和调试。默认情况下有许多度量标准,它们对于故障排除非常有用。此页面显示可用指标的详细信息。
每个部分都描述了将度量标准分组到的每个上下文。
Metrics 2.0框架的文档在这里。
每个度量记录均包含诸如ProcessName,SessionID和Hostname之类的标签,作为附加信息以及度量。
名称 | 描述 |
---|---|
MemNonHeapUsedM | 当前使用的非堆内存(MB) |
非堆内存委员会 | 当前以MB为单位提交的非堆内存 |
MemNonHeapMaxM | 最大非堆内存大小(MB) |
MemHeapUsedM | 当前使用的堆内存(MB) |
内存堆委员会 | 当前提交的堆内存(以MB为单位) |
MemHeapMaxM | 最大堆内存大小(MB) |
记忆最大 | 最大内存大小(MB) |
线程新 | 当前的新线程数 |
线程可运行 | 当前可运行线程数 |
线程阻塞 | 当前的BLOCKED线程数 |
线程等待 | 当前的等待线程数 |
线程等待 | 当前的TIMED_WAITING线程数 |
线程终止 | 当前终止线程数 |
信息 | 总GC计数和GC时间(以毫秒为单位),按GC种类分组。例如)GcCountPS Scavenge = 6,GCTimeMillisPS Scavenge = 40,GCCountPS MarkSweep = 0,GCTimeMillisPS MarkSweep = 0 |
计数 | 总GC数 |
GcTimeMillis | 总GC时间(以毫秒为单位) |
LogFatal | 致命日志总数 |
LogError | 错误日志总数 |
LogWarn | WARN日志总数 |
日志信息 | INFO日志总数 |
GcNumWarnThresholdExceeded | 超过GC警告阈值的次数 |
GcNumInfoThresholdExceeded | 超过GC信息阈值的次数 |
GcTotalExtraSleepTime | 总GC额外睡眠时间(以毫秒为单位) |
每个度量记录都包含诸如主机名和端口(服务器绑定到的编号)之类的标签,作为附加信息以及度量。
名称 | 描述 |
---|---|
接收字节 | 接收的字节总数 |
已发送字节 | 发送的字节总数 |
RpcQueueTimeNumOps | RPC调用总数 |
RpcQueueTimeAvgTime | 平均排队时间(以毫秒为单位) |
RpcLockWaitTimeNumOps | RPC调用总数(与RpcQueueTimeNumOps相同) |
RpcLockWaitTimeAvgTime | 等待锁获取的平均时间(以毫秒为单位) |
RpcProcessingTimeNumOps | RPC调用总数(与RpcQueueTimeNumOps相同) |
RpcProcessingAvgTime | 平均处理时间(以毫秒为单位) |
RpcAuthenticationFailures | 认证失败总数 |
RpcAuthenticationSuccesses | 认证成功总数 |
RpcAuthorizationFailures | 授权失败总数 |
RpcAuthorization成功 | 授权成功总数 |
NumOpenConnections | 当前打开的连接数 |
CallQueueLength | 当前通话队列长度 |
numDroppedConnections | 断开连接总数 |
rpcQueueTime num sNumOps | 示出的RPC调用(总数NUM秒粒度)如果rpc.metrics.quantile.enable被设置为真。num由rpc.metrics.percentiles.intervals指定。 |
rpcQueueTime num s50thPercentileLatency | 如果将rpc.metrics.quantile.enable设置为true,则以毫秒(粒度为num秒)显示RPC队列时间的第50个百分位。num由rpc.metrics.percentiles.intervals指定。 |
rpcQueueTime num s75thPercentileLatency | 如果将rpc.metrics.quantile.enable设置为true,则以毫秒为单位(粒度为num秒)显示RPC队列时间的第75个百分位。num由rpc.metrics.percentiles.intervals指定。 |
rpcQueueTime num s90thPercentileLatency | 示出的RPC队列时间以毫秒为单位的第90百分位数(NUM秒粒度)如果rpc.metrics.quantile.enable被设置为真。num由rpc.metrics.percentiles.intervals指定。 |
rpcQueueTime num s95thPercentileLatency | 如果将rpc.metrics.quantile.enable设置为true,则以毫秒(粒度为num秒)显示RPC队列时间的第95个百分位。num由rpc.metrics.percentiles.intervals指定。 |
rpcQueueTime num s99thPercentileLatency | 如果将rpc.metrics.quantile.enable设置为true,则以毫秒(粒度为num秒)显示RPC队列时间的第99个百分位。num由rpc.metrics.percentiles.intervals指定。 |
rpcProcessingTime num sNumOps | 示出的RPC调用(总数NUM秒粒度)如果rpc.metrics.quantile.enable被设置为真。num由rpc.metrics.percentiles.intervals指定。 |
rpcProcessingTime num s50thPercentileLatency | 如果将rpc.metrics.quantile.enable设置为true,则以毫秒(粒度为num秒)显示RPC处理时间的百分之五十。num由rpc.metrics.percentiles.intervals指定。 |
rpcProcessingTime num s75thPercentileLatency | 示出了第75百分位的以毫秒为单位RPC处理时间(NUM秒粒度)如果rpc.metrics.quantile.enable被设置为真。num由rpc.metrics.percentiles.intervals指定。 |
rpcProcessingTime num s90thPercentileLatency | 如果将rpc.metrics.quantile.enable设置为true,则以毫秒(粒度为num秒)显示RPC处理时间的90%。num由rpc.metrics.percentiles.intervals指定。 |
rpcProcessingTime num s95thPercentileLatency | 如果将rpc.metrics.quantile.enable设置为true,则以毫秒(粒度为num秒)显示RPC处理时间的第95个百分位。num由rpc.metrics.percentiles.intervals指定。 |
rpcProcessingTime num s99thPercentileLatency | 如果将rpc.metrics.quantile.enable设置为true,则以毫秒(粒度为num秒)显示RPC处理时间的第99个百分位。num由rpc.metrics.percentiles.intervals指定。 |
rpcLockWaitTime num sNumOps | 示出的RPC调用(总数NUM秒粒度)如果rpc.metrics.quantile.enable被设置为真。num由rpc.metrics.percentiles.intervals指定。 |
rpcLockWaitTime num s50thPercentileLatency | 如果rpc.metrics.quantile.enable设置为true,则显示RPC锁定等待时间的第50个百分点,以毫秒为单位(粒度为num秒)。num由rpc.metrics.percentiles.intervals指定。 |
rpcLockWaitTime num s75thPercentileLatency | 如果将rpc.metrics.quantile.enable设置为true,则以毫秒为单位(粒度为num秒)显示RPC锁定等待时间的第75个百分位。num由rpc.metrics.percentiles.intervals指定。 |
rpcLockWaitTime num s90thPercentileLatency | 显示RPC锁等待时间以毫秒为单位的第90百分位数(NUM秒粒度)如果rpc.metrics.quantile.enable设置为true。num由rpc.metrics.percentiles.intervals指定。 |
rpcLockWaitTime num s95thPercentileLatency | 显示RPC锁等待时间以毫秒为单位的第95百分位(NUM秒粒度)如果rpc.metrics.quantile.enable设置为true。num由rpc.metrics.percentiles.intervals指定。 |
rpcLockWaitTime num s99thPercentileLatency | 显示RPC锁等待时间以毫秒为单位的第99百分位数(NUM秒粒度)如果rpc.metrics.quantile.enable设置为true。num由rpc.metrics.percentiles.intervals指定。 |
RetryCache指标可用于监视NameNode故障转移。每个度量记录均包含主机名标记。
名称 | 描述 |
---|---|
快取 | RetryCache命中总数 |
清除缓存 | 已清除的RetryCache总数 |
缓存更新 | RetryCache的总数已更新 |
仅在启用FairCallQueue的情况下,FairCallQueue指标才会存在。每个度量标准存在于每个优先级。
名称 | 描述 |
---|---|
FairCallQueueSize_p 优先级 | 优先队列中的当前呼叫数 |
FairCallQueueOverflowedCalls_p 优先级 | 优先级队列中溢出呼叫的总数 |
rpcdetailed上下文的度量标准由RPC层以统一的方式公开。根据每个RPC的名称公开两个度量。名为“(RPC方法名称)NumOps”的指标表示方法调用的总数,而名为“(RPC方法名称)AvgTime”的指标表示方法调用的平均周转时间(以毫秒为单位)。请注意,AvgTime指标不包括等待获取数据结构上的锁所花费的时间(请参阅RpcLockWaitTimeAvgTime)。
每个度量记录都包含诸如主机名和端口(服务器绑定到的编号)之类的标签,作为附加信息以及度量。
未记录的有关RPC的度量标准未包括在度量标准记录中。
名称 | 描述 |
---|---|
方法名NumOps | 该方法被调用的总次数 |
方法名AvgTime | 该方法的平均周转时间(以毫秒为单位) |
每个度量记录均包含诸如ProcessName,SessionId和Hostname之类的标记,作为附加信息以及度量。
名称 | 描述 |
---|---|
CreateFileOps | 创建的文件总数 |
创建的文件 | 通过create或mkdir操作创建的文件和目录总数 |
附加的文件 | 附加文件总数 |
GetBlockLocations | getBlockLocations操作总数 |
文件重命名 | 重命名操作总数(不重命名文件/目录的数量) |
GetListingOps | 目录列表操作总数 |
DeleteFileOps | 删除操作总数 |
文件已删除 | 通过删除或重命名操作删除的文件和目录总数 |
FileInfoOps | getFileInfo和getLinkFileInfo操作的总数 |
AddBlockOps | 成功完成addBlock操作的总数 |
GetAdditionalDatanodeOps | getAdditionalDatanode操作的总数 |
CreateSymlinkOps | createSymlink操作总数 |
GetLinkTargetOps | getLinkTarget操作的总数 |
FilesInGetListingOps | 目录列表操作列出的文件和目录总数 |
成功复制 | 成功块重新复制的总数 |
NumTimesReReplicationNotScheduled | 未能计划块复制的总次数 |
超时重复 | 超时块重复复制总数 |
AllowSnapshotOps | allowSnapshot操作总数 |
DisallowSnapshotOps | disallowSnapshot操作总数 |
CreateSnapshotOps | createSnapshot操作总数 |
DeleteSnapshotOps | deleteSnapshot操作总数 |
重命名SnapshotOps | renameSnapshot操作总数 |
ListSnapshottableDirOps | snapshottableDirectoryStatus操作总数 |
SnapshotDiffReportOps | getSnapshotDiffReport操作总数 |
Transactions数 | 日记帐交易总数 |
交易平均时间 | 日记帐交易的平均时间(以毫秒为单位) |
SyncsNumOps | 日志同步总数 |
SyncsAvgTime | 日志同步的平均时间(以毫秒为单位) |
SyncsTime num s(50/75/90/95/99)thPercentileLatency | 日志同步时间的第50/75/90/95/99个百分位,以毫秒为单位(粒度为num秒)。默认情况下,不观察间隔,因此百分比测量处于关闭状态。间隔由dfs.metrics.percentiles.intervals指定。 |
TransactionsBatchedInSync | 同步批处理的日记帐事务总数 |
TransactionsBatchedInSync num s(50/75/90/95/99)thPercentileCount | 所述七十五分之五十零/ 90/95/99百分位分批杂志交易(数目NUM秒粒度)。默认情况下,不观察间隔,因此百分比测量处于关闭状态。间隔由dfs.metrics.percentiles.intervals指定。 |
StorageBlockReportNumOps | 来自DataNode中各个存储的处理块报告总数 |
StorageBlockReportAvgTime | 处理块报告的平均时间(以毫秒为单位) |
StorageBlockReport num s(50/75/90/95/99)thPercentileLatency | 块报告处理时间的第50/75/90/95/99%,以毫秒为单位(粒度为num秒)。默认情况下,不观察间隔,因此百分比测量处于关闭状态。间隔由dfs.metrics.percentiles.intervals指定。 |
CacheReportNumOps | 来自DataNode的处理缓存报告总数 |
CacheReportAvgTime | 处理缓存报告的平均时间(以毫秒为单位) |
CacheReport num s(50/75/90/95/99)thPercentileLatency | 缓存的报表处理时间的50/75/90/95/99%百分数,以毫秒为单位(粒度为num秒)。默认情况下,不观察间隔,因此百分比测量处于关闭状态。间隔由dfs.metrics.percentiles.intervals指定。 |
安全模式时间 | FSNameSystem开始到安全模式最后一次离开之间的时间间隔(以毫秒为单位)。(有时不等于安全模式下的时间,请参阅HDFS-5156) |
FsImageLoadTime | 启动时加载FS映像的时间(以毫秒为单位) |
GetEditNumOps | 从SecondaryNameNode下载的编辑总数 |
GetEditAvgTime | 平均编辑下载时间(以毫秒为单位) |
GetImageNumOps | 从SecondaryNameNode下载的fsimage总数 |
GetImageAvgTime | fsimage的平均下载时间(以毫秒为单位) |
PutImageNumOps | 上传到SecondaryNameNode的fsimage总数 |
PutImageAvgTime | fsimage的平均上载时间(以毫秒为单位) |
TotalFileOps | 执行的文件操作总数 |
NNStartedTimeInMillis | NameNode启动时间(以毫秒为单位) |
GenerateEDEKTimeNumOps | 产生EDEK的总数 |
GenerateEDEKTimeAvgTime | 生成EDEK的平均时间(以毫秒为单位) |
GenerateEDEKTime num s(50/75/90/95/99)thPercentileLatency | 所述七十五分之五十零/ 90/95/99百分位的时间以毫秒为单位生成爱德克花费(NUM秒粒度)。默认情况下,不观察间隔,因此百分比测量处于关闭状态。间隔由dfs.metrics.percentiles.intervals指定。 |
WarmUpEDEKTimeNumOps | 预热EDEK的总数 |
WarmUpEDEKTimeAvgTime | EDEK预热的平均时间(以毫秒为单位) |
WarmUpEDEKTime num s(50/75/90/95/99)thPercentileLatency | 所述七十五分之五十零/ 90/95/99百分位的以毫秒为单位升温爱德克花费的时间(NUM秒粒度)。默认情况下,不观察间隔,因此百分比测量处于关闭状态。间隔由dfs.metrics.percentiles.intervals指定。 |
ResourceCheckTime num s(50/75/90/95/99)thPercentileLatency | NameNode资源检查延迟的第50/75/90/95/99个百分点,以毫秒为单位(粒度为num秒)。默认情况下,不观察间隔,因此百分比测量处于关闭状态。间隔由dfs.metrics.percentiles.intervals指定。 |
EditLogTailTimeNumOps | 备用NameNode拖尾编辑日志的总次数 |
EditLogTailTimeAvgTime | 备用NameNode在尾部编辑日志中花费的平均时间(以毫秒为单位) |
EditLogTailTime num s(50/75/90/95/99)thPercentileLatency | 所述七十五分之五十零/ 90/95/99百分位的由以毫秒为单位待机的NameNode(拖尾编辑日志花费时间NUM秒的粒度)。默认情况下,不观察间隔,因此百分比测量处于关闭状态。间隔由dfs.metrics.percentiles.intervals指定。 |
EditLogFetchTimeNumOps | 备用NameNode从日记节点获取远程编辑流的总次数 |
EditLogFetchTimeAvgTime | 备用NameNode从日记节点中获取远程编辑流所花费的平均时间(以毫秒为单位) |
EditLogFetchTime num s(50/75/90/95/99)thPercentileLatency | 备用NameNode从日记节点获取编辑流所花费的时间的50/75/90/95/99%,以毫秒为单位(粒度为num秒)。默认情况下,不观察间隔,因此百分比测量处于关闭状态。间隔由dfs.metrics.percentiles.intervals指定。 |
NumEditLogLoadedNumOps | 备用NameNode加载编辑的总次数 |
NumEditLogLoadedAvgCount | 备用NameNode在每个编辑日志尾部加载的平均编辑数 |
NumEditLogLoaded num s(50/75/90/95/99)thPercentileCount | 所述七十五分之五十零/ 90/95/99百分位数由在每个编辑日志拖尾待机的NameNode(加载的编辑数NUM秒粒度)。默认情况下,不观察间隔,因此百分比测量处于关闭状态。间隔由dfs.metrics.percentiles.intervals指定。 |
EditLogTailIntervalNumOps | 备用NameNode的编辑日志尾部之间的间隔总数 |
EditLogTailIntervalAvgTime | 备用NameNode在编辑日志尾部之间的平均时间间隔(以毫秒为单位) |
EditLogTailInterval num s(50/75/90/95/99)thPercentileLatency | 所述75分之50/ 90/95/99百分位的以毫秒为单位由待机的NameNode编辑日志尾矿之间的时间(NUM秒粒度)。默认情况下,不观察间隔,因此百分比测量处于关闭状态。间隔由dfs.metrics.percentiles.intervals指定。 |
每个度量记录均包含诸如HAState和Hostname之类的标签,作为附加信息以及度量。
名称 | 描述 |
---|---|
缺失的方块 | 当前丢失的块数 |
心跳已过期 | 心跳总数 |
交易SinceLastCheckpoint | 自上一个检查点以来的交易总数 |
TransactionsSinceLastLogRoll | 自上次编辑日志记录以来的事务总数 |
LastWrittenTransactionId | 上次写入编辑日志的交易ID |
LastCheckpointTime | 自上一个检查点的纪元以来的时间(以毫秒为单位) |
总容量 | DataNodes的当前原始容量(以字节为单位) |
容量总计GB | DataNodes的当前原始容量,以GB为单位 |
已使用容量 | 所有DataNode上的当前已用容量(以字节为单位) |
已用容量(GB) | 所有DataNode上的当前已用容量,以GB为单位 |
剩余容量 | 当前剩余容量(以字节为单位) |
剩余容量GB | 当前剩余容量(GB) |
非DFS使用的容量 | DataNode用于非DFS用途的当前空间(以字节为单位) |
总负荷 | 当前连接数 |
SnapshottableDirectories | 当前快照表目录数 |
快照 | 当前快照数量 |
NumEncryptionZones | 当前加密区数 |
总计 | 系统中当前分配的块数 |
文件总数 | 当前文件和目录数 |
PendingReplicationBlocks | 当前待复制的块数 |
UnderReplicatedBlocks | 当前正在复制的块数 |
腐败块 | 当前副本损坏的块数。 |
ScheduledReplicationBlocks | 计划进行复制的当前块数 |
PendingDeletionBlocks | 当前待删除的块数 |
多余的块 | 当前剩余块数 |
延迟的重复块 | (仅限高可用性)当前推迟复制的块数 |
PendingDataNodeMessageCount | (仅HA)当前待处理的与块相关的消息数,以便在备用NameNode中进行后续处理 |
MillisSinceLastLoadedEdits | (仅HA)自上次待机NameNode加载编辑日志以来的时间(以毫秒为单位)。在活动的NameNode中,设置为0 |
区块容量 | 当前块容量 |
NumLiveDataNodes | 当前处于活动状态的数据节点数 |
NumDeadDataNodes | 当前已死的数据节点数 |
NumDecomLiveDataNodes | 已停用且现在处于活动状态的数据节点数 |
NumDecomDeadDataNodes | 已停用的数据节点数现在已死 |
NumDecommissioningDataNodes | 处于停用状态的数据节点数 |
数量失败总计 | 所有Datanode上的卷故障总数 |
估计容量损失总计 | 由于卷故障而导致的总容量损失的估计 |
StaleDataNodes | 由于心跳延迟而标记为过时的当前DataNode数 |
NumStaleStorages | 标记为内容陈旧的存储数量(在NameNode重新启动/故障转移之后,收到第一个阻止报告之前) |
MissingReplOneBlocks | 当前丢失因子为1的块的数量 |
最高优先级低冗余复制块 | 当前具有最高丢失风险(具有0或1个副本)的无损坏,低冗余的复制块的数量。将以最高优先级恢复。 |
最高优先级低冗余EC块 | 当前具有最高丢失风险的无损坏,低冗余EC块的数量。将以最高优先级恢复。 |
NumFilesUnderConstruction | 当前正在建设的文件数 |
NumActiveClients | 当前持有租赁的活跃客户数 |
州政府 | (仅HA)NameNode的当前状态:初始化,活动,待机或停止状态 |
FS状态 | 文件系统的当前状态:安全模式或可操作 |
LockQueueLength | 等待获取FSNameSystem锁的线程数 |
TotalSyncCount | 编辑日志执行的同步操作总数 |
TotalSyncTimes | 同步操作中各种编辑日志花费的总毫秒数 |
名称DirSize | NameNode名称目录大小(以字节为单位) |
NumTimedOutPendingReconstructions | 超时重建的数量。不是超时的唯一块数。 |
NumInMaintenanceLiveDataNodes | 处于维护状态的活动Datanode数量 |
NumInMaintenanceDeadDataNodes | 处于维护状态的失效Datanode数 |
NumEnteringMaintenanceDataNodes | 进入维护状态的数据节点数 |
FSN(读/写)锁定操作名称NanosNumOps | 按操作获取锁的总数 |
FSN(读/写)锁定操作名称NanosAvgTime | 通过操作平均持有锁的时间(以纳秒为单位) |
FSN(读/写)LockOverallNanosNumOps | 所有操作获取锁的总数 |
FSN(读/写)LockOverallNanosAvgTime | 所有操作平均保持锁定时间(以纳秒为单位) |
从JournalNode的角度来看,日记的服务器端指标。每个度量记录均包含Hostname标记作为度量的附加信息。
名称 | 描述 |
---|---|
Syncs60sNumOps | 同步操作数(每分钟1分钟) |
Syncs60s50thPercentileLatencyMicros | 同步延迟的第50个百分位,以微秒为单位(1分钟粒度) |
Syncs60s75thPercentileLatencyMicros | 同步延迟的第75个百分位,以微秒为单位(1分钟粒度) |
Syncs60s90thPercentileLatencyMicros | 同步延迟的第90个百分位,以微秒为单位(1分钟粒度) |
Syncs60s95thPercentileLatencyMicros | 同步延迟的第95个百分位,以微秒为单位(1分钟粒度) |
Syncs60s99thPercentileLatencyMicros | 同步延迟的第99个百分位,以微秒为单位(1分钟粒度) |
同步300秒 | 同步操作数(5分钟间隔) |
Syncs300s50thPercentileLatencyMicros | 同步延迟的第50个百分位,以微秒为单位(5分钟粒度) |
Syncs300s75thPercentileLatencyMicros | 同步延迟的第75个百分位,以微秒为单位(5分钟粒度) |
Syncs300s90thPercentileLatencyMicros | 同步延迟的第90个百分位,以微秒为单位(5分钟粒度) |
Syncs300s95thPercentileLatencyMicros | 同步延迟的第95个百分位,以微秒为单位(5分钟粒度) |
Syncs300s99thPercentileLatencyMicros | 同步延迟的第99个百分位,以微秒为单位(5分钟粒度) |
Syncs3600sNumOps | 同步操作数(1小时粒度) |
Syncs3600s50thPercentileLatencyMicros | 同步延迟的第50个百分位,以微秒为单位(1小时粒度) |
Syncs3600s75thPercentileLatencyMicros | 同步延迟的第75个百分位,以微秒为单位(1小时粒度) |
Syncs3600s90thPercentileLatencyMicros | 同步延迟的第90个百分位,以微秒为单位(1小时粒度) |
Syncs3600s95thPercentileLatencyMicros | 同步延迟的第95个百分位,以微秒为单位(1小时粒度) |
Syncs3600s99thPercentileLatencyMicros | 同步延迟的第99个百分位,以微秒为单位(1小时粒度) |
NumTransactionsBatchedInSync60sNumOps | 同步操作中批处理事务的次数(1分钟粒度) |
NumTransactionsBatchedInSync60s50thPercentileLatencyMicros | 同步计数批处理的事务的第50个百分位数(1分钟粒度) |
NumTransactionsBatchedInSync60s75thPercentileLatencyMicros | 同步计数批处理的第75个事务百分位数(1分钟粒度) |
NumTransactionsBatchedInSync60s90thPercentileLatencyMicros | 同步计数中批处理的事务的第90个百分位数(1分钟粒度) |
NumTransactionsBatchedInSync60s95thPercentileLatencyMicros | 同步计数批处理的事务数的第95个百分点(1分钟粒度) |
NumTransactionsBatchedInSync60s99thPercentileLatencyMicros | 同步计数批处理的事务的第99个百分点(1分钟粒度) |
NumTransactionsBatchedInSync300sNumOps | 同步操作中批处理事务的次数(粒度为5分钟) |
NumTransactionsBatchedInSync300s50thPercentileLatencyMicros | 同步计数中批处理的事务的第50个百分点(粒度为5分钟) |
NumTransactionsBatchedInSync300s75thPercentileLatencyMicros | 同步计数(第5分钟粒度)中批处理的交易的第75个百分点 |
NumTransactionsBatchedInSync300s90thPercentileLatencyMicros | 同步计数中批处理的事务的第90个百分位数(5分钟间隔) |
NumTransactionsBatchedInSync300s95thPercentileLatencyMicros | 同步计数批处理的第95个事务百分位数(5分钟粒度) |
NumTransactionsBatchedInSync300s99thPercentileLatencyMicros | 同步计数(第5分钟粒度)中批处理的交易的第99个百分点 |
NumTransactionsBatchedInSync3600sNumOps | 同步操作中批处理事务的次数(1小时粒度) |
NumTransactionsBatchedInSync3600s50thPercentileLatencyMicros | 同步计数批处理的事务的第50个百分位数(1小时粒度) |
NumTransactionsBatchedInSync3600s75thPercentileLatencyMicros | 同步计数批处理的事务的第75个百分位数(1小时粒度) |
NumTransactionsBatchedInSync3600s90thPercentileLatencyMicros | 同步计数批处理的事务的第90个百分位数(1小时粒度) |
NumTransactionsBatchedInSync3600s95thPercentileLatencyMicros | 同步计数批处理的事务的第95个百分位数(1小时粒度) |
NumTransactionsBatchedInSync3600s99thPercentileLatencyMicros | 同步计数(第1小时粒度)中批处理的交易的第99个百分点 |
批量写 | 自启动以来写入的总批次数 |
Txns书面 | 自启动以来写入的事务总数 |
写入字节数 | 自启动以来写入的总字节数 |
批量写入时滞后 | 该节点滞后写入的批处理总数 |
LastWriterEpoch | 当前作者的纪元号 |
当前滞后时间 | 该JournalNode滞后的事务数 |
LastWrittenTxId | 存储在此JournalNode上的最高交易ID |
最后承诺的时代 | 该节点已承诺不接受任何较低时期的最后一个时期号;如果未做出任何承诺,则为0 |
LastJournal时间戳 | 上次成功写入交易的时间戳 |
TxnsServedViaRpc | 通过RPC机制服务的事务数 |
BytesServedViaRpc | 通过RPC机制提供服务的字节数 |
RpcRequestCacheMissAmountNumMisses | 由于缓存中数据不足而无法处理的RPC请求数 |
RpcRequestCacheMissAmountAvgTxns | 请求错过高速缓存的平均事务数;例如,如果请求了事务ID 10,而缓存的最早的事务是ID 15,则将值5添加到该平均值 |
RpcEmptyResponses | 返回零编辑的RPC请求数 |
每个度量记录都包含诸如SessionId和Hostname之类的标记,作为附加信息以及度量。
名称 | 描述 |
---|---|
写入字节数 | 写入DataNode的字节总数 |
字节读取 | 从DataNode读取的总字节数 |
写的块 | 写入DataNode的块总数 |
块阅读 | 从DataNode读取的块总数 |
块复制 | 复制的总块数 |
移除方块 | 删除的总块数 |
已验证的区块 | 已验证的总块数 |
阻止验证失败 | 验证失败总数 |
缓存块 | 缓存的块总数 |
未缓存的块 | 未缓存的块总数 |
ReadsFromLocalClient | 来自本地客户端的读取操作总数 |
ReadsFromRemoteClient | 来自远程客户端的读取操作总数 |
WritesFromLocalClient | 来自本地客户端的写操作总数 |
WritesFromRemoteClient | 来自远程客户端的写操作总数 |
块GetLocalPathInfo | 获取块的本地路径名的操作总数 |
RamDiskBlocksWrite | 写入内存的总块数 |
RamDiskBlocksWriteFallback | 写入内存但不满足要求的总块数(故障转移到磁盘) |
RamDiskBytesWrite | 写入内存的总字节数 |
RamDiskBlocksReadHits | 读取内存中的块的总次数 |
RamDiskBlocks驱逐 | 内存中逐出的块总数 |
RamDiskBlocksEvictedWithoutRead | 从未从内存中读取而在内存中逐出的块总数 |
RamDiskBlocksEvictionWindowMsNumOps | 内存中逐出的块数 |
RamDiskBlocksEvictionWindowMsAvgTime | 驱逐之前在内存中的平均块时间,以毫秒为单位 |
RamDiskBlocksEvictionWindows num s(50/75/90/95/99)thPercentileLatency | 所述七十五分之五十零/ 90/95/99百分位以毫秒为单位的存储器写和驱逐之间的延时的(NUM秒粒度)。默认情况下,不观察间隔,因此百分比测量处于关闭状态。间隔由dfs.metrics.percentiles.intervals指定。 |
RamDiskBlocksLazyPersisted | 惰性写入器写入磁盘的块总数 |
RamDiskBlocksDeletedBeforeLazyPersisted | 应用程序在保留到磁盘之前删除的块总数 |
RamDiskBytesLazyPersisted | 惰性写入器写入磁盘的总字节数 |
RamDiskBlocksLazyPersistWindowMsNumOps | 惰性写入器写入磁盘的块数 |
RamDiskBlocksLazyPersistWindowMsAvgTime | 惰性写入器将块写入磁盘的平均时间(以毫秒为单位) |
RamDiskBlocksLazyPersistWindows num s(50/75/90/95/99)thPercentileLatency | 所述七十五分之五十零/ 90/95/99百分存储器写入和磁盘之间的延时的以毫秒为单位(坚持NUM秒的粒度)。默认情况下,不观察间隔,因此百分比测量处于关闭状态。间隔由dfs.metrics.percentiles.intervals指定。 |
FsyncCount | fsync总数 |
批量故障 | 卷失败总数 |
ReadBlockOpNumOps | 读取操作总数 |
ReadBlockOpAvgTime | 平均读取操作时间(以毫秒为单位) |
WriteBlockOpNumOps | 写入操作总数 |
WriteBlockOpAvgTime | 平均写入操作时间(以毫秒为单位) |
BlockChecksumOpNumOps | 块校验和操作总数 |
BlockChecksumOpAvgTime | blockChecksum操作的平均时间(以毫秒为单位) |
CopyBlockOpNumOps | 块复制操作总数 |
CopyBlockOpAvgTime | 块复制操作的平均时间(以毫秒为单位) |
ReplaceBlockOpNumOps | 块替换操作总数 |
ReplaceBlockOpAvgTime | 块替换操作的平均时间(以毫秒为单位) |
心跳 | 心跳总数 |
心跳平均时间 | 平均心跳时间(以毫秒为单位) |
心跳总数 | 心跳总数,它是HeartbeatsNumOps的副本 |
心跳总平均时间 | 平均总心跳时间(以毫秒为单位) |
生命线 | 生命线消息总数 |
生命线平均时间 | 平均生命线消息处理时间(以毫秒为单位) |
BlockReportsNumOps | 阻止报告操作总数 |
BlockReportsAvgTime | 阻止报告操作的平均时间(以毫秒为单位) |
IncrementalBlockReportsNumOps | 增量区块报告操作总数 |
IncrementalBlockReportsAvgTime | 增量块报告操作的平均时间(以毫秒为单位) |
CacheReportsNumOps | 缓存报告操作总数 |
CacheReportsAvgTime | 缓存报告操作的平均时间(以毫秒为单位) |
PacketAckRoundTripTimeNanosNumOps | ACK往返总数 |
PacketAckRoundTripTimeNanosAvgTime | 从确认发送到接收的平均时间减去下游确认时间(以纳秒为单位) |
PacketAckRoundTripTimeNanos num s(50/75/90/95/99)thPercentileLatency | 从ack发送到接收的第50/75/90/95/99%延迟减去以纳秒为单位的下游ack时间(粒度为num秒)。默认情况下,不观察间隔,因此百分比测量处于关闭状态。间隔由dfs.metrics.percentiles.intervals指定。 |
FlushNanosNumOps | 冲洗总数 |
FlushNanosAvgTime | 平均冲洗时间(以纳秒为单位) |
FlushNanos num s(50/75/90/95/99)thPercentileLatency | 第50/75/90/95/99%的冲洗时间,以纳秒(粒度为num秒)为单位。默认情况下,不观察间隔,因此百分比测量处于关闭状态。间隔由dfs.metrics.percentiles.intervals指定。 |
FsyncNanosNumOps | fsync总数 |
FsyncNanosAvgTime | 平均fsync时间(以纳秒为单位) |
FsyncNanos num s(50/75/90/95/99)thPercentileLatency | 第50/75/90/95/99个百分位数的fsync时间,以纳秒(粒度为num秒)为单位。默认情况下,不观察间隔,因此百分比测量处于关闭状态。间隔由dfs.metrics.percentiles.intervals指定。 |
SendDataPacketBlockedOnNetworkNanosNumOps | 发送报文总数 |
SendDataPacketBlockedOnNetworkNanosAvgTime | 发送数据包的平均等待时间(以纳秒为单位) |
SendDataPacketBlockedOnNetworkNanos num s(50/75/90/95/99)thPercentileLatency | 发送数据包的等待时间的50/75/90/95/99%,以纳秒为单位(粒度为num秒)。默认情况下,不观察间隔,因此百分比测量处于关闭状态。间隔由dfs.metrics.percentiles.intervals指定。 |
SendDataPacketTransferNanosNumOps | 发送报文总数 |
SendDataPacketTransferNanosAvgTime | 发送数据包的平均传输时间(以纳秒为单位) |
SendDataPacketTransferNanos num s(50/75/90/95/99)thPercentileLatency | 发送数据包的第50/75/90/95/99%传输时间,以纳秒为单位(粒度为num秒)。默认情况下,不观察间隔,因此百分比测量处于关闭状态。间隔由dfs.metrics.percentiles.intervals指定。 |
总写入时间 | 写入操作花费的总毫秒数 |
总读取时间 | 读取操作花费的总毫秒数 |
远程字节读取 | 远程客户端读取的字节数 |
写入的远程字节 | 远程客户端写入的字节数 |
BPServiceActorInfo | 有关块池服务参与者的信息 |
BlocksInPendingIBR | 待处理的增量块报告(IBR)中的块数 |
待收IBR块 | 待处理增量块报告(IBR)中处于接收状态的块数 |
待收IBR块 | 待处理的增量块报告(IBR)中处于接收状态的块数 |
BlocksDeletedInPendingIBR | 待处理的增量块报告(IBR)中处于删除状态的块数 |
EcReconstructionTasks | 擦除编码重建任务总数 |
EcFailedReconstructionTasks | 擦除编码失败的重建任务总数 |
EcDecodingTimeNanos | 解码任务花费的总纳秒数 |
EcReconstructionBytesRead | 纠删码工作者读取的总字节数 |
EcReconstructionBytesWrited | 纠删码工作者写入的总字节数 |
EcReconstructionRemoteBytesRead | 纠删码工作者远程读取的总字节数 |
每卷指标包含与数据节点卷IO相关的统计信息。默认情况下,“每卷”指标处于关闭状态。可以通过将dfs.datanode .fileio.profiling.percentage.fraction设置为1到100之间的整数来启用它们。将该值设置为0表示不启用分析。但是启用按卷度量可能会影响性能。每个度量记录均包含诸如主机名之类的标签以及其他信息。
名称 | 描述 |
---|---|
TotalMetadataOperations | 元数据操作的总数(单调增加)。元数据操作包括stat,list,mkdir,delete,move,open和posix_fadvise。 |
MetadataOperationRateNumOps | 度量标准间隔时间内的元数据操作数 |
MetadataOperationRateAvgTime | 元数据操作的平均时间(以毫秒为单位) |
MetadataOperationLatency num s(50/75/90/95/99)thPercentileLatency | 所述七十五分之五十零/ 90/95/99百分位元数据操作的以毫秒为单位(等待NUM秒的粒度)。默认情况下,不观察间隔,因此百分比测量处于关闭状态。间隔由dfs.metrics.percentiles.intervals指定。 |
TotalDataFileIos | 数据文件io操作的总数(单调递增) |
DataFileIoRateNumOps | 度量标准间隔时间内的数据文件io操作数 |
DataFileIoRateAvgTime | 数据文件io操作的平均时间(以毫秒为单位) |
DataFileIoLatency num s(50/75/90/95/99)thPercentileLatency | 所述七十五分之五十零/ 90/95/99百分位IO操作数据文件的等待时间以毫秒(NUM秒粒度)。默认情况下,不观察间隔,因此百分比测量处于关闭状态。间隔由dfs.metrics.percentiles.intervals指定。 |
FlushIoRateNumOps | 公制间隔时间内的文件刷新io操作数 |
FlushIoRateAvgTime | 文件刷新io操作的平均时间(以毫秒为单位) |
FlushIoLatency num s(50/75/90/95/99)thPercentileLatency | 所述七十五分之五十零/ 90/95/99百分位文件冲洗IO操作的等待时间以毫秒(NUM秒粒度)。默认情况下,不观察间隔,因此百分比测量处于关闭状态。间隔由dfs.metrics.percentiles.intervals指定。 |
SyncIoRateNumOps | 公制间隔时间内文件同步io操作的数量 |
SyncIoRateAvgTime | 文件同步io操作的平均时间(以毫秒为单位) |
SyncIoLatency num s(50/75/90/95/99)thPercentileLatency | 文件同步操作延迟的第50/75/90/95/99个百分位,以毫秒为单位(粒度为num秒)。默认情况下,不观察间隔,因此百分比测量处于关闭状态。间隔由dfs.metrics.percentiles.intervals指定。 |
ReadIoRateNumOps | 公制间隔时间内文件读取或操作的次数 |
ReadIoRateAvgTime | 文件读取io操作的平均时间(以毫秒为单位) |
ReadIoLatency num s(50/75/90/95/99)thPercentileLatency | 所述七十五分之五十零/ 90/95/99百分位文件的读IO操作以毫秒为单位延迟(NUM秒粒度)。默认情况下,不观察间隔,因此百分比测量处于关闭状态。间隔由dfs.metrics.percentiles.intervals指定。 |
WriteIoRateNumOps | 公制间隔时间内文件写入io操作的数量 |
WriteIoRateAvgTime | 文件写入io操作的平均时间(以毫秒为单位) |
WriteIoLatency num s(50/75/90/95/99)thPercentileLatency | 所述七十五分之五十零/ 90/95/99百分位文件写入的IO操作以毫秒为单位延迟(NUM秒粒度)。默认情况下,不观察间隔,因此百分比测量处于关闭状态。间隔由dfs.metrics.percentiles.intervals指定。 |
TotalFileIoErrors | 文件io错误操作的总数(单调递增) |
FileIoErrorRateNumOps | 度量标准间隔时间内的文件io错误操作数 |
FileIoErrorRateAvgTime | 它测量从开始操作到发生故障的平均时间(以毫秒为单位) |
RouterRPCMetrics显示基于路由器的联盟中路由器组件的统计信息。
名称 | 描述 |
---|---|
ProcessingOp | 路由器内部处理的操作数 |
代理操作 | 路由器代理到名称节点的操作数 |
ProxyOpFailureStandby | 未能达到NN的操作数 |
ProxyOpFailureCommunicate | 命中备用NN的操作数 |
ProxyOpNotImplemented | 未执行的操作数 |
RouterFailureStateStore | 由于状态存储不可用而导致的失败请求数 |
RouterFailureReadOnly | 由于只读安装点而导致的失败请求数 |
路由器故障锁定 | 路径锁定导致的失败请求数 |
路由器故障安全模式 | 由于安全模式而失败的请求数 |
ProcessingNumOps | 路由器在度量标准的间隔时间内内部处理的操作数 |
处理平均时间 | 路由器处理操作的平均时间(以纳秒为单位) |
ProxyNumOps | 路由器在度量标准的间隔时间内代理Namenode的操作的次数 |
代理平均时间 | 路由器将操作代理到名称节点的平均时间(以纳秒为单位) |
StateStoreMetrics显示基于路由器的联合中的状态存储组件的统计信息。
名称 | 描述 |
---|---|
阅读次数 | 度量标准间隔时间内状态存储的GET事务数 |
平均读取时间 | State Store的GET事务平均时间(以毫秒为单位) |
WritesNumOps | 度量标准间隔时间内状态存储的PUT事务数 |
WritesAvgTime | State Store进行PUT交易的平均时间(以毫秒为单位) |
删除数字运算 | 公制间隔时间内状态存储的REMOVE事务数 |
RemovesAvgTime | State Store进行REMOVE事务的平均时间(以毫秒为单位) |
失败次数 | 间隔时间内度量标准状态存储的失败事务数 |
失败平均时间 | State Store失败事务的平均时间(以毫秒为单位) |
缓存BaseRecord 大小 | 要在状态存储中缓存的存储记录数 |
ClusterMetrics从ResourceManager的角度显示YARN群集的度量。每个度量记录均包含Hostname标记作为度量的附加信息。
名称 | 描述 |
---|---|
NumActiveNMs | 当前活动的NodeManager数量 |
numDecommissioningNMs | 当前退役的NodeManager数量 |
退役数量 | 当前退役的NodeManager数量 |
NumShutdownNMs | 当前数目的NodeManagers正常关闭。请注意,这不包括被强制终止的NodeManager。 |
NumLostNMs | 当前丢失的不发送心跳的NodeManager的数量。 |
不健康的NM | 当前不健康的NodeManagers数量 |
NumRebootedNMs | 当前重新启动的NodeManager的数量 |
AMLaunchDelayNumOps | 启动的AM总数 |
AMLaunchDelayAvgTime | 分配AM容器后,RM花费的平均时间(以毫秒为单位) |
AMRegisterDelayNumOps | 注册的AM总数 |
AMRegisterDelayAvgTime | 启动AM容器后,AM在RM上花费的平均时间(以毫秒为单位) |
QueueMetrics从ResourceManager的角度显示了一个应用程序队列。每个度量记录均显示每个队列的统计信息,并包含诸如队列名称和主机名之类的标记作为度量的附加信息。
在running_ NUM指标,如running_0,您可以设置该属性yarn.resourcemanager.metrics.runtime.buckets纱-site.xml中改变桶。默认值为60,300,1440。
名称 | 描述 |
---|---|
跑步_0 | 当前运行时间少于60分钟的应用程序数 |
running_60 | 当前运行的应用程序的经过时间在60到300分钟之间 |
running_300 | 当前运行的应用程序的经过时间在300到1440分钟之间 |
running_1440 | 当前正在运行的应用程序经过的时间超过1440分钟 |
提交的应用程序 | 提交的申请总数 |
AppsRunning | 当前正在运行的应用程序数 |
正在等待处理 | 当前尚未由任何容器分配的应用程序数 |
应用已完成 | 已完成申请总数 |
应用杀手 | 被杀死的申请总数 |
应用失败 | 失败的申请总数 |
已分配MB | 当前分配的内存(MB) |
分配的VCore | 虚拟内核中当前分配的CPU |
已分配的容器 | 当前分配的容器数 |
AggregateContainers已分配 | 分配的容器总数 |
AggregationNodeLocalContainersAllocated | 分配的节点本地容器总数 |
AggregateRackLocalContainersAllocated | 分配的机架本地容器总数 |
gregationOffSwitchContainersAllocated | 分配的关闭交换机容器总数 |
AggregateContainers已发布 | 释放的容器总数 |
可用MB | 当前可用内存(MB) |
可用的VCores | 虚拟内核中当前可用的CPU |
待定 | 调度程序有待完成的当前以MB为单位的内存请求 |
待处理的VCores | 调度程序有待执行的虚拟核心中的当前CPU请求 |
待处理的容器 | 当前待调度程序完成的容器数 |
保留MB | 当前保留的内存(MB) |
保留的VCores | 虚拟内核中当前保留的CPU |
保留的容器 | 当前保留的容器数 |
活跃用户 | 当前活动用户数 |
ActiveApplications | 当前活动的应用程序数 |
AppAttemptFirstContainerAllocationDelayNumOps | 分配给所有尝试的第一个容器的总数 |
AppAttemptFirstContainerAllocationDelayAvgTime | RM花费的平均时间为所有尝试分配第一个容器。对于托管AM,第一个容器是AM容器。因此,这表示分配AM容器的持续时间。对于非托管AM,这是分配非托管AM要求的第一个容器的持续时间。 |
FairShareMB | (仅FairScheduler)当前公平的内存份额(MB) |
公平共享核心 | (仅限FairScheduler)虚拟内核中当前CPU的公平份额 |
最小共享MB | (仅限FairScheduler)最小内存份额(MB) |
MinShareVCores | (仅限FairScheduler)虚拟内核中的CPU最小份额 |
最大共享MB | (仅FairScheduler)最大内存共享(以MB为单位) |
MaxShareVCores | (仅限FairScheduler)虚拟内核中CPU的最大份额 |
NodeManagerMetrics显示节点中容器的统计信息。每个度量记录均包含Hostname标记作为度量的附加信息。
名称 | 描述 |
---|---|
容器启动 | 发射容器总数 |
集装箱完成 | 成功完成的容器总数 |
容器失败 | 发生故障的容器总数 |
杀死的容器 | 被杀死的容器总数 |
容器初始化 | 当前初始化容器的数量 |
容器运行 | 当前正在运行的容器数 |
locatedContainers | 当前分配的容器数 |
已分配GB | 当前分配的内存(GB) |
可用GB | 当前可用内存(GB) |
已分配Vcores | 当前使用的vcore |
可用分数 | 当前可用的vcore |
containerLaunchDuration | NM启动容器所需的平均时间(以毫秒为单位) |
badLocalDirs | 当前错误的本地目录数。当前,无法通过NM进程读取/写入/执行的磁盘或已满的磁盘被视为不良磁盘。 |
badLogDirs | 当前错误日志目录数。当前,无法通过NM进程读取/写入/执行的磁盘或已满的磁盘被视为不良磁盘。 |
goodLocalDirsDiskUtilizationPerc | 所有良好本地目录中的当前磁盘利用率百分比 |
goodLogDirsDiskUtilizationPerc | 所有良好日志目录中的当前磁盘利用率百分比 |
ContainerMetrics显示容器的资源利用率统计信息。每个度量记录均包含诸如ContainerPid和Hostname之类的标记,作为附加信息以及度量。
名称 | 描述 |
---|---|
pMemLimitMBs | 容器的物理内存限制(MB) |
vMemLimitMB | 容器的虚拟内存限制,以MB为单位 |
vCoreLimit | 容器的CPU限制(以vcore为单位) |
launchDurationMs | 容器启动持续时间(以毫秒为单位) |
localizationDurationMs | 容器本地化持续时间(以毫秒为单位) |
开始时间 | 容器启动时的时间(以毫秒为单位) |
结束时间 | 容器完成时的时间(以毫秒为单位) |
退出码 | 集装箱的出口码 |
PMemUsageMBsNumUsage | 已使用的物理内存总数指标 |
PMemUsageMBsAvgMBs | 平均物理内存(MB) |
PMemUsageMBsStdevMBs | MB中使用的物理内存的标准偏差 |
PMemUsageMBsMinMBs | 最小物理内存(MB) |
PMemUsageMBsMaxMBs | 使用的最大物理内存(MB) |
PMemUsageMBsIMinMBs | 当前间隔的 MB中使用的最小物理内存(间隔时间由yarn.nodemanager.container-metrics.period-ms指定) |
PMemUsageMBsIMaxMBs | 当前间隔的 MB中使用的最大物理内存(间隔时间由yarn.nodemanager.container-metrics.period-ms指定) |
PMemUsageMBsINumUsage | 当前间隔中使用的物理内存指标总数(间隔时间由yarn.nodemanager.container-metrics.period-ms指定) |
PCpuUsagePercentNumUsage | 物理CPU内核总数已使用指标的百分比 |
PCpuUsagePercentAvgPercents | 平均物理CPU核心使用百分比 |
PCpuUsagePercentStdevPercents | 物理CPU内核使用的标准偏差百分比 |
PCpuUsagePercentMinPercents | 最小物理CPU核心使用百分比 |
PCpuUsagePercentMaxPercents | 已使用的最大物理CPU内核百分比 |
PCpuUsagePercentIMinPercents | 当前间隔中使用的最小物理CPU内核百分比(间隔时间由yarn.nodemanager.container-metrics.period-ms指定) |
PCpuUsagePercentIMaxPercents | 当前间隔中使用的最大物理CPU核心百分比(间隔时间由yarn.nodemanager.container-metrics.period-ms指定) |
PCpuUsagePercentINumUsage | 当前间隔中使用的物理CPU内核总数指标(间隔时间由yarn.nodemanager.container-metrics.period-ms指定) |
MilliVcoreUsageNumUsage | 使用的vcore总数指标 |
MilliVcoreUsageAvgMilliVcores | 平均使用的vcore的1000倍 |
MilliVcore用法UstageStdevMilliVcores | 所使用vcores标准偏差的1000倍 |
MilliVcore使用情况MinMilliVcores | 最小vcore的1000倍 |
MilliVcoreUsageMaxMilliVcores | 最大使用的vcore的1000倍 |
MilliVcore用法IMinMilliVcores | 当前间隔中使用的平均vcore的1000倍(间隔时间由yarn.nodemanager.container-metrics.period-ms指定) |
MilliVcore用法IMaxMilliVcores | 当前间隔中使用的最大vcore的1000倍(间隔时间由yarn.nodemanager.container-metrics.period-ms指定) |
MilliVcoreUsageINumUsage | 当前间隔中使用的vcore指标总数(间隔时间由yarn.nodemanager.container-metrics.period-ms指定) |
PMemUsageMBHistogramNumUsage | 已使用的物理内存指标总数(1秒粒度) |
PMemUsageMBHistogram50thPercentileMBs | MB使用的物理内存的第50个百分点(1秒粒度) |
PMemUsageMBHistogram75thPercentileMBs | MB使用的物理内存的第75个百分点(1秒粒度) |
PMemUsageMBHistogram90thPercentileMBs | MB使用的物理内存的第90个百分点(1秒粒度) |
PMemUsageMBHistogram95thPercentileMBs | MB使用的物理内存的第95个百分点(1秒粒度) |
PMemUsageMBHistogram99thPercentileMBs | MB使用的物理内存的第99个百分点(1秒粒度) |
PCpuUsagePercentHistogramNumUsage | 使用的物理CPU内核总数指标(1秒粒度) |
PCpuUsagePercentHistogram50thPercentilePercents | 物理CPU内核使用率的第50个百分点(1秒粒度) |
PCpuUsagePercentHistogram75thPercentilePercents | 物理CPU内核使用率的第75个百分点(1秒粒度) |
PCpuUsagePercentHistogram90thPercentilePercents | 物理CPU内核使用率的第90个百分点(1秒粒度) |
PCpuUsagePercentHistogram95thPercentilePercents | 物理CPU内核使用率的第95个百分点(1秒粒度) |
PCpuUsagePercentHistogram99thPercentilePercents | 物理CPU内核使用率的99%(1秒粒度) |
UgiMetrics与用户和组信息有关。每个度量记录均包含Hostname标记作为度量的附加信息。
名称 | 描述 |
---|---|
LoginSuccessNumOps | 成功的kerberos登录总数 |
LoginSuccessAvgTime | 成功kerberos登录的平均时间(以毫秒为单位) |
登录失败数字操作 | 失败的kerberos登录总数 |
LoginFailureAvgTime | 失败的Kerberos登录平均时间(以毫秒为单位) |
getGroupsNumOps | 小组决议总数 |
getGroupsAvgTime | 组解析的平均时间(以毫秒为单位) |
getGroups num sNumOps | 组分辨率的总数(粒度为num秒)。num由hadoop.user.group.metrics.percentiles.intervals指定。 |
getGroups num s50thPercentileLatency | 显示组解析时间的第50个百分数,以毫秒为单位(粒度为num秒)。num由hadoop.user.group.metrics.percentiles.intervals指定。 |
getGroups num s75thPercentileLatency | 显示组解析时间的第75个百分位,以毫秒为单位(粒度为num秒)。num由hadoop.user.group.metrics.percentiles.intervals指定。 |
getGroups num s90thPercentileLatency | 示出的组的分辨率时间以毫秒为单位的第90百分位数(NUM秒粒度)。num由hadoop.user.group.metrics.percentiles.intervals指定。 |
getGroups num s95thPercentileLatency | 显示组解析时间的第95个百分数,以毫秒为单位(粒度为num秒)。num由hadoop.user.group.metrics.percentiles.intervals指定。 |
getGroups num s99thPercentileLatency | 显示组解析时间的第99个百分点,以毫秒为单位(粒度为num秒)。num由hadoop.user.group.metrics.percentiles.intervals指定。 |
MetricsSystem显示指标快照和发布的统计信息。每个度量记录均包含Hostname标记作为度量的附加信息。
名称 | 描述 |
---|---|
NumActiveSources | 当前活动指标来源的数量 |
NumAllSources | 指标来源总数 |
NumActiveSinks | 当前活动接收器的数量 |
NumAllSinks | 接收器的总数(但通常少于NumActiveSinks,请参阅HADOOP-9946) |
快照数 | 从度量标准来源快照统计信息的操作总数 |
快照平均时间 | 从指标源获取快照统计信息的平均时间(以毫秒为单位) |
发布数字运算 | 将统计信息发布到接收器的操作总数 |
发布时间 | 将统计信息发布到接收器的平均时间(以毫秒为单位) |
DropdPubAll | 删除的发布总数 |
Sink_ 实例NumOps | 实例的接收器操作总数 |
Sink_ 实例AvgTime | 实例执行接收器操作的平均时间(以毫秒为单位) |
Sink_ 例如掉落 | 实例接收到的接收器操作总数 |
Sink_ 实例Qsize | 接收器操作的当前队列长度 |
StartupProgress指标显示NameNode启动的统计信息。每个启动阶段都会根据其名称公开四个指标。启动阶段为LoadingFsImage,LoadingEdits,SavingCheckpoint和SafeMode。每个度量记录均包含Hostname标记作为度量的附加信息。
名称 | 描述 |
---|---|
经过时间 | 总经过时间(以毫秒为单位) |
完成百分比 | NameNode启动进度中完成的当前速率(最大值不是100,而是1.0) |
相位计数 | 该阶段完成的步骤总数 |
相位经过时间 | 该阶段中经过的总时间(以毫秒为单位) |
相总数 | 该阶段的步骤总数 |
阶段完成百分比 | 该阶段完成的当前速率(最大值不是100,而是1.0) |