MapReduce 计数器 | MapReduce 教程

#MapReduce 计数器
计数器是收集作业统计信息的有效手段之一，用于质量控制或者应用级统计。计数器还可用于辅助诊断系统故障。如果需要将日志信息传输到 map 或 reduce 任务，更好的方法通常是看能否用一个计数器值来记录某一特定事件的发生。对于大型分布式作业而言，使用计数器更加方便。除了因为获取计数器值比输出日志更方便，还有根据计数器值统计特定事件的发生次数要比分析一堆日志文件容易的多。

##计数器分类
MapReduce 计数器可以分成两大类：
- 内置计数器
- 用户自定义计数器

下面详细讨论一下这两大类计数器：

###MapReduce 内置计数器
Hadoop 为每个作业维护若干内置计数器，以描述多项指标。例如，某些计数器记录已处理的字节数和记录数，使用户可监控已处理的输入数据量和已产生的输出数据量。
 
这些内置计数器被划分成若干个组。如下表：

各组要么包含任务计数器（在任务处理过程中不断更新），要么包含作业计数器（在作业处理过程中不断更新）。
 
下面对各个计数器进行介绍：
 
####MapReduce 任务计数器
Hadoop 任务计数器收集任务运行期间产生的信息（比如读写记录数）。比如 MAP_INPUT_RECORDS 计数器就是一个任务计数器，它记录了每个 map 任务读取记录的数量。
 
Hadoop 任务计数器由任务维护，它定期给 application master 发送数据。所以，它们可以全局聚合。
 
MapReduce 任务计数器汇总列表：

####文件系统计数器
Hadoop 文件系统计数器会收集从文件系统读写字节数相关的信息。下面是文件系统计数器的名称以及功能说明：
 
文件系统的写字节数（BYTES_WRITTEN） ——  map 或者 reduce 任务写入文件系统的字节数
文件系统的读字节数（BYTES_READ） —— map 或者 reduce 任务从文件系统读取的字节数

####FileInputFormat 计数器
读取的字节数（BYTES_READ）—— 由 map 任务通过 FileInputFormat 读取的字节数。

####FileOutputformat 计数器
写的字节数（BYTES_WRITTEN）—— 由 map 任务（针对仅 map 的作业）或者 reduce 任务通过 FileOutputformat 写的字节数。

####MapReduce 作业计数器
作业计数器由 application master 维护，因此无需通过网络传输数据，这一点包括 “用户定义的计数器” 在内的其他计数器不同。这些计数器都是作业级别的统计，其值不会随着任务运行而改变。例如，TOTAL_LAUNCHED_MAPS 统计的作业执行过程中的启动的 map 任务数，包括失败的 map 任务。
 
作业计数器汇总列表：

###用户自定义计数器
MapReduce 允许用户编写程序来自定义计数器，计数器的值可在 mapper 或者 reducer 中增加，计数器由一个 Java 枚举（enum）类型来定义，以便对有关的计数器分组。一个作业可以定义的枚举类型数量不限，各个枚举类型所包含的字段数量也不限。枚举类型的名称即为组的名称，枚举类型的字段就是计数器名称。计数器是全局的。换句话说，MapReduce 框架将跨所有 map 和 reduce 聚集这些计数器。并在作业结束时产生一个最终结果。

####动态计数器
由于 Java 枚举类型的字段是在编译阶段就必须指定的，因而无法使用枚举类型动态新建计数器。为了解决这个问题，我们可以使用动态计数器，它是一种不由 Java 枚举类型定义的计数器。

大象教程

加我微信交流吧