• 大小: 17.19MB
    文件类型: .doc
    金币: 1
    下载: 0 次
    发布日期: 2023-07-13
  • 语言: 其他
  • 标签: hadoop  

资源简介

1.inputformat 在MapReduce程序的开发过程中,往往需要用到FileInputFormat与TextInputFormat,我们会发现TextInputFormat这个类继承自FileInputFormat,FileInputFormat这个类继承自InputFormat,InputFormat这个类会将文件file按照逻辑进行划分,划分成的每一个split切片将会被分配给一个Mapper任务,文件先被切分成split块,而后每一个split切片对应一个Mapper任务 FileInputFormat的划分机制: A. 简单地按照文件的内容长度进行切片 B. 切片大小,默认等于 block 大小 C. 切片时不考虑数据集整体,而是逐个针对每一个文件单独切片 默认情况下, split size =block size,在 hadoop 2.x 中为 128M。 注意:bytesRemaining/splitSize > 1.1 不满足的话,那么最后所有剩余的会作为一个切片。从而不会形成例如 129M 文件规划成两个切片的局面。

资源截图

代码片段和文件信息

评论

共有 条评论