资源简介
1.inputformat
在MapReduce程序的开发过程中,往往需要用到FileInputFormat与TextInputFormat,我们会发现TextInputFormat这个类继承自FileInputFormat,FileInputFormat这个类继承自InputFormat,InputFormat这个类会将文件file按照逻辑进行划分,划分成的每一个split切片将会被分配给一个Mapper任务,文件先被切分成split块,而后每一个split切片对应一个Mapper任务
FileInputFormat的划分机制:
A. 简单地按照文件的内容长度进行切片
B. 切片大小,默认等于 block 大小
C. 切片时不考虑数据集整体,而是逐个针对每一个文件单独切片
默认情况下, split size =block size,在 hadoop 2.x 中为 128M。
注意:bytesRemaining/splitSize > 1.1 不满足的话,那么最后所有剩余的会作为一个切片。从而不会形成例如 129M 文件规划成两个切片的局面。
代码片段和文件信息
- 上一篇:凯立德导航搜星不能处理方法
- 下一篇:sipp 压力测试 原创脚本
相关资源
- hadoop-eclipse-plugin2.6.0+2.7.0+2.7.1
- hadoop-eclipse-plugin-2.6.5
- 《Elasticsearch集成Hadoop最佳实践》--完
- Cloudera Administrator Training
- hadoop-eclipse-plugin-2.7.4
- Hadoop构建数据仓库实践
- Hadoop2.6.0版本windows环境搭建
- Hadoop构建数据仓库实践_王雪迎PDF高清
- hadoop的web上传、、更新、删除和文件
- 中国邮政大数据Hadoop平台投标文件_技
- Hadoop大数据开发基础
- hadoop-3.0.3
- idea hadoop-hdfs插件
- 企业数据湖-Data Lake for Enterprises-原版
- Hadoop权威指南中文高清完整版PDF 第五
- 基于hadoop搜索引擎 离线处理程序
- HadoopWeb项目--网上商城推荐系统
- Hadoop实战-陆嘉恒高清完整版.pdf
- eclipse的hadoop2.7.2插件
- 新尚硅谷大数据技术之Hadoop入门
- Hadoop权威指南.pdf
- hadoop-eclipse-plugin-1.0.05个版本
- 基于Hadoop的简单网盘实现源代码
- Hadoop大数据分析与挖掘实战
- 邮政大数据Hadoop平台技术标书
- 《Hadoop大数据开发基础》的全套配套
- hadoop权威指南第二版
- Hadoop实战中文版.PDF
- Hadoop权威指南 第3版 PDF电子书
- spark-2.4.4-bin-hadoop2.6.tgz
评论
共有 条评论