温馨提示×

温馨提示×

您好，登录后才能下订单哦！

密码登录×

忘记密码？

登录注册×

获取短信验证码

其他方式登录

点击登录注册即表示同意《亿速云用户服务条款》

用户登录×

账户密码登录

请使用微信扫描上方二维码

使用帮助

请求超时！

请点击重新获取二维码

Java的Hadoop FileInputFormat切片机制怎么理解

发布时间：2021-12-09 14:23:06 来源：亿速云阅读：117 作者：iii 栏目：大数据

本篇内容主要讲解“Java的Hadoop FileInputFormat切片机制怎么理解”，感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷，实用性强。下面就让小编来带大家学习“Java的Hadoop FileInputFormat切片机制怎么理解”吧!

MapTask的并行度决定Map阶段的任务处理并发度，进而影响到整个Job的处理速度。

思考：1G的数据，启动8个MapTask，可以提高集群的并发处理能力。那么1K的数据，也启动8个MapTask，会提高集群性能吗？MapTask并行任务是否越多越好呢？哪些因素影响了MapTask并行度？

切片与MapTask并行度决定机制

数据块：Block是HDFS物理上把数据分成一块一块，默认大小是128M。

数据切片：数据切片只是在逻辑上对输入数据进行分片，并不会在磁盘上将其切分成片进行存储。

Java的Hadoop FileInputFormat切片机制怎么理解

Job提交流程源码和切片源码详解

waitForCompletion() ## 这是调用的方法 
submit();
// 1建立连接  connect();      // 1）创建提交Job的代理    new Cluster(getConfiguration());      // （1）判断是本地yarn还是远程      initialize(jobTrackAddr, conf);
// 2 提交jobsubmitter.submitJobInternal(Job.this, cluster)  // 1）创建给集群提交数据的Stag路径  Path jobStagingArea = JobSubmissionFiles.getStagingDir(cluster, conf);
  // 2）获取jobid ，并创建Job路径  JobID jobId = submitClient.getNewJobID();
  // 3）拷贝jar包到集群copyAndConfigureFiles(job, submitJobDir);    rUploader.uploadFiles(job, jobSubmitDir);
// 4）计算切片，生成切片规划文件writeSplits(job, submitJobDir);    maps = writeNewSplits(job, jobSubmitDir);    input.getSplits(job);
// 5）向Stag路径写XML配置文件writeConf(conf, submitJobFile);  conf.writeXml(out);
// 6）提交Job,返回提交状态status = submitClient.submitJob(jobId, submitJobDir.toString(), job.getCredentials());

Java的Hadoop FileInputFormat切片机制怎么理解

FileInputFormat切片源码解析(input.getSplits(job))

Java的Hadoop FileInputFormat切片机制怎么理解

FileInputFormat切片机制

Java的Hadoop FileInputFormat切片机制怎么理解

FileInputFormat切片大小参数配置

Java的Hadoop FileInputFormat切片机制怎么理解

到此，相信大家对“Java的Hadoop FileInputFormat切片机制怎么理解”有了更深的了解，不妨来实际操作一番吧！这里是亿速云网站，更多相关内容可以进入相关频道进行查询，关注我们，继续学习！

向AI问一下细节

推荐阅读：

免责声明：本站发布的内容（图片、视频和文字）以原创、转载和分享为主，文章观点不代表本网站立场，如果涉及侵权请联系站长邮箱：is@yisu.com进行举报，并提供相关证据，一经查实，将立刻删除涉嫌侵权内容。

上一篇新闻：
怎么搭建虚拟机组成Hadoop集群
下一篇新闻：
Java的Hadoop CombineTextInputFormat小文件切片怎么理解

猜你喜欢

AI
助
手

产品服务

地区划分

专题活动

帮助支持

关于我们

售后咨询

7*24小时在线电话：400-100-2938

7*24小时在线 QQ：800811969

关注亿速云

亿速云公众号

手机网站二维码