温馨提示×

温馨提示×

您好,登录后才能下订单哦!

密码登录×
登录注册×
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》

MapReduce应该如何应用开发

发布时间:2021-09-10 14:46:50 来源:亿速云 阅读:98 作者:柒染 栏目:大数据

MapReduce应该如何应用开发,很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。

用于配置的API

  • Configuration org.apache.hadoop.conf

配置开发环境

  • 不同环境使用不同的配置文件,跟web开发类同

  • HADOOP_USER_NAME 设置hadoop 用户名

  • HADOOP_CONF_DIR 配置信息环境变量

  • 辅助类 Configured Tool ToolRunner

  • 用MRUnit 来写单元测试

本地运行测试数据

  • 在本地作业运行器上运行作业

  • 测试驱动程序

    • 使用本地作业运行器

    • 使用一个mini集群来运行它

在集群上运行

  • 打包作业

    • 分布式环境打包成JAR 文件

  • 启动作业

  • 作业调试

    • 通过打印语句

    • 计数器 可以衡量问题的严重程度

    • 日志

    • 远程调试

作业调优

  • mapper 的数量

  • reducer 的数量

  • combiner

  • 中间值的压缩

  • 自定义序列

  • 调整 shuffle

MapReduce 的工作流

  • 通常是增加更多的作业,而不是增加作业的复杂度

  • 对于更复杂的问题,可考虑使用Pig, hive, Cascading, Crunch 或Spark

  • JobControl

  • Apache Oozie 是一个运行工作流的系统,该工作流由相互依赖的作业组成

看完上述内容是否对您有帮助呢?如果还想对相关知识有进一步的了解或阅读更多相关文章,请关注亿速云行业资讯频道,感谢您对亿速云的支持。

向AI问一下细节

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

AI