温馨提示×

温馨提示×

您好,登录后才能下订单哦!

密码登录×
登录注册×
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》

hadoop工程包括哪些模块

发布时间:2021-12-10 11:39:53 来源:亿速云 阅读:194 作者:iii 栏目:大数据

本篇内容介绍了“hadoop工程包括哪些模块”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!

    Apache Hadoop工程已发展成一个可靠的(reliable),轻量的(scalable),分布式计算(distributed computing)的开源软件。
 
    Apach Hadoop软件库是一个允许用简单的程序模型对大数据集进行跨计算机群集的分布式处理的框架。它的目的(designed to)在于
将计算能力从单个服务器扩充到成千上万台机器,每个机器都可以提供本地计算和存储。比起依赖单个硬件提供高可用性,
这个库实现了有目的性的检测和处理应用程序层的故障,因而在计算机群集上提供了非常高的可用**,单个硬件易于(prone to)
失败!

    这个工程包括以下模块:

  • Hadoop Common: 支持其它Hadoop模块的通用工具common utilities).

  • Hadoop Distributed File System (HDFS?): 在访问应用数据时提供高吞吐量(high-throughput)的一个分布式文件系统(distributed file system)

  • Hadoop YARN: 作业调度和群集资源管理的框架

  • Hadoop MapReduce: 基于YARN的大型数据集并发处理(parallel processing)系统


在Apache上其它和Hadoop有关联的项目:

  • Ambari?: 一个基于web的工具,配置(provisioning),管理(managing)和监控,支持Apache Hadoop生态圈,包括Hadoop HDFS, Hadoop MapReduce, Hive, HCatalog, HBase, ZooKeeper, Oozie, Pig和Sqoop等. Ambari也提供简洁的图表去观察群集的运行状况,比如热点图(heatmaps)和用友好的用户界面来提供监测MapReduce, Pig and Hive 应用的视觉特性并诊断其性能特性。

  • Avro?: 一个数据序列化(serialization)系统

  • Cassandra?: 一个没有单点故障的轻量级的多主(multi-master)数据库

  • Chukwa?: 管理大型分布式系统的数据集系统

  • HBase?: 一个为大型表提供结构化数据存储的轻量级的分布式数据库bles.

  • Hive?: 提供数据摘要和简单查询的数据仓库工具

  • Mahout?: 一个轻量级的机器学习(machine learning)和数据挖掘(data mining)库

  • Pig?: 一个并行parallel computation计算的高级(high-level)数据流语言和支持框架 .

  • Spark?: Hadoop数据的一个快速通用的计算引擎(general compute engine). Spark是一个简单和富有表现力的编程模型(expressive programming model),它提供了大范围的应用,包括ETL,机器学习(machine learning),流水式处理( stream processing)和图形计算(graph computation).

  • Tez?: 一个构建于Hadoop YARN的广义数据流编程框架, 提供强大的,灵活的引擎去运行一个任意的DAG任务去处理批处理和交互用例的数据. Tez最先被Hive,Pig和Hadoop生态系统上其它框架采用,也被其它商业软件(如:ETL 工具),作为潜在的执行引擎替换Hadoop MapReduce.

  • ZooKeeper?: 一个高性能的分布式应用协调服务(coordination service)

“hadoop工程包括哪些模块”的内容就介绍到这里了,感谢大家的阅读。如果想了解更多行业相关的知识可以关注亿速云网站,小编将为大家输出更多高质量的实用文章!

向AI问一下细节

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

AI