温馨提示×

温馨提示×

您好,登录后才能下订单哦!

密码登录×
登录注册×
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》

Hive是什么

发布时间:2020-08-04 17:19:38 来源:亿速云 阅读:169 作者:Leah 栏目:编程语言

这期内容当中小编将会给大家带来有关Hive是什么,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。

1、什么是Hive

1Hive的定义

Hive一个可以将结构化的数据文件映射为一张数据库表并提供类SQL查询功能的数据仓库工具,而且它是基于Hadoop的。因此,从本质上来看,Hive是将SQL转换为MapReduce程序的工具。因为,比直接用MapReduce开发效率更高,Hive的主要作用就是用来做离线数据分析。

2Hive架构

用户接口:包括 CLI JDBC/ODBC WebGUI 。其中, CLI(command line interface) shell 命令行;JDBC/ODBC Hive JAVA 实现,与传统数据库JDBC 类似;WebGUI 是通过浏览器访问 Hive

元数据存储:通常是存储在关系数据库如 mysql/derby 中。Hive 将元数据存储在数据库中。Hive 中的元数据包括表的名字,表的列和分区及其属性,表的属性(是否为外部表等),表的数据所在目录等。

解释器、编译器、优化器、执行器:完成 HQL 查询语句从词法分析、语法分析、编译、优化以及查询计划的生成。生成的查询计划存储在 HDFS中,并在随后有 MapReduce 调用执行。

 

3Hive数据模型

Hive中所有的数据都存储在HDFS中,没有专门的数据存储格式。在创建表时指定数据中的分隔符,Hive就可以映射成功,解析数据。Hive中包含以下数据模型:                                 

db:在hdfs中表现为hive.metastore.warehouse.dir目录下一个文件夹;

table:在hdfs中表现所属db目录下一个文件夹;

external table:数据存放位置可以在 HDFS 任意指定路径;

partition:在hdfs中表现为table目录下的子目录;

bucket:在hdfs中表现为同一个表目录下根据hash散列之后的多个文件。

2、为什么要用Hive

1Hive与传统数据库对比

Hive是什么

Hive用于海量数据的离线数据分析。Hive具有sql数据库的外表,但应用场景完全不同,Hive只适合用来做批量数据统计分析。

2Hive的优势

Hive利用HDFS存储数据,利用MapReduce查询分析数据。因为直接使用Hadoop MapReduce处理数据,会面临人员学习成本太高的问题,而且MapReduce实现复杂查询逻辑开发难度太大。而使用Hive,操作接口采用类SQL语法,提供快速开发的能力的同时还避免了去写MapReduce,从而减少开发人员的学习成本,功能扩展更加方便。

上述就是小编为大家分享的Hive是什么了,如果刚好有类似的疑惑,不妨参照上述分析进行理解。如果想知道更多相关知识,欢迎关注亿速云行业资讯频道。

向AI问一下细节

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

AI