HIVE从入门到精通的示例分

发布时间：2021-12-10 09:47:57 来源：亿速云阅读：192 作者：小新栏目：云计算

小编给大家分享一下HIVE从入门到精通的示例分，希望大家阅读完这篇文章之后都有所收获，下面让我们一起去探讨吧！

1背景

应用于工业的商务智能收集分析所需的数据集正在大量增长，使得传统的数据仓库解决方案变得过于昂贵。Hadoop是一个流行的开源map-reduce实现，用于像yahoo, Facebook一类的公司。来存储和处理商用硬件上的大范围数据集。然而map-reduce程序模型还是处于很低级别，即需要开发者来书写客户程序，这些程序往往难于维护与重用。

用hbase做数据库，但由于hbase没有类sql查询方式,所以操作和计算数据非常不方便，于是整合hive，让hive支撑在hbase数据库层面的hql查询。hive也叫做数据仓库。

2定义

Hive是基于Hadoop(HDFS, MapReduce)的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。

本质是将SQL转换为MapReduce程序。

3体系结构

Hive本身建立在Hadoop的体系结构上，可以将结构化的数据文件映射为一张数据库表，并提供完整的sql查询功能，可以将sql语句转换为MapReduce任务进行。并按照该计划生成MapReduce任务后交给Hadoop集群处理，Hive的体系结构如图1-1所示：

图1-1 Hive的体系结构

4Hive的数据存储

Hive的存储是建立在Hadoop文件系统之上的。Hive本身没有专门的数据存储格式，也不能为数据建立索引，用户可以自由地组织Hive中的表，只需要在创建表的时候告诉Hive数据中的列分隔符和行分隔符就可以解析数据了。

Hive中主要包含四类数据模型：表（Table）、外部表（External Table）、分区（Partition）和桶（Bucket）。

Hive中的表和数据库中的表在概念上是类似的，每个表在Hive中都有一个对应的存储目录。例如一个表pokes在HDFS中的路径为/warehouse/pokes，其中/warehouse是hive-site.xml配置文件中由${hive.metastore.warehouse.dir}指定的数据仓库的目录。

Hive中每个分区都对应数据库中相应分区列的一个索引，但是分区的组织方式和传统关系型数据库不同。在Hive中，表中的一个分区对应表下的一个目录，所有分区的数据都存储在对应的目录中。例如，图1-2中htable表中包含year、month和day三个分区，分别对应三个目录：对于year=2012，month=01，day=01的HDFS子目录为：/warehouse/htable/year=2012/ month=01/ day=01；对于year=2012，month=02，day=14的HDFS子目录为：/warehouse/htable/year=2012/ month=02/ day=14;

桶对指定列进行哈希计算时，根据哈希值切分数据，每个桶对应一个文件。例如，将图1-2中htable表中属性列Uniqueid列分散到32个桶中，首先要对Uniqueid进行hash计算，对应哈希值为0的桶写入HDFS的目录为：/warehouse/htable/year=2012/ month=01/ day=01/part-0；对应哈希值为1的桶写入HDFS的目录为：/warehouse/htable/year=2012/ month=01/ day=01/part-1。图1-2 Hive数据存储

一、 hive功能简介

功能简介PARTITIONED BY关键字为表格分区 4.通过CLUSTERED BY关键字将PATITION划分成BUCKET 5.定义每条记录的存储格式，包括：字段之间如何分隔；集合字段中的元素如何分隔； Map的key值如何分隔 6.指定存储格式为Hadoop的SequenceFile

(2)查看表结构 DESCRIBE tablename; (3)修改表格为表格添加字段 ALTER TABLE pokes ADD COLUMNS (new_col INT);

(4)删除表格 DROP TABLE tablename;

DML (1)、导入数据导入操作，只是将文件复制到对应的表格目录中，并不会对文档的schema进行校验从HDFS导入 LOAD DATA INPATH 'data.txt' INTO TABLE page_view PARTITION(date='2008-06-08', country='US') 从本地导入，并覆盖原数据 LOAD DATA LOCAL INPATH 'data.txt' OVERWRITE INTO TABLE page_view PARTITION(date='2008-06-08', country='US')

Hive体系结构 hiveserver hiveserver启动方式：hive --service hiveserver HiveServer支持多种连接方式：Thrift、JDBC、ODBC

metastore metastore用来存储hive的元数据信息(表格、数据库定义等)，默认情况下是和hive绑定的，部署在同一个JVM中，将元数据存储到Derby中这种方式不好的一点是没有办法为一个Hive开启多个实例(Derby在多个服务实例之间没有办法共享)

Hive提供了增强配置，可将数据库替换成MySql等关系数据库，将存储数据独立出来在多个服务实例之间共享

甚至还可以将metastore Service也独立出来，部署到其他JVM中去，在通过远程调用的方式去访问

metastore的常用配置： hive.metastore.warehouse.dir 存储表格数据的目录 hive.metastore.local 使用内嵌的metastore服务(默认为true) hive.metastore.uris 如果不使用内嵌的metastore服务，需指定远端服务的uri javax.jdo.option.ConnectionURL 所使用数据库的url javax.jdo.option.ConnectionDriverName 数据库驱动类 javax.jdo.option.ConnectionUserName 连接用户名 javax.jdo.option.ConnectionPassword 连接密码

hive数据存储格式

定义表格时如不指定Row Format和Stored As从句，hive采用如下默认配置： CREATE TABLE ... ROW FORMAT DELIMITED FIELDS TERMINATED BY '\001' COLLECTION ITEMS TERMINATED BY '\002' MAP KEYS TERMINATED BY '\003' LINES TERMINATED BY '\n' STORED AS TEXTFILE; 默认为纯文本文件TEXTFILE

如果存储的数据不是纯文本，而包含二进制的数据，可用SequenceFile和RCFile RCFile：基于列存储，类似于HBase，查询Table时，如果要检索的数据不是整条记录，而是具体的column，RCFile较比SequenceFile高效一些，只需遍历指定column对应的数据文件即可使用RCFile，创建Table时使用如下语法： CREATE TABLE ... ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.columnar.ColumnarSerDe' STORED AS RCFILE;

除此之外，Hive还可通过正则表达式的方式指定输入数据源的格式： CREATE TABLE stations (usaf STRING, wban STRING, name STRING) ROW FORMAT SERDE 'org.apache.hadoop.hive.contrib.serde2.RegexSerDe' WITH SERDEPROPERTIES ( "input.regex" = "(\d{6}) (\d{5}) (.{29}) .*" );

看完了这篇文章，相信你对“HIVE从入门到精通的示例分”有了一定的了解，如果想了解更多相关知识，欢迎关注亿速云行业资讯频道，感谢各位的阅读！

向AI问一下细节

HIVE从入门到精通的示例分

猜你喜欢

最新资讯

相关推荐

相关标签