10、Hive核心概念和架构原理

发布时间：2020-08-06 12:43:41 来源：网络阅读：396 作者：victor19901114 栏目：大数据

1、 Hive核心概念和架构原理

1.1、 Hive概念

Hive由FaceBook开发，用于解决海量结构化日志的数据统计。

Hive是基于Hadoop的数据仓库工具，可以将结构化数据映射为一张表，提供类似SQL语句查询功能

本质：将Hive SQL转化成MapReduce程序。

1.2、Hive与数据库的区别

对变项	Hive	数据库软件
查询语言	HQL	SQL
数据存储	HDFS	Raw Devce or Loal FS
执行器	MapReduce	Executor
数据插入	支持批量导入/单条插入	支持单条或者批量导入
数据操作	覆盖追加	行级更新删除
处理数据规模	大	小
执行延迟	高	低
分区	支持	支持
索引	0.8版本之后加入了索引	支持复杂的索引
扩展性	高	有限
数据加载模式	读时模式（快）	写时模式（慢）
应用场景	海量数据查询	实时查询

读时模式：Hive在加载数据到表中的时候不会校验.

写时模式：Mysql数据库插入数据到表的时候会进行校验.

总结：Hive只适合用来做海量离线的数据统计分析，也就是数据仓库。

1.3、Hive的优缺点

优点：操作接口采用了类SQL语法，提供快速开发的能力，避免了去写MapReduce；Hive还支持用户自定义函数，用户可以根据自己的需求实现自己的函数。

缺点：Hive不支持纪录级别的增删改操作；Hive查询延迟很严重；Hive不支持事务。

1.4、Hive架构原理

10、Hive核心概念和架构原理

(1)用户接口：CLI（hive shell）；JDBC（java访问Hive）；WEBUI（浏览器访问Hive）

(2)元数据：MetaStore

元数据包括：表名、表所属的数据库（默认是default）、表的拥有者、列/分区字段，标的类型（表是否为外部表）、表的数据所在目录。这是数据默认存储在Hive自带的derby数据库中，推荐使用MySQL数据库存储MetaStore。

（3）Hadoop集群：

使用HDFS进行存储数据，使用MapReduce进行计算。

（4）Driver:驱动器

解析器（SQL Parser）:将SQL字符串换成抽象语法树AST，对AST进行语法分析，像是表是否存在、字段是否存在、SQL语义是否有误。

编译器（Physical Plan）：将AST编译成逻辑执行计划。

优化器（Query Optimizer）：将逻辑计划进行优化。

执行器（Execution）：把执行计划转换成可以运行的物理计划。对于Hive来说默认就是Mapreduce任务。

通过Hive**对数据进行数据分析过程**：

10、Hive核心概念和架构原理

2、 Hive交互方式

需要先启动hadoop集群和MySQL服务

2.1、Hive交互shell

cd  /opt/bigdata2.7/hive (hive的安装路径，根据自己实际情况改变)

bin/hive

10、Hive核心概念和架构原理

可以在命令端口写上HQL语句：show databases;验证是否可用。

2.2、JDBC交互

输入hiveserver2相当于开启了一个服务端，查看hivesever2的转态

10、Hive核心概念和架构原理

输入netstat  –nlp命令查看：

10、Hive核心概念和架构原理

运行hiveserver2相当于开启了一个服务端，端口号10000，需要开启一个客户端进行通信，所以打开另一个窗口，输入命令beeline.

10、Hive核心概念和架构原理

Beeline连接方式：!connect jdbc:hive2://node1:10000

主意不要省略！

当然了hiveserver2服务端可以运行在后台：

nohup hiveserver2 &

3、 Hive数据类型

3.1基本数据类型

类型名称	描述	举例
boolean	True/false	True
tinyint	1字节的有符号整数	1
Smallint	2字节的有符号整数	1
int	4字节的有符号整数	1
Bigint	8字节的有符号整数	1
Float	4字节精度浮点数	1.0
Double	8字节精度浮点数	1.0
String	字符串（不设长度）	“adcadfaf”
Varchar	字符串（1-65355）	“adfafdafaf”
Timestamp	时间戳	123454566
date	日期	20160202

3.2复合数据类型

类型名称	描述	举例
Array	一组有序的字段，字段类型必须相同的array（元素1，元素2）	Array(1,2,4)
Map	一组无序的键值对map(k1,v1,k2,v2)	Map(‘a’,1,’b’,2)
Struct	一组命名的字段，字段类型可以不同struct(元素1，元素2)	Struct(‘a’,1,2,0)

（1）Array字段的元素访问方式：下标获取元素，下标从0开始

比如：获取第一元素：array[0]

（2）Map字段的访问方式：通过键获取值

比如:获取a这个key对应的value：map[‘a’]

（3）struct字段的元素获取方式：

定义一个字段c的类型为struct(a int;b string)

获取a和b的值：

create table complex(
     col1 array<int>,
     col2 map<string,int>,
     col3 struct<a:string,b:int,c:double>
     )

4、 Hive数据类型转换

4.1、隐式类型转换

系统自动实现类型转换，不需要客户干预

如：tinyint可以转换成int，int可以转成bigint

所有整数类型、float、string类型都可以隐式转转换成double

tinyint、samllint、int都可以转成float

boolean不可以转成其他任何类型

4.2、手动类型转换

可以使用cast函数显示的进行数据类型转换

例如：cast(‘1’ as int)把字符串’1’转成整数1

如果强制转换类型失败，如执行cast(‘x’ as int)表达式返回NULL。

向AI问一下细节

10、Hive核心概念和架构原理

1、 Hive核心概念和架构原理

1.1、 Hive概念

1.2、Hive与数据库的区别

1.3、Hive的优缺点

1.4、Hive架构原理

2、 Hive交互方式

2.1、Hive交互shell

2.2、JDBC交互

3、 Hive数据类型

3.1基本数据类型

3.2复合数据类型

4、 Hive数据类型转换

4.1、隐式类型转换

4.2、手动类型转换

猜你喜欢

最新资讯

相关推荐

相关标签