Hive数仓开发的基本流程

发布时间：2021-09-04 16:42:13 来源：亿速云阅读：318 作者：chen 栏目：编程语言

本篇内容介绍了“Hive数仓开发的基本流程”的有关知识，在实际案例的操作过程中，不少人都会遇到这样的困境，接下来就让小编带领大家学习一下如何处理这些情况吧！希望大家仔细阅读，能够学有所成！

1.从业务系统获取数据

Sqoop 导入数据库的数据：spoop 可以在 Hive 与传统的数据库间进行数据的传递，可以将一个关系型数据库中的数据导进到 Hadoop 的HDFS中，也可以将 HDFS 的数据导进到关系型数据库中。

Flume 采集文本数据：Flume 可以将各类型的文件进行采集，存放入 hdfs中。

Ftp 文件服务器：从文件服务器上下载分析所需的源数据（增量数据、全量数据）。

2.数据存储

数据仓库分层 ods 层、dw 层、da 层：

源数据层 ODS ：直接引用外围的数据没有统一格式化的不会直接应用使用不利于分析。

数据仓库层 DW ：来自于 ODS 要经过 ETL 的过程格式统一数据规整干净清洁。

数据应用层 DA ：要去用 DW 层数据真正的数据使用者。

数据集市：也叫数据市场，数据集市就是满足特定的部门或者用户的需求，按照多维的方式进行存储，包括定义维度、需要计算的指标、维度的层次等，生成面向决策分析需求的数据立方体。

3.配置调度系统

4.导出数据&展示

“Hive数仓开发的基本流程”的内容就介绍到这里了，感谢大家的阅读。如果想了解更多行业相关的知识可以关注亿速云网站，小编将为大家输出更多高质量的实用文章！

向AI问一下细节

猜你喜欢