温馨提示×

温馨提示×

您好,登录后才能下订单哦!

密码登录×
登录注册×
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》

Hive数仓开发的基本流程

发布时间:2021-09-04 16:42:13 来源:亿速云 阅读:271 作者:chen 栏目:编程语言

本篇内容介绍了“Hive数仓开发的基本流程”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!

1.从业务系统获取数据

Sqoop 导入数据库的数据:spoop 可以在 Hive 与传统的数据库间进行数据的传递,可以将一个关系型数据库中的数据导进到 Hadoop 的HDFS中,也可以将 HDFS 的数据导进到关系型数据库中。

Flume 采集文本数据:Flume 可以将各类型的文件进行采集,存放入 hdfs中。

Ftp 文件服务器:从文件服务器上下载分析所需的源数据(增量数据、全量数据)。

2.数据存储

数据仓库分层 ods 层、dw 层、da 层:

源数据层 ODS :直接引用外围的数据 没有统一格式化的 不会直接应用使用不利于分析。

数据仓库层 DW :来自于 ODS 要经过 ETL 的过程 格式统一 数据规整 干净清洁。

数据应用层 DA :要去用 DW 层数据真正的数据使用者。

数据集市:也叫数据市场,数据集市就是满足特定的部门或者用户的需求,按照多维的方式进行存储,包括定义维度、需要计算的指标、维度的层次等,生成面向决策分析需求的数据立方体。

3.配置调度系统

4.导出数据&展示

“Hive数仓开发的基本流程”的内容就介绍到这里了,感谢大家的阅读。如果想了解更多行业相关的知识可以关注亿速云网站,小编将为大家输出更多高质量的实用文章!

向AI问一下细节

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

AI