CentOS HBase与其他大数据组件集成

CentOS 上 HBase 与常见大数据组件的集成实践

一基础环境与前置检查

在 CentOS 上部署 HBase 前，确保已安装 Java 8、配置 SSH 免密、关闭 firewalld/SELinux（或放行端口），并统一 /etc/hosts 主机名映射。HBase 依赖 HDFS 与 ZooKeeper，建议先启动 HDFS 再启动 HBase；如使用外部 ZK，设置 HBASE_MANAGES_ZK=false。启动后用 jps 检查进程，并访问 HBase Web UI（16010） 验证集群状态。

二与 Hadoop 的集成

核心配置：在 hbase-site.xml 中设置 hbase.rootdir=hdfs://:9000/hbase、hbase.cluster.distributed=true、hbase.zookeeper.quorum=<zk_quorum>；在 hbase-env.sh 中设置 JAVA_HOME 与 HBASE_MANAGES_ZK。启动顺序建议为：HDFS → ZooKeeper → HBase。常见故障包括：HDFS 处于安全模式导致 HBase 等待（需等待或手动退出安全模式）、HBase 与 Hadoop 客户端协议不一致导致 RPC VersionMismatch（需对齐 Hadoop 与 HBase 的对应版本或替换 HBase lib 中的 Hadoop 客户端 jar）。

三与 Hive 的集成

通过 Hive 外部表 + HBaseStorageHandler 直接查询 HBase 数据，适合用 SQL 做即席分析与统计。示例：
- 建表
  - CREATE EXTERNAL TABLE hbase_table( rowkey STRING, col1 STRING, col2 STRING ) STORED BY ‘org.apache.hadoop.hive.hbase.HBaseStorageHandler’ WITH SERDEPROPERTIES ( “hbase.columns.mapping” = “:key,cf1:col1,cf1:col2” ) TBLPROPERTIES (“hbase.table.name” = “hbase_table_name”);
- 查询
  - SELECT rowkey, col1, COUNT(*) FROM hbase_table WHERE col1=‘homepage’ GROUP BY rowkey;
集成要点与排错
- 将 HBase 与 ZooKeeper 相关 jar 放入 $HIVE_HOME/lib，并在 hive-site.xml 配置 hive.aux.jars.path 指向这些 jar；版本不匹配会导致类找不到或初始化失败。
- 通过外部表关联已存在的 HBase 表时，字段顺序需与 hbase.columns.mapping 一致；Hive 侧插入数据需提供 RowKey，否则会报错（HBase 要求主键不能为空）。

四与 Spark 的集成

典型路径
- 方式一：使用 HBase API（Spark 任务内直接 Get/Put/Scan），适合点查、小批量写入与 ETL 中的维度表读写。
- 方式二：使用 HBase-Spark 数据源（DataFrame 读写），适合批处理与大规模并行分析。
- 方式三：使用 Spark-on-HBase（HBaseContext / newAPIHadoopRDD），便于与 RDD/DataFrame 生态衔接。
示例
- Spark SQL 数据源（Scala）
  - val df = spark.read.format(“org.apache.hadoop.hbase.spark”) .option(“hbase.table.name”, “my_table”) .option(“hbase.columns.mapping”, “rowkey STRING, cf:col1 STRING”) .load()
- 原生 API 读取（Scala）
  - val conf = HBaseConfiguration.create() conf.set(“hbase.zookeeper.quorum”, “zk1,zk2,zk3”) val conn = ConnectionFactory.createConnection(conf) val table = conn.getTable(TableName.valueOf(“my_table”)) val res = table.get(new Get(Bytes.toBytes(“row1”)))
实战链路
- 常见链路为 Hive → Spark → HBase：用 Hive 管理/清洗数据，Spark 做大规模计算，结果写回 HBase 供在线随机访问。企业环境（如 MRS）中，需在提交作业时开启 HBase 凭证，确保 Spark 有访问 HBase 的安全权限。

五与 Sqoop 的集成

使用 Sqoop import 将 MySQL/Oracle 等关系型数据导入 HBase，适合初始化历史数据与批量同步。示例：
- sqoop import
  –connect jdbc:mysql://<db_host>:
  /
  –username
  --password
  –table
  –hbase-create-table
  –hbase-table ns1:table
  –hbase-row-key
  –column-family
  -m <map_tasks>
  说明
  
  该过程会启动 MapReduce 作业；若目标 HBase 表不存在，可通过 –hbase-create-table 自动创建；确保 HBase 与 Hadoop 相关 jar 在 Sqoop 运行环境的 classpath 中，避免 ClassNotFound 或版本冲突。
  
  0 赞
  
  0 踩
  
  最新问答
  
  Linux下Tomcat安全配置方法
  
  ubuntu如何集成openssl工具
  
  ubuntu如何备份openssl数据
  
  Debian如何设置动态hostname
  
  Debian Java代码规范有哪些
  
  Debian Java日志分析怎么做
  
  Debian Java运行环境怎么搭建
  
  Debian Java更新频率是多少
  
  Linux Apache2如何备份
  
  相关问答
  
  CentOS与HBase的集成案例有哪些
  
  CentOS HDFS与其他大数据组件如何协同
  
  HBase在CentOS上的应用案例
  
  CentOS HBase安全设置有哪些注意事项
  
  centos hbase应用场景及案例分析
  
  CentOS上HBase的版本选择
  
  CentOS环境下HBase如何维护
  
  CentOS如何解决HBase的版本兼容性问题
  
  CentOS HBase版本选择与升级策略
  
  相关标签
  
  cms CDN cdn缓存 cdn服务器 cdn加速 Static Nat Dynamic Nat cdn缓存服务器 cdn防御申请CDN centos6 centos7 centos7.4 centos服务器重启 centos版本查看centos版本 Centos服务器 centos查看系统版本 centos虚拟主机租用 centos云服务器
  
  产品服务
  
  云服务器
  
  高防服务器
  
  高防IP
  
  裸金属服务器
  
  机柜租用
  
  SSL证书
  
  高防CDN
  
  弹性IP
  
  地区划分
  
  中国香港服务器
  
  美国服务器
  
  德国服务器
  
  日本服务器
  
  韩国服务器
  
  新加坡服务器
  
  专题活动
  
  控制台
  
  应用市场
  
  最新活动
  
  九马智能直播
  
  帮助支持
  
  帮助中心
  
  网站备案
  
  法律条款
  
  全国服务
  
  安全漏洞
  
  主题地图
  
  关于我们
  
  关于亿速云
  
  客户案例
  
  新闻资讯
  
  资讯地图
  
  问答地图
  
  联系我们
  
  人才招聘
  
  售后咨询
  
  7*24小时在线电话：400-100-2938
  
  7*24小时在线 QQ：800811969
  
  关注亿速云
  
  亿速云公众号
  
  手机网站二维码
  
  Copyright © Yisu Cloud Ltd. All Rights Reserved. 2018 版权所有
  
  广州亿速云计算有限公司粤ICP备17096448号-1 粤公网安备 44010402001142号增值电信业务经营许可证编号：B1-20181529

最新问答

相关标签