centos hbase索引使用指南

CentOS 上 HBase 索引使用指南

一索引类型与适用场景

HBase 的“一级索引”是 RowKey 的有序存储，仅对按 RowKey 的点查或范围扫描高效；对“非 RowKey 字段”的过滤需要构建“二级索引”。常见实现有两类：
1. Apache Phoenix 二级索引（全局/本地/覆盖）；
2. Solr + HBase-Indexer（将变更实时写入 Solr，用倒排索引做复杂检索）。
Phoenix 索引要点：
- 全局索引 Global：默认类型，适合读多写少；写入时需同步更新分布式索引表，读路径短、性能稳定。
- 本地索引 Local：索引与数据共址，适合写多读少或索引列不全命中查询列的场景；避免跨节点索引维护开销。
- 覆盖索引 Covered：将查询所需列放入索引表（include 子句），可避免回表，显著提升“索引命中即返回”的查询。
使用建议：能用 RowKey 解决的查询优先用 RowKey；非 RowKey 过滤优先用 Phoenix 索引；需要全文检索/多维过滤/聚合时考虑 Solr 方案。

二方案一 Phoenix 二级索引快速上手（CentOS）

版本匹配与配置
- 选择与你的 HBase 版本匹配的 Phoenix 版本（如 5.x 对应 HBase 2.2 等），将 Phoenix 的客户端 JAR 放入 HBase RegionServer 的 classpath，并重启 RS。
- 在 hbase-site.xml 的 RegionServer 节点添加（示例为常见配置）：
  - hbase.regionserver.wal.codec：org.apache.hadoop.hbase.regionserver.wal.IndexedWALEditCodec
  - hbase.region.server.rpc.scheduler.factory.class：org.apache.hadoop.hbase.ipc.PhoenixRpcSchedulerFactory
  - hbase.rpc.controller.factory.class：org.apache.hadoop.hbase.ipc.controller.ServerRpcControllerFactory
建表与映射
- 方式一（Phoenix 建表，自动同步到 HBase）：
  - create table “user” (id varchar primary key, name varchar, addr varchar);
- 方式二（HBase 已存在表，做映射）：
  - 只读视图：create view “user”(id varchar primary key, “cf”.“name” varchar, “cf”.“addr” varchar);
  - 可写表映射：create table “user”(id varchar primary key, “cf”.“name” varchar, “cf”.“addr” varchar) column_encoded_bytes=0;
创建索引与验证
- 全局索引：create index idx_name on “user”(name);
- 覆盖索引：create index idx_name_cover on “user”(name) include (addr);
- 本地索引：create local index idx_name_local on “user”(name);
- 使用 EXPLAIN 检查是否走索引：出现 RANGE SCAN 表示命中索引；出现 FULL SCAN 表示未命中。
常见注意
- Phoenix 默认对“非索引列”的查询不会自动使用索引，除非将其加入索引或使用覆盖索引；必要时可用 Hint 强制索引选择。

三方案二 Solr + HBase-Indexer 构建全文与多维索引

适用场景：需要对 非 RowKey 做复杂条件、模糊匹配、全文检索、聚合分析等。
组件与版本：常见组合为 HBase + Solr + HBase-Indexer（如在 CDH 5.4.1 生态中：Solr 4.10.3-cdh5.4.1、HBase-Indexer 1.5-cdh5.4.1、ZooKeeper 3.4.5-cdh5.4.1）。
部署要点
- 启动 ZooKeeper 与 Solr（建议 SolrCloud 模式），创建目标 collection/索引。
- 部署 HBase-Indexer 服务，配置 hbase.zookeeper.quorum 与 hbaseindexer.zookeeper.connectstring 指向同一 ZooKeeper 集群。
- 编写 Indexer 配置（morphline/hbase-indexer.xml），定义从 HBase 列到 Solr 字段的映射与更新策略，并部署到 HBase-Indexer。
- 在 HBase 表上启用 复制（replication），使 HBase-Indexer 能订阅变更（WAL 事件）并写入 Solr。
查询方式：业务通过 Solr API/SQL 执行检索，获得命中的 RowKey 后，回到 HBase 做 Get/Scan 取回整行数据（必要时做“索引覆盖”以减少回表）。

四索引选择与性能优化要点

索引选择
- 能用 RowKey 解决的查询，优先通过合理的 RowKey 设计（如散列、反转时间戳、前缀分区）避免二级索引。
- 非 RowKey 过滤：
  - 结构化条件、点查/范围查为主：优先 Phoenix 全局/覆盖索引；
  - 写密集或索引列不全命中：优先 Phoenix 本地索引；
  - 全文/多维/模糊/聚合：优先 Solr 方案。
参数与缓存
- 读多写少：适度提高 BlockCache（如 hbase.regionserver.blockcache.size），高频读可至 0.5–0.6；
- 写多：合理设置 MemStore（如 hbase.hregion.memstore.size），避免频繁 flush；
- 扫描密集：增大 Scan 缓存（如 hbase.client.scanner.caching=500–1000）；
- 列族 I/O：控制列族数量（建议 2–3 个以内），并为列族启用合适的 Bloom Filter（ROW/ROWCOL）。
索引维护
- 批量导入时尽量同步构建索引或采用离线批量构建，减少后续重建开销；
- 定期 压缩/合并、清理过期版本（TTL），保持存储与查询效率。

五常见问题与排查

索引未生效
- Phoenix：用 EXPLAIN 检查执行计划；若见 FULL SCAN，说明未命中索引，考虑改写查询、增加/改为覆盖索引或使用 Hint；
- Solr：核查 HBase-Indexer 是否运行、配置是否正确、Solr collection 是否可写、HBase 复制是否开启。
写入变慢
- 全局索引在写放大上更明显；写密集场景优先 本地索引 或评估 覆盖索引 减少回表。
版本与兼容
- Phoenix 与 HBase 版本必须匹配；客户端 JAR 需分发到 所有 RegionServer 并重启；映射 HBase 已存在表时注意 列族引用与 column_encoded_bytes 等细节。
监控与定位
- 利用 HBase Master UI、慢查询日志与监控工具（如 Ganglia/Prometheus）观察 RPC 延迟、Region 负载、BlockCache 命中率 等指标，结合业务压测迭代优化。

最新问答

相关标签