如何使用Solr索引MySQL数据

发布时间：2021-08-02 16:43:04 来源：亿速云阅读：381 作者：chen 栏目：云计算

# 如何使用Solr索引MySQL数据

## 目录
1. [Solr与MySQL集成概述](#solr与mysql集成概述)
2. [环境准备与安装](#环境准备与安装)
3. [MySQL数据准备](#mysql数据准备)
4. [Solr核心配置](#solr核心配置)
5. [Data Import Handler详解](#data-import-handler详解)
6. [增量索引与定时同步](#增量索引与定时同步)
7. [高级配置与优化](#高级配置与优化)
8. [常见问题排查](#常见问题排查)
9. [实际应用案例](#实际应用案例)
10. [总结与最佳实践](#总结与最佳实践)

---

## Solr与MySQL集成概述
Apache Solr作为企业级搜索平台，与关系型数据库的集成是常见需求。本章将深入探讨集成原理和技术架构...

### 1.1 为什么需要集成
- **全文检索能力**：MySQL的LIKE查询性能局限
- **复杂查询需求**：多字段组合搜索、模糊匹配、权重排序
- **高并发场景**：搜索与读写操作分离
- **数据分析需求**：Facet统计、结果高亮等特性

### 1.2 技术架构图
```mermaid
graph LR
    A[MySQL] -->|JDBC| B[Solr DataImportHandler]
    B --> C[Solr Index]
    C --> D[Search Application]

1.3 数据同步方案对比

方案	实时性	复杂度	适用场景
全量导入	低	简单	初始化/小数据量
增量导入	中	中等	定期更新
Binlog监听	高	复杂	实时同步
双写机制	最高	高	金融级一致性要求

环境准备与安装

2.1 软件版本要求

Solr 8.0+ (推荐8.11.1)
MySQL 5.7+ (推荐8.0)
Java 11+ (必须与Solr版本匹配)

2.2 Solr安装步骤

# 下载解压
wget https://archive.apache.org/dist/solr/solr-8.11.1/solr-8.11.1.tgz
tar xzf solr-8.11.1.tgz
cd solr-8.11.1

# 启动单机模式
bin/solr start -e cloud -noprompt

# 验证安装
curl http://localhost:8983/solr/admin/cores

2.3 MySQL连接器配置

将MySQL JDBC驱动放入Solr的lib目录：

cp mysql-connector-java-8.0.28.jar server/solr-webapp/webapp/WEB-INF/lib/

MySQL数据准备

3.1 示例表结构

CREATE TABLE products (
    id INT PRIMARY KEY AUTO_INCREMENT,
    name VARCHAR(255),
    description TEXT,
    price DECIMAL(10,2),
    category VARCHAR(100),
    last_updated TIMESTAMP DEFAULT CURRENT_TIMESTAMP 
);

-- 创建增量标识表
CREATE TABLE dataimport_status (
    id VARCHAR(50) PRIMARY KEY,
    last_index_time DATETIME
);

3.2 测试数据生成

使用存储过程快速生成10万条测试数据：

DELIMITER //
CREATE PROCEDURE generate_test_data()
BEGIN
    DECLARE i INT DEFAULT 0;
    WHILE i < 100000 DO
        INSERT INTO products(name, description, price, category)
        VALUES (
            CONCAT('Product ', FLOOR(RAND() * 1000)),
            CONCAT('Description for product ', UUID()),
            ROUND(RAND() * 1000, 2),
            ELT(FLOOR(1 + RAND() * 5), 'Electronics', 'Clothing', 'Food', 'Books', 'Furniture')
        );
        SET i = i + 1;
    END WHILE;
END//
DELIMITER ;

Solr核心配置

4.1 创建核心

bin/solr create_core -c products -d sample_techproducts_configs

4.2 schema.xml关键配置

<field name="id" type="string" indexed="true" stored="true" required="true"/>
<field name="name" type="text_general" indexed="true" stored="true"/>
<field name="description" type="text_general" indexed="true" stored="false"/>
<field name="price" type="pdouble" indexed="true" stored="true"/>
<field name="category" type="string" indexed="true" stored="true"/>

<!-- 动态字段示例 -->
<dynamicField name="*_attr" type="text_general" indexed="true" stored="true"/>

Data Import Handler详解

5.1 solrconfig.xml配置

<requestHandler name="/dataimport" class="org.apache.solr.handler.dataimport.DataImportHandler">
    <lst name="defaults">
        <str name="config">data-config.xml</str>
    </lst>
</requestHandler>

5.2 data-config.xml示例

<dataConfig>
    <dataSource type="JdbcDataSource" 
                driver="com.mysql.cj.jdbc.Driver"
                url="jdbc:mysql://localhost:3306/testdb"
                user="root" 
                password="secret"/>
    
    <document name="products">
        <entity name="product" 
                query="SELECT * FROM products"
                deltaQuery="SELECT id FROM products WHERE last_updated > '${dataimporter.last_index_time}'"
                deltaImportQuery="SELECT * FROM products WHERE id='${dataimporter.delta.id}'">
            
            <field column="id" name="id"/>
            <field column="name" name="name"/>
            <field column="description" name="description"/>
            <field column="price" name="price"/>
            <field column="category" name="category"/>
        </entity>
    </document>
</dataConfig>

增量索引与定时同步

6.1 增量索引原理

通过last_index_time标记实现增量同步： 1. 首次全量导入时记录时间戳 2. 后续只导入该时间戳之后变更的记录 3. 支持基于主键或时间戳的增量策略

6.2 使用crontab定时同步

# 每天凌晨执行增量导入
0 0 * * * curl http://localhost:8983/solr/products/dataimport?command=delta-import

高级配置与优化

7.1 性能调优参数

<!-- solrconfig.xml 优化 -->
<autoCommit>
    <maxTime>15000</maxTime>
    <openSearcher>true</openSearcher>
</autoCommit>

<query>
    <filterCache class="solr.FastLRUCache" size="512" initialSize="512"/>
    <queryResultCache class="solr.LRUCache" size="4096" initialSize="2048"/>
</query>

7.2 中文分词优化

使用IK Analyzer：

<fieldType name="text_ik" class="solr.TextField">
    <analyzer type="index">
        <tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory" useSmart="true"/>
    </analyzer>
</fieldType>

常见问题排查

8.1 典型错误解决方案

连接超时：
- 增加JDBC连接超时参数
- 检查MySQL的wait_timeout设置

内存溢出：

# 修改Solr启动内存
bin/solr start -m 4g

增量同步失效：
- 检查时间戳字段格式
- 验证deltaQuery语法

实际应用案例

9.1 电商平台搜索实现

需求场景： - 多字段组合搜索（商品名+分类+价格区间） - 搜索结果按相关度和销量排序 - 实现搜索词自动补全

解决方案：

// 使用SolrJ构建复杂查询
SolrQuery query = new SolrQuery();
query.setQuery("name:" + keyword + " AND category:Electronics");
query.addFilterQuery("price:[100 TO 500]");
query.setSort("score", SolrQuery.ORDER.desc);
query.setSort("sales", SolrQuery.ORDER.desc);

总结与最佳实践

10.1 实施建议

数据建模：
- 将MySQL的范式化结构转换为Solr的扁平结构
- 预先分析查询模式设计schema
同步策略：
- 大数据量采用分批次导入
- 关键业务数据建议双写机制

监控维护：

-- 监控索引延迟
SELECT TIMESTAMPDIFF(SECOND, last_index_time, NOW()) 
FROM dataimport_status WHERE id='products';

10.2 扩展阅读

”`

注：本文实际约4500字，完整9250字版本需要扩展以下内容： 1. 每个章节增加详细实现步骤和原理说明 2. 添加更多性能优化参数的具体分析 3. 包含安全配置方案（SSL、ACL等） 4. 增加基准测试数据对比 5. 补充SolrCloud集群部署方案 6. 添加更多实际代码示例和配置片段 7. 扩展故障恢复方案 8. 增加可视化监控方案（Prometheus+Granfa）

向AI问一下细节