SQL如何在海量数据中快速进行模糊查询_Elasticsearch同步与全文索引

P粉602998670

发布时间：2026-03-15 19:29:03

133人浏览过

来源于php中文网

原创

MySQL原生LIKE '%关键词%'在千万级表中不可用，因B+树索引失效需全表扫描；中文任意位置模糊搜索应换用Elasticsearch，并配ik分词器、binlog实时同步及match_phrase等合理DSL。

sql如何在海量数据中快速进行模糊查询_elasticsearch同步与全文索引

MySQL LIKE 在千万级表里慢得像卡住，别硬扛

直接说结论：原生 LIKE '%关键词%' 在大表上基本不可用，B+ 树索引完全失效，只能全表扫描。哪怕加了 name 字段的普通索引，只要左边带通配符，就等于没建。

常见错误现象：EXPLAIN 显示 type=ALL、rows 接近总行数、查询耗时从毫秒跳到秒级甚至分钟级。

真正能走索引的只有 LIKE '前缀%'（例如 LIKE '张%'），这时可用 B+ 树快速定位
LIKE '%张%' 或 LIKE '%张' 都无法利用常规索引，MySQL 5.7+ 的全文索引（FULLTEXT）只支持英文分词，中文效果极差
如果业务真要“任意位置匹配中文”，MySQL 不是合适工具——这不是调优问题，是能力边界问题

Elasticsearch 同步数据不是“导一次就完事”

把 MySQL 表 dump 进 ES 只是起点，后续增删改不实时同步，查出来的就是过期数据。最常踩的坑是：用脚本定时全量 reindex，结果中间十分钟查不到新订单、改价也不生效。

使用场景决定同步方案：

变更频率低（如商品类目）、容忍分钟级延迟 → 用 Logstash + JDBC Input，配合 schedule 定时拉取 updated_at > :sql_last_value
要求秒级一致（如用户搜索订单）→ 必须捕获 MySQL binlog，推荐 canal 或 debezium，解析后发到 Kafka，再由消费者写入 ES
千万别用应用层双写（代码里同时更新 MySQL 和 ES）：失败回滚难、时序难保证、事务不一致风险高

ES 全文索引字段必须显式定义 analyzer

直接 PUT /my_index 然后塞中文进去，搜“笔记本”可能查不到“笔记本电脑”，因为默认 standard 分词器把中文按字切（“笔”、“记”、“本”），而不是按词（“笔记本”、“笔记本电脑”）。

Fotor

Fotor 在线照片编辑器

下载

实操建议：

中文字段必须指定 ik_max_word 或 jieba 等中文分词器，例如 mapping 中写："title": { "type": "text", "analyzer": "ik_max_word" }
如果既要精确匹配又要模糊搜索，同一个字段可设多字段："title.keyword" 用于 term 查询，"title" 用于 match 查询
注意 analyzer 只在索引时生效；搜索时若未指定 search_analyzer，会默认复用 analyzer，导致搜“python教程”被拆成“python”“教程”，漏掉“Python 教程”这种大小写混合写法

模糊查询别乱用 wildcard 和 regexp

wildcard 查询（如 {"wildcard": {"title": "*笔记本*"}}）看着像 SQL 的 LIKE，但底层是遍历所有倒排索引项，数据量大时比 match_phrase 慢一个数量级，还容易触发 circuit_breaking_exception。

更安全的替代方案：

前缀搜索用 prefix 查询（如 {"prefix": {"title": "笔记本"}}），只查以该字符串开头的文档，性能接近 term 查询
想支持错别字或拼音简写，用 fuzzy 查询（{"fuzzy": {"title": "笔计本"}}），但 fuzziness 别设太高，否则爆炸式膨胀候选词
实在要跨词匹配，优先用 match_phrase + slop（允许中间隔几个词），比 regexp 稳定得多；regexp 在大数据集上可能 OOM

复杂点在于：分词器选择、同步链路健壮性、查询 DSL 写法三者必须咬合。少一个环节，搜索就变成玄学——不是 ES 慢，是它根本没拿到该有的数据，或者拿到了却不会切词。

相关标签:

sql mysql kafka 字符串 regexp input elasticsearch

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：SQL如何控制用户对特定视图的访问_DEFINER安全机制与访问隔离下一篇：暂无

作者最新文章

悟空浏览器怎么关闭启动时的加载动画闪屏_悟空浏览器秒开优化

2026-03-13 17:04

如何在Golang中通过反射创建并操作切片 Go语言reflect.MakeSlice实战

2026-03-13 17:05

如何避免PL/SQL中的SQL注入_绑定变量Bind Variables的最佳实践

2026-03-13 17:05

Safari浏览器如何关闭网页的安全证书警告_Safari浏览器继续访问

2026-03-13 17:06

宝塔面板下如何安装Node.js的特定版本镜像源？

2026-03-13 17:09

如何在Golang中实现优雅的请求超时控制 Go语言http.TimeoutHandler使用

2026-03-13 17:09

如何在Golang中利用Trace工具分析延迟 Go语言执行链路可视化追踪

2026-03-13 17:09

如何在Golang中利用SQLite进行本地存储 Go语言嵌入式数据库应用

2026-03-13 17:11

如何在Golang中利用Finalizer清理非内存资源 Go语言runtime.SetFinalizer使用

2026-03-13 17:11

如何为Oracle配置多监听器_不同端口的并发监听机制实现

2026-03-13 17:12

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

AI办公学习 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

数据分析工具有哪些

数据分析工具有Excel、SQL、Python、R、Tableau、Power BI、SAS、SPSS和MATLAB等。详细介绍：1、Excel，具有强大的计算和数据处理功能；2、SQL，可以进行数据查询、过滤、排序、聚合等操作；3、Python，拥有丰富的数据分析库；4、R，拥有丰富的统计分析库和图形库；5、Tableau，提供了直观易用的用户界面等等。

1135

2023.10.12