ES在MySQL、PHP中的使用

coldplay.xixi

发布时间：2020-09-01 17:36:38

4824人浏览过

来源于learnku

转载

ES在MySQL、PHP中的使用

ES简介

一个高扩展、开源的全文检索和分析引擎，它可以准实时地快速存储、搜索、分析海量的数据。
全文检索是指计算机索引程序通过扫描文章中的每一个词，对每一个词建立一个索引，指明该词在文章中出现的次数和位置，当用户查询时，检索程序就根据事先建立的索引进行查找，并将查找的结果反馈给用户的检索方式。这个过程类似于通过字典中的检索字表查字的过程。全文搜索搜索引擎数据库中的数据

ES 为什么比 mysql 快

Mysql 只有 term dictionary 这一层，是以 b-tree 排序的方式存储在磁盘上的。检索一个 term 需要若干次的 random access 的磁盘操作。而 Lucene 在 term dictionary 的基础上添加了 term index 来加速检索，term index 以树的形式缓存在内存中。从 term index 查到对应的 term dictionary 的 block 位置之后，再去磁盘上找 term，大大减少了磁盘的 random access 次数。另外：term index 在内存中是以 FST（finite state transducers）的形式保存的，其特点是非常节省内存。Term dictionary 在磁盘上是以分 block 的方式保存的，一个 block 内部利用公共前缀压缩，比如都是 Ab 开头的单词就可以把 Ab 省去。这样 term dictionary 可以比 b-tree 更节约磁盘空间。

同步数据库

我们采取 MySQL 的数据存储，利用 MySQL 的事务特性维护数据一致性，使用 ElasticSearch 进行数据汇集和查询，此时 es 与数据库的同步方案就尤为重要。

流程

首先添加商品入数据库，添加商品成功后，商品入 ES，若入 ES 失败，将失败的商品 ID 放入 redis 的缓存队列，且失败的商品 ID 入 log 文件（若出现 redis 挂掉，可从日志中取异常商品 ID 然后再入 ES），task 任务每秒刷新一下 redis 缓存队列，若是从缓存队列中取到商品 ID，则根据商品 ID 从数据库中获取商品数据然后入 ES。

立即学习“PHP免费学习笔记（深入）”；

使用

logstash-input-jdbc 插件同步数据库，安装，配置：创建一个 .conf 文件，配置了要同步的数据库和.sql 用于执行的 sql 语句，最后把一个 jdbc 驱动放到这个文件夹下，用来连接 mysql 数据库

【相关学习推荐：mysql教程】

可能遇到的问题

elasticsearch 数据重复以及增量同步

在默认配置下，tracking_column 这个值是 @timestamp，存在 elasticsearch 就是_id 值，是 logstash 存入 elasticsearch 的时间，这个值的主要作用类似 mysql 的主键，是唯一的，但是我们的时间戳其实是一直在变的，所以我们每次使用 select 语句查询的数据都会存入 elasticsearch 中，导致数据重复。

解决方法

在要查询的表中，找主键或者自增值的字段，将它设置为_id 的值，因为_id 值是唯一的，所以，当有重复的_id 的时候，数据就不会重复

数据同步频繁，影响 mysql 数据库性能

我们写入 jdbc.sql 文件的 mysql 语句是写死的，所以每次查询的数据库有很多是已经不需要去查询的，尤其是每次 select * from table; 的时候，对 mysql 数据库造成了非常大的压力

解决：

(1) 根据业务需求，可以适当修改定时同步时间，我这里对实时性相对要求较高，因此设置了 10 分钟 schedule =youjiankuohaophpcn “*/10 * * * *”
(2) 设置 mysql 查询范围，防止大量的查询拖死数据库，在 sql 语句这里设置 select * from WHERE autoid > :sql_last_value;

elasticsearch 存储容量不断上升

elasticsearch 为了数据安全，接收到数据后，先将数据写入内存和 translog，然后再建立索引写入到磁盘，这样即使突然断电，重启后，还可以通过 translog 恢复，不过这里由于我们每次查询都有很多重复的数据，而这些重复的数据又没有写入到 elasticsearch 的索引中，所以就囤积了下来，导致 elasticsearch 容量就不断上升

灵云AI开放平台

下载

解决：

查询官网说会定期 refresh，会自动清理掉老的日志，因此可不做处理

增量同步和 mysql 范围查询导致 mysql 数据库有修改时无法同步到以前的数据。

解决了 mysql 每次都小范围查询，解决了数据库压力的问题，不过却导致无法同步老数据的修改问题

解决：

可根据业务状态来做，如果你数据库是修改频繁类型，那只能做全量更新了，但是高频率大范围扫描数据库来做的索引还不如不做索引了 (因为建立索引也是有成本的)，我们做索引主要是针对一些数据量大，不常修改，很消耗数据库性能的情况。我这里是数据修改较少，而且修改也一般是近期数据，因为同步时，我在 mysql 范围上面稍微调整一下

php 使用 ES

php composer 安装 composer require elasticsearch/elasticsearch
引入 es 文件 autoload.php 文件，设置 IP 地址
创建 index，index 对应关系型数据（以下简称 MySQL）里面的数据库，而不是对应 MySQL 里面的索引
有了数据库还不行，还需要建立表，ES 也是一样的，ES 中的 type 对应 MySQL 里面的表。type 不是单独定义的，而是和字段一起定义，字段定义在 body 中；当然可以在 body 字段中也能使用 ik 分词；
使用 EsClient->search () 实现搜索；
同义词和近义词的使用

【相关学习推荐：php编程（视频）】

配置分词器：配置 IK

下载 es 的 ik 版本包
在 es 目录下的 plugins 在创建 ik 目录，把下载 ik 的 zip 包所有文件解压进去。
进去 es 的 config 目录，编辑 elasticsearch.yml，在空白地方加上 index.analysis.analyzer.default.type : “ik” 即可。
拼音分词器配置：使用已经编译好的：elasticsearch-analysis-pinyin-1.3.0
在 elasticsearch 的 plugins 目录下，新建 analysis-pinyin 文件夹，解压压缩包，将里面的 jar 包放到 analysis-pinyin 文件夹。
在 elasticsearch.yml 里面配置拼音分词器的过滤器

同义词分词器配置

在 elasticsearch.yml 里面配置好同义词分词器的过滤器
配置同义词词库，在 elasticsearch 的 config 目录下新建 sysnonym.txt。
配置 ik+pinying + 同义词的分词器，主要有分词器的名称，类型，分割词元的组件，对分割的次元做处理：这里使用的是拼音和同义词

ES 关键字高亮显示

ES 通过在查询的时候可以在查询之后的字段数据加上 html 标签字段，使文档在在 web 界面上显示的时候是由颜色或者字体格式的，是在 highlight 修饰高亮字段，这个部分包含了 name 属性匹配的文本片段，并以 HTML 标签封装

ES 查询分页

Elasticsearch 中数据都存储在分片中，当执行搜索时每个分片独立搜索后，数据再经过整合返回。

一般查询流程为

1) 客户端请求发给某个节点
2) 节点转发给个个分片，查询每个分片上的前 10 条
3) 结果返回给节点，整合数据，提取前 10 条
4) 返回给请求客户端
当我们查询第 10 条到第 20 条的数据时，有两种方式，包括深度分页 (from-size) 和快照分页 (scroll)；
深度分页 (from-size)

from 定义了目标数据的偏移值，size 定义当前返回的事件数目。默认 from 为 0，size 为 10，也就是说所有的查询默认仅仅返回前 10 条数据。查询前 20 条数据，然后截断前 10 条，只返回 10-20 的数据。浪费了前 10 条的查询。越往后的分页，执行的效率越低。分页的偏移值越大，执行分页查询时间就会越长

快照分页 (scroll)

相对于 from 和 size 的分页来说，使用 scroll 可以模拟一个传统数据的游标，记录当前读取的文档信息位置。这个分页的用法，不是为了实时查询数据，而是为了一次性查询大量的数据（甚至是全部的数据）。因为这个 scroll 相当于维护了一份当前索引段的快照信息，这个快照信息是你执行这个 scroll 查询时的快照。在这个查询后的任何新索引进来的数据，都不会在这个快照中查询到。但是它相对于 from 和 size，不是查询所有数据然后剔除不要的部分，而是记录一个读取的位置，保证下一次快速继续读取。
流程：

调用： index/type/_search?pretty&scroll=2m，返回一个 scroll 值
直接用 scroll_id 进行查询。
清除 scroll，我们在设置开启 scroll 时，设置了一个 scroll 的存活时间，但是如果能够在使用完顺手关闭，可以提早释放资源，降低 ES 的负担

想了解更多编程学习，敬请关注php培训栏目！

Magento 2中ES模块与RequireJS的加载兼容性问题及解决方案

Magento 2中ES模块的正确加载方式：避免RequireJS的陷阱

Magento 2中原生ES模块的正确加载姿势与RequireJS兼容性解析

php如何实现数据分表存储策略_php按时间或id取模分表与查询路由封装

PHP如何实现多语言切换_网站多语言功能开发指南

PHP速学教程(入门到精通)

PHP怎么学习？PHP怎么入门？PHP在哪学？PHP怎么学才快？不用担心，这里为大家提供了PHP速学教程(入门到精通)，有需要的小伙伴保存下载就能学习啦！

下载

相关专题

TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开，深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析，帮助开发者构建类型安全、结构清晰、易维护的前端工程体系，提高团队协作效率与代码质量。

2026.03.13

Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开，深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例，帮助开发者掌握 Python 在高并发场景中的高效开发方法，并提升系统资源利用率与整体运行性能。

2026.03.12

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

276

2026.03.11

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开，重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析，帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系，提升团队协作效率与项目迭代速度。

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开，系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理，以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例，帮助开发者理解浏览器底层工作原理，并掌握提升网页加载速度与交互体验的实用技巧。

105

2026.03.06

Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开，深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例，分析内存安全保障原理与零成本抽象优势，并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学，掌握在高性能与安全性并重场景中的工程实践能力。

230

2026.03.05

PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开，重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景，深入分析性能瓶颈定位与优化思路，帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

619

2026.03.04