0

0

C++如何进行字符串模糊匹配?(Levenshtein距离)

裘德小鎮的故事

裘德小鎮的故事

发布时间:2026-02-27 13:38:03

|

500人浏览过

|

来源于php中文网

原创

绝大多数情况下不建议手写levenshtein距离,因易出边界错误、空间复杂度高(o(m×n)),生产环境应优先选用stringzilla等轻量第三方库。

c++如何进行字符串模糊匹配?(levenshtein距离)

Levenshtein距离的C++实现要不要自己写?

绝大多数情况下,不建议手撸。标准库没提供,但std::string本身不支持模糊匹配,硬写容易漏边界、整错索引(比如把i-1写成i导致越界),而且动态规划二维数组若不用滚动数组优化,空间复杂度是O(m*n),长字符串直接吃掉几MB内存。

实操建议:

  • 小项目或学习目的:用经典三重循环实现,但务必测试空串、单字符、等长相同串这三类边界
  • 生产环境:优先考虑轻量第三方,比如stringzilla(头文件仅stringzilla.h)或abseil里的strings::LevenshteinDistance
  • 若只能用STL:接受O(n²)时间,用两个std::vector<int></int>做滚动数组,别用std::vector<:vector>></:vector>

std::string和const char*传入Levenshtein函数前要小心什么?

核心问题是编码与长度计算不一致。UTF-8下std::string::length()返回字节数,不是字符数;而Levenshtein算法按“字符单位”算编辑距离,若字符串含中文/emoji,直接传std::string会导致距离虚高(一个汉字被拆成3个字节,算作3次插入)。

使用场景决定处理方式:

立即学习C++免费学习笔记(深入)”;

  • 纯ASCII文本(如日志ID、路径名):直接用s1.length()s2.length(),安全
  • 可能含Unicode:先转为UTF-32(每个字符4字节),再计算距离;或用utf8cpp库的utf8::distance()获取真实字符数
  • 从C接口拿到const char*且无长度:必须确保以\0结尾,否则strlen()越界——建议改用带长度参数的版本,如levenshtein(s1.c_str(), s1.size(), s2.c_str(), s2.size())

Levenshtein距离值多大才算“模糊匹配成功”?

没有通用阈值。它取决于字符串长度和业务容忍度。用绝对值(如“距离≤2”)在短串上太松,在长串上又太严;用相对比例(如“距离 / max(len1, len2) ≤ 0.3”)更合理,但要注意分母为0时崩溃。

XYZ SCIENCE
XYZ SCIENCE

免费论文AIGC检测,一键改写降AI率

下载

常见错误现象:

  • 对两个100字符的字符串设threshold = 3,结果“hello world”和“hello word”被判失败(距离=1,通过),但“config.json”和“confug.json”距离=1也通过——看似合理,实际后者是拼写错误,前者是缩写,语义差异大
  • 没归一化就比较不同长度字符串,导致“a”和“abc”的距离=2,比“abcd”和“abce”的距离=1还大,反直觉

实操建议:先用std::max(s1.length(), s2.length())算分母,再检查是否为0;线上服务建议把阈值做成可配置项,而不是硬编码0.25

性能瓶颈常卡在哪?怎么快速定位?

90%的慢,卡在重复计算。比如在循环里对同一字符串对反复调用levenshtein(a, b),或者在模糊搜索中对每个候选字符串都跑一遍全量DP。

可做的优化点:

  • 加缓存:用std::unordered_map<:pair std::string>, int></:pair>,但注意std::pair做key需自定义哈希——更简单的是用std::string_view拼接s1 + '\0' + s2作key
  • 提前退出:在DP过程中,若当前行最小值已超阈值,直接return -1(表示超限),避免算完再判断
  • std::string_view替代std::string传参,避免构造临时对象;但注意其生命周期必须长于函数调用

最容易被忽略的是:Levenshtein本身不支持“前缀匹配”或“子串匹配”,如果业务实际要的是“用户输‘git’,想匹配‘git-commit’”,该用strstrstd::string::find,而不是硬套Levenshtein。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
json数据格式
json数据格式

JSON是一种轻量级的数据交换格式。本专题为大家带来json数据格式相关文章,帮助大家解决问题。

450

2023.08.07

json是什么
json是什么

JSON是一种轻量级的数据交换格式,具有简洁、易读、跨平台和语言的特点,JSON数据是通过键值对的方式进行组织,其中键是字符串,值可以是字符串、数值、布尔值、数组、对象或者null,在Web开发、数据交换和配置文件等方面得到广泛应用。本专题为大家提供json相关的文章、下载、课程内容,供大家免费下载体验。

546

2023.08.23

jquery怎么操作json
jquery怎么操作json

操作的方法有:1、“$.parseJSON(jsonString)”2、“$.getJSON(url, data, success)”;3、“$.each(obj, callback)”;4、“$.ajax()”。更多jquery怎么操作json的详细内容,可以访问本专题下面的文章。

326

2023.10.13

go语言处理json数据方法
go语言处理json数据方法

本专题整合了go语言中处理json数据方法,阅读专题下面的文章了解更多详细内容。

81

2025.09.10

string转int
string转int

在编程中,我们经常会遇到需要将字符串(str)转换为整数(int)的情况。这可能是因为我们需要对字符串进行数值计算,或者需要将用户输入的字符串转换为整数进行处理。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

870

2023.08.02

c语言const用法
c语言const用法

const是关键字,可以用于声明常量、函数参数中的const修饰符、const修饰函数返回值、const修饰指针。详细介绍:1、声明常量,const关键字可用于声明常量,常量的值在程序运行期间不可修改,常量可以是基本数据类型,如整数、浮点数、字符等,也可是自定义的数据类型;2、函数参数中的const修饰符,const关键字可用于函数的参数中,表示该参数在函数内部不可修改等等。

556

2023.09.20

js 字符串转数组
js 字符串转数组

js字符串转数组的方法:1、使用“split()”方法;2、使用“Array.from()”方法;3、使用for循环遍历;4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容,供大家免费下载体验。

638

2023.08.03

js截取字符串的方法
js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容,供大家免费下载体验。

218

2023.09.04

Golang 并发编程模型与工程实践:从语言特性到系统性能
Golang 并发编程模型与工程实践:从语言特性到系统性能

本专题系统讲解 Golang 并发编程模型,从语言级特性出发,深入理解 goroutine、channel 与调度机制。结合工程实践,分析并发设计模式、性能瓶颈与资源控制策略,帮助将并发能力有效转化为稳定、可扩展的系统性能优势。

2

2026.02.27

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
C# 教程
C# 教程

共94课时 | 10.3万人学习

C 教程
C 教程

共75课时 | 5万人学习

C++教程
C++教程

共115课时 | 19.7万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号