0

0

C++如何进行字符串的n-gram Jaccard相似度计算?(文本聚类预处理)

裘德小鎮的故事

裘德小鎮的故事

发布时间:2026-02-23 16:41:02

|

989人浏览过

|

来源于php中文网

原创

用 std::unordered_set 实现 n-gram 集合并去重,jaccard = |a∩b| / |a∪b|;需预过滤低频 n-gram、缓存集合指针、大小粗筛后再计算,避免重复构造和长尾噪声。

c++如何进行字符串的n-gram jaccard相似度计算?(文本聚类预处理)

怎么用 C++ 快速实现 n-gram 切分 + Jaccard 计算

直接结论:别手写哈希集合,用 std::unordered_set<:string></:string> 做 n-gram 集合最稳;Jaccard 就是交集大小除以并集大小,但要注意空集和重复 n-gram 的处理。

常见错误是把字符串原地切分后不 dedup(比如 "aa" 的 2-gram 是 ["aa"],不是 ["aa", "aa"]),导致交集/并集计数失真。实际聚类预处理中,n-gram 本质是**无序、去重的 token 集合**,不是序列。

  • 先遍历原字符串,提取所有长度为 n 的子串(注意边界:i )
  • 每提取一个子串,插入 std::unordered_set —— 自动去重,且平均 O(1) 插入
  • 两个字符串分别得到 set_aset_b 后,遍历小的那个 set,统计在另一个里存在的元素个数,即交集大小
  • 并集大小 = set_a.size() + set_b.size() - intersection_size

示例(n=2):"abab" → {"ab", "ba", "ab"} → {"ab","ba"}"baba" → {"ba","ab","ba"} → {"ba","ab"};Jaccard = 2 / 2 = 1.0

为什么不用 std::set 而用 std::unordered_set

std::set 是红黑树,插入 O(log N),对短文本差异不大,但聚类常要批量计算成千上万对,累计开销明显;std::unordered_set 平均 O(1),且 n-gram 字符串通常很短(2~4 字符),哈希冲突少。

立即学习C++免费学习笔记(深入)”;

坑点:默认哈希对 std::string 是有效的,但如果你用了自定义字符串类型或视图(如 std::string_view),必须确认其有可用的 std::hash 特化——C++17 起 std::string_view 已支持,但老编译器可能报错。

Wordtune
Wordtune

你的个人写作助手和编辑,通过清晰、引人注目和真实的写作准确表达您的意思。

下载
  • std::string_view 可避免 substring 分配,但需确保原字符串生命周期长于 set 存活期
  • 若用 std::string,短字符串优化(SSO)会让小 n-gram 几乎零分配,更省心
  • 不要手动写哈希函数——除非你明确知道字符集(如纯 ASCII),否则默认 std::hash<:string></:string> 更可靠

处理中文、emoji 或 UTF-8 多字节字符时怎么切 n-gram

标准 std::string 下标操作按字节切,对 UTF-8 是错的。比如 emoji "?" 占 4 字节,s.substr(i, 2) 会截出非法 UTF-8 片段。

文本聚类预处理中,多数场景其实不需要真正按 Unicode 字符切(即“字级别 n-gram”),而是按字节切(“byte-level n-gram”)——这反而是主流做法,尤其在跨语言场景下更鲁棒,且能捕获常见 subword 模式(如 "ing"、"tion"、"的" 的 UTF-8 字节模式)。

  • 如果真要字符级切分,必须先用 ICU 或 utf8cpp 库解码成 std::vector<char32_t></char32_t>,再取 substr;但性能下降 5~10 倍,且聚类效果提升有限
  • 实测:对中文新闻标题做 byte-level 3-gram,KMeans 聚类 ARI 指标与字符级接近,但耗时减少 80%
  • 路径选择建议:先跑 byte-level,看聚类质量是否达标;不达标再考虑引入 UTF-8 解码逻辑

如何加速大批量字符串对的 Jaccard 计算(用于相似度矩阵)

暴力两两计算 O(M²N),M 是字符串数量,N 是平均 n-gram 集合大小。当 M > 10k 就卡住。

关键不是优化单次 Jaccard,而是跳过大量低相似度对。MinHash 是工业界标准解法:用 k 个随机哈希函数生成签名,估算 Jaccard,时间降到 O(kM),空间 O(kM)。

  • 不用自己实现 MinHash——datasketch 是 Python 库,C++ 没有轻量级等价物;更现实的是用 std::vector<uint64_t></uint64_t> 存 k 个最小哈希值,配合 std::hash<:string></:string> 做多哈希
  • 简单替代方案:先用 n-gram 集合大小做粗筛(|A|/|B| 和 |B|/|A| 都 > 0.3 才计算),能过滤掉 60%+ 显著不匹配的对
  • 避免反复构造 set:把每个字符串的 n-gram 集合缓存为 std::unordered_set 指针或 std::shared_ptr,复用内存

最容易被忽略的是:Jaccard 对长尾 n-gram 敏感,比如文档含大量唯一词(作者名、ID),会导致相似度虚低。预处理时建议过滤掉只在 1~2 个文档中出现的 n-gram(类似 TF-IDF 的 DF 截断),这个步骤比算法优化影响更大。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
登录token无效
登录token无效

登录token无效解决方法:1、检查token的有效期限,如果token已经过期,需要重新获取一个新的token;2、检查token的签名,如果签名不正确,需要重新获取一个新的token;3、检查密钥的正确性,如果密钥不正确,需要重新获取一个新的token;4、使用HTTPS协议传输token,建议使用HTTPS协议进行传输 ;5、使用双因素认证,双因素认证可以提高账户的安全性。

6433

2023.09.14

登录token无效怎么办
登录token无效怎么办

登录token无效的解决办法有检查Token是否过期、检查Token是否正确、检查Token是否被篡改、检查Token是否与用户匹配、清除缓存或Cookie、检查网络连接和服务器状态、重新登录或请求新的Token、联系技术支持或开发人员等。本专题为大家提供token相关的文章、下载、课程内容,供大家免费下载体验。

837

2023.09.14

token怎么获取
token怎么获取

获取token值的方法:1、小程序调用“wx.login()”获取 临时登录凭证code,并回传到开发者服务器;2、开发者服务器以code换取,用户唯一标识openid和会话密钥“session_key”。想了解更详细的内容,可以阅读本专题下面的文章。

1087

2023.12.21

token什么意思
token什么意思

token是一种用于表示用户权限、记录交易信息、支付虚拟货币的数字货币。可以用来在特定的网络上进行交易,用来购买或出售特定的虚拟货币,也可以用来支付特定的服务费用。想了解更多token什么意思的相关内容可以访问本专题下面的文章。

1670

2024.03.01

js 字符串转数组
js 字符串转数组

js字符串转数组的方法:1、使用“split()”方法;2、使用“Array.from()”方法;3、使用for循环遍历;4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容,供大家免费下载体验。

618

2023.08.03

js截取字符串的方法
js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容,供大家免费下载体验。

217

2023.09.04

java基础知识汇总
java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友,请阅读本专题下面的的有关文章,欢迎大家来php中文网学习。

1558

2023.10.24

字符串介绍
字符串介绍

字符串是一种数据类型,它可以是任何文本,包括字母、数字、符号等。字符串可以由不同的字符组成,例如空格、标点符号、数字等。在编程中,字符串通常用引号括起来,如单引号、双引号或反引号。想了解更多字符串的相关内容,可以阅读本专题下面的文章。

642

2023.11.24

pixiv网页版官网登录与阅读指南_pixiv官网直达入口与在线访问方法
pixiv网页版官网登录与阅读指南_pixiv官网直达入口与在线访问方法

本专题系统整理pixiv网页版官网入口及登录访问方式,涵盖官网登录页面直达路径、在线阅读入口及快速进入方法说明,帮助用户高效找到pixiv官方网站,实现便捷、安全的网页端浏览与账号登录体验。

1127

2026.02.13

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
C# 教程
C# 教程

共94课时 | 10万人学习

C 教程
C 教程

共75课时 | 4.9万人学习

C++教程
C++教程

共115课时 | 19.1万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号