C++如何进行文本的关键词提取？（TF-IDF简易实现）

尼克

发布时间：2026-03-03 14:55:03

593人浏览过

来源于php中文网

原创

tf-idf计算需确保idf分母为含该词的文档数而非总文档数，tf用词频除以文档总词数，idf用log(总文档数/含词文档数)，未登录词idf设为log(总文档数+1)；中文需先分词再过滤停用词，向量用float但防下溢，领域适配需构建专用停用词表并加权长度。

c++如何进行文本的关键词提取？（tf-idf简易实现）

TF-IDF 的核心计算逻辑怎么写才不翻车

直接用 std::map 统计词频没问题，但 IDF 部分最容易错在分母——不是文档总数，而是包含该词的文档数。漏掉这一步，所有权重都会偏高，关键词排序失真。

实操建议：

立即学习“C++免费学习笔记（深入）”；

先用 std::set<:string></:string> 记录每个文档中出现过的词（去重），再用 std::map<:string int></:string> 累加“含该词的文档数”
TF 用词频 / 文档总词数（非唯一词数），避免长文档天然占优
IDF 公式必须是 log(总文档数 / 含该词文档数)，别用自然对数或底数 10 混用，保持一致性
遇到未登录词（训练时没出现过的词），IDF 不能硬设为 0，应设为 log(总文档数 + 1) 防止除零和权重坍缩

中文文本预处理绕不开的三个坎

C++ 没有现成分词库，硬上 std::string::find 拆空格只会提取出“的”“了”“和”这种停用词，关键词全跑偏。

实操建议：

立即学习“C++免费学习笔记（深入）”；

至少做基础清洗：用 std::regex_replace 去除标点、数字、空白符，保留中文字符和英文字母（[^\u4e00-\u9fa5a-zA-Z]）
停用词表必须外置为文件（如 "stopwords.txt"），逐行读入 std::unordered_set<:string></:string>，别硬编码
单字过滤要谨慎——“云”“端”“智”单独看是停用词，合起来“云计算”就是关键，所以分词必须前置；实在没分词库，先用开源小模型（如 TinySeg）导出词表，C++ 只做匹配

vector 存 TF-IDF 向量时内存和精度怎么平衡

用 float 能省一半内存，但累加几十个文档的 TF-IDF 值后，小权重项可能下溢成 0，尤其 IDF 接近 0 的常见词。

Qwen

阿里巴巴推出的一系列AI大语言模型和多模态模型

下载

实操建议：

立即学习“C++免费学习笔记（深入）”；

词向量维度建议限制在 5000 以内，按 IDF 降序截断，别把所有词都塞进去
初始化向量用 std::vector<float>(vocab_size, 0.0f)</float>，别用 double 后强转，C++ 模板推导容易隐式转换出问题
如果后续要算余弦相似度，提前把向量单位化（除以 L2 范数），避免每次重复开方；范数计算用 std::sqrt(std::accumulate(...))，别手写循环漏平方

为什么你的 top-k 关键词总是“用户”“系统”“功能”

不是算法错了，是没做词性过滤或领域适配。通用停用词表对技术文档完全不够用，“接口”“调用”“实例”在开发日志里是高频关键，但在新闻语料里就是噪音。

实操建议：

立即学习“C++免费学习笔记（深入）”；

构建领域停用词表：扫描一批目标文档，统计 TF * IDF 值最低的 200 个词，人工筛一遍加入 "domain_stopwords.txt"
关键词长度加权：对长度 ≥ 3 的词，TF-IDF 值乘 1.2；单字词强制 × 0.5，抑制“的”“是”干扰
输出前做局部归一化：取每个文档内 top-20 词的 TF-IDF 最大值，所有值除以它，再排序，能缓解文档长度差异导致的绝对值偏差

真正卡住效果的，往往不是公式实现，而是中文切分粒度和领域停用词的边界感——前者决定你能看到什么，后者决定你信什么。

C++如何实现一个带流量削峰功能的异步写入缓存层？（系统稳定性保障）

C++中的野指针（Wild Pointer）是什么？（与悬挂指针有何区别）

C++如何实现双向绑定？（观察者与通知机制）

c++中lock_guard怎么用_c++自动加锁解锁【实战】

C++如何实现协程？（C++20 coroutine入门）

相关标签:

c++ String Float double 循环接口 map 算法

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：C++中如何利用std::ranges实现复杂的组合式数据过滤与转换？（函数式编程）下一篇：C++如何实现支持模糊匹配的自动补全算法？（数据结构进阶）

作者最新文章

Boss直聘怎么查看岗位汇报对象 Boss直聘组织架构信息【汇报】

2026-03-03 17:48

win11怎么解决组件损坏 win11运行SFC修复系统文件【修复】

2026-03-03 17:50

win11怎么设置任务栏居左 win11怎么修改任务栏位置【教程】

2026-03-03 17:51

Boss直聘怎么导出面试时间表 Boss直聘日程安排备份【日程】

2026-03-03 17:53

win11怎么查看网络IP地址 win11怎么看电脑局域网IP【干货】

2026-03-03 17:54

Win11怎么开启窗口毛玻璃效果_Win11美化视觉透明度【方案】

2026-03-03 17:57

iCloud怎么隐藏购买项目 iCloud应用隐藏教程【方法】

2026-03-03 17:58

php如何去除字符串重复 php字符串去重技巧【要点】

2026-03-03 17:59

可灵ai怎么对口型_可灵ai人物说话同步教程【同步】

2026-03-03 18:05

小说搜搜怎么切换账号小说搜搜多账号登录方法【切换】

2026-03-03 18:10

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

string转int

在编程中，我们经常会遇到需要将字符串(str)转换为整数(int)的情况。这可能是因为我们需要对字符串进行数值计算，或者需要将用户输入的字符串转换为整数进行处理。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

910

2023.08.02

css中float用法

css中float属性允许元素脱离文档流并沿其父元素边缘排列，用于创建并排列、对齐文本图像、浮动菜单边栏和重叠元素。想了解更多float的相关内容，可以阅读本专题下面的文章。

593

2024.04.28

C++中int、float和double的区别

本专题整合了c++中int和double的区别，阅读专题下面的文章了解更多详细内容。

105

2025.10.23

c++怎么把double转成int

本专题整合了 c++ double相关教程，阅读专题下面的文章了解更多详细内容。

294

2025.08.29

C++中int、float和double的区别

本专题整合了c++中int和double的区别，阅读专题下面的文章了解更多详细内容。

105

2025.10.23

硬盘接口类型介绍

硬盘接口类型有IDE、SATA、SCSI、Fibre Channel、USB、eSATA、mSATA、PCIe等等。详细介绍：1、IDE接口是一种并行接口，主要用于连接硬盘和光驱等设备，它主要有两种类型：ATA和ATAPI，IDE接口已经逐渐被SATA接口；2、SATA接口是一种串行接口，相较于IDE接口，它具有更高的传输速度、更低的功耗和更小的体积；3、SCSI接口等等。

1772

2023.10.19