C++怎么实现布隆过滤器_C++大数据结构教程【节省】

冰火之心

发布时间：2026-03-04 14:32:03

814人浏览过

来源于php中文网

原创

c++标准库无布隆过滤器，需自行实现；核心为位数组、多个独立哈希函数及统一插入/查询逻辑，推荐用std::vector手动位操作、murmurhash3/xxhash，k取3~7，m设为2的幂以优化性能。

c++怎么实现布隆过滤器_c++大数据结构教程【节省】

布隆过滤器在 C++ 里必须自己写，标准库没有 `bloom_filter`

标准 C++ 库至今没提供布隆过滤器实现，std::set 或 absl::flat_hash_set 都不能替代——它们存的是完整 key，而布隆过滤器只存哈希指纹，内存省一个数量级。如果你正为海量 URL 去重、爬虫判重或实时风控做预检，又卡在内存上，那得自己搭。

核心就三块：位数组 + 多个独立哈希函数 + 插入/查询逻辑。别用 std::vector<bool></bool> 当位数组——它不是真正的 byte 数组，operator[] 返回 proxy 对象，多线程下可能出竞态；改用 std::vector<uint8_t></uint8_t> 手动 bit 操作更稳。

哈希函数建议用 MurmurHash3 或 xxHash 的 64 位变体，再对位数组长度取模，避免低质量哈希（比如 std::hash 对字符串连续 key 可能聚集）
误判率由位数组长度 m 和哈希函数个数 k 决定，公式是 (1 - exp(-k * n / m))^k，其中 n 是预期插入元素数；通常取 k = 0.7 * m / n 最优
别把 k 设太大（比如 >10），哈希计算开销会明显拖慢吞吐，实测 k=3~7 在多数场景已够用

插入和查询必须用同一套哈希逻辑，否则直接失效

这是最常踩的坑：插入时用 std::hash<:string></:string>，查询时换成了 boost::hash，或者哈希后没统一做 % m，结果查不到明明插过的 key，还以为数据丢了。

正确做法是把哈希封装成一个可复用的成员函数，比如 std::array<size_t k> hash_all(const std::string& key) const</size_t>，内部用同一个种子、同一种算法生成 K 个哈希值，并全部对 m 取模（注意：m 得是 2 的幂，否则取模慢；推荐用 m = 1 ，然后用位与 <code>& (m-1) 替代取模）。

立即学习“C++免费学习笔记（深入）”；

AiBiao.cn

一句话自动生成图表

下载

所有哈希值必须映射到位数组合法索引内，越界访问会导致未定义行为，Debug 版可用 assert(idx 拦住
插入时只置位，不检查原值；查询时只要有一个 bit 是 0，就确定不存在——这点不能反着来
别在查询时顺手“修复”缺失的 bit（比如自动补插），布隆过滤器不允许假阴性，一修就破戒

多线程环境下 `std::atomic` 不够用，得加锁

std::vector<uint8_t></uint8_t> 本身不支持原子 bit 操作，std::atomic<uint8_t></uint8_t> 只能整字节读写，而布隆过滤器要改单个 bit。强行用 fetch_or 改字节会误翻其他 key 的 bit，导致误判率飙升。

稳妥方案是用 std::shared_mutex（C++17）或 pthread_rwlock_t 控制读写：插入必须写锁，查询可以并发读锁。如果写入极少（比如初始化后只读）、查询极多，这个开销可接受；若写入频繁，就得考虑分片——把大位数组拆成 N 段，每段配独立锁，哈希时先 key % N 定片，降低锁争用。

别用 std::mutex 包整个操作——读多写少时太伤并发度
分片数 N 别设太小（64），实测 16~32 片在 16 核机器上平衡较好
分片后，每个分片的位数组长度要按总容量 / N 重新算，误判率公式里的 m 是单片长度，不是总长

删除操作不存在，别硬加 `remove()`

标准布隆过滤器不支持删除。网上有些“计数型布隆过滤器”（Counting Bloom Filter）用 uint8_t 计数代替 bit，但会吃更多内存（至少 4 倍），且计数溢出、减过头都会污染结果。除非你明确需要删除，且能承受内存翻倍+误判率上升，否则别碰。

真实业务中，与其折腾删除，不如换思路：定期重建过滤器（比如按小时滚动），或用二级结构兜底——布隆说“可能存在”，再查一次 std::unordered_set 确认；这样既保持布隆的内存优势，又规避了不可删的硬伤。

硬加 remove() 并清零对应 bit，等于把其他共享该 bit 的 key 也“删掉”了，后续查它们全返回 false
如果业务真强依赖删除，直接换 roaring bitmap 或 CRoaring，它们支持高效增删，且压缩比仍优于普通 set
哪怕只是想“逻辑删除”，也别改布隆本体——在外部维护一个 std::unordered_set<:string></:string> 存黑名单，查完布隆再过一遍黑名单

布隆过滤器的边界很清晰：它是个概率型存在性检查工具，不是通用集合。越想让它干更多事，越容易掉进内存、线程、一致性连环坑里。

C++ long long转int会丢失精度吗 C++ 强制转换技巧【注意】

C++怎么实现素数筛法_C++埃氏筛与欧拉筛【数学】

C++如何利用Pimpl模式（指向实现的指针）实现二进制兼容的ABI接口？

C++如何实现反射机制获取类元数据？（工程化技巧探讨）

C++ short强制类型转换溢出 C++ short数据丢失【警示】

相关专题

string转int

在编程中，我们经常会遇到需要将字符串(str)转换为整数(int)的情况。这可能是因为我们需要对字符串进行数值计算，或者需要将用户输入的字符串转换为整数进行处理。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

930

2023.08.02

c语言const用法

const是关键字，可以用于声明常量、函数参数中的const修饰符、const修饰函数返回值、const修饰指针。详细介绍：1、声明常量，const关键字可用于声明常量，常量的值在程序运行期间不可修改，常量可以是基本数据类型，如整数、浮点数、字符等，也可是自定义的数据类型；2、函数参数中的const修饰符，const关键字可用于函数的参数中，表示该参数在函数内部不可修改等等。

557

2023.09.20

js 字符串转数组

js字符串转数组的方法：1、使用“split()”方法；2、使用“Array.from()”方法；3、使用for循环遍历；4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容，供大家免费下载体验。

698

2023.08.03

js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容，供大家免费下载体验。

219

2023.09.04

java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友，请阅读本专题下面的的有关文章，欢迎大家来php中文网学习。

1561

2023.10.24

字符串介绍

字符串是一种数据类型，它可以是任何文本，包括字母、数字、符号等。字符串可以由不同的字符组成，例如空格、标点符号、数字等。在编程中，字符串通常用引号括起来，如单引号、双引号或反引号。想了解更多字符串的相关内容，可以阅读本专题下面的文章。

645

2023.11.24

java读取文件转成字符串的方法

Java8引入了新的文件I/O API，使用java.nio.file.Files类读取文件内容更加方便。对于较旧版本的Java，可以使用java.io.FileReader和java.io.BufferedReader来读取文件。在这些方法中，你需要将文件路径替换为你的实际文件路径，并且可能需要处理可能的IOException异常。想了解更多java的相关内容，可以阅读本专题下面的文章。

1128

2024.03.22

php中定义字符串的方式

php中定义字符串的方式：单引号；双引号；heredoc语法等等。想了解更多字符串的相关内容，可以阅读本专题下面的文章。

1102

2024.04.29

PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开，重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景，深入分析性能瓶颈定位与优化思路，帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

2026.03.04

热门下载

网站特效

网站源码

网站素材

前端模板