0

0

C++怎么用布隆过滤器 C++实现高性能查找算法【精析】

尼克

尼克

发布时间:2026-03-09 15:25:34

|

424人浏览过

|

来源于php中文网

原创

c++标准库不提供布隆过滤器,必须使用第三方实现或手写;初始化需指定容量和误判率,二者决定内存与哈希函数个数;不支持删除,误判率不可控,跨平台需统一哈希算法。

c++怎么用布隆过滤器 c++实现高性能查找算法【精析】

布隆过滤器在 C++ 里没有标准库实现

标准 C++(C++11/17/20)不提供 bloom_filter 或类似容器,你不能 #include <bloom_filter></bloom_filter>。所有生产级用法都依赖第三方实现或手写——这点必须先确认,否则会卡在头文件找不到上。

常见错误现象:error: 'bloom_filter' was not declared in this scope,往往是因为误以为它是 STL 的一部分。

  • 最轻量方案:用 boost::bloom_filter(Boost 1.79+),但需手动编译 Boost 或用 vcpkg/conan 安装
  • 更常用的是嵌入式友好型实现,比如 arashpartow/bloom(单头文件,#include "bloom.h" 即可)
  • 自己实现时,核心是 std::vector<bool></bool> + 多个哈希函数(如 std::hash 组合位运算),但要注意 std::vector<bool></bool> 是特化类型,迭代器行为和内存布局与普通 vector 不同

插入和查询前必须预估容量和误判率

布隆过滤器初始化时要传两个关键参数:capacity(预计元素总数)和 error_rate(允许的误判概率)。这两个值直接决定内存占用和哈希函数个数(k),且一旦构造就不能改。

例如用 arashpartow/bloom 初始化:

bloom_filter filter(100000, 0.01); // 容量 10 万,目标误判率 1%
如果实际插入 20 万个元素,误判率会飙升到 5% 以上,甚至接近失效。

立即学习C++免费学习笔记(深入)”;

Stable Diffusion Online
Stable Diffusion Online

基于Stable Diffusion搭建的AI绘图工具

下载
  • 误判率每降一个数量级(如从 0.1→0.01),空间开销约翻 1.4 倍
  • capacity 严重低估会导致频繁扩容失败(某些实现不支持动态扩容)
  • 哈希函数个数 k 通常由库自动算出:k = round((capacity * ln(2)) / bits_per_element),不用手算,但得知道它受那两个参数控制

不能删除元素是硬限制,别试图 hack

标准布隆过滤器不支持 remove() 操作。哪怕看到某个实现提供了 erase(),也大概率是「计数型布隆过滤器」(Counting Bloom Filter),它用 std::vector<uint8_t></uint8_t> 替代 std::vector<bool></bool>,内存翻 8 倍以上,且仍可能因计数溢出导致误删。

真实场景中,如果你需要增删查,应该换方案:std::unordered_set(小数据)、roaring bitmap(整数 ID 场景)、或者分层结构(布隆过滤器 + 后端精确存储)。

  • 强行对原生布隆过滤器做「标记删除」只会污染整个位数组,后续查询全部不可信
  • 有些教程教用多个布隆过滤器轮转,本质是用空间换逻辑,运维成本高,C++ 项目里极少这么干
  • 误判本身不可控——filter.might_contain(x) 返回 true 只表示「可能在」,false 才是确定不在;这个语义不能绕过

哈希函数选型影响跨平台一致性

如果你把布隆过滤器序列化后存到磁盘、或在不同机器间传递(比如服务端生成,客户端校验),哈希结果必须一致。而 std::hash 对同一字符串在不同 STL 实现(libstdc++ vs libc++)或不同编译器版本下可能不同。

实操建议:显式使用固定算法,比如 FNV-1aMurmurHash3,并封装成统一哈希器传给布隆过滤器构造函数。

  • arashpartow/bloom 允许传入自定义哈希器,形如 std::function<size_t std::string></size_t>
  • 避免用 std::hash<:string>()(s)</:string> 直接作为哈希源,尤其在 macOS(libc++)和 Linux(libstdc++)混合部署时
  • 如果只用于单机内存过滤(如去重请求 ID),用 std::hash 没问题,但得清楚边界

布隆过滤器不是万能的快速查找替代品,它的价值只在「极大数据集 + 可接受误判 + 只查不删」这个三角里成立。一旦漏掉其中任一条件,反而会让代码更难维护。

相关文章

数码产品性能查询
数码产品性能查询

该软件包括了市面上所有手机CPU,手机跑分情况,电脑CPU,电脑产品信息等等,方便需要大家查阅数码产品最新情况,了解产品特性,能够进行对比选择最具性价比的商品。

下载

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
scripterror怎么解决
scripterror怎么解决

scripterror的解决办法有检查语法、文件路径、检查网络连接、浏览器兼容性、使用try-catch语句、使用开发者工具进行调试、更新浏览器和JavaScript库或寻求专业帮助等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

472

2023.10.18

500error怎么解决
500error怎么解决

500error的解决办法有检查服务器日志、检查代码、检查服务器配置、更新软件版本、重新启动服务、调试代码和寻求帮助等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

375

2023.10.25

js 字符串转数组
js 字符串转数组

js字符串转数组的方法:1、使用“split()”方法;2、使用“Array.from()”方法;3、使用for循环遍历;4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容,供大家免费下载体验。

739

2023.08.03

js截取字符串的方法
js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容,供大家免费下载体验。

220

2023.09.04

java基础知识汇总
java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友,请阅读本专题下面的的有关文章,欢迎大家来php中文网学习。

1563

2023.10.24

字符串介绍
字符串介绍

字符串是一种数据类型,它可以是任何文本,包括字母、数字、符号等。字符串可以由不同的字符组成,例如空格、标点符号、数字等。在编程中,字符串通常用引号括起来,如单引号、双引号或反引号。想了解更多字符串的相关内容,可以阅读本专题下面的文章。

649

2023.11.24

java读取文件转成字符串的方法
java读取文件转成字符串的方法

Java8引入了新的文件I/O API,使用java.nio.file.Files类读取文件内容更加方便。对于较旧版本的Java,可以使用java.io.FileReader和java.io.BufferedReader来读取文件。在这些方法中,你需要将文件路径替换为你的实际文件路径,并且可能需要处理可能的IOException异常。想了解更多java的相关内容,可以阅读本专题下面的文章。

1188

2024.03.22

php中定义字符串的方式
php中定义字符串的方式

php中定义字符串的方式:单引号;双引号;heredoc语法等等。想了解更多字符串的相关内容,可以阅读本专题下面的文章。

1184

2024.04.29

JavaScript浏览器渲染机制与前端性能优化实践
JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开,系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理,以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例,帮助开发者理解浏览器底层工作原理,并掌握提升网页加载速度与交互体验的实用技巧。

59

2026.03.06

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
C# 教程
C# 教程

共94课时 | 11万人学习

C 教程
C 教程

共75课时 | 5.3万人学习

C++教程
C++教程

共115课时 | 21.2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号