C# 布隆过滤器实现方法 C#如何实现一个概率性数据结构

月夜之吻

发布时间：2026-02-04 08:10:15

349人浏览过

来源于php中文网

原创

因HashSet存完整元素致内存超载，而布隆过滤器仅用位数组和哈希函数实现高效存在性判断（允许误判），适用于URL去重等场景。

c# 布隆过滤器实现方法 c#如何实现一个概率性数据结构

为什么不用 `HashSet` 而要手写布隆过滤器

当数据量上亿、内存敏感且只需「判断是否存在」（允许少量误判）时，HashSet 的空间开销会成为瓶颈——它存的是完整元素，而布隆过滤器只用 k 个哈希位 + 一个位数组。典型场景：URL 去重、爬虫 URL 过滤、防缓存击穿的前置校验。

关键点在于：布隆过滤器不支持删除（除非用计数型变种），且无法枚举元素。别把它当 Dictionary 用，它只回答「这个值 很可能 存在过」。

`BloomFilter` 的核心参数怎么设才不翻车

三个参数决定精度和内存：位数组长度 m、哈希函数个数 k、预期插入元素数 n。设错会导致误判率飙升或浪费内存。

误判率公式：p ≈ (1 − e^(−kn/m))^k，工程中常用近似：设 m = -n * ln(p) / (ln(2)^2)，k = m / n * ln(2)
例如：预计存 100 万条，接受 1% 误判率 → m ≈ 9.6M bit ≈ 1.2MB，k = 7
实际编码时，k 取整后用 7 个独立哈希（推荐用 MurmurHash3 拆分种子，而非调用 GetHashCode() 多次——后者分布差、易碰撞）

如何避免线程不安全导致的位翻转错误

多个线程并发 Add() 同一个位索引时，若未同步，可能漏置位（虽不影响正确性），但 Contains() 在高并发下若读到未完全写完的位数组，可能返回假阴性（极少见）或假阳性（更常见）。这不是理论问题，是真实压测中出现过的现象。

实操建议：

Presentations.AI

AI驱动创建令人惊叹的演示文稿

下载

用 ConcurrentDictionary 包一层？不行——失去空间优势
用 Interlocked.Or() 原子更新单个 ulong（64 位），但需自己做位偏移计算
更稳妥：用 BitArray + lock 细粒度锁（按位数组分段加锁，比如每 1024 位一个 object 锁）
生产环境推荐直接用 Microsoft.Extensions.Caching.Memory 配合自定义策略，或引入 Google.Guava 的 C# 移植版（如 NetBloom），它们已处理好并发与扩容

为什么 `String` 直接喂给 `GetHashCode()` 会崩

.NET 的 string.GetHashCode() 是进程内随机种子，每次重启结果不同；跨 .NET 版本也可能变。布隆过滤器一旦序列化落盘或集群共享，哈希不一致就全废了。

必须用确定性哈希：

禁用："abc".GetHashCode()
改用：MurmurHash3.Hash(Encoding.UTF8.GetBytes("abc"), 0x12345678)（固定 seed）
对 int 等值类型，可用 Unsafe.As(ref value) 转为字节再哈希，避免装箱
如果用 Span 构造哈希输入，性能比 byte[] 高 20%+（尤其短字符串）

布隆过滤器最常被忽略的不是算法，而是哈希的确定性和位数组的持久化一致性——哪怕参数算得再准，哈希一漂移，整个结构就变成概率性错误而非概率性过滤。

go是c语言中关键字吗

c语言与go语言的区别是什么

C# LINQ查询缓存方法 C#如何缓存EF Core的LINQ查询编译结果

C# MAUI平台特定代码方法 C#如何调用Android和iOS原生API

c# 事件 event 是如何工作的

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：C# 哈希表Hashtable使用方法 C# Hashtable和Dictionary的区别下一篇：暂无

作者最新文章

三角洲正版游戏入口腾讯三角洲行动官网入口

2026-02-03 17:52

拼多多怎么用电脑登录官方网页版登录入口

2026-02-03 17:55

2026拼多多最新网页版电脑登录官方入口

2026-02-03 17:56

4399植物大战僵尸游戏入口官方正版在线体验

2026-02-03 18:02

163邮箱注册登录入口网易邮箱账号登录入口

2026-02-03 18:03

2026年AO3大陆访问方法官方指定镜像网站导航

2026-02-03 18:24

yy漫画完整版隐藏入口_yy漫画完整版全集免费

2026-02-03 18:28

皮皮喵漫画在线入口最新皮皮喵漫画所有漫画列表在线阅读

2026-02-03 18:29

vivo手机微信视频美颜怎么设置？教你轻松开启视频聊天美颜【方法】

2026-02-03 18:33

12306怎么选下铺铁路12306买票如何指定下铺【详细教程】

2026-02-03 18:35

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI 编程开发 AI 聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI 编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI 编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 AI 聊天问答

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI 编程开发 AI 文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI 文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI 编程开发 AI 文本写作

智谱清言 - 免费全能的AI助手

AI 编程开发 Agent智能体

相关专题

guava包作用

guava是一个java库，增强了java标准库，提供更有效率和易于使用的集合、实用程序、缓存和并发工具。想了解更多guava的相关内容，可以阅读本专题下面的文章。

264

2024.05.29

string转int

在编程中，我们经常会遇到需要将字符串(str)转换为整数(int)的情况。这可能是因为我们需要对字符串进行数值计算，或者需要将用户输入的字符串转换为整数进行处理。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

543

2023.08.02

js 字符串转数组

js字符串转数组的方法：1、使用“split()”方法；2、使用“Array.from()”方法；3、使用for循环遍历；4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容，供大家免费下载体验。

381

2023.08.03

js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容，供大家免费下载体验。

213

2023.09.04

java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友，请阅读本专题下面的的有关文章，欢迎大家来php中文网学习。

1506

2023.10.24

字符串介绍

字符串是一种数据类型，它可以是任何文本，包括字母、数字、符号等。字符串可以由不同的字符组成，例如空格、标点符号、数字等。在编程中，字符串通常用引号括起来，如单引号、双引号或反引号。想了解更多字符串的相关内容，可以阅读本专题下面的文章。

628

2023.11.24

java读取文件转成字符串的方法

Java8引入了新的文件I/O API，使用java.nio.file.Files类读取文件内容更加方便。对于较旧版本的Java，可以使用java.io.FileReader和java.io.BufferedReader来读取文件。在这些方法中，你需要将文件路径替换为你的实际文件路径，并且可能需要处理可能的IOException异常。想了解更多java的相关内容，可以阅读本专题下面的文章。

738

2024.03.22