0

0

Redis中HyperLogLog数据类型如何使用

PHPz

PHPz

发布时间:2023-05-29 09:29:12

|

1146人浏览过

|

来源于亿速云

转载

1. HyperLogLog 的原理

redis hyperloglog使用概率算法——hyperloglog算法,来估计基数。使用一组哈希函数和长度为m的位数组,hyperloglog能够估算集合中独特元素的数量。

在 HyperLogLog 算法中,对每个元素进行哈希处理,把哈希值转换为二进制后,根据二进制串前缀中 1 的个数来给每个元素打分。例如,一个元素的哈希值为01110100011,那么前缀中1的个数是3,因此在 HyperLogLog 算法中,这个元素的分数为3。

  当所有元素的分数统计完之后,取每一个分数的倒数(1 / 2^n),然后将这些倒数相加后取倒数,就得到一个基数估计值,这个值就是HyperLogLog算法的估计结果。

  HyperLogLog算法通过对位数组的长度m的大小进行取舍,折衷数据结构占用的内存与估计值的精准度(即估计误差),得到了在数据占用空间与错误较小程度之间完美的平衡。

  简而言之,HyperLogLog算法的核心思想是基于哈希函数和位运算,通过将哈希值转换成比特流并统计前导0的个数,从而快速估算大型数据集中唯一值的数量。利用 hyperloglog 算法,我们能够快速识别非常大的数据集中的重复网页。

2.使用步骤:

  Redis HyperLogLog是一种可用于估算集合中元素数量的数据结构,它能够通过使用非常少的内存来维护海量的数据。它的精确性高于常规估算算法,并且处理大量数据时速度非常快。

  一个简单的例子,我们可以用HyperLogLog来计算访问网站的独立IP数,具体可以按以下步骤操作:

  • 首先创建一个HyperLogLog数据结构:  PFADD hll:unique_ips 127.0.0.1

  • 为每次访问ip添加到unique_ips数据结构中: PFADD hll:unique_ips 192.168.1.1

  • 获取计算集合中元素数量的近似值: PFCOUNT hll:unique_ips

  • 可以通过对多个HyperLogLog结构(例如按天或按小时)的合并,来获得更精确的计数。

  需要注意的是,HyperLogLog虽然可以节省大量的内存,但它是一种估计算法,误差范围并不是完全精确的,实际使用时应注意其适用范围。

3.实现请求ip去重的浏览量使用示例

Redis中HyperLogLog数据类型如何使用

4.Jedis客户端使用

  1. 添加依赖,引入jedis依赖:


    redis.clients
    jedis
    3.6.0

  2.创建一个Jedis对象:

Jedis jedis = new Jedis("localhost");

  3.向HyperLogLog数据结构添加元素:

jedis.pfadd("hll:unique_ips", "127.0.0.1");

  4.获取计算集合中元素数量的近似值:

Long count = jedis.pfcount("hll:unique_ips");
System.out.println(count);

  5.可以通过对多个HyperLogLog结构的合并来获得更精确的计数。在Jedis中可以使用PFMERGE命令来合并HyperLogLog数据结构:

jedis.pfmerge("hll:unique_ips", "hll:unique_ips1", "hll:unique_ips2", "hll:unique_ips3");

5.Redission使用依赖

  1.创建RedissonClient对象

Config config = new Config();
config.useSingleServer().setAddress("redis://localhost:6379");
RedissonClient redisson = Redisson.create(config);

  2.创建RHyperLogLog对象

RHyperLogLog uniqueIps = redisson.getHyperLogLog("hll:unique_ips");

  3.添加元素

Dbsite企业网站管理系统1.5.0
Dbsite企业网站管理系统1.5.0

Dbsite企业网站管理系统V1.5.0 秉承"大道至简 邦达天下"的设计理念,以灵巧、简单的架构模式构建本管理系统。可根据需求可配置多种类型数据库(当前压缩包支持Access).系统是对多年企业网站设计经验的总结。特别适合于中小型企业网站建设使用。压缩包内包含通用企业网站模板一套,可以用来了解系统标签和设计网站使用。QQ技术交流群:115197646 系统特点:1.数据与页

下载
uniqueIps.add("127.0.0.1");

  4..获取近似数量

long approximateCount = uniqueIps.count();
System.out.println(approximateCount);

  5.合并多个HyperLogLog对象

RHyperLogLog uniqueIps1 = redisson.getHyperLogLog("hll:unique_ips1");
RHyperLogLog uniqueIps2 = redisson.getHyperLogLog("hll:unique_ips2");
uniqueIps.mergeWith(uniqueIps1, uniqueIps2);

6.HyperLogLog 提供了哪些特性和方法

  特性:

  • 精确度低,但占用内存极少。

  • 支持插入新元素,同时不会重复计数。

  • 提供指令来优化内存使用和计数准确性。例如PFADD、PFCOUNT、PFMERGE等指令。

  • 能够估计一个数据集中的不同元素数量,即集合的基数(cardinality)。

  • 支持对多个HyperLogLog对象进行合并操作,以获得这些集合的总基数的近似值。

  HyperLogLog常用的方法:

  • PFADD key element [element ...]:添加一个或多个元素到HyperLogLog结构中。

  • PFCOUNT key [key ...]:获取一个或多个HyperLogLog结构的基数估计值。

  • PFMERGE destkey sourcekey [sourcekey ...]:合并一个或多个HyperLogLog结构到一个目标结构中。

  • PFSELFTEST [numtests]: 测试HyperLogLog估值性能和准确性(仅限Redis4.0+版本)

  需要注意的是,HyperLogLog虽然可以节省大量内存,但仍然是一种估计算法,误差范围并不是完全精确的,并且具有一定的计算成本。根据实际应用情况,需要斟酌是否要使用HyperLogLog或其他数据结构来估计元素数量。

7.使用场景总结:

  Redis使用HyperLogLog的主要作用是在大数据流(view,IP,城市)的情况下进行去重计数。

  具体来说,以下是Redis HyperLogLog用于去重计数的一些场景:

  • 统计页面访问量 - 在Web应用程序中, HyperLogLog可以使用为每个页面计算多少次独特的访问者。利用HyperLogLog技术,跨越不同的时间段计算该页面的平均访问量。

  • HyperLogLog在分析大数据集合中的用户数量方面具有显著的实用性。在处理独特的用户ID这类数据集合时,一种基于概率的数据结构显得尤为有效。HyperLogLog会在进行散列计算后,仅保存有限数量的散列值,并且能够推断出数据集的大小。

  • 统计广告点击量 - 对于网站或应用程序的广告分析,HyperLogLog可以用于捕获有效点击数量,即非重复或唯一点击数量。

相关专题

更多
PS使用蒙版相关教程
PS使用蒙版相关教程

本专题整合了ps使用蒙版相关教程,阅读专题下面的文章了解更多详细内容。

23

2026.01.19

java用途介绍
java用途介绍

本专题整合了java用途功能相关介绍,阅读专题下面的文章了解更多详细内容。

11

2026.01.19

java输出数组相关教程
java输出数组相关教程

本专题整合了java输出数组相关教程,阅读专题下面的文章了解更多详细内容。

3

2026.01.19

java接口相关教程
java接口相关教程

本专题整合了java接口相关内容,阅读专题下面的文章了解更多详细内容。

2

2026.01.19

xml格式相关教程
xml格式相关教程

本专题整合了xml格式相关教程汇总,阅读专题下面的文章了解更多详细内容。

4

2026.01.19

PHP WebSocket 实时通信开发
PHP WebSocket 实时通信开发

本专题系统讲解 PHP 在实时通信与长连接场景中的应用实践,涵盖 WebSocket 协议原理、服务端连接管理、消息推送机制、心跳检测、断线重连以及与前端的实时交互实现。通过聊天系统、实时通知等案例,帮助开发者掌握 使用 PHP 构建实时通信与推送服务的完整开发流程,适用于即时消息与高互动性应用场景。

13

2026.01.19

微信聊天记录删除恢复导出教程汇总
微信聊天记录删除恢复导出教程汇总

本专题整合了微信聊天记录相关教程大全,阅读专题下面的文章了解更多详细内容。

93

2026.01.18

高德地图升级方法汇总
高德地图升级方法汇总

本专题整合了高德地图升级相关教程,阅读专题下面的文章了解更多详细内容。

112

2026.01.16

全民K歌得高分教程大全
全民K歌得高分教程大全

本专题整合了全民K歌得高分技巧汇总,阅读专题下面的文章了解更多详细内容。

155

2026.01.16

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
进程与SOCKET
进程与SOCKET

共6课时 | 0.3万人学习

Redis+MySQL数据库面试教程
Redis+MySQL数据库面试教程

共72课时 | 6.4万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号