《数据挖掘概念与技术》学习笔记第6章(6/10)挖掘大型数据库中的

php中文网
发布: 2016-06-07 15:12:08
原创
2006人浏览过

项目集 :项的集合,记为 I 。牛奶,面包,苹果, etc 事 务 :事务 T 是 I 中的一组项目的集合,每个事务都有个一个 TID 作为标识符号。 项目集 X 的支持度 Sup(X)=Count(X)/|D| 关联规则 X-Y 的支持度 Sup(X-Y)=Count(X-Y)/|D| 关联规则 X-Y 的置信度 Conf

项目集:项的集合,记为I。牛奶,面包,苹果,etc

  :事务TI中的一组项目的集合,每个事务都有个一个TID作为标识符号。

 

项目集X的支持度

         Sup(X)=Count(X)/|D|

关联规则X->Y的支持度

         Sup(X->Y)=Count(X->Y)/|D|

关联规则X->Y的置信度

Conf(X->Y)=Count( X->Y)/Count(X)

 

 

步骤:

1 找出所有频繁项集

2 有频繁项集产生强关联规则

 

算法之Apriori算法

核心思想

频繁1-项集then关联规则then剪枝
then
频繁2-项集then关联规则then剪枝
then
频繁3-项集then关联规则then剪枝
……

重复此过程直到做不下去为止

算法实现  以后单独写出

改进措施 FP(Frequent Pattern  Growth) 频繁模式增长

Codeium
Codeium

一个免费的AI代码自动完成和搜索工具

Codeium 228
查看详情 Codeium

 

多层关联规则

基本思想:

自顶向下,在每个概念层找寻频繁项集。然后①在该层发掘关联规则②适当剪枝,向下进入更具体的一层。

可选方案:

         1 使用一致的最小支持度

         2使用递减的最小支持度

         3 逐层独立

         4 层交叉单项过滤

         5 曾交叉k-项集过滤

 

多维关联规则

涉及两个或者多个维的关联规则

e.g age(X, “IBM desktop computer”)^occupation(“drive”r)=>buys(X, ”laptop”)

多维关联规则注意

强关联规则不一定是有趣的。比如,

buys(X, “computer games”)=>buys(X, “videos”) [Support=40%, confidence= 66%]

推导出来的结果可能是满足支持度和置信度的,但是却不是有趣的。

因为可能实际上不购买computer games而去购买video的人有75%,而同时购买了computer gamesvideos的人只有66%,说明其实computer gamesvideos是负相关。

 

最佳 Windows 性能的顶级免费优化软件
最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。

下载
来源:php中文网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号