国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 編程 > Python > 正文

數據挖掘之Apriori算法詳解和Python實現代碼分享

2020-02-23 06:08:36
字體:
來源:轉載
供稿:網友

關聯規則挖掘(Association rule mining)是數據挖掘中最活躍的研究方法之一,可以用來發現事情之間的聯系,最早是為了發現超市交易數據庫中不同的商品之間的關系。(啤酒與尿布)

基本概念

1、支持度的定義:support(X-->Y) = |X交Y|/N=集合X與集合Y中的項在一條記錄中同時出現的次數/數據記錄的個數。例如:support({啤酒}-->{尿布}) = 啤酒和尿布同時出現的次數/數據記錄數 = 3/5=60%。

2、自信度的定義:confidence(X-->Y) = |X交Y|/|X| = 集合X與集合Y中的項在一條記錄中同時出現的次數/集合X出現的個數 。例如:confidence({啤酒}-->{尿布}) = 啤酒和尿布同時出現的次數/啤酒出現的次數=3/3=100%;confidence({尿布}-->{啤酒}) = 啤酒和尿布同時出現的次數/尿布出現的次數 = 3/4 = 75%

同時滿足最小支持度閾值(min_sup)和最小置信度閾值(min_conf)的規則稱作強規則 ,如果項集滿足最小支持度,則稱它為頻繁項集

“如何由大型數據庫挖掘關聯規則?”關聯規則的挖掘是一個兩步的過程:

1、找出所有頻繁項集:根據定義,這些項集出現的頻繁性至少和預定義的最小支持計數一樣。
2、由頻繁項集產生強關聯規則:根據定義,這些規則必須滿足最小支持度和最小置信度。

Apriori定律

為了減少頻繁項集的生成時間,我們應該盡早的消除一些完全不可能是頻繁項集的集合,Apriori的兩條定律就是干這事的。

Apriori定律1:如果一個集合是頻繁項集,則它的所有子集都是頻繁項集。舉例:假設一個集合{A,B}是頻繁項集,即A、B同時出現在一條記錄的次數大于等于最小支持度min_support,則它的子集{A},{B}出現次數必定大于等于min_support,即它的子集都是頻繁項集。

Apriori定律2:如果一個集合不是頻繁項集,則它的所有超集都不是頻繁項集。舉例:假設集合{A}不是頻繁項集,即A出現的次數小于min_support,則它的任何超集如{A,B}出現的次數必定小于min_support,因此其超集必定也不是頻繁項集。

上面的圖演示了Apriori算法的過程,注意看由二級頻繁項集生成三級候選項集時,沒有{牛奶,面包,啤酒},那是因為{面包,啤酒}不是二級頻繁項集,這里利用了Apriori定理。最后生成三級頻繁項集后,沒有更高一級的候選項集,因此整個算法結束,{牛奶,面包,尿布}是最大頻繁子集。

Python實現代碼:

代碼如下:
Skip to content
Sign up Sign in This repository
Explore
Features
Enterprise
Blog
 Star 0  Fork 0 taizilongxu/datamining
 branch: master  datamining / apriori / apriori.py
hackerxutaizilongxu 20 days ago backup
1 contributor
156 lines (140 sloc)  6.302 kb RawBlameHistory  

發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 明光市| 大埔县| 县级市| 湖州市| 水城县| 九江县| 安庆市| 河北省| 岑巩县| 淳安县| 涿鹿县| 延长县| 中西区| 白银市| 肇庆市| 旌德县| 宁阳县| 理塘县| 竹溪县| 老河口市| 兰考县| 岑溪市| 彰武县| 郸城县| 本溪| 闻喜县| 五台县| 宁德市| 松江区| 五原县| 松溪县| 无为县| 邮箱| 承德市| 上饶县| 正阳县| 宁武县| 察雅县| 延庆县| 开平市| 子洲县|