淺談Python實現Apriori算法介紹

2020-02-16 11:11:22

字體：大中小

來源：轉載

供稿：網友

導讀：

隨著大數據概念的火熱，啤酒與尿布的故事廣為人知。我們如何發現買啤酒的人往往也會買尿布這一規律？數據挖掘中的用于挖掘頻繁項集和關聯規則的Apriori算法可以告訴我們。本文首先對Apriori算法進行簡介，而后進一步介紹相關的基本概念，之后詳細的介紹Apriori算法的具體策略和步驟，最后給出Python實現代碼。

1.Apriori算法簡介

Apriori算法是經典的挖掘頻繁項集和關聯規則的數據挖掘算法。A priori在拉丁語中指"來自以前"。當定義問題時，通常會使用先驗知識或者假設，這被稱作"一個先驗"（a priori）。Apriori算法的名字正是基于這樣的事實：算法使用頻繁項集性質的先驗性質，即頻繁項集的所有非空子集也一定是頻繁的。Apriori算法使用一種稱為逐層搜索的迭代方法，其中k項集用于探索(k+1)項集。首先，通過掃描數據庫，累計每個項的計數，并收集滿足最小支持度的項，找出頻繁1項集的集合。該集合記為L1。然后，使用L1找出頻繁2項集的集合L2，使用L2找出L3，如此下去，直到不能再找到頻繁k項集。每找出一個Lk需要一次數據庫的完整掃描。Apriori算法使用頻繁項集的先驗性質來壓縮搜索空間。

2. 基本概念

項與項集：設itemset={item1, item_2, …, item_m}是所有項的集合，其中，item_k(k=1,2,…,m)成為項。項的集合稱為項集（itemset），包含k個項的項集稱為k項集(k-itemset)。事務與事務集：一個事務T是一個項集，它是itemset的一個子集，每個事務均與一個唯一標識符Tid相聯系。不同的事務一起組成了事務集D，它構成了關聯規則發現的事務數據庫。關聯規則：關聯規則是形如A=>B的蘊涵式，其中A、B均為itemset的子集且均不為空集，而A交B為空。支持度(support)：關聯規則的支持度定義如下：