本文為大家分享了機器學習10大經典算法,供大家參考,具體內容如下
1、C4.5
C4.5算法是機器學習算法中的一種分類決策樹算法,其核心算法是ID3算法. C4.5算法繼承了ID3算法的優點,并在以下幾方面對ID3算法進行了改進:
1)用信息增益率來選擇屬性,克服了用信息增益選擇屬性時偏向選擇取值多的屬性的不足;
2)在樹構造過程中進行剪枝;
3)能夠完成對連續屬性的離散化處理;
4)能夠對不完整數據進行處理。
C4.5算法有如下優點:產生的分類規則易于理解,準確率較高。其缺點是:在構造樹的過程中,需要對數據集進行多次的順序掃描和排序,因而導致算法的低效。
2、The k-means algorithm即K-Means算法
k-means algorithm算法是一個聚類算法,把n的對象根據他們的屬性分為k個分割,k < n。它與處理混合正態分布的最大期望算法很相似,因為他們都試圖找到數據中自然聚類的中心。它假設對象屬性來自于空間向量,并且目標是使各個群組內部的均方誤差總和最小。
3、Support vector machines支持向量機
支持向量機(Support Vector Machine),簡稱SV機(論文中一般簡稱SVM)。它是一種監督式學習的方法,它廣泛的應用于統計分類以及回歸分析中。支持向量機將向量映射到一個更高維的空間里,在這個空間里建立有一個最大間隔超平面。在分開數據的超平面的兩邊建有兩個互相平行的超平面。分隔超平面使兩個平行超平面的距離最大化。假定平行超平面間的距離或差距越大,分類器的總誤差越小。一個極好的指南是C.J.C Burges的《模式識別支持向量機指南》。van der Walt和Barnard將支持向量機和其他分類器進行了比較。
4、The Apriori algorithm
Apriori算法是一種最有影響的挖掘布爾關聯規則頻繁項集的算法。其核心是基于兩階段頻集思想的遞推算法。該關聯規則在分類上屬于單維、單層、布爾關聯規則。在這里,所有支持度大于最小支持度的項集稱為頻繁項集,簡稱頻集。
5、最大期望(EM)算法
在統計計算中,最大期望(EM,Expectation–Maximization)算法是在概率(probabilistic)模型中尋找參數最大似然估計的算法,其中概率模型依賴于無法觀測的隱藏變量(Latent Variabl)。最大期望經常用在機器學習和計算機視覺的數據集聚(Data Clustering)領域。
6、PageRank網頁排名
PageRank是Google算法的重要內容。2001年9月被授予美國專利,專利人是Google創始人之一拉里·佩奇(Larry Page)。因此,PageRank里的page不是指網頁,而是指佩奇,即這個等級方法是以佩奇來命名的。
新聞熱點
疑難解答