国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 編程 > Python > 正文

python實現聚類算法原理

2020-02-22 23:14:08
字體:
來源:轉載
供稿:網友

本文主要內容:

聚類算法的特點 聚類算法樣本間的屬性(包括,有序屬性、無序屬性)度量標準 聚類的常見算法,原型聚類(主要論述K均值聚類),層次聚類、密度聚類 K均值聚類算法的python實現,以及聚類算法與EM最大算法的關系 參考引用

先上一張gif的k均值聚類算法動態(tài)圖片,讓大家對算法有個感性認識:

其中:N=200代表有200個樣本,不同的顏色代表不同的簇(其中 3種顏色為3個簇),星星代表每個簇的簇心。算法通過25次迭代找到收斂的簇心,以及對應的簇。 每次迭代的過程中,簇心和對應的簇都在變化。

聚類算法的特點

聚類算法是無監(jiān)督學習算法和前面的有監(jiān)督算法不同,訓練數據集可以不指定類別(也可以指定)。聚類算法對象歸到同一簇中,類似全自動分類。簇內的對象越相似,聚類的效果越好。K-均值聚類是每個類別簇都是采用簇中所含值的均值計算而成。

聚類樣本間的屬性(包括,有序屬性、無序屬性)度量標準 1. 有序屬性

例如:西瓜的甜度:0.1, 0.5, 0.9(值越大,代表越甜)

我們可以使用明可夫斯基距離定義:

2. 無序屬性

例如:色澤,青綠、淺綠、深綠(又例如: 性別: 男, 女, 中性,人yao…明顯也不能使用0.1, 0.2 等表示求距離)。這些不能使用連續(xù)的值表示,求距離的,一般使用VDM計算:

聚類的常見算法,原型聚類(主要論述K均值聚類),層次聚類、密度聚類

聚類算法分為如下三大類:

1. 原型聚類(包含3個子類算法):

K均值聚類算法

學習向量量化

高斯混合聚類

2. 密度聚類:

3. 層次聚類:

下面主要說明K均值聚類算法(示例來源于,周志華西瓜書)

算法基本思想:

K-Means 是發(fā)現給定數據集的 K 個簇的聚類算法, 之所以稱之為 K-均值 是因為它可以發(fā)現 K 個不同的簇,且每個簇的中心采用簇中所含值的均值計算而成.簇個數 K 是用戶指定的, 每一個簇通過其質心(centroid), 即簇中所有點的中心來描述.

算法流程如下:

主要是三個步驟:

初始化選擇K個簇心,假設樣本有 m個屬性,則相當于k個m為向量 對于k個簇,求離其最近的樣本,并劃分新的簇 對于每個新的簇,更新簇心的向量(一般可以求簇的樣本的屬性的均值) 重復2~3直到算法收斂,或者運行了指定的次數
發(fā)表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發(fā)表
主站蜘蛛池模板: 洛宁县| 昭平县| 霍林郭勒市| 晋中市| 商丘市| 达州市| 垫江县| 襄城县| 格尔木市| 交口县| 民和| 望奎县| 东山县| 射洪县| 嘉义市| 乌兰察布市| 奉化市| 凤阳县| 潍坊市| 南昌县| 珲春市| 浦东新区| 竹山县| 吉水县| 神木县| 上林县| 延吉市| 临清市| 缙云县| 宝鸡市| 黄浦区| 兴业县| 隆林| 平和县| 荥阳市| 临朐县| 织金县| 太谷县| 永春县| 新乡县| 饶阳县|