本文實例講述了Python實現的KMeans聚類算法。分享給大家供大家參考,具體如下:
菜鳥一枚,編程初學者,最近想使用Python3實現幾個簡單的機器學習分析方法,記錄一下自己的學習過程。
關于KMeans算法本身就不做介紹了,下面記錄一下自己遇到的問題。
一 、關于初始聚類中心的選取
初始聚類中心的選擇一般有:
(1)隨機選取
(2)隨機選取樣本中一個點作為中心點,在通過這個點選取距離其較大的點作為第二個中心點,以此類推。
(3)使用層次聚類等算法更新出初始聚類中心
我一開始是使用numpy隨機產生k個聚類中心
Center = np.random.randn(k,n)
但是發現聚類的時候迭代幾次以后聚類中心會出現nan,有點搞不清楚怎么回事
所以我分別嘗試了:
(1)選擇數據集的前K個樣本做初始中心點
(2)選擇隨機K個樣本點作為初始聚類中心
發現兩者都可以完成聚類,我是用的是iris.csv數據集,在選擇前K個樣本點做數據集時,迭代次數是固定的,選擇隨機K個點時,迭代次數和隨機種子的選取有關,而且聚類效果也不同,有的隨機種子聚類快且好,有的慢且差。
def InitCenter(k,m,x_train): #Center = np.random.randn(k,n) #Center = np.array(x_train.iloc[0:k,:]) #取數據集中前k個點作為初始中心 Center = np.zeros([k,n]) #從樣本中隨機取k個點做初始聚類中心 np.random.seed(5) #設置隨機數種子 for i in range(k): x = np.random.randint(m) Center[i] = np.array(x_train.iloc[x]) return Center
二 、關于類間距離的選取
為了簡單,我直接采用了歐氏距離,目前還沒有嘗試其他的距離算法。
def GetDistense(x_train, k, m, Center): Distence=[] for j in range(k): for i in range(m): x = np.array(x_train.iloc[i, :]) a = x.T - Center[j] Dist = np.sqrt(np.sum(np.square(a))) # dist = np.linalg.norm(x.T - Center) Distence.append(Dist) Dis_array = np.array(Distence).reshape(k,m) return Dis_array
三 、關于終止聚類條件的選取
關于聚類的終止條件有很多選擇方法:
(1)迭代一定次數
(2)聚類中心的更新小于某個給定的閾值
(3)類中的樣本不再變化
我用的是前兩種方法,第一種很簡單,但是聚類效果不好控制,針對不同數據集,穩健性也不夠。第二種比較合適,穩健性也強。第三種方法我還沒有嘗試,以后可以試著用一下,可能聚類精度會更高一點。
def KMcluster(x_train,k,n,m,threshold): global axis_x, axis_y center = InitCenter(k,m,x_train) initcenter = center centerChanged = True t=0 while centerChanged: Dis_array = GetDistense(x_train, k, m, center) center ,axis_x,axis_y,axis_z= GetNewCenter(x_train,k,n,Dis_array) err = np.linalg.norm(initcenter[-k:] - center) print(err) t+=1 plt.figure(1) p=plt.subplot(3, 3, t) p1,p2,p3 = plt.scatter(axis_x[0], axis_y[0], c='r'),plt.scatter(axis_x[1], axis_y[1], c='g'),plt.scatter(axis_x[2], axis_y[2], c='b') plt.legend(handles=[p1, p2, p3], labels=['0', '1', '2'], loc='best') p.set_title('Iteration'+ str(t)) if err < threshold: centerChanged = False else: initcenter = np.concatenate((initcenter, center), axis=0) plt.show() return center, axis_x, axis_y,axis_z, initcenter
新聞熱點
疑難解答