什么是聚類分析?聚類分析屬于探索性的數(shù)據(jù)分析方法。通常,我們利用聚類分析將看似無(wú)序的對(duì)象進(jìn)行分組、歸類,以達(dá)到更好地理解研究對(duì)象的目的。聚類結(jié)果要求組內(nèi)對(duì)象相似性較高,組間對(duì)象相似性較低。在三國(guó)數(shù)據(jù)分析中,很多問(wèn)題可以借助聚類分析來(lái)解決,比如三國(guó)人物身份劃分。聚類分析的基本過(guò)程是怎樣的?
在分析三國(guó)人物身份的時(shí)候,我們會(huì)根據(jù)一定的假設(shè),盡可能選取對(duì)角色身份有影響的變量,這些變量一般包含與身份密切相關(guān)的統(tǒng)率、武力、智力、政治、魅力、特技、槍兵、戟兵、弩兵、騎兵、兵器、水軍等。但是,聚類分析過(guò)程對(duì)用于聚類的變量還有一定的要求: 這些變量在不同研究對(duì)象上的值具有明顯差異;這些變量之間不能存在高度相關(guān)。因?yàn)椋紫龋糜诰垲惖淖兞繑?shù)目不是越多越好,沒(méi)有明顯差異的變量對(duì)聚類沒(méi)有起到實(shí)質(zhì)意義,而且可能使結(jié)果產(chǎn)生偏差;其次,高度相關(guān)的變量相當(dāng)于給這些變量進(jìn)行了加權(quán),等于放大了某方面因素對(duì)用戶分類的作用。 識(shí)別合適的聚類變量的方法: 對(duì)變量做聚類分析,從聚得的各類中挑選出一個(gè)有代表性的變量;做主成份分析或因子分析,產(chǎn)生新的變量作為聚類變量。
相對(duì)于聚類前的準(zhǔn)備工作,真正的執(zhí)行過(guò)程顯得異常簡(jiǎn)單。數(shù)據(jù)準(zhǔn)備好后,丟到分析軟件(通常是分析服務(wù))里面跑一下,結(jié)果就出來(lái)了。 這里面遇到的一個(gè)問(wèn)題是,把人物分成多少類合適?通常,可以結(jié)合幾個(gè)標(biāo)準(zhǔn)綜合判斷:1. 看拐點(diǎn)2. 憑經(jīng)驗(yàn)或人物特性判斷3. 在邏輯上能夠清楚地解釋
確定一種分類方案之后,接下來(lái),我們需要返回觀察各類別三國(guó)人物在各個(gè)變量上的表現(xiàn)。根據(jù)差異檢驗(yàn)的結(jié)果,我們以顏色區(qū)分出不同類用戶在這項(xiàng)指標(biāo)上的水平高低。
在理解和解釋用戶分類時(shí),最好可以結(jié)合更多的數(shù)據(jù),例如,三國(guó)志12數(shù)據(jù)等……最后,選取每一類別最明顯的幾個(gè)特征為其命名,就大功告成啦!
下面我們進(jìn)入主題,同樣我們繼續(xù)利用上次的解決方案,依次步驟如下:在挖掘模型中,主要是列出所建立的挖掘模型,也可以新增挖掘模型,并調(diào)整變量,變量使用情況包含Ignore(忽略)、Input(輸入變量)、PRedict(預(yù)測(cè)變量、輸入變量)以及PredictOnly(預(yù)測(cè)變量),如圖所示:
而在挖掘模型上點(diǎn)擊鼠標(biāo)右鍵,選擇“設(shè)置算法參數(shù)”針對(duì)方法論的參數(shù)設(shè)置加以編輯,其中包含:CLUSTER_COUNT:指定算法所要建立的聚類的近似數(shù)目。如果無(wú)法從數(shù)據(jù)中建立聚類的近似數(shù)目,算法便會(huì)盡可能建立聚類。若將CLUSTER_COUNT設(shè)置為0,則算法便會(huì)使用啟發(fā)式?jīng)Q定所應(yīng)建立的聚類數(shù)目,默認(rèn)值為10。CLUSTER_SEED:指定在模型建立的初始階段,用于隨機(jī)產(chǎn)生聚類的種子數(shù)。CLUSTERING_METHOD:算法使用的聚類方法可以是可擴(kuò)展的EM(1)、不可擴(kuò)充的EM(2)、可擴(kuò)充的K-means(3)或不可擴(kuò)充的K-means(4)。MAXIMUM_INPUT_ATTRIBUTE:指定在調(diào)用功能選項(xiàng)之前,算法可以處理輸入屬性的最大數(shù)目。將此值設(shè)置為0,會(huì)指定沒(méi)有屬性最大數(shù)目的限制。MAXIMUM_STATES:指定算法所支持屬性狀態(tài)的最大數(shù)目。如果屬性擁有的狀態(tài)數(shù)目大于狀態(tài)的最大數(shù)目,算法會(huì)使用屬性最常用的狀態(tài)并將其他的狀態(tài)視為遺漏。MINIMUM_SUPPORT:此參數(shù)指定每個(gè)聚類中的最小案例數(shù)目。MODELLING_CARDINALITY:此參數(shù)指定聚類處理期間建構(gòu)的范例模型數(shù)目。SAMPLE_SIZE:指定如果CLUSTERING_METHOD參數(shù)設(shè)置為可擴(kuò)充的聚類方法時(shí),算法使用在每個(gè)行程上的案例數(shù)目。將SAMPLE_SIZE設(shè)置為0會(huì)導(dǎo)致整個(gè)數(shù)據(jù)集在單一進(jìn)程中聚類,如此可能會(huì)造成內(nèi)存和效率的問(wèn)題。STOPPING_TOLERANCE:指定用來(lái)決定何時(shí)到達(dá)聚合以及算法完成建立模型的值。當(dāng)聚類概率的整體變更小于SHOPPING_TOLERANCE除以模型大小的比率時(shí),就到達(dá)聚合。
挖掘模型查看器則是呈現(xiàn)此聚類分析結(jié)果,其中聚類圖表則是表現(xiàn)各類關(guān)聯(lián)性的強(qiáng)弱,對(duì)于數(shù)據(jù)的分布進(jìn)一步加以了解。而在每一聚類結(jié)點(diǎn)上,點(diǎn)擊右鍵,再出現(xiàn)的菜單上選擇“鉆取”,則可以瀏覽屬于這一類的樣本數(shù)據(jù)特征。從“分類剖面圖”了解因變量與自變量間的關(guān)聯(lián)性強(qiáng)弱程度,如圖
“分類特性”主要是呈現(xiàn)每一類的特性,見圖在“分類對(duì)比”上,主要就是呈現(xiàn)出兩類間特性的比較,如圖
參考文獻(xiàn):Microsoft 聚類分析算法http://msdn.microsoft.com/zh-cn/library/ms174879.aspx
新聞熱點(diǎn)
疑難解答
圖片精選