国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 開發(fā) > 綜合 > 正文

(原創(chuàng))大數(shù)據(jù)時(shí)代:基于微軟案例數(shù)據(jù)庫數(shù)據(jù)挖掘知識點(diǎn)總結(jié)(Microsoft 聚類分析算法)

2024-07-21 02:49:05
字體:
供稿:網(wǎng)友
(原創(chuàng))大數(shù)據(jù)時(shí)代:基于微軟案例數(shù)據(jù)庫數(shù)據(jù)挖掘知識點(diǎn)總結(jié)(Microsoft 聚類分析算法)

本篇文章主要是繼續(xù)上一篇Microsoft決策樹分析算法后,采用另外一種分析算法對目標(biāo)顧客群體的挖掘,同樣的利用微軟案例數(shù)據(jù)進(jìn)行簡要總結(jié)。

應(yīng)用場景介紹

通過上一篇中我們采用Microsoft決策樹分析算法對已經(jīng)發(fā)生購買行為的訂單中的客戶屬性進(jìn)行了分析,可以得到幾點(diǎn)重要的信息,這里做個(gè)總結(jié):

1、對于影響購買自行車行為最重要的因素為:家中是否有小汽車,其次是年齡,再次是地域

2、通過折疊樹對于比較想買自行車的顧客群體特征主要是:家里沒有車、年齡在45歲一下、不在北美地區(qū)、家里也沒有孩子(大米國里面的屌絲層次)、

同樣還有就是家里有一輛車、年齡在37到53之間、通勤距離小于10Miles,家里孩子少于4個(gè),然后年收入在58000$以上(大米國的高富帥了)

其實(shí)決策樹算法最主要的應(yīng)用場景就是分析影響某種行為的因素排序,通過這種算法我們可以知道某些特定群體他們都會(huì)有幾個(gè)比較重要的屬性,比如家里有沒有車、年齡等,但是我們想要分析這部分特定群體其特有屬性就沒法做到,而要分析這種特定群體所共同含有的共同屬性就需要今天我們的Microsoft聚類分析算法出場了,簡單點(diǎn)講就是:物以類分、人以群分,通過聚類分析算法我們要找到那些將要買自行車的顧客群里都有哪些屬性,比如當(dāng)我們晚上進(jìn)入廣場會(huì)看到,廣場大媽一群、兒童扎在一群、打籃球的一群、還有一群情侶在廣場邊幽暗的樹林里等等,而他們這些團(tuán)隊(duì)之間是有差別的,若果要去賣兒童玩具...那種群體是你最想靠近的自然而然了。

技術(shù)準(zhǔn)備

(1)同樣我們利用微軟提供的案例數(shù)據(jù)倉庫(AdventureWorksDW2008R2),兩張事實(shí)表,一張已有的歷史購買自行車記錄的歷史,另外一張就是我們將要挖掘的收集過來可能發(fā)生購買自行車的人員信息表,可以參考上一篇文章

(2)VS、SQL Server、 Analysis Services沒啥可介紹的,安裝數(shù)據(jù)庫的時(shí)候全選就可以了。


下面我們進(jìn)入主題,同樣我們繼續(xù)利用上次的解決方案,依次步驟如下:

(1)打開解決方案,進(jìn)入到“挖掘模型”模板

通過上面可以看到已經(jīng)存在一種決策樹算法了,我們來添加另外一種算法。

2、右鍵單擊“結(jié)構(gòu)”列,選擇“新建挖掘模型”,輸入名稱即可

點(diǎn)擊確定,這樣我們新建立的聚類分析就會(huì)增加在挖掘模型中,這里我們使用的主鍵和決策樹一樣,同樣的預(yù)測行為也是一樣的,輸入列也是,可以更改。

下一步,部署處理該挖掘模型。


結(jié)果分析

同樣這里面我們采用“挖掘模型查看器”進(jìn)行查看,這里挖掘模型我們選擇“Clustering”,這里面會(huì)提供四個(gè)選項(xiàng)卡,下面我們依次介紹,直接曬圖:

同樣這里面我們選擇要發(fā)生購買自行車的群里,顏色最深的為最可能購買自行車的群里,圖中箭頭我們已經(jīng)顯示出來了,同樣我們也可以找到最不可能買自行車的一群人,也就是“分類四”,他們之間線條的強(qiáng)弱表示關(guān)聯(lián)關(guān)系強(qiáng)弱,當(dāng)然這里為了好記我們可以給他們改改名,直接選擇類,右鍵重命名。

如上圖,下面我們要做的就是要分析這些群體有啥特征了,當(dāng)然我們最關(guān)心的為:最想買自行車的一群人、不想買自行車的也可以分析,至于不明真相的群體、路人群體甲、乙...這些個(gè)都是些打醬油的了,我們就不分析了。

我們打開“分類剖面圖”看看:

哈...這幾類群體的特征已經(jīng)展示出來了,如果玩數(shù)據(jù)久了,會(huì)對圖表有一種直觀敏銳,對數(shù)據(jù)也要保持一種特定的嗅覺。

我們重新整理一下這個(gè)“分類剖面圖”的列的順序,根據(jù)我們關(guān)注的強(qiáng)弱橫向依次展開,如圖:

圖中第一列為屬性,比如年齡、小汽車的數(shù)量、家里孩子數(shù)量等,第二列為各個(gè)屬性的圖例,這里面是根據(jù)屬性的值類型進(jìn)行的圖例展示,一般分為兩種,比如年齡在庫中存儲的值類型通常分布在1-100之間,故圖例采取分段取樣,形成一個(gè)從小到大的柱狀體,中間含有有一個(gè)棱形圖,棱形圖的大小代表屬性中群體的密集度,比如上圖的顧客集中在29歲到48歲之間:

當(dāng)然如果該屬性值不為離散的屬性值的話,就采取不同顏色的原型圖表表示,專業(yè)術(shù)語叫做:直方圖,面板中有一個(gè)地方可以設(shè)置直方圖條數(shù),也就是該屬性值所取得的最多屬性值個(gè)數(shù)。比如:家里孩子的總數(shù),一般分為0個(gè)、1個(gè)、2個(gè)、3個(gè)、其他...

納尼!...上面這個(gè)圖例中沒有3個(gè)孩子的,這里面的圖例也是通過數(shù)據(jù)采樣得到,只取量比較多的作為展示,上圖說明家里有3個(gè)孩子的比較少。

下面我們分析一下最想購買自行車的群體特征:

首先從圖中可以看到年齡集中在40來歲,平均為43.65歲

我汗....最小年齡為29歲.平均年齡43.65歲..最大年齡81.79歲..估計(jì)微軟案例數(shù)據(jù)庫中的數(shù)據(jù)也不一定可靠,抑或者米國的人群特征就這樣三十歲以下的人都不喜歡騎自行車反而80多歲的人還買自行車,或者這個(gè)店就不賣給三十歲以下的顧客,當(dāng)然有可能年輕人沒有買的,大部分是老人給孩子買的,這個(gè)就不分析了..反正數(shù)據(jù)是這么說的,有圖有真相!

家里沒有小汽車的或者只有一輛小汽車的購買的概率大部分集中在0.3以上...而大于一輛小汽車的家庭購買自行車的概率就很少...家里四輛車的概率則少到了0.003...接近不會(huì)買的概率了...

家里有一個(gè)孩子的概率最高0.483...家里沒有孩子的根本不會(huì)買自行車...我去...基本驗(yàn)證了我上面的推測,看來大部分人是買自行車給子女騎的,沒有孩子就不買了,上圖中的沒有子女的購買自信車的概率為0.000,還有一個(gè)屬性可以研究下,那就是是否有房子,看圖:

嗯...想買車的群體家里大部分都有房子,也就說有固定住所,他們買自行車的概率高達(dá)0.854...而沒有房子的則少到可憐...為0.146。

別的屬性也可以通過該屬性面板進(jìn)行分析,可以分析出我們想要的那部分群體的屬性特征,有針對性的做到定向營銷。

以上只是通過分類的剖面圖進(jìn)行了局部分析,VS還提供了另外一個(gè)專門列舉屬性特征的面板:分類特征。

我們點(diǎn)擊開這個(gè)面板看看:

通過上面的圖表展示,已經(jīng)將我們想要了解的這部分群體,赤裸裸的展現(xiàn)出來了,嗯,來瞅瞅..法國職業(yè):、英國職業(yè):

同樣我們也可以針對某一個(gè)屬性,有針對性的對兩組群體進(jìn)行比較,這里就應(yīng)用到另一個(gè)面板:“分類對比”,我突然想到可以針對“性別”這個(gè)屬性,把IT行業(yè)和非IT行業(yè)進(jìn)行對比,估計(jì)結(jié)果應(yīng)該不寒而栗...呵呵...題外話,下面看圖:

尼瑪...上圖的圖片我看了下..發(fā)現(xiàn)有一個(gè)屬性值特別有趣,年收入在10000-29950之間的基本是不打算買自行車了,然而年收入到了29950-1700000,想買自行車的概率就高很多了,上圖中可以看到。嗯...自行車也是車...想要買車還是得有錢才行。


準(zhǔn)確性驗(yàn)證

最后我們來驗(yàn)證一下今天這個(gè)聚類分析算法的準(zhǔn)確性如何,和上篇文章中的決策樹算法有何差距,我們點(diǎn)擊進(jìn)入數(shù)據(jù)挖掘準(zhǔn)確性圖表:

上圖中我們可以看到,今天這次用的聚類分析算法,分?jǐn)?shù)為0.72,比上一篇的決策樹算法0.87,還是略有差距的,當(dāng)然不能僅以分?jǐn)?shù)來評比兩種算法的好壞,不同的挖掘需求需要不同的挖掘模型,同樣不同的挖掘模型就需要不同的挖掘分析算法。

不過通過上圖有幾點(diǎn)需要特別注意的,數(shù)據(jù)分析算法的準(zhǔn)確性是要取決于基礎(chǔ)數(shù)據(jù)的多少,也就是說數(shù)據(jù)量越大,你所分析的數(shù)據(jù)結(jié)果將越準(zhǔn)確,同樣這也是未來大數(shù)據(jù)的概念的形成,沒有數(shù)據(jù)任何牛逼的算法也沒有招,而當(dāng)數(shù)據(jù)達(dá)到一定量級別之后,任務(wù)個(gè)別的不準(zhǔn)確也將被大數(shù)據(jù)的事實(shí)所掩蓋,這就是大數(shù)據(jù)時(shí)代的意義所在。

當(dāng)然凡事都得拿數(shù)據(jù)說話,不能憑空亂想,上圖中的理想模型也就是紅色的那條就驗(yàn)證了我剛才的說法,當(dāng)數(shù)據(jù)總體達(dá)到50%以后,我們的數(shù)據(jù)挖掘結(jié)果就是100分,100分啥含義?完全正確!也就是說你下一步想干啥是我們完全能推測出來的,當(dāng)然在數(shù)據(jù)量少的時(shí)候,我們就無能為力了,我們所利用的任何數(shù)據(jù)挖掘算法理論上講將無限的接近這條紅線(理想模型),將永遠(yuǎn)無法超越,而這接近的過程就是我們大數(shù)據(jù)時(shí)代的推動(dòng)。

當(dāng)然還有一條最爛的隨機(jī)預(yù)測模型它永遠(yuǎn)的以50%的概率神一般存在著...因?yàn)閷τ谫I自行車這件事只有兩種結(jié)果,一個(gè)是買,另一個(gè)就是不買,它所預(yù)測準(zhǔn)確的概率永遠(yuǎn)就是一半一半...50%.....。

對大數(shù)據(jù)有興趣的不要忘記你的“推薦”哦。

曬一句數(shù)據(jù)挖掘的力量:小樣,我就知道你會(huì)這么做!


發(fā)表評論 共有條評論
用戶名: 密碼:
驗(yàn)證碼: 匿名發(fā)表
主站蜘蛛池模板: 太湖县| 保德县| 阿拉尔市| 平度市| 嘉峪关市| 乌苏市| 嫩江县| 河南省| 广汉市| 凯里市| 北碚区| 禄丰县| 滨海县| 肥乡县| 盐亭县| 海门市| 昌宁县| 乌海市| 西华县| 湟源县| 洪洞县| 贵阳市| 盘锦市| 金川县| 南投县| 新沂市| 焦作市| 南宁市| 武山县| 迭部县| 梅州市| 甘孜县| 辽源市| 连平县| 嫩江县| 西乡县| 大同县| 星子县| 贞丰县| 玉林市| 麻江县|