国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 開發(fā) > 綜合 > 正文

(原創(chuàng))大數(shù)據(jù)時(shí)代:基于微軟案例數(shù)據(jù)庫數(shù)據(jù)挖掘知識(shí)點(diǎn)總結(jié)(Microsoft 時(shí)序算法)

2024-07-21 02:49:00
字體:
供稿:網(wǎng)友
(原創(chuàng))大數(shù)據(jù)時(shí)代:基于微軟案例數(shù)據(jù)庫數(shù)據(jù)挖掘知識(shí)點(diǎn)總結(jié)(Microsoft 時(shí)序算法)

前言

本篇文章同樣是繼續(xù)微軟系列挖掘算法總結(jié),前幾篇主要是基于狀態(tài)離散值或連續(xù)值進(jìn)行推測和預(yù)測,所用的算法主要是三種:Microsoft決策樹分析算法、Microsoft聚類分析算法、Microsoft Naive Bayes 算法,當(dāng)然后續(xù)還補(bǔ)充了一篇結(jié)果預(yù)測篇,所涉及的應(yīng)用場景在前幾篇文章中也有介紹,有興趣的同學(xué)可以點(diǎn)擊查看,本篇我們將總結(jié)的算法為Microsoft時(shí)序算法,此算法也是數(shù)據(jù)挖掘算法中比較重要的一款,因?yàn)樗械耐扑愫皖A(yù)測都將利用于未來,而這所有的一切都將有一條時(shí)間線貫穿始終,而這將是時(shí)序算法的側(cè)重點(diǎn)。

應(yīng)用場景介紹

通過前幾篇文章的介紹,我們已經(jīng)能預(yù)測出影響某種行為的因素有哪些,并且根據(jù)這些因素綜合挖掘出我們的最優(yōu)客戶群體(將會(huì)購買自行車),這也是上面介紹的幾種算法的長項(xiàng),但是會(huì)不會(huì)覺得從大數(shù)據(jù)中獲取的信息太少了點(diǎn),與很多問題僅僅通過上面幾種算法是推算不出來的,但這些信息恰巧是上層領(lǐng)導(dǎo)關(guān)注的,比如說:

1、作為數(shù)據(jù)分析人員,你能不能根據(jù)以往的銷售情況預(yù)測出明年的銷售業(yè)績?這樣的問題怎么解決?有哥們會(huì)這么解決了,哈...我取去年一年的銷售值做平均值,那如果不足一年呢?那要是預(yù)測明年一月份的呢?....

2、能不能根據(jù)以往的銷售情況預(yù)測出銷售的旺季,像房地產(chǎn)行業(yè)的“金九銀十”說的就是這個(gè),這些都是資深銷售人員的經(jīng)驗(yàn)總結(jié),但是你能保證公司里面有這種人?即便有你能保證他說的正確?即便正確能保證他說的適合別的產(chǎn)品?即便適合能保證適合不同的地區(qū)?....我那個(gè)去...這些的這些稍后我們讓數(shù)據(jù)來告訴你!

3、不同地區(qū)的銷售規(guī)律是否一致?也就是說是否為同一種銷售策略....哪一種銷售策略更適合那一類產(chǎn)品的方式..各種產(chǎn)品之間的銷售量是否會(huì)有影響、存不存在連帶銷售?是不適合我們做捆綁銷售。

以上的這些問題我們通過Microsoft時(shí)序算法都可以解決,而這些問題也就是該算法的應(yīng)用場景,閑言少敘,我們進(jìn)入本篇的正題。

技術(shù)準(zhǔn)備

(1)同樣我們利用微軟提供的案例數(shù)據(jù)倉庫(AdventureWorksDW2008R2),這這里我們只需要用到一張表,確切的說是一張視圖vTimeSeries,其實(shí)這里面就是記錄的往年不同月份的銷售匯總值,稍后我們將詳細(xì)分析這部分?jǐn)?shù)據(jù)。

(2)VS2008、SQL Server、 Analysis Services沒啥可介紹的,安裝數(shù)據(jù)庫的時(shí)候全選就可以了,這里前段時(shí)間有人問我為什么他的vs工具沒有新建數(shù)據(jù)挖掘工程的模板,這里提一下,其實(shí)vs作為微軟的主打開發(fā)軟件,所以它的更新速度是遠(yuǎn)遠(yuǎn)快于數(shù)據(jù)庫更新版本,所以要選擇開發(fā)數(shù)據(jù)挖掘解決方案的時(shí)候需要在開始菜單中找到SQL Server目錄下的vs連接即可。

操作步驟

(1)新建解決方案,然后數(shù)據(jù)源,然后數(shù)據(jù)源視圖,很簡單的步驟,不明白的可以看我們前面幾篇文章,我們直接看圖

我們給解決方案取了個(gè)名字,然后從數(shù)據(jù)源中找到了我們需要挖掘的表,將我們需要的表創(chuàng)建好,取了個(gè)名字為:SalesByArea,可以看到這張表就是記錄往年各個(gè)月份的銷售記錄和銷售業(yè)績,下面我們對(duì)這個(gè)表里面的數(shù)據(jù)進(jìn)行粗略分析。

(2)預(yù)覽數(shù)據(jù),分析源數(shù)據(jù)結(jié)構(gòu)內(nèi)容

這里我們需要對(duì)要分析的數(shù)據(jù)進(jìn)行分析,先看看里面有那些內(nèi)容,是不是滿足時(shí)序算法的數(shù)據(jù)要求條件。同樣我們右鍵“瀏覽數(shù)據(jù)”,我們選擇隨機(jī)抽樣,抽樣數(shù)據(jù)為5000行。具體方法這里不贅述,具體方法可參考前篇文章,我們直接看圖

這里面有幾列數(shù)據(jù),其實(shí)內(nèi)容挺簡單的,我們來看,有自行車品牌和地區(qū)、時(shí)間線、銷售數(shù)量、銷售額度、年、月、報(bào)告日期。從報(bào)告日期來看基本上是每個(gè)月的25號(hào)形成報(bào)告,然后每個(gè)月生成一份,在利用Microsoft時(shí)序算法中對(duì)數(shù)據(jù)是有要求的:

1、要求分析數(shù)據(jù)序列必須含有時(shí)間序列,并且序列值為連續(xù)...這個(gè)可以理解...如果沒有連續(xù)值就談不上推測,因?yàn)閿?shù)據(jù)本身他就沒有規(guī)律可循....

2、要求分析數(shù)據(jù)序列存在唯一標(biāo)示值,其實(shí)也就說傳統(tǒng)意義上面的主鍵,這個(gè)在每個(gè)算法中都要用

從上面的數(shù)據(jù)中我們可以將報(bào)告日期和第一列自行車品牌和地區(qū)(ModelRegion)形成組合主鍵滿足上面的第二點(diǎn)要求,因?yàn)橥粋€(gè)時(shí)間一個(gè)品牌在一個(gè)地區(qū)只能產(chǎn)生一個(gè)銷售值。

我們來詳細(xì)分析上面的時(shí)間看看能不能滿足第一個(gè)條件,我們選擇透視表,這個(gè)和Excel里面的透視表是一樣的,用起來基本沒啥問題,我們將明細(xì)數(shù)據(jù)拖入到區(qū)域中間,將列選擇報(bào)告日期、行選擇自行車品牌區(qū)域(ModelRegion),我們來看看數(shù)據(jù):

我們可以看到,這張往年銷售記錄表中包含了從2005年到2008年的銷售記錄,其中06年和07年都是全年每一個(gè)月份都會(huì)含有一個(gè)記錄,而2005年、08年只有半年的數(shù)據(jù),其實(shí)這里08年只有半年數(shù)據(jù)是正常的,因?yàn)槲④洶咐龜?shù)據(jù)庫AdventureWorksDW2008R2產(chǎn)生的日期就是在這里,也就是說我們會(huì)預(yù)測這之后的銷售記錄,05年只有半年表示數(shù)據(jù)時(shí)從這里開始的,這個(gè)沒啥問題...我們繼續(xù)向下拖動(dòng)

我去...這下面的幾種產(chǎn)品在05年、06年就沒有任何銷售記錄,這有兩種可能,第一種是這兩個(gè)產(chǎn)品從06年才開始引進(jìn)銷售的,所以之前的數(shù)據(jù)沒有是正常的,當(dāng)然還有一種極端的情況那就是這兩年這個(gè)產(chǎn)品銷售量就為0...對(duì)于這種情況我們要跟業(yè)務(wù)方確認(rèn)做處理,對(duì)于我們分析人員而言...銷售記錄不存在空值,也就是說這地方?jīng)]有銷售顯示值應(yīng)為0,而非空!

我們點(diǎn)擊年份進(jìn)入月份,詳細(xì)的看一下值。

看來這些數(shù)據(jù)開始日期真是從05年7月份開始,然后到08年6月結(jié)束,而且這之間每個(gè)月份的數(shù)據(jù)都是連續(xù)的,也就是說從開始到結(jié)束連續(xù)的每個(gè)月都有值,我們向下面拖

的確,下面的這幾種商品是從07年7月份開始產(chǎn)生銷售,結(jié)束日期都是到08年6月份結(jié)束。

經(jīng)過上面的分析,其實(shí)這種表中的數(shù)據(jù)是滿足我們Microsoft時(shí)序算法的數(shù)據(jù)要求的,其中存在連續(xù)的時(shí)間軸維度,只是有幾種產(chǎn)品銷售開始日期不是全部從開始日期開始的,對(duì)于這種情況時(shí)序算法是允許的,只要保證在我們時(shí)間軸維度中每一個(gè)序列都有統(tǒng)一的結(jié)束日期,并且區(qū)間時(shí)間為連續(xù)的既可以。

當(dāng)然可以通過其它方式分析源數(shù)據(jù),咱這里就不進(jìn)行了。

(3)新建挖掘結(jié)構(gòu)

在挖掘結(jié)構(gòu)上右鍵,現(xiàn)在新建數(shù)據(jù)挖掘結(jié)構(gòu),然后下一步...繼續(xù)然后下一步...這里不做贅述,不明白可以參考前幾篇文章,我們選擇Microsfoft時(shí)序算法,看圖

點(diǎn)擊下一步,有幾個(gè)關(guān)鍵點(diǎn)我們需要設(shè)置一下,我們來看圖:

這里我們將品牌和區(qū)域、報(bào)告日期聯(lián)合形成鍵列,將銷售量和銷售業(yè)績兩列即作為輸入又作為輸出,因?yàn)檫@兩列即使我們歷史分析要用的輸入值,也是我們以后將要推測的輸出列,當(dāng)然也可以通過建議進(jìn)行分析,這里我們很明白要做的事情,我們點(diǎn)擊下一步,

我們留下30%的事實(shí),做后面的準(zhǔn)確性驗(yàn)證測試,然后取個(gè)名字:Forecasting,然后選擇下一步

(4)參數(shù)配置

對(duì)于Microsoft時(shí)序算法有幾個(gè)參數(shù)比較重要,需要單獨(dú)配置,這里我們介紹一下

PERIODICITY_HINT:該參數(shù)提供了有關(guān)數(shù)據(jù)模式重復(fù)頻率的算法信息。簡單點(diǎn)講就是時(shí)間序列的重復(fù)迭代時(shí)間間隔,比如本篇文章中用到的時(shí)間軸就是為每個(gè)月更改一次,且周期為年為單位,所以我們將這個(gè)參數(shù)設(shè)置成12,意思是每十二個(gè)月重復(fù)一次。

然后我們就需要部署、處理該挖掘模型了。然后下一步我們進(jìn)行結(jié)果分析。

結(jié)果分析

部署完程序之后,我們通過“挖掘模型查看器”進(jìn)行查看分析,不廢話,我們直接看圖:

上面的圖就是Microsoft時(shí)序算法出來的結(jié)果圖了,挖掘模型查看器為這種算法提供了兩個(gè)面板查看,一個(gè)是圖表、另一個(gè)是模型,下面我們將以此詳細(xì)分析,平常最常用的就是圖表模型查看器,圖標(biāo)區(qū)分為兩塊,如上圖,前半部分模型歷史分析數(shù)據(jù),后面模糊區(qū)為推測區(qū)域,右側(cè)一個(gè)序列篩選的下拉選項(xiàng)框,從橫軸中我們可以看到,時(shí)間區(qū)間為2005年7月25——2007年11月25折線以實(shí)線表示,后面的區(qū)域?yàn)轭A(yù)測區(qū)域,預(yù)測區(qū)間為2008年7月25日至2008年11月25,折線以虛線表示。

嘿嘿...看起來是不是很清爽。

我們來選擇一個(gè)產(chǎn)品來看看,我們選擇M200 Europe、M200 NorthAmerica的銷量情況,下面看圖:

通過點(diǎn)擊圖表中間的點(diǎn)擊線,我們可以分析這款自行車在這個(gè)兩個(gè)地區(qū)一年中的銷售峰值為5月和12月,也就是所謂的旺季...這沒啥特別的對(duì)吧,5月大春天...嗯?米國五月應(yīng)該也是春天...春天適合戶外...自行車買的好也理所當(dāng)然,這里其實(shí)我們更關(guān)心明年的旺季或者淡季是啥時(shí)候,因?yàn)楦鶕?jù)此我們更能夠采取相應(yīng)的應(yīng)對(duì)措施,比如旺季多增加庫存,淡季減少庫存等吧,我們來看M200這款產(chǎn)品在08年的旺季是那個(gè)月....

看到了吧,08年的7月份將是這款產(chǎn)品的旺季,同樣淡季為九月份

而這是在歐洲的銷量,但是在北美就不一樣了,它反而是在08年的9月份為旺季,是吧,上圖中可以看到,說明這兩個(gè)區(qū)域的銷售量還會(huì)有蠻大區(qū)別的,僅僅憑靠經(jīng)驗(yàn)是分析不出來的對(duì)吧。同樣它的淡季反而提前到來了,看下圖:

同樣從上面的所有的這兩款產(chǎn)品的產(chǎn)品圖中可以看到,這兩款產(chǎn)品的銷量是蒸蒸日上,也就是所謂的朝陽好賣的產(chǎn)品,所帶來的利潤肯定也在未來將會(huì)更好,我們可以點(diǎn)擊推測出他們?cè)?8年的營業(yè)額度是多少。我們來看圖:

從上面圖可以看出,根據(jù)折線圖規(guī)律可以看出銷售額度和銷售量是相關(guān)的,汗...廢話!當(dāng)銷售量增加的時(shí)候,銷售額度也跟著增加,但是從上圖中可以看到一個(gè)有趣的信息,那就是在2006年6月25號(hào)以前銷售額度和銷售量是一條線,但是之后就分開了...對(duì)吧?這說明什么?...之后的銷售數(shù)量開始慢慢的比銷售額度增高了...啥意思?也就是說這款產(chǎn)品賣得多了,他的銷售額度反而少了...汗...啥原因?原因很簡單....產(chǎn)品降價(jià)了!..產(chǎn)品降價(jià)了所以它的銷量上去了,同比這里我說的是同比他的銷售額度反而降下來。

不管怎么著這款產(chǎn)品隨著時(shí)間的增長慢慢的開始大賣了..而且營業(yè)額也在增加,尤其在2007年底的時(shí)候有了一個(gè)大面積的跳躍,我估計(jì)是采取了比較好的措施。從圖中我們還可以看到將在2008年8月份有一個(gè)很大的銷售額度...推測出來的銷售額為2267%。當(dāng)你拿著這份預(yù)測成績單給BOSS...BOSS會(huì)不會(huì)睡夢中都能把自己笑醒...

是不是所有的產(chǎn)品都這么叫賣呢,我們來展開其它的幾款看看:

嘿嘿...我們找到了一款比較不叫座的產(chǎn)品...T1000,從圖中可以看到,這款產(chǎn)品是2007年8月份才上市的,并且已經(jīng)上市銷量開始提升,但是以后開始慢慢萎縮...我去...經(jīng)預(yù)測到08年的時(shí)候這款產(chǎn)品銷售額平平,還有大跌的趨勢!如果你作為領(lǐng)導(dǎo)層看到這種業(yè)績?cè)撜k?想法子?還是直接退市?

如果此曲線顯示不夠直觀,我們可以通過更改預(yù)測步驟數(shù),更改折線的平滑程度,來對(duì)未來的預(yù)測顯示的更直觀一點(diǎn)。當(dāng)然調(diào)整這個(gè)參數(shù)也可以更改預(yù)測區(qū)間

是吧...這個(gè)T1000產(chǎn)品到2011年的時(shí)候估計(jì)就埋沒了...看樣子還有可能成負(fù)數(shù)...也就是會(huì)出現(xiàn)賠本賺吆喝的境地,當(dāng)然預(yù)測的時(shí)間區(qū)間越遠(yuǎn),該算法的準(zhǔn)確度將更低,畢竟嘛誰也不能預(yù)測太久未來的事情,因?yàn)楹芏嘁蛩囟荚谧兓?/p>

下面我們來看看VS為我們提供的另一個(gè)面板“模型”,該面板提供了每一個(gè)序列類型根據(jù)數(shù)據(jù)內(nèi)容形成決策樹算法,推測每個(gè)序列隨著時(shí)間軸的進(jìn)展所影響該序列的因素值,詳細(xì)信息可以參照我前面的文章:Microsoft決策樹算法。

上圖中可以看到R250這款產(chǎn)品將以2007年8月22日這天為分界線,在這之前銷量值遠(yuǎn)遠(yuǎn)大于這之后的銷量,神馬原因?怎么回事?這些的就需要去咨詢業(yè)務(wù)部分了,我們從數(shù)據(jù)中可以看到這個(gè)狀況,這些情況的發(fā)生都一般都會(huì)有巨大的原因因素來促成,舉個(gè)例子:比如今年9月30,國內(nèi)發(fā)布了新的房貸政策...如果該曲線是房價(jià)預(yù)測線,這個(gè)因素就能體現(xiàn)在那天、再比如上一周北京持續(xù)霧霾...如果該曲線是口罩的銷售量預(yù)測線,這個(gè)因素就是促成這個(gè)節(jié)點(diǎn)的原因.....

這個(gè)面板展示結(jié)果我們就不詳細(xì)分析了,它的展示方式就是決策樹的分析方法,有興趣的同學(xué)可以參照我以前的文章。

上面的過程中我們只分析了整個(gè)挖掘的過程,根據(jù)折線圖分析了部分產(chǎn)品的趨勢和銷售問題,其實(shí)還缺少了最重要的一個(gè)步驟,那就是告訴我明年一年月份銷售的業(yè)績和銷售額度是多少,在我們以數(shù)據(jù)說話的時(shí)代,剛給我們產(chǎn)生一個(gè)趨勢圖用處有限,畢竟市面上隨便找一款圖表軟件我都能搞的出來,甚至搞的比你這個(gè)更好看!

我們后面的文章將解決這個(gè)問題,通過預(yù)測我能明確地預(yù)測出明年甚至后年每個(gè)月份的銷售業(yè)績和銷售額度是多少!拿著這份報(bào)告你就可以理直氣壯的去找BOSS,剩下的事就是他去做了....

結(jié)語

結(jié)語...該寫什么呢?我們來總結(jié)下,數(shù)據(jù)挖掘的含義,其實(shí)整個(gè)流程都是在利用數(shù)據(jù)加上數(shù)學(xué)來推測和預(yù)知未知的事情,而當(dāng)前的我們所利用的數(shù)學(xué)已經(jīng)可以來產(chǎn)生預(yù)測,同樣隨著IT行業(yè)互聯(lián)網(wǎng)近乎十年的蓬勃發(fā)展所積累的數(shù)據(jù)也可以滿足數(shù)據(jù)要求,并且隨著數(shù)據(jù)存儲(chǔ)成本的降低,結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的轉(zhuǎn)變成本降低,我們所身處的就是一個(gè)數(shù)據(jù)的海洋,而當(dāng)前迫切需要轉(zhuǎn)變的是我們,或者說是一個(gè)觀念的轉(zhuǎn)變,一個(gè)思維進(jìn)步的過程,這就是大數(shù)據(jù)時(shí)代的意義所在!

文章的最后我們給出前幾篇算法的文章連接:

Microsoft決策樹分析算法總結(jié)

Microsoft聚類分析算法總結(jié)

Microsoft Naive Bayes 分析算法

Microsoft算法結(jié)果預(yù)測篇

如果您看了本篇博客,覺得對(duì)您有所收獲,請(qǐng)不要吝嗇您的“推薦”。


發(fā)表評(píng)論 共有條評(píng)論
用戶名: 密碼:
驗(yàn)證碼: 匿名發(fā)表
主站蜘蛛池模板: 南溪县| 鹤壁市| 安乡县| 百色市| 民乐县| 安远县| 屯门区| 贵州省| 乐山市| 嘉祥县| 沅陵县| 通山县| 麟游县| 昔阳县| 江华| 正宁县| 秦安县| 常州市| 江达县| 新疆| 威海市| 原阳县| 洛宁县| 灵山县| 潞西市| 石柱| 长乐市| 耒阳市| 韶关市| 雷州市| 邳州市| 方山县| 山东省| 乡城县| 晴隆县| 兴仁县| 墨江| 福海县| 鹤峰县| 抚宁县| 桃园市|