国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 開發 > 綜合 > 正文

企業信息化如何發揮數據挖掘的效力(收藏)

2024-07-21 02:06:14
字體:
來源:轉載
供稿:網友

  我國的銀行、證券、電信、保險行業都在大談“數據集中”,希望在此基礎上實現客戶關系管理和商業智能。“數據挖掘工程師”這個新穎的職位名稱,也隱約出現在企業的招聘職位欄里。

數據挖掘到底有沒有 用?一些企業的領導人對此懷有疑慮。數據挖掘人員口里念叨的是一些稀奇古怪的技術名詞,他們的出身復雜,即不完全是學計算機的,也不像統計學家,更不是營銷策劃人員,他們得到的結果不容易理解,他們的工作對我的企業發展到底意味著什么?一些技術出身的管理者可能會熱捧數據挖掘,希望從中盡快找出新的商業模式,找到新的賺錢機會;而商業直覺強烈的管理者則容易抵觸這種精確的定量分析方法,數據挖掘本身的缺陷也導致它容易遭受攻擊。

為了更好地發揮數據挖掘的效力,需要的是企業管理者的理解、數據挖掘人員的更多努力。本文作者根據過去數據挖掘項目的經驗,試圖對一些混淆不清的問題做出解釋。

1.結果的應用

問題:數據挖掘的結果有一部分是以概率數據的形式提交的,這是最容易招致非議的地方。企業管理者可能會問,我要你對我的客戶流失做出預測,為什么你不能準確地告訴我究竟是哪些客戶下個月會流失?而只能告訴我每個客戶流失的概率。我要你預測哪些客戶會發生保險欺詐,你提交的仍然是客戶騙保的概率。這樣的概率值我如何使用,我敢用嗎?

解釋:數據挖掘建立的預測模型,是對真實世界的近似,原因是企業客戶數據庫中儲存的客戶的行為信息是不可能面面俱到的,可能沒有搜集儲存到的那些客戶信息恰恰是與客戶是否流失或騙保最相關的信息,因此依據已有的信息建立的預測模型是不精確的,得不出確定性結果,而只能是概率值。這樣的結果仍然是有用的,因為預測出來的那些流失概率高的客戶中,實際流失的往往特別多,企業重點對這部分客戶實施挽留維系,針對性就特別強,能節省企業的資源開銷。同樣,欺詐概率較高的客戶中,實際發生欺詐行為的比率也比別的客戶群體中高出很多,因此專門的調查人員可以重點對這些客戶進行調查,往往事半功倍。資源的節省,即意味著效益的增長。

2. 變量的選擇

問題:建立預測模型是一個很吸引人的想法。預測的目標比較好確定,你要預測客戶流失,那么“客戶是否流失”(二值變量)就是目標變量;你要預測股票的漲跌,那么“收市價是否上升”就是目標變量。但是如何確定哪些變量作為自變量(回想一下高中代數中關于函數的定義),則頗費周折。換句話說,要確定哪些因素與目標變量有關系,往往是見仁見智。這個問題解決不好,則會直接影響預測模型的性能。那么,究竟應該是企業業務人員來決定,還是數據挖掘人員決定呢?

解釋:最佳的方式是雙方的結合。企業業務人員長期的業務經驗,使他們能夠敏銳地感覺到哪些因素與目標變量密切相關。但是經驗是有局限的,甚至束縛人的思維,企業業務人員會遺漏很多表面無關但實際上很重要的因素,而且因為人腦的處理能力有限,有時不得不忽略一些因素及一些因素之間的復雜微妙的相互影響,而這正是數據挖掘人員可以發揮作用的地方。統計學中有大量的成熟的方法,可以幫助我們挑選合適的變量來構造我們的預測模型。

還有一種常見的現象:數據挖掘人員挑選的某個變量,事后發現對模型精度的提高很有好處,但是可能得不到合理的業務解釋,這時候,企業業務人員會要求刪除這個變量。實際上,數據挖掘的結果常常超出我們的想象,我們的本能就是趨向于拒絕無法理解的東西,甚至冒著損害模型預測性能的風險--這種做法是有害的,因為當前無法解釋并不意味著以后也無法解釋(據說沃爾瑪的“啤酒與尿布”的規則發現也是事后輔之以市場調研才得到解釋的);數據挖掘結果并不是憑空得來,而是借助于上千年來人類發展的數學理論在無數次證實有效的復雜算法基礎上得到的,不能簡單地予以否定;更何況,如果這個變量進入預測模型,被證明是有利于模型精度的,則去掉是很可惜的。不要忘記“實踐是檢驗真
理的唯一標準”這一基本法則。

3.對“提升度(lift)”的迷信

問題:在對預測模型的性能評估有所了解后,企業業務人員可能經常會問數據挖掘工程師:“你的模型的提升度是多少?”似乎低于3.0就是一個壞模型。那么究竟要達到多少才能夠接受呢?

解釋:提升度是衡量預測模型的一個重要指標,但不是唯一的。我們還有混合矩陣、響應捕獲率、roc曲線、基于門限的診斷圖等等。不同行業的模型提升度是不同的,同一行業的不同地區也可能不同。我們曾經試驗過,用大致相同的自變量因素預測手機用戶流失,在廣東某地的模型的提升度只有2.2,而該模型在另一個時段應用時的提升度高達5.2,而在湖北某地能達到7.0。因此,模型的接受程度不能僅以提升度為標準,而應該以其預測結果能創造的效益來衡量,計算其投資回報率。但是,數據挖掘人員應該主動想辦法,嘗試不同的增強辦法,在不導致模型發生“過擬合”(overfitting)的前提下,盡量提高模型的預測精度,因為模型精度的一個百分點上升,就可能意味著商家的上百萬元的增收節支。

4.細分的目的性

問題:數據挖掘產生的客戶細分,與傳統的經驗細分相比,能夠考慮客戶更多的行為屬性,得到更豐富的細分可能性,每個客戶群體具有更鮮明的行為特征。但是,什么樣的客戶細分結果才是好的?將客戶分成多少個群體是最合適的?群體之間的人數相差懸殊是否就是一個很差的細分結果?

解釋:預測性模型的好壞有很多衡量指標,但客戶細分的模型性能則沒有一定的衡量標準。事先我們并不知道一個客戶應該屬于哪個群體。客戶的細分模型的好壞,更多地要從業務角度來評判。將客戶分成上百個群體,確實能夠達到更細致地了解各群體客戶的目的,但是我們的客戶經理顧得過來嗎?現有的客戶管理系統能夠支持這么多客戶群體的處理嗎?如果不能,則要量力而行少分幾個群體。群體之間的人數有時相差很大,可能是客戶總體中確實是有某些大群大群的客戶的行為很接近,同時也有一些小群小群的客戶展示出相同的行為特征,這些人少的客戶群體可能是具有異常行為的一組人,例如,具有欺詐行為特征的群體。如果業務處理上關系(例如,規定每個客戶經理負責大致相等數量的客戶),企業常常會要求將各個群體的人數細分得比較均勻一點,這時同一群體中客戶特征的相似性會受到一點損害。

另外,因為數據挖掘工具的強大,數據挖掘人員可能會著迷于提出一大堆的細分結果,而忽視細分的目的,而企業業務人員則可能以為這些細分就是定論,不能再做調整。最佳的做法,應該是企業業務人員和數據挖掘人員的緊密交互,根據業務需求確定細分方案,并嘗試多種調整,從中選擇一種合理合適的方案和結果。例如,如果想重點對客戶的長途通話行為予以細分,則可以多選取與長途有關的因素作為細分變量,甚至將這些變量乘以某個權重因子,更加強調它們的作用。

5.工具的選擇

問題:數據挖掘工具的昂貴性是眾所周知的。貴的有數百萬元一套供租用兩年的,便宜的有數十萬元購買的。如何選擇?

解釋:應該根據企業的需求、預算、使用人員素質等方面來確定。如果每年需要建立數百個模型、數據和模型的管理非常復雜,數據挖掘的預期效益非常大,使用人員具有很好的理論基礎和應用水平,則應該選擇功能強大、靈活快捷的挖掘工具;否則應該考慮那些功能相對單一、套件式的工具產品。企業可以留意一些咨詢機構推出的挖掘軟件評測報告。值得一提的是,國外流行的一些免費軟件,如ade-4、lisp-stat、r等,也逐步被國內人士認識并使用。其中的r是一種獨立的編程軟件,具有眾多的程序包(packages)可供調用,其開發靈活性幾乎不亞于如同sas這樣的巨型商業軟件,但是對使用人員具有較高的要求。

6.不是“挖掘”能解決的問題

問題:企業界由于長期缺乏定量分析的傳統,在向分析人員提出業務需求時,并不是按照是否屬于數據挖掘范疇來劃分的。例如,企業可能會提出如何優化自己的網絡資源,如何對有眾多隨機因素的不確定系統(物流、工廠供應鏈、排隊系統等)提出最優的操作方案,如何根據現狀推演未來的市場份額變化和競爭優勢。數據挖掘能夠勝任這些工作嗎?

解釋:學術意義上,這些都不屬于數據挖掘的領域,而分別屬于運籌學、離散事件仿真、系統動力學仿真的領域。這些技術在目前我國企業的應用很少,數據挖掘人員應該擴展自己的陣地,將自己的統計分析能力和數據建模能力往前推進一步,滿足企業的新的需要。例如,電信行業時常談論的“營銷預演”,即在營銷方案實施之前就能預知結果,從而事先調整好方案,以追求最佳的效果,實際上是一個典型的競爭動力學仿真問題,。這樣的問題,需要考慮時間因素,考慮因素之間的正、負反饋,對各種因素的相互作用建立起結構化模型,經過校驗后,用于實際場景的預測。由于是在計算機上運行的模型,企業管理者可以無風險地在模型上試驗自己的任何想法,檢驗各種因素調整對效益的影響,檢驗對競爭對手的反應是否恰當,及自己的行為對市場環境會造成什么影響。

總之,數據挖掘連同其它的數學建模方法,對我國企業界挖潛革新、多創效益,將發揮越來越顯著的作用。這將依賴于企業業務人員和數據挖掘人員和其它類分析人員的艱苦探索。
author:岳亞丁   
發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 德令哈市| 曲水县| 乡宁县| 南宁市| 马边| 德化县| 老河口市| 凤山县| 南昌县| 金昌市| 衢州市| 南川市| 沐川县| 镇坪县| 曲水县| 安塞县| 昌宁县| 栖霞市| 孝义市| 苍溪县| 宝丰县| 平山县| 海淀区| 博罗县| 天津市| 高青县| 巫溪县| 武穴市| 吉林市| 德州市| 汨罗市| 天祝| 新源县| 肥乡县| 同心县| 靖安县| 绥江县| 龙胜| 凉城县| 沅陵县| 涪陵区|