數據倉庫系統(tǒng)的建設過程和方法不同于建設傳統(tǒng)的操作型處理系統(tǒng)的過程和方法,數據倉庫系統(tǒng)建設有兩個難點:一是如何保證數據質量,使得數據準確可信;二是如何構造應用體系,使之滿足不同角色用戶的分析決策需要。
受生產系統(tǒng)現(xiàn)狀的影響,如數據源的數據不完整、不一致,數據抽取時間點不能同步,本地網之間存在市場競爭及業(yè)務規(guī)則的差異性,各專業(yè)之間統(tǒng)計口徑的不一致等,數據質量問題客觀存在,數據質量問題的管控工作將貫穿數據倉庫系統(tǒng)建設的整個過程。數據倉庫系統(tǒng)應用來源于用戶需求,來源于開發(fā)商的商業(yè)理解,應用的開發(fā)和完善也受到數據質量的制約。因此,數據倉庫系統(tǒng)建設需要實現(xiàn)數據和應用的互動。
數據倉庫對數據質量的要求
數據倉庫對數據質量的要求總體上歸納為:數據完整性,包括數據源是否完整、數據取值是否完整、維度取值是否完整等。數據準確性,包括數據源是否準確、編碼映射關系是否準確、處理邏輯是否準確等。數據核對準確的判斷是要么結果一致,要么不一致但原因是可解釋的。數據一致性,包括源系統(tǒng)之間同一數據是否一致,源數據與抽取的數據是否一致,數據倉庫內部各處理環(huán)節(jié)數據是否一致等。數據邏輯合理性,主要從業(yè)務邏輯的角度判斷數據是否正確,如帳目類型的金額、時長、次數的邏輯關系是否滿足等;月租費用不能出現(xiàn)通話次數、通話時長等。數據時效性,包括數據處理(獲取、整理、加載等)的及時性,數據異常檢測的及時性,數據處理回退的及時性等。
數據倉庫服務于經營決策,經營決策依據的數據應該是全面的、真實可靠的、有意義的。數據時效性如果得不到保證,就可能延誤了市場人員的分析,失去商機。
從數據倉庫的建設過程來看,它本身修復數據以提高數據質量的能力并不是很強,但是它能發(fā)現(xiàn)生產系統(tǒng)存在的一些數據質量問題從而提醒用戶哪些數據有質量問題,將數據問題反饋到業(yè)務支撐系統(tǒng)中,由后者做數據修正。
源數據質量現(xiàn)狀分析
傳統(tǒng)的業(yè)務支撐系統(tǒng)以滿足生產的業(yè)務處理為目標,以內部管理需求為出發(fā)點,各種支撐系統(tǒng)獨立設計,缺乏對企業(yè)整體業(yè)務流程的考慮,缺乏對資源的有效利用,在企業(yè)內部形成了許多信息孤島。主要體現(xiàn)在:
◆數據過于分散,手工處理數據和系統(tǒng)處理數據并存,數據格式多樣。
◆在數據模型上,實體語義定義、屬性定義、命名規(guī)則、編碼規(guī)則自成體系,難于與其他系統(tǒng)做匹配。
◆系統(tǒng)間存在同一實體數據記錄數不一致的現(xiàn)象,例如計費系統(tǒng)和九七系統(tǒng)中客戶數量不一致。
◆存在信息殘缺現(xiàn)象,沒有完整的統(tǒng)一客戶視圖。
◆在生產系統(tǒng)中存在需要拆分為具有原子性的數據, 源數據的粒度太粗不能滿足分析要求。
◆在同一省公司,不同本地網出帳時不一樣,造成數據提供時間不統(tǒng)一。
數據質量的改進存在以下難點:
◆數據量大,數據格式不統(tǒng)一。
◆數據質量標準不容易制定。◎數據清理的邊界不容易定義。
◆生產系統(tǒng)不斷升級改造、人員崗位調整等因素容易造成前清后亂。
由于數據倉庫系統(tǒng)的數據來源于計費、營賬、客服、網管等多種業(yè)務系統(tǒng),在各種源數據的整合過程中常發(fā)現(xiàn)不同系統(tǒng)中的數據不一致,同時源數據的質量問題比較突出。在數據倉庫系統(tǒng)建設初期數據質量不高在所難免,這需要在系統(tǒng)建設和使用過程中不斷進行修正和補充,從而逐步完善并最終解決系統(tǒng)的數據質量問題。
數據質量改進目標
目標是清理、標準化、提高和匹配現(xiàn)有數據。
通過數據整合,建立完整的、準確的、一致的統(tǒng)一客戶視圖,完善企業(yè)共享信息數據,并使企業(yè)共享信息數據服務于經營分析,為生產系統(tǒng)的改進提供標準。 建立數據整合流程,實現(xiàn)流程定義、流程配置和流程管控。 建立數據整合的規(guī)章制度,落實數據質量的分級負責。建立起數據整合隊伍,使數據質量能夠得以持續(xù)改進。
數據質量改進是一個持續(xù)的過程,在系統(tǒng)建設及應用推廣過程中,需要針對不同重要程度的數據,制定相應的數據質量評測及接受標準。對于階段目標應按照“近期打基礎,中期見成效,長期促戰(zhàn)略”的原則制定。
數據質量改進方法
數據質量控制要從技術、流程和管理三個方面進行。
從技術層面上,生產系統(tǒng)存在的噪音數據、遺漏數據和不一致性數據,需要進行數據清洗;同時需要對源數據做稽核,如總量稽核和分量稽核。
在流程層面上,對于源數據的抽取要遵從一定的業(yè)務規(guī)則,數據的抽取和轉換需要很多步驟來完成,這就需要將過程流程化,并且流程可通過配置來實現(xiàn)。
在管理層面上,要求生產系統(tǒng)報送數據,按照“誰提供數據,誰負責”的原則由生產系統(tǒng)保證源數據的完整性、準確性、一致性、時效性。
應用推動數據質量改進
數據整合的目的是為了支撐應用,讓經營分析系統(tǒng)真正能夠被用起來,核心的問題還是要找到應用的“驅動力”。對中國電信而言,滿足精確化管理、精確資源配置、上市公司信息披露要求是重點。
各地的具體情況不同,因此應遵循“因地制宜、總體規(guī)劃、分步實施、迅速受益、不斷完善”的原則進行應用推廣。不追求一步到位,建議以點帶面,通過“亮點”應用帶動相關數據質量整改。例如通過收入分析主題,可以發(fā)現(xiàn)量收不匹配的問題,促使生產系統(tǒng)檢查收入的計算規(guī)則。
這樣通過應用發(fā)現(xiàn)數據中存在的問題,并將問題反饋給生產系統(tǒng);通過應用讓用戶看到效果,調動起用戶的熱情,并為其樹立起信心;通過應用引起領導的重視,保證資源的有效投入;讓各級部門關注數據問題,讓責任部門有壓力也有動力。
數據質量改進案例分析
從實施中國電信6省營銷分析情況來看,數據質量改進普遍存在如何定義數據質量評價標準、如何實現(xiàn)數據質量管理的閉環(huán)過程、如何界定數據質量改進過程中各系統(tǒng)間的功能邊界三個難點問題。
如何定義數據質量評價標準——首先前端、后端、管控部門根據其專業(yè)對數據的不同要求,評價標準各有不同(如后端業(yè)務支撐部門對數據的要求是保障其系統(tǒng)的正常運行;前端業(yè)務部門對數據的要求是真實反映市場情況;管控部門要求數據要和財務報表保持一致)。數據倉庫建設也要結合實際情況,合理制定各階段數據質量評價標準,以保障系統(tǒng)建設的順利進行。
如何實現(xiàn)數據質量管理的閉環(huán)過程——在實際操作中,由于沒有形成數據質量的改進閉環(huán),很容易出現(xiàn)“前清后亂”的情況,這需要制定一個完善的數據質量管理流程,以實現(xiàn)數據質量的持續(xù)改進。
如何界定數據質量改進過程中各系統(tǒng)間的功能邊界——數據質量問題牽涉到提供源數據的生產系統(tǒng)和數據倉庫系統(tǒng),在質量改進中必然存在由誰來進行改進的問題,界定改進過程中系統(tǒng)間功能邊界也是數據質量管理的難點問題。
針對這三個問題,通常在各省基本采用以下方法加以解決
◆建立由管理層牽頭的數據管理機構,推動數據質量的改進工作
數據質量改進與管理的關系密不可分。在數據質量的管理上,需要建立一個由省公司主管部門牽頭,相關部門和集成商參與的項目小組負責數據質量標準定義和控制。責任人落實到各個分公司的生產系統(tǒng)業(yè)務主管或省公司各生產系統(tǒng)業(yè)務主管。如果發(fā)現(xiàn)有質量問題向各個本地網分公司進行通報,從而保障了數據質量改進的有效推行。
◆制定可操作的數據質量管理制度 管理部門需要和集成商一起根據實際情況制定可操作的管理制度,主要的管理制度包括,分階段定義的數據質量目標、數據評價辦法、數據管控流程、統(tǒng)一編碼、數據核對規(guī)則等。 ◎完善的數據質量控制流程是持續(xù)改進的基礎
在進行數據質量改進實施過程中,需要根據數據質量問題的特點制定一套數據質量控制流程,為提高數據質量水平起到了關鍵的作用。
◆ETL集中監(jiān)控和元數據管理的技術實現(xiàn)
自行開發(fā)了ETL集中監(jiān)控模塊和元數據管理功能模塊。 在元數據管理中對數據和處理過程做了定義,用戶有了一個數據倉庫地圖。如果數據源或者抽取邏輯發(fā)生變化,用戶可以分析對其他元數據的影響。
通過ETL集中監(jiān)控模塊可以對數據的整體處理流程進行定義;將數據質量評價標準以數據校驗程序化,并作為流程中的一個環(huán)節(jié)配置到流程中;用戶可以對處理過程實施監(jiān)控,對于數據異常能夠及時得到告警信息和錯誤報告。
通過以上措施,在數據質量上可以取得以下實際效果:
數據整合過程得以規(guī)范化,也減輕了維護人員的工作負擔。
各級人員對數據質量變得敏感,如果發(fā)現(xiàn)有質量問題向各個本地網分公司進行通報,從領導到具體責任人都關心數據質量問題,提高了相關人員對數據質量的重視程度和工作責任心。
數據質量穩(wěn)步提高,例如通過對計費、九七、渠道系統(tǒng)客戶數據的對比、過濾、合并等方法,使得客戶資料逐步趨于完整和一致。
持續(xù)改進思路
通過數據清理,將逐漸形成完整和準確的企業(yè)數據視圖,為經營分析和生產支撐提供可靠的數據來源。由于數據源系統(tǒng)會不斷升級,同時經營分析系統(tǒng)的數據模型也存在優(yōu)化和發(fā)展。數據質量是一個持續(xù)改進、反復迭代、螺旋上升的過程。數據質量任重道遠,不可能一勞永逸,要作為長期的任務來抓。 例如在客戶資料的清理上,可以按照“先大客戶,然后商業(yè)客戶,再次公眾客戶”,在客戶屬性上“先保證客戶消費屬性,后社會屬性”的思路做清理。對每一種客戶類型也可以劃分成幾個階段: 第一階段 整理客戶、用戶、帳戶三戶模型,通過歸并、篩選、補充等方法在現(xiàn)有生產系統(tǒng)上先建立起統(tǒng)一的客戶標識、帳戶標識、用戶(銷售品實例)標識;建立起客戶與用戶之間的對應關系、客戶與帳戶的對應關系,用戶與帳戶之間的對應關系。
第二階段 整理產品/銷售品,定義新的產品目錄表,按產品/優(yōu)惠套餐定義銷售品目錄;將原有產品映射到新定義的產品目錄表中;將新功能映射成附屬產品;并定義出產品與產品實例對應關系、產品實例間的對應關系、產品實例與定價計劃和客戶協(xié)議之間的對應關系。
第三階段 補充客戶社會屬性,通過第一階段和第二階段建立起客戶消費屬性,再通過CRM系統(tǒng)和CSS系統(tǒng)補充客戶社會屬性,形成統(tǒng)一的企業(yè)客戶視圖。
新聞熱點
疑難解答