国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 開發(fā) > 綜合 > 正文

數(shù)據(jù)倉庫和元數(shù)據(jù)管理

2024-07-21 02:39:01
字體:
來源:轉載
供稿:網(wǎng)友

  1. 前言
  在事務處理系統(tǒng)中的數(shù)據(jù),主要用于記錄和查詢業(yè)務情況。隨著數(shù)據(jù)倉庫(DW)技術的不斷成熟,企業(yè)的數(shù)據(jù)逐漸變成了決策的主要依據(jù)。數(shù)據(jù)倉庫是一種面向決策主題、由多數(shù)據(jù)源集成、擁有當前及歷史總結數(shù)據(jù)、以讀為主的數(shù)據(jù)庫系統(tǒng),其目的是支持決策。 數(shù)據(jù)倉庫要根據(jù)決策的需要收集來自企業(yè)內(nèi)外的有關數(shù)據(jù),并加以適當?shù)慕M織處理,使其能有效地為決策過程提供信息。數(shù)據(jù)倉庫中的數(shù)據(jù)是從許多業(yè)務處理系統(tǒng)中抽取、轉換而來,對于這樣一個復雜的企業(yè)數(shù)據(jù)環(huán)境,如何以安全、高效的方式來對它們進行治理和訪問就變得尤為重要。解決這一問題的要害是對元數(shù)據(jù)進行科學有效的治理。元數(shù)據(jù)是關于數(shù)據(jù)、操縱數(shù)據(jù)的進程和應用程序的結構和意義的描述信息,其主要目標是提供數(shù)據(jù)資源的全面指南。元數(shù)據(jù)不僅定義了數(shù)據(jù)倉庫中數(shù)據(jù)的模式、來源以及抽取和轉換規(guī)則等,而且整個數(shù)據(jù)倉庫系統(tǒng)的運行都是基于元數(shù)據(jù)的,是元數(shù)據(jù)把數(shù)據(jù)倉庫系統(tǒng)中的各個松散的組件聯(lián)系起來,組成了一個有機的整體。
  本文首先介紹了元數(shù)據(jù)的定義、作用和意義;然后討論了數(shù)據(jù)倉庫系統(tǒng)中元數(shù)據(jù)治理的現(xiàn)狀和關于元數(shù)據(jù)的標準化情況;最后提出了建立元數(shù)據(jù)治理系統(tǒng)的步驟和實施方法。
  
  2. 元數(shù)據(jù)
  2.1 元數(shù)據(jù)的概念
  按照傳統(tǒng)的定義,元數(shù)據(jù)(Metadata)是關于數(shù)據(jù)的數(shù)據(jù)。在數(shù)據(jù)倉庫系統(tǒng)中,元數(shù)據(jù)可以幫助數(shù)據(jù)倉庫治理員和數(shù)據(jù)倉庫的開發(fā)人員非常方便地找到他們所關心的數(shù)據(jù);元數(shù)據(jù)是描述數(shù)據(jù)倉庫內(nèi)數(shù)據(jù)的結構和建立方法的數(shù)據(jù),可將其按用途的不同分為兩類:技術元數(shù)據(jù)(Technical Metadata)和業(yè)務元數(shù)據(jù)(Business Metadata)。
  技術元數(shù)據(jù)是存儲關于數(shù)據(jù)倉庫系統(tǒng)技術細節(jié)的數(shù)據(jù),是用于開發(fā)和治理數(shù)據(jù)倉庫使用的數(shù)據(jù),它主要包括以下信息:
   數(shù)據(jù)倉庫結構的描述,包括倉庫模式、視圖、維、層次結構和導出數(shù)據(jù)的定義,以及數(shù)據(jù)集市的位置和內(nèi)容;
   業(yè)務系統(tǒng)、數(shù)據(jù)倉庫和數(shù)據(jù)集市的體系結構和模式;
   匯總用的算法,包括度量和維定義算法,數(shù)據(jù)粒度、主題領域、聚集、匯總、預定義的查詢與報告;
   由操作環(huán)境到數(shù)據(jù)倉庫環(huán)境的映射,包括源數(shù)據(jù)和它們的內(nèi)容、數(shù)據(jù)分割、數(shù)據(jù)提取、清理、轉換規(guī)則和數(shù)據(jù)刷新規(guī)則、安全(用戶授權和存取控制)。
  業(yè)務元數(shù)據(jù)從業(yè)務角度描述了數(shù)據(jù)倉庫中的數(shù)據(jù),它提供了介于使用者和實際系統(tǒng)之間的語義層,使得不懂計算機技術的業(yè)務人員也能夠“讀懂”數(shù)據(jù)倉庫中的數(shù)據(jù)。業(yè)務元數(shù)據(jù)主要包括以下信息:使用者的業(yè)務術語所表達的數(shù)據(jù)模型、對象名和屬性名;訪問數(shù)據(jù)的原則和數(shù)據(jù)的來源;系統(tǒng)所提供的分析方法以及公式和報表的信息;具體包括以下信息:
   企業(yè)概念模型:這是業(yè)務元數(shù)據(jù)所應提供的重要的信息,它表示企業(yè)數(shù)據(jù)模型的高層信息、整個企業(yè)的業(yè)務概念和相互關系。以這個企業(yè)模型為基礎,不懂數(shù)據(jù)庫技術和SQL語句的業(yè)務人員對數(shù)據(jù)倉庫中的數(shù)據(jù)也能做到心中有數(shù)。
   多維數(shù)據(jù)模型:這是企業(yè)概念模型的重要組成部分,它告訴業(yè)務分析人員在數(shù)據(jù)集市當中有哪些維、維的類別、數(shù)據(jù)立方體以及數(shù)據(jù)集市中的聚合規(guī)則。這里的數(shù)據(jù)立方體表示某主題領域業(yè)務事實表和維表的多維組織形式。
   業(yè)務概念模型和物理數(shù)據(jù)之間的依靠:以上提到的業(yè)務元數(shù)據(jù)只是表示出了數(shù)據(jù)的業(yè)務視圖,這些業(yè)務視圖與實際的數(shù)據(jù)倉庫或數(shù)據(jù)庫、多維數(shù)據(jù)庫中的表、字段、維、層次等之間的對應關系也應該在元數(shù)據(jù)知識庫中有所體現(xiàn)。
  
  2.2 元數(shù)據(jù)的作用
  在數(shù)據(jù)倉庫系統(tǒng)中,元數(shù)據(jù)機制主要支持以下五類系統(tǒng)治理功能:(1)描述哪些數(shù)據(jù)在數(shù)據(jù)倉庫中;(2)定義要進入數(shù)據(jù)倉庫中的數(shù)據(jù)和從數(shù)據(jù)倉庫中產(chǎn)生的數(shù)據(jù);(3)記錄根據(jù)業(yè)務事件發(fā)生而隨之進行的數(shù)據(jù)抽取工作時間安排;(4)記錄并檢測系統(tǒng)數(shù)據(jù)一致性的要求和執(zhí)行情況;(5)衡量數(shù)據(jù)質量。
  與其說數(shù)據(jù)倉庫是軟件開發(fā)項目,還不如說是系統(tǒng)集成項目[1],因為它的主要工作是把所需的數(shù)據(jù)倉庫工具集成在一起,完成數(shù)據(jù)的抽取、轉換和加載,OLAP分析和數(shù)據(jù)挖掘等。如圖1所示,它的典型結構由操作環(huán)境層、數(shù)據(jù)倉庫層和業(yè)務層等組成。
  
  其中,第一層(操作環(huán)境層)是指整個企業(yè)內(nèi)有關業(yè)務的OLTP系統(tǒng)和一些外部數(shù)據(jù)源;第二層是通過把第一層的相關數(shù)據(jù)抽取到一個中心區(qū)而組成的數(shù)據(jù)倉庫層;第三層是為了完成對業(yè)務數(shù)據(jù)的分析而由各種工具組成的業(yè)務層。圖中左邊的部分是元數(shù)據(jù)治理,它起到了承上啟下的作用,具體體現(xiàn)在以下幾個方面:
   便于集成
   提高系統(tǒng)的靈活性
   保證數(shù)據(jù)的質量
   幫助用戶理解數(shù)據(jù)的意義
  
  3. 數(shù)據(jù)倉庫元數(shù)據(jù)治理現(xiàn)狀
  元數(shù)據(jù)治理的主要任務有兩個方面:一是負責存儲和維護元數(shù)據(jù)庫中的元數(shù)據(jù);二是負責數(shù)據(jù)倉庫建模工具、數(shù)據(jù)獲取工具、前端工具等之間的消息傳遞,協(xié)調各模塊和工具之間的工作。
  由以上幾節(jié)我們了解到元數(shù)據(jù)幾乎可以被稱為是數(shù)據(jù)倉庫乃至商業(yè)智能(BI)系統(tǒng)的“靈魂”,正是由于元數(shù)據(jù)在整個數(shù)據(jù)倉庫生命周期中有著重要的地位,各個廠商的數(shù)據(jù)倉庫解決方案都提到了關于對元數(shù)據(jù)的治理。但遺憾的是對于元數(shù)據(jù)的治理,各個解決方案都沒有明確提出一個完整的治理模式;它們提供的僅僅是對特定的局部元數(shù)據(jù)的治理。當前市場上與元數(shù)據(jù)有關的主要工具見圖2。
  
  如圖2所示,與元數(shù)據(jù)相關的數(shù)據(jù)倉庫工具大致可分為四類:
  1. 數(shù)據(jù)抽取工具:把業(yè)務系統(tǒng)中的數(shù)據(jù)抽取、轉換、集成到數(shù)據(jù)倉庫中,如Ardent的DataStage、CA(原Platinum)的Decision Base和ETI的Extract等。這些工具僅提供了技術元數(shù)據(jù),幾乎沒有提供對業(yè)務元數(shù)據(jù)的支持。

  2. 前端展現(xiàn)工具:包括OLAP分析、報表和商業(yè)智能工具等,如MicroStrategy的DSS Agent、Cognos的PowerPlay、Business Objects的BO,以及Brio等。它們通過把關系表映射成與業(yè)務相關的事實表和維表來支持多維業(yè)務視圖,進而對數(shù)據(jù)倉庫中的數(shù)據(jù)進行多維分析。這些工具都提供了業(yè)務元數(shù)據(jù)與技術元數(shù)據(jù)相對應的語義層。
  3. 建模工具:為非技術人員預備的業(yè)務建模工具,這些工具可以提供更高層的與特定業(yè)務相關的語義。如CA的ERwin、Sysbase的PowerDesigner以及Rational的Rose等。
  4. 元數(shù)據(jù)存儲工具:元數(shù)據(jù)通常存儲在專用的數(shù)據(jù)庫中,該數(shù)據(jù)庫就如同一個“黑盒子”,外部無法知道這些工具所用到和產(chǎn)生的元數(shù)據(jù)是如何存儲的。還有一類被稱為元數(shù)據(jù)知識庫(Metadata Repository)的工具,它們獨立于其它工具,為元數(shù)據(jù)提供一個集中的存儲空間。包括微軟的Repository,CA的Repository,Ardent的MetaStage和Sybase的WCC等。
  
  4. 元數(shù)據(jù)治理的標準化
  沒有規(guī)矩不成方圓。元數(shù)據(jù)治理之所以困難,一個很重要的原因就是缺乏統(tǒng)一的標準。在這種情況下,各公司的元數(shù)據(jù)治理解決方案各不相同。近幾年,隨著元數(shù)據(jù)聯(lián)盟MDC(Meta Data Coalition)的開放信息模型OIM(Open Information Model)和OMG組織的公共倉庫模型CWM(Common Warehouse Model)標準的逐漸完善,以及MDC和OMG組織的合并,為數(shù)據(jù)倉庫廠商提供了統(tǒng)一的標準,從而為元數(shù)據(jù)治理鋪平了道路。
  從元數(shù)據(jù)的發(fā)展歷史不難看出,元數(shù)據(jù)治理主要有兩種方法:
  (1) 對于相對簡單的環(huán)境,按照通用的元數(shù)據(jù)治理標準建立一個集中式的元數(shù)據(jù)知識庫。
  (2) 對于比較復雜的環(huán)境,分別建立各部分的元數(shù)據(jù)治理系統(tǒng),形成分布式元數(shù)據(jù)知識庫,然后,通過建立標準的元數(shù)據(jù)交換格式,實現(xiàn)元數(shù)據(jù)的集成治理。
  下面我們分別介紹數(shù)據(jù)倉庫領域中兩個最主要的元數(shù)據(jù)標準:MDC的OIM標準和OMG的CWM標準。
  
  4.1 MDC的OIM存儲模型
  MDC成立于1995年,是一個致力于建立與廠商無關的、不依靠于具體技術的企業(yè)元數(shù)據(jù)治理標準的非贏利技術聯(lián)盟,該聯(lián)盟有150多個會員,其中包括微軟和IBM等聞名軟件廠商。1999年7月MDC接受了微軟的建議,將OIM作為元數(shù)據(jù)標準。
  OIM的目的是通過公共的元數(shù)據(jù)信息來支持不同工具和系統(tǒng)之間數(shù)據(jù)的共享和重用。它涉及了信息系統(tǒng)(從設計到發(fā)布)的各個階段,通過對元數(shù)據(jù)類型的標準描述來達到工具和知識庫之間的數(shù)據(jù)共享。OIM所聲明的元數(shù)據(jù)類型都采用統(tǒng)一建模語言UML(Universal Modeling Language)進行描述,并被組織成易于使用、易于擴展的多個主題范圍(Subject Areas),這些主題范圍包括:
   分析與設計(Analysis and Design):主要用于軟件分析、設計和建模。該主題范圍又進一步劃分為:UML包(Package)、UML擴展包、通用元素(Generic Elements)包、公共數(shù)據(jù)類型(Common Data Types)包和實體關系建模(Entity Relationship Modeling)包等。
   對象與組件(Object and Component):涉及面向對象開發(fā)技術的方方面面。該主題范圍只包含組件描述建模(Component Description Modeling)包。
   數(shù)據(jù)庫與數(shù)據(jù)倉庫(Database and Warehousing):為數(shù)據(jù)庫模式治理、復用和建立數(shù)據(jù)倉庫提供元數(shù)據(jù)概念支持。該主題范圍進一步劃分為:關系數(shù)據(jù)庫模式(Relational Database Schema)包、OLAP模式(OLAP Schema)包、數(shù)據(jù)轉換(Data Transformations)包、面向記錄的數(shù)據(jù)庫模式(Record-Oriented Database Schema)包、xml模式(XML Schema)包和報表定義(Report Definitions)包等。
   業(yè)務工程(Business Engineering):為企業(yè)運作提供一個藍圖。該主題范圍進一步劃分為:業(yè)務目標(Business Goal)包、組織元素(Organizational Elements)包、業(yè)務規(guī)則(Business Rules)包、商業(yè)流程(Business PRocesses)包等。
   知識治理(Knowledge Management):涉及企業(yè)的信息結構。該主題范圍進一步劃分為:知識描述(Knowledge

發(fā)表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發(fā)表
主站蜘蛛池模板: 皮山县| 武鸣县| 皮山县| 湘西| 湖口县| 阜平县| 龙陵县| 惠东县| 中西区| 沾益县| 南昌市| 吴旗县| 新沂市| 屯留县| SHOW| 石屏县| 登封市| 乌兰浩特市| 福贡县| 四子王旗| 贺兰县| 封丘县| 中山市| 大同县| 永平县| 拉萨市| 桑日县| 铜梁县| 德令哈市| 大港区| 藁城市| 阿坝县| 彝良县| 邵武市| 交城县| 平罗县| 会东县| 万盛区| 利川市| 平罗县| 会东县|