国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 開發 > 綜合 > 正文

數據倉庫之我見(概念篇)

2024-07-21 02:09:20
字體:
來源:轉載
供稿:網友
,歡迎訪問網頁設計愛好者web開發。1.什么是數據倉庫
在w.h.inmon所著"building the data warehouse"一書中給出了數據倉庫的定義:"數據倉庫是面向主題的、整合的、穩定的,并且時變的收集數據以支持管理決策的一種數據結構形式。",說的通俗一點:數據倉庫技術也就是俗稱的分布式數據庫加上一種制約條件,而形成的新的數據存儲和處理方法。

而這個制約的規則正式本書討論的重點。
2.從數據庫à數據倉庫的轉變
為什么在有了這么多數據庫產品之后,人們又要用數據倉庫技術。業界的各路諸侯又如此趨之若鶩。這正是計算機技術應用需求的推動。當年數據庫技術大發展的過程是伴隨著oltp(on line transaction process聯機業務處理)應用需求的推動。聯機業務處理最迫切的技術要求就是快速響應。數據庫技術,特別是基于e. f. codd提出的關系理論的數據庫的技術,將數據集分成了甚少冗余的實體(entity),然后又將它們按一定的關系(relationship)編織成一個有機的整體,比較完美地滿足了oltp的應用需求。對于每個業務處理最好只須涉及一個實體,業務處理對于實體的add或update也只涉及數據媒體的可能最小的空間(如記錄級封鎖技術),對于其它實體的相關更新通過關系保持了一致性和完整性。這個切合當時oltp應用實際需求的理論和技術的成功,推動了關系數據庫產品風靡世界。呵呵,是不是看得不太明白,沒關系,多看幾遍就明白了,這個含義是指:將數據按目的、使用頻率分類存儲,不同的應用訪問不同的數據類,還不明白?你太笨了吧!
3.數據倉庫是分布式系統中的重要一環
這是一個典型的分布式數據庫設計圖:

 
操作型數據


應該注意到,數據倉庫并不是分布式系統,它是其中的一部分,但如果明白了數據倉庫在其中的地位,那么也就知道了為什么叫數據倉庫,而不叫分布式應用系統了。原因很簡單,數據倉庫是核心,其它的部分都要以它為圓心,最終的結果,便形成了一個類似太陽系的結構。

操作型數據是我們從各種各樣的數據源中拿到的各種各樣的數據,這是整個系統數據的最原始的狀態,從中看到我11月11日打電話的紀錄,也可以看到我在15日有什么賬單,這個賬單的具體內容,甚至還可以看到飛機的起飛和到達時間,如果你明白了這里面放了些什么,那你也就應該能看懂下面的東西。

操作型數據的特點:

1.  實時性:數據幾乎都是當前值。

2.  數據源極其豐富,各種來自企業外部和內部產生的數據。

3.  對反應時間的要求很高。(你總不能為了添加一條賬單記錄等上1個小時吧)

所以由此也可以看出,就算是讓我設計一個操作型數據庫,也不是很難,:-) 提前說一句,操作型數據的設計遵循:需求à體系結構à完成代碼à裝入數據。

數據倉庫最大特點就是一個“穩”字,先不說它是怎么從操作型數據中提取數據的,單說一說他的數據更新周期最少24小時,你就應該明白;用它的數據是不可能做一個實時性強的東西的,沒錯,它存在的目的不是讓你去做什么有實時性的東西,它是為了讓你能夠利用從操作型數據庫提取的數據作分析和統計工作。知道了么?這一點是很重要的。這也是每一個作dss(以前稱之為mis)的分析員的追重要的工作,要不怎么叫決策分析系統呢:p

想知道他的好處還是聽一聽專家的意見吧:直接使用聯機業務處理系統中的數據進行決策支持數據的分析處理是會產生許多麻煩的,甚至是實現不了的。這時候,人們就會問為什么系統中有我需要的數據,而我卻無法運用呢!這不是說關系數據庫不好,而是老產品遇到了新任務。e-r型的數據結構能完美地執行聯機業務處理,但不適應較大規模的決策支持數據分析,尤其不適應企業級的決策支持數據分析處理的需要。適應這一需求,應運而生的就是數據倉庫技術。

數據倉庫的目標是為了制定管理的決策提供支持信息,這顯著的與oltp(聯機事務處理)系統的快速響應需要不同。正象企業為了發展要進行業務重組一樣,為了支持管理決策需要也要按決策業務科目的要求重組oltp系統中的數據,并要按不同決策,分析內容分別組織使之方便使用。這種基于主題的模式從用戶角度來看就是多重的數據重組結構。

在把數據裝載到數據結構重組后的數據倉庫之前,先要進行數據轉換,或稱"整合"處理。這一處理包括幾個必不可少的操作步驟,做到使數據完整、統一,這就確保了在使用數據倉庫時其中的數據是有質量保證的,對此后文有詳述。簡而言之,整合就是保證數據準確,到位,沒有超出應有的數值范圍,沒有重復等。

ok!聽明白了么?有點復雜么?不要緊,記住一點就行了:數據倉庫就是為了給統計分析等工作,專門設計的數據支持,就這么簡單,總結一下:

數據倉庫:

1.  數據無實時性,更新時間較長。

2.  數據來源是操作型數據,經過一定模式的抽取。

3.  在處理的時候,對事件要求比較寬松。

它的設計可是相對復雜的,但可以肯定的是:數據倉庫是按照:數據—〉需求。這也可以理解:巧婦難為無米之炊。你準備了一大堆蘿卜可不也就只能作一道“蘿卜開會”么!所以,dss設計的宗旨是:你把我需要的給我,我再告訴你我想要的。聽起來是不是挺別扭的。:)

到目前為止,你應該已經對數據倉庫有了一個全面而粗淺的認識了,呵呵,下一步就應該是仔細的鉆研一下偉大的building the data warehouse啦。

                                                               馬磊        wednesday, november 29, 2000
發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 连南| 营口市| 平度市| 九龙城区| 景德镇市| 阿克| 辽中县| 江源县| 北辰区| 连城县| 鹤庆县| 寻甸| 马边| 梅河口市| 澄迈县| 南宁市| 遂平县| 隆子县| 当阳市| 抚州市| 新宁县| 河南省| 荃湾区| 沐川县| 连山| 白沙| 西乌珠穆沁旗| 棋牌| 全椒县| 隆尧县| 门源| 桃江县| 木兰县| 锦州市| 西充县| 通州区| 晋城| 许昌市| 元朗区| 北京市| 临泽县|