国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 開發(fā) > 綜合 > 正文

數(shù)據(jù)倉庫之我見 (設(shè)計(jì)篇)

2024-07-21 02:09:20
字體:
供稿:網(wǎng)友
建造數(shù)據(jù)倉庫要做些什么?
一般說來,建造數(shù)據(jù)倉庫主要兩個(gè)方面:

1.     與操作性數(shù)據(jù)庫的接口設(shè)計(jì)。

2.     數(shù)據(jù)倉庫本身的設(shè)計(jì)。

看上去好像很簡單,但事實(shí)并非就這么按部就班,假設(shè)我是一個(gè)數(shù)據(jù)庫設(shè)計(jì)師,我完全可以不管三七二十一,先載入一部分?jǐn)?shù)據(jù),讓dss分析員(還沒忘吧,就是那個(gè)給設(shè)計(jì)數(shù)據(jù)倉庫的人要求的)分析去吧,等他先給點(diǎn)意見出來,我們在動手也不遲。

下面,我將按照提出問題、解決問題的順序來上一堂學(xué)前班。

 
建造數(shù)據(jù)倉庫的主要難點(diǎn)是什么?
首先糾正一個(gè)廣泛存在的錯(cuò)誤認(rèn)識:建造數(shù)據(jù)倉庫的過程就是從操作性數(shù)據(jù)中提取數(shù)據(jù)的過程,之所以說這是錯(cuò)的,主要是因?yàn)椋翰僮餍詳?shù)據(jù)大都是非集成的(有誰見過一個(gè)計(jì)費(fèi)程序可以把幾年的賬單條目統(tǒng)計(jì)一遍的),你不可能抽取出你真正需要的東西,例如這個(gè)月的平均花費(fèi),馬磊在這個(gè)月的加班日等等,不用我說,你也知道:操作性數(shù)據(jù)主要是為應(yīng)用程序服務(wù),而每個(gè)系統(tǒng)或應(yīng)用程序都有其特有的“獨(dú)立性”,在開發(fā)的時(shí)候,誰會想到以后還要翻舊帳呢?

好了,換一個(gè)新的視角看問題:如果不僅僅是抽取的話,那還有些什么問題呢?如下:

第一個(gè)問題:系統(tǒng)集成。當(dāng)成百上千張表放在一起,需要你來統(tǒng)計(jì)的時(shí)候,你敢肯定這個(gè)表的某一字段和另一張表的同名字段是一個(gè)含義么?或者反過來說:你敢肯定這個(gè)表的某一字段和另一張表的不相同的字段一定是毫無關(guān)系的么?這些問題可以歸結(jié)成一個(gè)問題:系統(tǒng)缺乏集成性!解決這個(gè)問題的方法除了更好的設(shè)計(jì)你的數(shù)據(jù)庫,只有靠你的耐心了。還有就是字段的轉(zhuǎn)換問題,看下面這個(gè)例子:性別(sex)在數(shù)據(jù)庫中有很多表達(dá)形式,可以寫成m/f,也可以寫成0/1來表示男/女,等等……怎么辦?為了保證傳喚到數(shù)據(jù)倉庫的數(shù)據(jù)正確,我們必須建立不同的映射(sorry,簡單的說是:將上面提到的那種性質(zhì)相同,表示的不同的數(shù)據(jù)用同一種形式表達(dá)出來),這也是一件需要耐心的工作!

第二個(gè)問題:存取現(xiàn)存系統(tǒng)的數(shù)據(jù)的效率。這很正常,當(dāng)有很多表格和文件需要掃描的時(shí)候,誰能確切的知道一個(gè)文件被掃描過?如果,現(xiàn)存系統(tǒng)存在大量的數(shù)據(jù),你為了得到其中某一些數(shù)據(jù),而把整個(gè)數(shù)據(jù)庫掃描一次,這件是一場悲劇。相信誰也不想這種事發(fā)生,具體的解決方法在下面的提出。

弄請”how to 避免這些問題”,先搞清楚從操作型環(huán)境到數(shù)據(jù)倉庫可能要做那些裝載工作(你會選那一項(xiàng)呢?)

l         裝載檔案數(shù)據(jù)。(聯(lián)想一下布滿灰塵的舊帳本就知道什么是檔案了)

l         裝載在操作性系統(tǒng)中目前已有的數(shù)據(jù)。(就在系統(tǒng)中的數(shù)據(jù),還沒有備份的)

l         將自數(shù)據(jù)庫上次刷新以來在操作性環(huán)境中不斷發(fā)生的變化(數(shù)據(jù)庫的更新)裝載到數(shù)據(jù)倉庫中。

對于第一個(gè)選項(xiàng)很簡單,翻賬本誰不會阿?所以難度很小,但作為一個(gè)dss分析員,放著現(xiàn)有的數(shù)據(jù),你會愿意去分析十年前的數(shù)據(jù)么,不少企業(yè)發(fā)現(xiàn),在很多環(huán)境下,使用舊的數(shù)據(jù)得不償失。

對于第二個(gè)選項(xiàng)來說,因?yàn)橹恍枰b載一次,所以做起來也不難。通常我們可以根據(jù)操作型環(huán)境寫一個(gè)下載的順序文件,使用這個(gè)順序文件,可以在不破壞聯(lián)機(jī)環(huán)境的前提下下載到數(shù)據(jù)倉庫中。(似乎挺不錯(cuò)的)

第三個(gè)選項(xiàng)可就有點(diǎn)復(fù)雜了,因?yàn)椋驮倌阊b載數(shù)據(jù)的時(shí)候,數(shù)據(jù)庫正發(fā)生著變化,要有效的捕捉到那些變化不是一件容易的事。所以,掃描已有的文件(或者表格)成了數(shù)據(jù)倉庫體系結(jié)構(gòu)設(shè)計(jì)者的主要難題。怎么辦,怎么辦……其實(shí)方法很多——有五種。

1.      掃描有時(shí)戳的數(shù)據(jù),你可以清楚的知道:那些需要的數(shù)據(jù)是最近更新了的,至少我們可以有效避開時(shí)間不符的數(shù)據(jù)。(不幸的是:沒有多少數(shù)據(jù)有時(shí)戳)

2.      掃描增量文件,(什么是增量文件,我也不知道,但可以肯定的是,它是由應(yīng)用程序生成的,僅僅紀(jì)錄發(fā)生改變的數(shù)據(jù)),不幸的事,沒有多少程序有增量文件。l

3.      掃描審計(jì)文件和日志文件,這兩個(gè)文件本質(zhì)上和增量文件是一樣的,除了大了一點(diǎn),無用數(shù)據(jù)多了一點(diǎn),接口程序難做一點(diǎn),沒別的壞處j。

4.      修改應(yīng)用程序代碼,(這好像過分了一點(diǎn),為了設(shè)計(jì)數(shù)據(jù)倉庫,居然讓別人從寫自己的應(yīng)用程序),這并不常用,應(yīng)為一個(gè)用程序的代碼陳舊而且不易修改。l

5.      第五種方法就是沒有方法!開玩笑。包括本書的所有資料都勸解我們不要這樣做,所以,我只隨便說兩句:按時(shí)間做一些映像文件,比較他們的差別。但最好比用,我也覺得著方法不僅麻煩、復(fù)雜,而且需要各種資源。所以不到萬不得已不用!j

第三個(gè)問題: 時(shí)基變化,難以把握。現(xiàn)存的操作型數(shù)據(jù)通常是當(dāng)前值,精度可控,可以更新,但數(shù)據(jù)倉庫中的數(shù)據(jù)是不能更新的,所以這些數(shù)據(jù)必須附帶時(shí)間元素,實(shí)際操作的時(shí)候,從操作型系統(tǒng)傳送到數(shù)據(jù)倉庫時(shí),必須在數(shù)據(jù)中進(jìn)行較大范圍的改變。這時(shí),你就必須考慮數(shù)據(jù)的濃縮了,沒辦法,數(shù)據(jù)隨時(shí)間總在變,數(shù)據(jù)倉庫的空間有限阿!

到此為止,我們涉及了三個(gè)問題,以及他們的解決方法,但這還不足以使我們建一個(gè)自己的數(shù)據(jù)倉庫,應(yīng)為我們還沒有學(xué)具體方法。下面一節(jié)的內(nèi)容將……!
數(shù)據(jù)/過程模型和體系結(jié)構(gòu)設(shè)計(jì)方法
首先介紹兩個(gè)概念:過程建模和數(shù)據(jù)建模,簡單的說,過程建模就像我們在編程之前畫的流程圖!有開始and結(jié)束。數(shù)據(jù)建模就像是給你白菜,蘿卜、醋、食鹽等,然后問你能做出什么菜,然后你很自然的回答:醋溜白菜&蘿卜湯一樣。沒有為什么要這樣做,應(yīng)為只能這樣做。j

過程建模是絕對不能用在數(shù)據(jù)倉庫的設(shè)計(jì)上的,因?yàn)檫^程建模是基于需求的,它假設(shè)在細(xì)節(jié)設(shè)計(jì)之初就已經(jīng)知道了需求,但在一點(diǎn)在建設(shè)數(shù)據(jù)從那個(gè)庫的時(shí)候并不滿足!

數(shù)據(jù)模型就好得多,它兩邊都合適!(嘻嘻,像萬能膠)建造數(shù)據(jù)模型的時(shí)候不需要考慮現(xiàn)存的、操作型系統(tǒng)與數(shù)據(jù)倉庫之間的差別。要做的事情看上去好像很簡單:建一個(gè)企業(yè)數(shù)據(jù)模型,再建一個(gè)數(shù)據(jù)倉庫模型,最好再來一個(gè)操作數(shù)據(jù)模型,可以這樣理解:

企業(yè)模型à操作模型à數(shù)據(jù)倉庫模型

三個(gè)方面都很重要,而且互不相同。(有點(diǎn)像雞和蛋的關(guān)系)

隨便聊聊數(shù)據(jù)模型吧,分三個(gè)層次的建模:高層建模(實(shí)體模型red)、中間層建模(數(shù)據(jù)項(xiàng)集dis)和底層建模(物理層)。建造的順序是由上向下,就好像大家坐在一起,討論出來一個(gè)大體的架構(gòu),開始中間層的設(shè)計(jì)工作(因?yàn)閞ed需要的數(shù)據(jù)不可能簡單的抽取到,需要一定的綜合方法),然后根據(jù)中間層設(shè)計(jì)底層模型,(底層模型的數(shù)據(jù)是可以從操作型數(shù)據(jù)中得到的)。

呵呵,我還是不深入討論了,給你留一點(diǎn)內(nèi)容可以自己琢磨一下(而且本書也不是專門講建模的教材)。

是不是有點(diǎn)暈了,什么數(shù)據(jù)建模、什么三個(gè)層次,別急,等你帶著這些問題去看書的時(shí)候,問題很快就沒有了,我之是建議你能紀(jì)錄一下自己的問題,不至于在看書的時(shí)候,連問題都忘了。j

數(shù)據(jù)建模同時(shí)也是一個(gè)拼積木的過程,每次設(shè)計(jì)的結(jié)果都是一塊獨(dú)特積木,這有在湊夠所有的積木之后,才可以完成一幅拼圖。(一個(gè)任務(wù))

以上介紹的是數(shù)據(jù)倉庫的設(shè)計(jì)方法——數(shù)據(jù)建模。下面來談一談設(shè)計(jì)數(shù)據(jù)倉庫的幾個(gè)細(xì)節(jié)問題:(這可能會很枯燥)
規(guī)范化/反規(guī)范化
這種操作的目的是減少系統(tǒng)的i/o操作時(shí)間。具體的方法可以歸納為兩句話:為了減少i/o操作所用的時(shí)間,將一些表合并(規(guī)范化),或者引入冗余數(shù)據(jù)(反規(guī)范化)。

 
數(shù)據(jù)倉庫的快照
快照是一個(gè)事件的詳細(xì)紀(jì)錄。舉例:你用了一大筆錢買了一件心愛的東西的時(shí)候,突然發(fā)現(xiàn)下半個(gè)月的生活費(fèi)沒有了,這就是那個(gè)事件,而產(chǎn)生的快照如下:

時(shí)間 | 鍵碼 | 地點(diǎn) 金額 物品 …… 購買時(shí)的心情 | 賬戶余額 …… 購買后的心情 |

 1     2                      3                                4

不難看出:第三段數(shù)據(jù)是離散的原始數(shù)據(jù),第四段是事件發(fā)生后的因果數(shù)據(jù)(是聯(lián)系的、可選的)總結(jié)一把,快照應(yīng)該是對一個(gè)事件的真實(shí)記錄,他應(yīng)該包含以下內(nèi)容:

l         鍵碼。

l         時(shí)間單元。

l         只和鍵碼關(guān)聯(lián)的初始數(shù)據(jù)。

l         快照發(fā)生后所捕獲的二次數(shù)據(jù),和前面無直接的關(guān)系。

 
元數(shù)據(jù)
關(guān)于(使用)數(shù)據(jù)的(歷史)數(shù)據(jù),例如說數(shù)據(jù)倉庫導(dǎo)入的第一次時(shí)間、第二次時(shí)間。源數(shù)據(jù)在where,數(shù)據(jù)結(jié)構(gòu)是what,抽取的歷史紀(jì)錄等等。

 

 

 
數(shù)據(jù)倉庫中的管理參照表
數(shù)據(jù)倉庫中的參考數(shù)據(jù)(起數(shù)據(jù)年鑒作用),數(shù)據(jù)倉庫存在目的也就是為了提供參考依據(jù),所以定期的產(chǎn)生參照數(shù)據(jù)可以減少數(shù)據(jù)倉庫中的數(shù)據(jù)量。這也不難理解:有了參照數(shù)據(jù),自然就沒必要保留那些陳年舊帳了。

建立參照數(shù)據(jù)表有兩種方法:

1.  每隔一個(gè)特定的時(shí)間,就做一個(gè)參考表的一個(gè)快照。

2.  一個(gè)快照就是一張參考表(合而為一),然后,針對每次修改做紀(jì)錄。

 
數(shù)據(jù)周期
所謂數(shù)據(jù)周期是指從操作型環(huán)境數(shù)據(jù)發(fā)生改變,到這個(gè)變化在數(shù)據(jù)倉庫中體現(xiàn)出來所用的時(shí)間。例如某位銀行用戶搬家,他的新地址被添加在操作型數(shù)據(jù)中,數(shù)據(jù)倉庫覺察到后,立刻把自己的數(shù)據(jù)更新。這就是一個(gè)數(shù)據(jù)周期。

問題來了,這種調(diào)整應(yīng)該什么時(shí)間進(jìn)行一次呢?原則上是大于或等于24小時(shí)。這是為了數(shù)據(jù)的穩(wěn)定和代價(jià)問題。

 
轉(zhuǎn)換和集成的復(fù)雜性
這里有很多很多的內(nèi)容,偏偏他們都很零碎,象是在介紹經(jīng)驗(yàn)一樣,還是留給你一點(diǎn)研究吧。(我要偷懶啦)這就是建數(shù)據(jù)庫的方法。

 
觸發(fā)數(shù)據(jù)倉庫紀(jì)錄
觸發(fā)數(shù)據(jù)倉庫需要一個(gè)事件,而這個(gè)事件應(yīng)該是一重要活動,重要的以至于不能忽略它的存在,呵呵,簡單點(diǎn)就像點(diǎn)了一個(gè)按鈕,彈出了一個(gè)對話框一樣。當(dāng)捕獲到這個(gè)事件的時(shí)候,在數(shù)據(jù)倉庫中添加這個(gè)事件的快照。很簡單,不是么?可能你會想知道,什么事件,怎么觸發(fā)?舉個(gè)例子,你的一個(gè)重要的客戶,打電話通知你,修改交貨地點(diǎn),ok!你的反應(yīng)恐怕是先找到這條發(fā)貨紀(jì)錄和客戶紀(jì)錄(這是快照),修改其中的交貨地點(diǎn)(二次數(shù)據(jù)),寫入數(shù)據(jù)倉庫中。明白了?

 
管理數(shù)據(jù)倉庫
管理的目的是為了讓數(shù)據(jù)該走的走,該留的留,該統(tǒng)計(jì)的就統(tǒng)計(jì),不要讓過了期的數(shù)據(jù)占用寶貴的空間,呵呵,說著容易做著難,每人知道用戶那一天會發(fā)瘋似的翻陳年舊帳,萬一出了差錯(cuò),會壞事的哦。所以正確的處理方法就是:·#¥%…!·#。沒看懂?啊哈,不好意思,這是外語,嘻嘻,總結(jié)一下有兩點(diǎn):

1.    使用簡單紀(jì)錄方式,概括、綜合數(shù)據(jù)。這里有一個(gè)綜合尺度的問題,不要一次就把數(shù)據(jù)綜合到底,不要一次就丟掉數(shù)據(jù)的所有細(xì)節(jié)。讓簡單紀(jì)錄的第一遍為第二遍提供依據(jù)。

2.    同時(shí)建立數(shù)據(jù)備份。這是最保險(xiǎn)的方法,找張光盤阿,磁帶阿之類的,寫進(jìn)去丟到保險(xiǎn)箱里就完事了。什么?費(fèi)錢費(fèi)時(shí),我覺得挺好啊,用戶查的時(shí)候,可以收她的費(fèi)么。還賺了一筆j

 

根據(jù)以上諸多的論述,你是不是已經(jīng)建立了一個(gè)大體的框架?知道什么才算是數(shù)據(jù)倉庫,怎樣的表結(jié)構(gòu)才算是符合數(shù)據(jù)倉庫的?說句老實(shí)話,我現(xiàn)在也沒能明白數(shù)據(jù)模型到底是個(gè)什么東西?是類似c++里的對象,還是類似數(shù)據(jù)結(jié)構(gòu)里的結(jié)構(gòu)體?我從中學(xué)到的是:數(shù)據(jù)倉庫在設(shè)計(jì)的時(shí)候就必須考慮什么,而不是怎樣做。所以,你一定要把這個(gè)東西搞明白,近期是不可能的。只能通過不斷的實(shí)踐,只應(yīng)該是一個(gè)經(jīng)驗(yàn)積累的過程,可以說還沒有一個(gè)完全可行,可以照搬的方法來設(shè)計(jì)數(shù)據(jù)倉庫。j是不是挺失望的,沒關(guān)系,這本來就是一個(gè)需要反復(fù)的過程,%50的成功率就算是不錯(cuò)的了,所以沒必要擔(dān)心 :p

好吧,假設(shè)我們在考慮了所有的情況后,建了一個(gè)十分完美的數(shù)據(jù)倉庫(有點(diǎn)厚顏無恥,xixi),開始訪問吧,你必須牢記這樣一個(gè)事實(shí),數(shù)據(jù)倉庫一定有你所需要的數(shù)據(jù),否則就必須進(jìn)行二次補(bǔ)丁開發(fā)。你開始統(tǒng)計(jì)、抽取、計(jì)算等等,沒有能不能,只有要不要!

模擬一下,你是一個(gè)銀行雇員,在收到了一個(gè)用戶的借貸請求,那你就必須想方法確定這個(gè)用戶的信用值和個(gè)人資產(chǎn)以及工作情況,來判斷是否給這個(gè)人貸款。這里有一個(gè)非常復(fù)雜的程序在后臺做這件事情。而且數(shù)據(jù)倉庫中也為這種請求準(zhǔn)備了相應(yīng)的數(shù)據(jù)。這種審核是綜合的也是非常快的。這時(shí),必須考慮:

1.       償還歷史。

2.       私有財(cái)產(chǎn)。

3.       財(cái)務(wù)管理。

4.       凈值。

5.       全部收入。

6.       全部開銷。

7.       其它的無形資產(chǎn)。

……

在經(jīng)過復(fù)雜的計(jì)算后,才能得到審核的最后結(jié)果,但這個(gè)過程所需的很多數(shù)據(jù)都是數(shù)據(jù)倉庫整理出來的。ok,你是不是明白了數(shù)據(jù)倉庫還是挺有用的。

但讓我們考慮一下這種數(shù)據(jù)的存在形式吧,……,有沒有發(fā)現(xiàn)最后的數(shù)據(jù)是一個(gè)綜合了很多情況的合成數(shù)據(jù)。很多很多的內(nèi)容,像一個(gè)大鍋臘八粥,但里邊的配料來在不同的地方。嘻嘻,其實(shí)這是數(shù)據(jù)倉庫中必然的現(xiàn)象,稱之為星型聯(lián)接。哦——,其實(shí)這些部分都是有名字的,中間的綜合的是“事實(shí)表”,周邊的是維表。而且這里邊還有一個(gè)現(xiàn)象:事實(shí)表中包含了維表的主鍵。你可能沒有反應(yīng)過來,但事實(shí)就是這樣。

這里遍蘊(yùn)含了數(shù)據(jù)倉庫的訪問技巧。

好好想想吧,想明白了最好能教一下我j。

 

 

 

 

 

 

在明白了涉及數(shù)據(jù)倉庫的幾大要素之后,ok! let’s go on. 下面的問題將很深入的討論類似于設(shè)計(jì)細(xì)節(jié)和管理細(xì)節(jié)的話題。看過之后需要深入的思考,這才能從中領(lǐng)悟作者的本意。主要原因也包括翻譯問題。

來看看第一個(gè)問題:
數(shù)據(jù)倉庫的粒度
數(shù)據(jù)倉庫中的粒度是指數(shù)據(jù)的詳細(xì)程度,同樣為了描述一個(gè)情況,我可以用很多的數(shù)據(jù),但同樣我也可以只用必需的數(shù)據(jù)。而這起決于存儲器。如果有很大的硬盤,那就沒有我們不能存的事情。所以,估計(jì)一年內(nèi)里表中的最大行數(shù)和最小行數(shù),是設(shè)計(jì)者的最大問題。這里牽扯到了一個(gè)概念:上下限推測的方法。(別問我,我也不懂)

然后通過簡單的計(jì)算可以知道數(shù)據(jù)庫大概的情況,然后可以調(diào)整我們的策略。說的仔細(xì)一點(diǎn),我們可以采用雙重粒度或者單一粒度的辦法。

雙重粒度是降低數(shù)據(jù)量的最佳方法。而且,大多數(shù)公司都采用這種方法。下面來一個(gè)分析:

雙重粒度包括:低細(xì)節(jié)級和高細(xì)節(jié)級。要知道:在很低的細(xì)節(jié)級上建立輕度匯總數(shù)據(jù)是沒有意義的。反過來,在太高的細(xì)節(jié)級建立匯總數(shù)據(jù)也是沒有用的。所以,一定要進(jìn)行數(shù)據(jù)粒度的評估,然后才能得出最佳的匯總方案。而可笑的是,這根本都是猜測出來的,沒有正確性的保證,嘿嘿,沒辦法,誰讓我們本來就是在做一件不知道條件,指知道結(jié)果的方程式呢,但你可以把你的結(jié)果給最終用戶看,讓她來評價(jià)這個(gè)好壞,別指望%100的通過,%50就很不錯(cuò)了:)

這里有一些反饋技巧和一個(gè)例子,在90頁,你可以參考一下。

如果說,數(shù)據(jù)粒度教你建數(shù)據(jù)倉庫的話,下一個(gè)話題就是教你管理啦!
數(shù)據(jù)倉庫和技術(shù)
這里有好多我看不懂的管理技術(shù),嘻嘻,比如說:通過尋址,通過檢索,通過數(shù)據(jù)外延,通過有效的溢出管理…… 這里的管理包括:管理大量數(shù)據(jù)庫的能力和能管理好數(shù)據(jù)倉庫的能力。任何生成支持?jǐn)?shù)據(jù)倉庫的技術(shù)都要滿足能力于效率的要求。

你要能管理多介質(zhì),主存、擴(kuò)展內(nèi)存、高速緩存、dsad(如硬盤)、光盤、磁帶……

數(shù)據(jù)倉庫的靈魂就在于靈活性和對數(shù)據(jù)的不可預(yù)測性的訪問,看不懂么?所的簡單點(diǎn),就是它能對以往所有的數(shù)據(jù)進(jìn)行評估,提供分析依據(jù)。數(shù)據(jù)倉庫如果不能方便有效的利用索引,那么數(shù)據(jù)倉庫的建立就是不成功的。多利用一些二級索引、動態(tài)索引、臨時(shí)索引等等。

多種技術(shù)接口,這我不用再解釋了吧,這你應(yīng)該明白的。

對數(shù)據(jù)存放位置的控制,就像一開始講的,必須使數(shù)據(jù)倉庫有一整套完善的數(shù)據(jù)存放機(jī)制。而且最好是自動的噢!

數(shù)據(jù)的并行存儲和管理,假定對數(shù)據(jù)的訪問都是等概率的,則性能的提高與數(shù)據(jù)所分布的物理設(shè)備的多少成正比。

元數(shù)據(jù)的管理,記住這個(gè)事實(shí)吧,再好的房子,如果沒有鑰匙你也沒辦法!!所以,管理元數(shù)據(jù)的重要性甚至超過了管理數(shù)據(jù)倉庫中的數(shù)據(jù)。這包括表的結(jié)構(gòu),表的屬性,源數(shù)據(jù)(紀(jì)錄系統(tǒng)),映射關(guān)系,數(shù)據(jù)模型說明,抽取日志,共用例行程序。

語言接口,sql語言接口,就是你要做一個(gè)前臺控制程序,可以插入、刪除……。

數(shù)據(jù)的高效裝入,自己想吧,(什么,老師偷懶,我就偷懶,怎么樣)這里沒有什么好說的,你需要根據(jù)不同的環(huán)境做不同的處理。

高效索引的利用、數(shù)據(jù)壓縮、復(fù)合鍵碼、變長數(shù)據(jù)、加鎖管理、快速恢復(fù)。我就不再多說了,這你比我還明白。
dbms類型和數(shù)據(jù)倉庫,
多維數(shù)據(jù)庫管理系統(tǒng)(俗稱”數(shù)據(jù)集市”),提供了一種信息系統(tǒng)結(jié)構(gòu)使得對數(shù)據(jù)庫的訪問非常靈活。如果我沒理解錯(cuò)誤的話,數(shù)據(jù)集市提供了一種數(shù)據(jù)的管理、考察方案,所以它是凌駕于數(shù)據(jù)倉庫之上的,所以數(shù)據(jù)倉庫的數(shù)據(jù),是數(shù)據(jù)集市的主要數(shù)據(jù)來源,可以這么說,兩者的差別就在于數(shù)據(jù)粒度的不同,數(shù)據(jù)倉庫中的粒度很小,dbms的數(shù)據(jù)粒度很大。當(dāng)然,這樣做是有目的的,這不僅是為了使儲存的時(shí)間更長,也可以數(shù)據(jù)更集中!

這里還有很多其他的作用:

例如:

ü         支持?jǐn)?shù)據(jù)的動態(tài)連接。

ü         能夠支持通用的數(shù)據(jù)更新處理。

ü         關(guān)系結(jié)構(gòu)清晰明了。

那它是不是就完美了呢?其實(shí)不然!其實(shí)也有不少弊病需要克服。

數(shù)據(jù)量不如關(guān)系數(shù)據(jù)庫支持的那么多。

¨         不支持通用的更新技術(shù)。

¨         張如時(shí)間長。

¨         結(jié)構(gòu)不靈活。

¨         動態(tài)支持還有問題。      

 

這是我看完數(shù)據(jù)倉庫后的一點(diǎn)感受,拿出來大家一起研究、研究,哈哈……

發(fā)表評論 共有條評論
用戶名: 密碼:
驗(yàn)證碼: 匿名發(fā)表
主站蜘蛛池模板: 延津县| 石楼县| 汾阳市| 新竹市| 皮山县| 渭源县| 巫山县| 阿拉尔市| 英山县| 楚雄市| 武强县| 浮山县| 永吉县| 承德县| 克拉玛依市| 高台县| 环江| 建湖县| 凉城县| 大关县| 常熟市| 肃南| 桐庐县| 惠东县| 炉霍县| 天镇县| 长乐市| 麻城市| 贞丰县| 太白县| 固镇县| 普洱| 陆河县| 原平市| 黄骅市| 沂源县| 定日县| 独山县| 开远市| 新龙县| 兴化市|