国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁(yè) > 數(shù)據(jù)庫(kù) > SQL Server > 正文

數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)建模的幾種思路

2019-11-03 08:34:36
字體:
來(lái)源:轉(zhuǎn)載
供稿:網(wǎng)友
 上周針對(duì)數(shù)據(jù)倉(cāng)庫(kù)建模的方向進(jìn)行了常時(shí)間討論,嘗試找到一種適合阿里巴巴數(shù)據(jù)倉(cāng)庫(kù)平臺(tái)發(fā)展的建模方法論。數(shù)據(jù)倉(cāng)庫(kù)接典型的兩種數(shù)據(jù)倉(cāng)庫(kù)建模的理論是維度建模和基于主題域的實(shí)體關(guān)系建模,這兩種方式分別以Kimball和Immon兩位大師為代表。維度建模以數(shù)據(jù)分析需求為驅(qū)動(dòng),倡導(dǎo)總線架構(gòu):一致的事實(shí)和一致的維度,這種數(shù)據(jù)模型易于用戶理解和數(shù)據(jù)分析操作。基于主題域的實(shí)體關(guān)系建模以源系統(tǒng)數(shù)據(jù)為驅(qū)動(dòng),整合企業(yè)的所有數(shù)據(jù),站在企業(yè)級(jí)的高度對(duì)數(shù)據(jù)進(jìn)行抽象,整合,采用3NF的實(shí)體關(guān)系理論建模,這種數(shù)據(jù)建模方式以更為抽象的方式嘗試建立一個(gè)相對(duì)穩(wěn)定的數(shù)據(jù)模型,并能描述企業(yè)級(jí)的數(shù)據(jù)關(guān)系。在工業(yè)界往往把兩種方式結(jié)合起來(lái)運(yùn)用數(shù)據(jù)倉(cāng)庫(kù)的不同數(shù)據(jù)層次結(jié)構(gòu)中。

      我們上周主要是針對(duì)采用基于主題域的實(shí)體關(guān)系建模中數(shù)據(jù)整合的方式進(jìn)行較為深入的討論,討論了以下三種思路:

以屬性聚集的方式同一主題域中不同實(shí)體的屬性。比如對(duì)于會(huì)員、公司、客戶等等實(shí)體對(duì)象我們都有地址屬性信息、名稱標(biāo)識(shí)屬性信息等等,這種思路就是把屬性內(nèi)聚性高的字段整合在一起,并把不同的屬性打上類型標(biāo)識(shí)以樹(shù)表的形式存放。它的優(yōu)點(diǎn)是:第一,模型穩(wěn)定性好,外圍系統(tǒng)變化了字段,只需要添加不同的類型,不需要進(jìn)行表結(jié)構(gòu)的變更;第二,減少大量冗余記歷史數(shù)據(jù)。它的缺點(diǎn)是:第一,丟失了很多實(shí)體的屬性標(biāo)識(shí)信息,我們從模型上將看不到一個(gè)會(huì)員究竟有哪些地址屬性,只能通過(guò)查詢類型代碼才能獲取這些信息;第二,它極度的膨脹數(shù)據(jù)表的記錄數(shù),因?yàn)樗捎秘Q表的形式存放;第三,應(yīng)用起來(lái)很難,效率是一個(gè)大問(wèn)題,因?yàn)槲覀兺褂靡粋€(gè)實(shí)體的多個(gè)字段,就會(huì)有很多join操作和豎轉(zhuǎn)橫的操作。第四:屬性聚集也是一件比較難操作的過(guò)程,應(yīng)為這是一個(gè)抽象的過(guò)程,對(duì)建模人員的業(yè)務(wù)背景知識(shí)和抽象能力都提出了很高的要求;第五:雖然減少了冗余的記歷史數(shù)據(jù),但是記歷史的操作也較為復(fù)雜。
采用面向?qū)ο蠼5姆绞剑橄蟛煌瑢?shí)體的共同屬性,然后再一步步采用繼承、組合等面向?qū)ο蟮乃枷刖唧w化實(shí)體。他的優(yōu)點(diǎn)是模型模型概念比較清晰,缺點(diǎn)也是模型相對(duì)不是很穩(wěn)定,整合后的數(shù)據(jù)的后續(xù)應(yīng)該也面臨重新組合的問(wèn)題。
貼源的建模方式: 采用基本保持源系統(tǒng)的方式進(jìn)行建模,重點(diǎn)放在數(shù)據(jù)的標(biāo)準(zhǔn)化,一致化,和數(shù)據(jù)業(yè)務(wù)意義的梳理。這種做法和我們目前數(shù)據(jù)倉(cāng)庫(kù)的做法比較類似。它具有實(shí)施比較容易,快速實(shí)現(xiàn),前臺(tái)可以直接使用數(shù)據(jù);缺點(diǎn)是整合度不高,模型不穩(wěn)定。
      模型終究是為數(shù)據(jù)分析應(yīng)用服務(wù)的,具體采用什么方式建模需要根據(jù)實(shí)際業(yè)務(wù)特點(diǎn)和源系統(tǒng)的特點(diǎn)決定。阿里巴巴的源系統(tǒng)具有變化快,數(shù)據(jù)分析應(yīng)該變化快的特點(diǎn),響應(yīng)速度也要快的特點(diǎn),而且我們要求不同系統(tǒng)之間整合的需求并不是很大,往往深度的數(shù)據(jù)整合帶來(lái)的是應(yīng)用上的不方便。因此,我個(gè)人覺(jué)得采用貼源的方式是當(dāng)前更優(yōu)的方案。



本文來(lái)自CSDN博客,轉(zhuǎn)載請(qǐng)標(biāo)明出處:http://blog.csdn.net/wsbupt/archive/2009/12/30/5109309.aspx
發(fā)表評(píng)論 共有條評(píng)論
用戶名: 密碼:
驗(yàn)證碼: 匿名發(fā)表
主站蜘蛛池模板: 石门县| 定西市| 清原| 老河口市| 安远县| 玛沁县| 柞水县| 射洪县| 浮梁县| 云浮市| 千阳县| 武城县| 茶陵县| 达州市| 清远市| 京山县| 顺昌县| 延寿县| 额济纳旗| 安图县| 特克斯县| 宽甸| 望城县| 若羌县| 平邑县| 简阳市| 德令哈市| 武冈市| 永平县| 英超| 吴江市| 津市市| 阳春市| 潮州市| 福州市| 永济市| 香格里拉县| 博客| 浮梁县| 昌乐县| 滕州市|