Data Mining Technologies, Techniques, Tools, and Trends
2024-07-21 02:35:25
供稿:網友
1. 引言
1. 什么是數據挖掘 數據挖掘是從大量的數據中抽取出潛在的、不為人知的有用信息、模式和趨勢。數據挖掘的目的:提高市場決策能力;檢測異常模式;在過去的經驗基礎上預言未來趨勢等。 數據挖掘不同的術語和定義:data mining, knowledge discovery, pattern discovery, data dredging, knowledge, data archeology.
2. 數據挖掘支持技術 多技術的綜合,Figure 1-2
3. 數據挖掘的概念和技術 數據挖掘的結果:分類;序列分析;數據依靠分析;偏差檢測 Figure 1-3
4. 數據挖掘的方向和趨勢 Figure 1-4
5. 本書組織 Figure 1-6
6. 數據挖掘的發展
Figure 1-10 Part I. Technologies for Data Mining
2. 數據庫系統
* 體系:Figure 2-21,Figure 2-22,Figure 2-23
1. 數據倉庫
* 數據庫、數據倉庫與數據挖掘的關系:Figure 3-10,Figure 3-11,Figure 3-12
1. 支持數據挖掘的其他技術
* 統計推理:線性模型,非線性模型。線性回歸用于預言;線性差別分析(linear discriminate ananlysis)技術用于分類;非線性技術用于估值;抽樣
* 機器學習:active learning; learning from PRior knowledge; learning incrementally。概念學習(concept learning);神經元網絡;遺傳算法;決策樹;歸納邏輯設計(indUCtive logic programming)
* 可視化:可視化表達數據挖掘結果;將數據挖掘技術應用于可視化;使用可視化技術完善數據挖掘技術;使用可視化技術steer數據挖掘過程。
* 并行處理:數據挖掘算法 + 并行處理技術 = 并行數據挖掘算法
* 決策支持:Figure 4-6,Figure 4-7
1. 數據挖掘的體系結構
* 綜合技術體系結構:Figure5-1(標準接口和接口定義語言),Figure5-3
* 功能體系結構:Figure5-4,Figure5-5
* 系統體系結構:ODBC/CORBA Figure5-8,Figure5-9,三層體系結構Figure5-10,封裝對象:Figure5-11
Part II. Techniques and Tools for Data Mining
1. 數據挖掘過程
* 數據挖掘項目: 需求;合適的數據;工具;人員;資金。
* 例子
o 超市分析交易數據,安排貨架上貨物擺布,以提高銷售
o 信用卡公司分析信用卡歷史數據,判定哪些人有風險,哪些沒有
o 調查局分析行為模式,判定哪些人對受保護的信息具有潛在威脅
o 藥房分析醫師的處方,判定哪些醫師愿意購買他們的產品
o 保險公司分析以前的客戶記錄,決定哪些客戶是潛在花費昂貴的
o 汽車公司分析不同地方人的購買模型,針對性地發送給客戶喜歡的汽車的手冊
o 人才中心分析不同客戶的工作歷史,發送客戶潛在的感愛好的工作信息
o 訪問沒有歸類的競爭對手數據庫,推斷出潛在的歸類信息
o 教育學院分析學生歷史信息,決定哪些人愿意參加培訓,發送手冊給他們
o 核武器工廠分析歷史核查信息記錄,決定沒有采用哪項預防措施將導致核災難
o 廣告公司分析人們購買模式,估計他們的收入和孩子數目, 作為潛在的市場信息
o 調查局分析不同團體的旅游模式,決定不同團體之間的關聯
o 醫師分析病人歷史和當前用藥情況,不僅診斷用藥而且猜測潛在的問題
o 稅務局分析不同團體的交所得稅的記錄,發現異常模型和趨勢
o 調查局分析罪犯記錄,推斷哪些人可能會犯恐怖罪和大的謀殺罪
數據挖掘應用領域 Figure 6-1
* 數據挖掘的步驟:Figure 6-3,修剪結果:Figure 6-4;治理因素
* 挑戰:Figure 6-5
* 用戶接口方面:研究較少;可視化
1. 數據挖掘的結果、方法和技術
* 數據挖掘應用步驟:Figure 7 – 1
* 數據挖掘的結果(任務,類型)
o 分類
o Estimation: 例子,分析消費模型,估計個人收入和孩子數目
o 預言 例子,根據個人教育、當前工作、行業趨勢,預言2005年工資
o Affinity Grouping(關聯規則,Correlation )
o 聚集
o 偏差分析deviation
o 異常檢測 anomaly:fraud detection ; medical illness detection …
* 數據挖掘方法 Figure 7-3
o 自頂向下top-down:以假設開始
o 自下而上bottom-up:直接(supervised learning)- 提問;間接
o 混合方法
* 數據挖掘技術和算法
o market basket analysis: 智能搜索,超市
o 決策樹:分類
o 神經網絡:聚集,偏差分析…
o 歸納邏輯程序
o link analysis, automatic cluster detection techniques ,nearest neighbor techniques
o 遺傳算法
o 模糊邏輯
o 約略集rough set
o concept learning 概念學習
o 簡單的基于規則的推理
1. 邏輯程序作為數據挖掘技術
* 演繹邏輯程序
* 歸納邏輯程序
* ILP作為數據挖掘技術
* ILP應用 Figure 8 –6
1. 數據挖掘工具
* 數據挖掘工具分類 Figure 9-1
* 原型工具
o 新的功能模型
開發新的模型、框架:Stanford University; MITRE Corporation ; Hitachi Corporation ; Rutgers University 目的:綜合數據挖掘和數據庫治理 項目名稱:Queryflocks (Stanford University,MITRE Corporation,Hitachi Corporation),開發支持數據挖掘查詢方法和優化技術。
Rutgers University,數據挖掘查詢語言
o 新的信息服務
挖掘不同類型的數據(多媒體) Text數據挖掘:Queryflocks;Cheng and Ng ,University of Arizona;Feldman,Bar-Ilan University in Israel Image數據挖掘:SKICAT,JPL(Jet Propulsion Lab);Clifton,MITRE Co.;University of British Columbia WEB數據挖掘:University of Michigan ;University of Minnesota
o Scalability
數據挖掘算法的可度量性:The Massive Digital Data System Project;Magnify Inc.;Thinking Machines Co.;SGI;IBM’s YorkTown Heights research laboratory
o 結果的可理解性
GTE Lab;Simon Fraser University;University of Massachusetts at Lowell
o 大規模的項目
IBM Quest project, AgarwalSimon Fraser University’s DBMINER, Han
* 商業工具
o Red Brick: DATAMIND
o Lockheed Martin: RECON
o IBM: INTELLIGENT MINER
o Information Discovery: IDIS
o Neo Vista: DECISION SERIES
Part III. Trends in Data Mining
1. 挖掘分布式、異質、遺留數據庫
* 分布式數據庫:Figure 10-1,Figure 10-2
* 異質數據庫的互操作:Figure 10-4
* 遺留數據庫的遷移:Figure 10-5
* 挖掘分布式、異質、遺留數據庫
o 分布式數據挖掘:Figure 10-6,Figure 10-9
o 異質數據庫挖掘:Figure 10-10,Figure 10-11,Figure 10-12,Figure 10-13,Figure 10-14 合作數據挖掘,中間件 Figure 10-16
o 遺留數據庫挖掘:Figure 10-17,Figure 10-18,系統重建Figure 10-19
1. 多媒體數據挖掘
* 兩種方法:抽取結構,挖掘結構數據;直接挖掘多媒體數據
* 多媒體數據庫:體系結構;數據建模;MM-DBMS 功能:數據操縱,事務治理,元數據治理;存儲治理;一致性和完整性。
* 挖掘多媒體數據
o Text挖掘
半結構,非結構; 轉換成結構化數據,在結構化數據上挖掘(文本—關系數據庫)Figure 11-10 數據挖掘與信息檢索結合Figure 11-11 開發直接挖掘非結構化數據的工具Figure 11-12
o Image 挖掘
Clifton 抽取元數據挖掘;Unusual pattern; classify, cluster, associate image
o Video 挖掘
轉化Figure 11-14;直接挖掘Figure 11-15
o Audio 挖掘
與Video類似,Text轉化Figure 11-16;直接挖掘Figure 11-17
o 挖掘綜合類型
與異質數據庫類似,MDP Multimedia Distributed Processor 先綜合后挖掘Figure 11-18, 先挖掘后綜合Figure 11-19
1. 數據挖掘和WWW
* Internet 數據庫治理和數字圖書館
* Web數據挖掘
o 分類:Figure 12-12
o 挖掘Web數據:Figure 12-6;Figure 12-7;Figure 12-8;Figure 12-9;Figure 12-10
o 挖掘訪問模式:Figure 12-11
1. 數據挖掘的安全和隱私問題
* inference 問題
* mining , warehouse , inference
* 隱私問題:Figure 13-7
1. 數據挖掘的元數據
* 元數據
* 挖掘和元數據
o 元數據挖掘Figure 14-4
o mining and repository Figure 14-5
o 多媒體數據和元數據Figure 14-6
o Web數據挖掘和元數據Figure 14-7
o 中心容器Figure 14-8(數據庫中的數據很難直接挖掘)
2. 總結