国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 學院 > 網絡通信 > 正文

DM技術及其在數據處理中的應用

2019-11-03 09:08:01
字體:
來源:轉載
供稿:網友
謝成山,牛紀海,徐濟仁
(1.北京航空航天大學,北京 100083;
2電子工程學院,安徽 合肥230037)
  摘 要:簡要介紹了DM(數據挖掘)及其工作過程,并指出了數據挖掘過程中應注意的問題,最后給出了一個具體的數據挖掘的例子。

  關鍵詞:數據挖掘;數據處理;知識;模式

一、概述

  DM(數據挖掘)是一種從大型的數據庫或DW(數據倉庫)中提出隱藏的預測性信息的新技術,它能挖掘出數據問潛在的模式,找出最有價值的信息。可實現的功能有自動預測知識和行為、自動發現以前未知的模式。

  DM是KDD(Knowledge Discovery Databese)的核心部分,是采用機器學習、運籌學、統計方法等進行知識學習的階段。數據挖掘算法的好壞將直接影響到所發現的知識。目前一般不加區分KDD和DM,在科研領域稱KDD,在工程領域稱DM。

  W.J.Fraw1ey等給出DM的定義:DM就是從大型數據庫的數據中,提取人們感興趣的知識,即正確的、非平凡的、未知的、有潛在應用價值的并最終可為用戶理解的模式。DM提取的知識可以表示為概念(Concepts)、規律(Rule)、模式(Patten)、約束(Constraints)、可視化(Visualization),對DM技術一般從3方面進行分類:

  (1)數據庫種類有關系數據庫、事務數據庫、面向對象數據庫、演繹數據庫、多媒體數據庫以及現在正在發展的數據倉庫,還包括文本文件;

  (2)發現的知識種類相關規則、分類規則、分簇規則、序列模式等。基子知識的不同抽象層次,又可將知識分為一般化知識、原始層知識和多層次知識;

  (3)所用技術一般化采掘、基于模式的采掘、基于統計學或數學原理的采掘。多種混合技術的采掘等。常用方法可分為幾種類型:分類、回歸、聚類、概括、依賴模式、變化和偏離檢測。這幾類方法中常用技術有:

  l)基于決策樹分類的ID3和C4.5方法;

  2)基于貝葉斯概率的非監督分類Autoclass方法;

  3)用于概括的的AQ15和CN2方法;

  4)解決不精確、不確定知識的粗糙休法(rough-set);

  5)大量人工神經網絡法,如BP反向傳播算法;

  6)用于產生關聯規則的APRiori方法等。

  總之,它是一門交叉學科,涉及機器學習、模式識別、統計學、高性能計算、專家系統等多個領域。

二、數據挖掘應考慮的問題

  (1)作用的數據種類

  它所涉及的數據源對象包括各種數據庫、數據倉庫、文本文件等。一個強有力的DM系統應能有效地處理這些復雜的數據類型。

  (2)DM方法的有效性和可擴展性

  如算法的運行時間是可預知的或可接受的。

  (3)DM結果的有用性和確定性

  挖掘出來的知識應能準確地反映數據庫內容,并且對用戶來說是有用的。不確定的程度應能反映在近似規則和定量規則上,系統應能處理噪音數據。

  (4)知識的表達

  用高層次語言和圖形建立友好界面來表達發現的知識。

  (5)多層次的交互采掘知識

  既然事先不知道從數據庫里可以發現什么樣的知識,交互發現成了一種有效手段。它允許用戶交互精化DM要求,動態改變數據焦點,從不同角度和層次審視采掘結果。

  (6)并行和分布的數據采掘算法

  數據庫的巨大規模,數據的廣泛分布,促使采用并行分布技術。

  (7)私有保護和數據安全

  DM可導致對私有權的入侵,研究應采取哪些措施防止暴露敏感信息。

三、數據挖掘過程

  整個過程可分為3個階段:數據準備、采掘操作、結果表達和解釋。并且在整個采掘過程(見圖1)中,離不開用戶的參與,整個過程是個反復精練的過程。



1.數據準備

  了解相關領域情況,弄清用戶需求,這個階段又可進一步分成3個子步驟:數據集成、數據選擇、數據預處理。數據集成將多文件或多數據庫運行環境中的數據進行合并處理,解決語義模糊性,處理數據中的遺漏和清洗臟數據等。數據選擇的目的是辨別出需要分析的數據集合,縮小處理范圍,提高數據采掘的質量。預處理是為了檢查數據的完整性和一致性,對噪音數據進行統計處理,丟失數據用統計方法補充。

2.數據采掘

  (1)要先決定如何產生假設,是讓數據采掘系統為用戶產生假設,還是用戶自己對數據庫中可能包含的知識提出假設,前一種稱為發現型(Discovery-Driven)的數據采掘,后一種稱為驗證型(Verification-Driven)的數據采掘;

  (2)選擇合適的工具;

  (3)進行發掘操作;

  (4)證實發現的知識,將發現的知識向領域專家解釋,或檢查與庫中現有的知識是否矛盾,如前提一樣,結論是否相反:結論相同,前提是否相反或包含。

3.結果表達和解釋

  根據最終用戶的決策目的,對提取的信息進行分析,把最有價值的信息區分出來,并且通過決策支持工具提交給決策者。因此,此階段不但要把信息通過可視化方法表達出來,還要對信息進行過濾處理,如果不能令決策者滿意,需要重復以上數據采掘的過程。且在處理的任意階段,可返回以前階段進行再處理。

  在DM過程中,容易被忽視的是評價問題。為了提高知識發現的效率與知識的有效性、可行性與創新性,一般采用信息融合的技術將知識庫與數據庫的知識有機地融合起來,用基礎知識去制約與驅動DM的過程。

四、一個實際的通信偵察信號處理的例子

1總體組成框圖

  根據未來信息戰條件下多傳感器技偵情報數據具有數據容量大、來源途徑多、類型多、層次多的特點,經過反復的綜合權衡和充分的分析論證,我們提出在情報知識庫的核心支持下、以多傳感器技偵情報數據智能融合處理為突破口的綜合分析處理總體方案,模型框圖如圖2所示。



2主要模塊的功能說明

  (1)多載體情報數據輸入接口為各個傳感器送來的各種載體形式的情報數據(網上傳輸的情報信息流、磁盤數據文件、文檔圖表及錄音錄像等)提供輸入接口。

  (2)情報數據規范化預處理為進入原始情報數據庫的數據記錄進行規范化的變換和預處理。

  (3)原始情報質量評估在情報知識數據庫的支持下對原始情報數據的質量進行評估,綜合考查情報數據的來源與背景、技術特征參數的波動范圍與測量精度、其它情報數據的可信度與情報價值、情報數據的完整性及時效性等等,它是最后確定加權系數或隸屬度的依據。

  (4)初級融合處理是在情報知識庫的支持下對原始情報數據的重復性、相駁性、完備性檢查和合并、去相駁、補遺缺等處理,并進行初級統計相關分析,在此基礎上形成可供后面智能融合處理的中間結果情報數據。

  (5)智能融合處理是在情報知識庫的支持下對中間結果數據庫中的情報數據進行廣義的相關分析、模糊模式匹配和關聯分析、智能推理等綜合分析處理,最后的處理結果存入結果情報數據庫,供最終情報的綜合生成。

  (6)結果情報的質量評估是在情報知識庫的支持下對智能融合處理過程及其所得到的結果數據進行質量評估,以便確定進入結果數據庫中各數據記錄的質量等級。

  (7)基于專家經驗的知識元生成是在領域專家經驗的指導下形成數據融合處理的準則、模型、邏輯、經驗公式與數據等,為情報知識的框架結構提供素材。

  (8)情報生成與分發控制是根據平時和戰時的各個環節與各個階段對情報支援的需求,從多傳感器數據智能融合處理后的結果情報數據中生成對敵情描述的全局情報、局域情報或目標情報,并以報告、報表、圖表的形式顯示或打印輸出。

3情報知識庫體系的建立與維護管理

  多傳感器情報數據要實現智能化融合處理,需要有一個強大的情報知識庫體系來支撐,它包括“情報數據知識庫”和“專家經驗知識庫”兩部分。“專家經驗知識庫”是根據專家的知識與經驗而建立的具有相對固定性的知識庫,而“情報數據知識庫”則從海量的原始情報數據中提煉出所隱含的規律、特點、相關特性和關聯特性等情報知識,它促進情報數據融合處理過程中自學習和自適應機制的形成。“專家經驗知識庫”對“情報數據知識庫”的形成起指導的作用,而“情報數據知識庫”的不斷完善又促進“專家經驗知識庫”的不斷發展,兩者相輔相成,互相促進。

  在系統中設計下面3個模塊來支撐知識庫體系的建立:

  (1)基于情報數據的知識元生成模塊。在“專家經驗知識庫”的支持下,根據對原始情報數據的質量評估結果、初級融合處理結果及智能融合處理結果,從各類“海”量的原始情報數據記錄、中間結果情報數據記錄及結果情報數據記錄中尋找所隱含的規律、特點、相關特性和關聯特性等情報矢口識,初步形成對各類“目標”進行分類、描述所需的情報知識元。

  (2)基于專家經驗的知識元生成模塊。將技偵情報偵察分析工作中長年積累的專家經驗或情報研究工作中所取得的成果進行規范化處理,形成對各類情報數據進行融合處理所需的專家知識元。

  (3)知識庫體系生成與管理模塊。通過對專家知識元的有機組合,形成適應各種情況的處理模型、判準準則、推理邏輯等具有專家級知識結構的“專家經驗知識庫”,作為情報知識庫體系中的主干框架:通過對情報知識元的有機組合,形成適應各種情況的加權系數、隸屬函數、特征要素、關聯特性、邏輯結構及判決門限等補充與細化“專家經驗知識庫”的“情報數據知識庫”。由此將“專家經驗知識庫”與“情報數據知識庫”組成一個有機的整體。

  由于敵方電子裝備、兵力部署、戰略戰術等情況的變化,也由于人的接受知識能力、模糊分折與聯想推理及其歸納總結與關聯分析能力等各個方面總要比計算機強得多,因此需多余情報知識庫體系定期或不定期地進行人工維護管理,包括查詢、刪除、修改、添加、重組等,使情報知識庫能適應敵情的變化,并隨著我方在技偵情報分折研究領域的進展而不斷完善。

4.情報生成

  根據多傳感器技偵情報數據的融合處理結果在情報知識庫的支持下生成對敵情的各個方面進行實時準確描述的情報,這是技偵情報綜合分析處理的最終目的,也是系統在總體設計時需要把握的重點。

  最終生成的情報包括3個層次:全局情報、局部情報、個體目標情報。


摘自 北極星電技術網
發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 昭平县| 腾冲县| 新建县| 启东市| 改则县| 洛浦县| 三河市| 蒙阴县| 且末县| 永泰县| 南丰县| 普安县| 鄂尔多斯市| 若羌县| 九寨沟县| 同德县| 上栗县| 兴仁县| 五大连池市| 炉霍县| 阿克苏市| 乌鲁木齐县| 乌审旗| 北安市| 中方县| 山东| 漯河市| 清苑县| 南召县| 磐石市| 蒲江县| 晋宁县| 白银市| 博乐市| 万宁市| 政和县| 长宁县| 桓仁| 宣汉县| 宣汉县| 申扎县|