国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 開發 > 綜合 > 正文

[譯] 使用Using Data Quality Services (DQS) 清理用戶數據

2024-07-21 02:48:34
字體:
來源:轉載
供稿:網友
[譯] 使用Using Data Quality Services (DQS) 清理用戶數據

SQL Server 2012 Data Quality Services (DQS)  允許你使用自己的知識庫來清洗數據. 在本文中我會展示一個簡單示例.

使用DQS清理步驟如下:

A. 建立DQS 知識庫 B. 建立DQS項目然后根據知識庫清理數據

在SQL Server database中用下面腳本創建樣本數據:

CREATE TABLE MyCustomers   (       CustomerID INT,       CustomerName NVARCHAR(255),       City NVARCHAR(32),       PRovince NVARCHAR(32),       LastUpdate DATETIME  ) INSERT INTO MyCustomers  VALUES      (1, 'Consolidate Co Ltd', 'Miami', 'FL','2013-01-01'),                      (2, 'Consolidation Company Ltd', 'New York', 'NY','2013-01-01'),                      (3, N'什錦的件', 'LA', 'CA','2013-01-01'),                      (4, 'Chop-suey Chinese', 'Los Angeles', 'CA', '2013-03-03'),                     (5, 'Big Cheese, The', 'Redmond', 'WA', '2013-02-02'),                     (6, 'THE BIG CHEESE', 'Chicago', 'Il','2013-02-02'),                     (7, 'To Be Filled Later', 'Redmond', 'Wash.', '2013-01-01')
A. 建立DQS 知識庫

1. 先運行SQL Server 2014 Data Quality Server Installer 安裝DQS

注: DQS只能安裝在企業版或者商業智能版的SQL 上

image

安裝完畢以后引擎新增的DQS_MAIN數據庫,其中新增了三個Role,如果你要讓其他用戶訪問DQS,那么必須賦予他們其中一個Role才可以訪問DQS

image

2.裝好以后啟動 Data Quality Client.

image

3. 點擊 New Knowledge Base.  Name字段輸入 MyCustomerKB, 確定 Domain Management已經被選中,然后點擊 Next

image

4. 點擊 Create Domain 圖標.

image

5. 彈出框里面 Domain Name寫 CustomerName .  還有一個可選項  Format Output to . 可以選成 Capitalize.

image

6. 重復相同的步驟創建 City 和 State域(暫且叫域吧,不知道官方翻譯成什么) .

image

7. 選擇 City 域, 點擊 domain values 標簽. 在這個界面,你可以輸入所有有效值或者無效值.

        • 點擊 Add new domain value 圖標.輸入一個正確值, 比如Los Angeles,然后回車. 
        • 點擊 Add new domain value 圖標.輸入一個無效值, 比如United States, 點擊 Type 列的下拉框,然后選擇黃色感嘆號(yellow triangle, 無效值)  (這里有三個類型. 正確,無效和錯誤; 無效 (invalid) 表示該值在本域中無效,但是可能在另外一個域中有效. 例如 United States 不是city 域的有效值,但是它是country的有效值 ; 錯誤(error)則表示完全不正確). 你可以指定正確的值來修正無效或者錯誤值. 否則這些值會在清理過程中被標記為無效 (invalid).
        • 點擊 Add new domain value 圖標. 輸入一個同義詞LA,然后按回車. 選中 "LA" 和 "Los Angeles" 右擊然后選擇設置成同義詞 (Set as Synonyms).

image

注意:默認情況下, DQS 包含一個 DQS_NULL 有效值, 你可以把它的類型改為無效, 比如你想標記缺失值.

接著改變主導值,右擊Los Angeles并選擇 Set as Leading during .

image

    • city域最終顯示如下:

image

 

8. 選擇 State 域 ,點擊 domain values 標簽. 在這個步驟.我們用通過表格導入值.

  • 從http://www.stateabbreviations.us/獲取米國洲的縮寫列表. 拷貝前三列到Excel然后保存為 csv 文件.
  • 點擊import values 圖標的下拉尖頭,選擇 import valid values from excel. ..balabala….

    image

      • 導入后結果如下. DQS自動把第一列作為主導值,后面的列作為同義詞.  (這個DQS 一上來就讓我看到Bug…我用的是SQL 2014 . 比如說有一行數據MarylandMd.MD    其中Maryland 并沒有成為Md. 和MD的主導值)

    image

9. 選擇 CustomerName 域,然后點擊Term-Based Relations 標簽. DQS允許你域值里面定義術語,并使他們標準化. 例如公司名稱常包括 “corp”,當出現他的變種(比如 "Microsoft Corp" 或者 "Microsoft Corporation")的時候你可以使用DQS 標準化域值中的術語,在這個步驟中,我們將定義兩個術語:

      • 點擊 Add new relation 圖標
      • 添加”co”值,并設置正確值為"Company" 回車繼續.
      • 添加 "ltd" 值,并設置正確值為"Limited" . 
      • 完成后顯示如下,然后點擊Finish 按鈕 .

    image

10. 點擊 Publish 按鈕 button繼續.

image

發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 昌宁县| 长阳| 乌拉特中旗| 绥阳县| 开鲁县| 通海县| 长顺县| 崇义县| 芒康县| 灵石县| 昭通市| 平潭县| 仙桃市| 宁南县| 云龙县| 万州区| 黎川县| 荥阳市| 衢州市| 彰化市| 汝州市| 营口市| 大足县| 延长县| 中山市| 南投市| 柏乡县| 玉山县| 平邑县| 越西县| 合川市| 吉木萨尔县| 汝城县| 南充市| 隆安县| 屏边| 平原县| 凤翔县| 灌南县| 商都县| 马鞍山市|