国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 編程 > R > 正文

標準分數(shù)法檢測數(shù)據(jù)的異常值及在R語言中的實現(xiàn)方法

2023-04-28 12:24:10
字體:
來源:轉載
供稿:網(wǎng)友

一、異常值的概念

在數(shù)據(jù)處理與應用中(如訓練機器學習算法或應用統(tǒng)計技術),錯誤值或異常值通常會造成測量誤差或異常系統(tǒng)條件的結果。

有時數(shù)據(jù)集中含有一個或多個異常大或者異常小的觀測值,像這種極端的值被稱為異常值。通常異常值產生的原因可能有:

(1)觀測、記錄或錄入時不正確;

(2)測量值來自不同的總體;

(3)測量值是正確的,但代表一個稀有或偶然的事件。

二、異常值的判斷之標準分數(shù)法

目前有許多技術可以檢測異常值,并且可以自主選擇是否從數(shù)據(jù)集中刪除。

這篇文章首先介紹一下一維數(shù)據(jù)中檢測異常值的一個方法:標準分數(shù)法。

變量值與其平均數(shù)的差除以標準差的值稱為標準分數(shù),或稱Z得分,公式如下:

計算標準分數(shù)

當Zi的絕對值大于某個數(shù)值時,可以將第i個樣本看成異常值。

三、異常值判斷法則

在具體使用時,可以使用下面的判別法則。

(1)經(jīng)驗法則:若數(shù)據(jù)集近似于丘形對稱分布,則①大約有68%的測測量值位于平均值的1個標準差的范圍內;②大約有95%的測量值位于平均值的2個標準差的范圍內;③幾乎所有的測量值位于平均值的3個標準差的范圍內。

(2)切比雪夫法則:對于任意的數(shù)據(jù)集,無論數(shù)據(jù)的頻數(shù)分布是什么形狀的,則①可能有很少的測量值落在平均值落在平均值的1個標準差的范圍內;②至少有3/4的測量值落在平均值的2個標準差的范圍內;③至少有8/9的測量值落在平均值的3個標準差的范圍內;④對于任意大于1的數(shù)k,至少有1-1/k2的測量值落在平均值的k個標準差的范圍內。

通過z得分及這兩個法則,可以判斷哪些樣本是異常的。

四、標準分數(shù)法在R語言中實現(xiàn)的方法

這里使用一個具體的例子來說明標準分數(shù)法的具體使用過程。

某婦產醫(yī)院隨機地選取了100個新生兒,其體重數(shù)據(jù)存儲在名為birthWeight的文本文件中。找出這些新生兒體重的異常值。數(shù)據(jù)在文件中的存儲格式如下:

找出異常值數(shù)據(jù)

編寫R語言程序:

X <- scan("birthWeight.txt") #定義變量X讀取數(shù)據(jù)
names(X) <- 1:length(X) #給每個數(shù)據(jù)編號
Xjz <- mean(X) #均值
S <- sd(X) #標準差
Z <- (X - Xjz) / S #Z得分
X[abs(Z) > 3] #提取出得分絕對值大于3的值

其在R語言編輯器中的情景:

R語言找出異常值

運行結果如下圖所示:

R語言中異常值檢測結果

從運行結果來看,是第6個數(shù)據(jù)960屬于異常值。因為根據(jù)經(jīng)驗法則來看,幾乎所有的觀測值Z得分的絕對值均小于3.

發(fā)表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發(fā)表
主站蜘蛛池模板: 广灵县| 依兰县| 高唐县| 石河子市| 卫辉市| 西丰县| 金湖县| 荥阳市| 卓尼县| 莱阳市| 乐业县| 延庆县| 涞水县| 无极县| 安达市| 翁源县| 佛山市| 南陵县| 满城县| 大新县| 昌平区| 平舆县| 陇南市| 上栗县| 镇雄县| 太湖县| 城口县| 大竹县| 茂名市| 凤山县| 汕尾市| 九江市| 冀州市| 巍山| 北辰区| 黄冈市| 河西区| 华容县| 台北县| 三原县| 六枝特区|