1、方差分析的基本概念
方差分析(Analysis of Variance, ANOVA),由英國(guó)統(tǒng)計(jì)學(xué)家費(fèi)雪(Ronald Aylmer Fisher)于1920年前后提出,最初主要應(yīng)用于生物和農(nóng)業(yè)田間試驗(yàn),后來(lái)推廣到各個(gè)領(lǐng)域。
它直接對(duì)多個(gè)總體的均值是否相等進(jìn)行檢驗(yàn)。
方差分析能夠解決多個(gè)均值是否相等的檢驗(yàn)問(wèn)題。
方差分析是要檢驗(yàn)各個(gè)水平的均值是否相等,采用的方法是比較各水平的方差。
如研究不同的銷(xiāo)售點(diǎn)(假設(shè)為5個(gè))對(duì)銷(xiāo)售量是否有有影響,可以收集不同銷(xiāo)售點(diǎn)若干天的銷(xiāo)售數(shù)據(jù)來(lái)進(jìn)行研究,則實(shí)質(zhì)上是看這些銷(xiāo)售點(diǎn)在這些天中的平均銷(xiāo)售量 是否相同(或由顯著差異)。
所要檢驗(yàn)的對(duì)象稱為因素或因子,也稱為自變量。如例子中的銷(xiāo)售點(diǎn)就是因素。
因素的不同表現(xiàn)稱為水平或處理 。如例子中研究的是5個(gè)銷(xiāo)售點(diǎn),則共有5個(gè)水平。
每個(gè)因素水平下得到的樣本數(shù)值稱為觀測(cè)值 ,也稱為因變量或響應(yīng)變量。
如果研究中只考慮一個(gè)因素的話,稱之為單因素方差分析;如果考慮兩個(gè)因素的話,稱為雙因素方差分析;雙因素方差分析中如果不考慮兩個(gè)因素的交互作用對(duì)因變量的影響的話,稱之為無(wú)交互作用的雙因素方差分析,否則稱之為有交互作用的雙因素方差分析。
2、方差分析的原假設(shè)與備擇假設(shè)
原假設(shè):
H0: μ1= μ2 = μ3 = μ4 = ...... = μn
備擇假設(shè):
H1:均值不全相等。
3、方差分析運(yùn)用的前提條件
(1)各樣本是相互獨(dú)立的隨機(jī)樣本——獨(dú)立性;
(2)各組的方差相同——方差齊性;
(3)各樣本來(lái)自正態(tài)分布——正態(tài)性。
4、單因素方差分析問(wèn)題原型
研究?jī)H涉及到一個(gè)因素。如例子中的研究?jī)H考慮銷(xiāo)售點(diǎn)一個(gè)因素。
(1)問(wèn)題原型
設(shè)因素A有r個(gè)水平A1,A2,...,Ar,每個(gè)水平Ai進(jìn)行ni次獨(dú)立觀測(cè),將水平Ai下的試驗(yàn)結(jié)果xi1,xi2,...,xini看成來(lái)自第i個(gè)正態(tài)總體Xi~N(μi,σ)的樣本觀測(cè)值,其中μi,σ均未知,并且每個(gè)總體Xi都相互獨(dú)立。考慮線性統(tǒng)計(jì)模型:
xij = u i + εij
εij~N(0,σ2) 且相互獨(dú)立
其中,μi為第i個(gè)總體的均值,ε為相應(yīng)的試驗(yàn)誤差。
(2)單因素方差分析的數(shù)據(jù)結(jié)構(gòu)
(3)單因素方差分析表
(4)判斷與結(jié)論
在假設(shè)條件成立時(shí),F(xiàn)統(tǒng)計(jì)量服從第一自由度為r-1、第二自由度為n-r的 F分布。
若F ≥ Fα,則拒絕原假設(shè),表明均值之間的差異顯著,因素A對(duì)觀察值有顯著影響;
若F < Fα,則不能拒絕原假設(shè),表明均值之間的差異不顯著,因素A對(duì)觀察值沒(méi)有顯著影響。
5、R中進(jìn)行方差分析的函數(shù)
在R中可以使用aov()函數(shù)和summary()函數(shù)共同完成方差分析的計(jì)算。aov()函數(shù)的格式如下:
aov(formula, data = NULL, projections = FALSE, qr = TRUE, contrasts = NULL, ...)
其中,formula是個(gè)字符串,表示方差分析的公式,如形如X~A或X~A+B或X~X+B+A:B;
data是數(shù)據(jù)框,描述數(shù)據(jù)的響應(yīng)變量、因素和相應(yīng)水平的對(duì)應(yīng)關(guān)系,默認(rèn)值為NULL,當(dāng)數(shù)據(jù)直接由X和A給出時(shí),不需要此參數(shù)。
6、R語(yǔ)言進(jìn)行單因素方差分析舉例說(shuō)明
新實(shí)驗(yàn)樓裝修,小明需要買(mǎi)一批燈泡。市場(chǎng)上的燈泡種類(lèi)繁多,而且價(jià)格也相差較大。小明選擇了4種品牌的燈泡請(qǐng)人做了測(cè)試。測(cè)試結(jié)果如下表。你認(rèn)為購(gòu)買(mǎi)哪種品牌較好呢?
品牌 | 使用壽命 | |||||||
A1 | 1600 | 1610 | 1650 | 1680 | 1700 | 1700 | 1780 | |
A2 | 1500 | 1640 | 1400 | 1700 | 1750 | |||
A3 | 1640 | 1550 | 1600 | 1620 | 1640 | 1600 | 1740 | 1800 |
A4 | 1510 | 1520 | 1530 | 1570 | 1640 | 1600 |
當(dāng)然選擇平均壽命要大一些的,那么這些水平均值有區(qū)別嗎?如何進(jìn)行分析:方差分析。
在R中編寫(xiě)程序如下:
#單因素方法分析
#定義數(shù)據(jù)燈泡壽命向量
X<-c(1600,1610,1650,1680,1700,1700,1780,
1500,1640,1400,1700,1750,
1640,1550,1600,1620,1640,1600,1740,1800,
1510,1520,1530,1570,1640,1600)
#定義一個(gè)因子用于指定每個(gè)數(shù)據(jù)所屬的組
A<-factor(rep(1:4,c(7,5,8,6))) #使用重復(fù)函數(shù)進(jìn)行定義
#定義數(shù)據(jù)框
lamp<-data.frame(X,A)
#進(jìn)行方差分析
lampAov<-aov(X~A,projections=F)
#提取方差分析表
sm<-summary(lampAov)
print(sm) #輸出方差分析信息
#數(shù)據(jù)滿足正態(tài)性要求嗎?
#對(duì)數(shù)據(jù)進(jìn)行正態(tài)性符合性檢驗(yàn)(Shapiro-Wilk)
#該檢驗(yàn)中計(jì)算的W值越接近1,正態(tài)性越好
#對(duì)數(shù)據(jù)框中的X列值因素水平為1的進(jìn)行正態(tài)性檢驗(yàn)
shapiro.test(lamp$X[lamp$A==1])
#對(duì)數(shù)據(jù)框中的X列值因素水平為2的進(jìn)行正態(tài)性檢驗(yàn)
shapiro.test(lamp$X[lamp$A==2])
#對(duì)數(shù)據(jù)框中的X列值因素水平為3的進(jìn)行正態(tài)性檢驗(yàn)
shapiro.test(lamp$X[lamp$A==3])
#對(duì)數(shù)據(jù)框中的X列值因素水平為4的進(jìn)行正態(tài)性檢驗(yàn)
shapiro.test(lamp$X[lamp$A==4])
#當(dāng)水平數(shù)較多時(shí),運(yùn)用上面的寫(xiě)法比較麻煩,可以借助with()函數(shù)和tapply()函數(shù)
with(lamp,tapply(X,A,shapiro.test))
#方差齊性檢驗(yàn)
bartlett.test(X~A,data=lamp)
在R中的運(yùn)行結(jié)果如下:
從結(jié)果中看,P值>0.05,則在0.05的顯著性水平下,沒(méi)有充分理由拒絕原假設(shè),也就是說(shuō)4種品牌的壽命沒(méi)有顯著性區(qū)別,則在購(gòu)買(mǎi)時(shí),挑揀便宜的進(jìn)行購(gòu)買(mǎi)就行了。
正態(tài)性檢驗(yàn)結(jié)果如下:
從檢驗(yàn)結(jié)果來(lái)看,各組數(shù)據(jù)都符合正態(tài)性。
方差齊性檢驗(yàn)結(jié)果:
由檢驗(yàn)結(jié)果的p值=0.1215 > 0.05可知,在0.05的置信水平下,沒(méi)有充分理由拒絕原假設(shè)(每組的方差相等),則可以認(rèn)為每組的方差相等,即滿足方差齊性。
新聞熱點(diǎn)
疑難解答
圖片精選