卡方分布是gamma函數生成,θ則為1/λ時卜式機率,其源頭是排列組合的二項分布機率,引導的常態分佈機率。
回顧一下變異數=σ^2,及標準誤差=σx ̄,Z^2=(x ̄ - μ)^2 / σ^2。Z ε%= x ̄ - μ / σx ̄。
假若由群體中抽n個樣本,並把每一個樣本xi帶入,求其總和:
[nΣi=1] Zi^2 =[nΣi] (x - μ)^2 /σ^2 。= [Σ (xi - μ)^2 )] / σ^2=標準常態的Z值的平方。
上式若用卡方分布 χ^2(n)= (Σ (xi - μ)^2 )/σ^2=以自由度為n的標準常態的Z值的平方。或χ^2(n-1)= ΣZi^2 = [Σ (xi - x ̄)^2 )] / σ^2
https://zhuanlan.zhihu.com/p/268756365
當α=v/2,β=2,帶入Garment分配的期望值E(x)=自由度V,變異數Var(x)=2自由度V
變異數(自由度)愈多,看卡方分配機率圖自由度=30,則越趨近於常態分布:
(一)所有的變項為類別變項(categorical variable)
(二)樣本須為獨立變項(Independent variable)→第一組的樣本不影響第二組的樣本;第二組的樣本也不影響第一組。
(三)每一檢定分組項目內的數據應該設為頻率或計數數目,而不是百分比或是經過轉換之數據。
(四)至少有80%以上的分組項目,其樣本數大於5,亦即樣本數目至少要為細格數目的五倍,避免產生計算式分母的誤判。
Σxij ^2 (變異值)=χ2=(O-E)^2 / E ,E=群體,O=樣本。χ2=n {[rΣi=1][cΣj=1] aij^2 /Ri Cj}-1
關心的是fo(x)-fe(x)=H0,來評判H1差異多少顯著性。
其自由度為:(r −1)× (c −1),行列分組數目。
自由度Φ=(COUNTA(r_cell:r_cell)-1)*(COUNTA(c_cell:c_cell)-1)
求卡方分配的右尾顯著性機率%P值=CHISQ.DIST.RT(卡方值,自由度),
求卡方分配的左尾顯著性機率%P值,從0~+∞P值=CHISQ.DIST(卡方值,自由度,1跟0的差別可參考前面章節常態分布機率的講解)。
或反求卡方分配的左尾機率反傳卡方值=CHISQ.INV(1-α%機率一般是用0.95,自由度)
或反求卡方分配的右尾機率反傳卡方值=CHISQ.INV.RT(α%機率一般是用0.05,自由度)
表示自觀察值與期望之差異之總和,若差異越大則表示兩變數之間越有關聯性,越容易顯著。
χ^2為0:H0, χ^2不為0:H1。χ^2越趨近0即H0愈顯著。
卡方值差異愈大表示:由在H0的證真假設下,計算卡方值的計算公式可知,卡方值χ2值愈小,O觀察值與多個E期望值間差異愈小,即是表示互相間變異數差異越小,當兩個互減=0時,O為觀察值與E為期望值完全一致時,χ2值為0。
反之,當χ2當大時,其累積分布函數機率越趨近1.00,即表明O觀察值與多個E期望值間有明顯差異,遠離H0初始主張假設。
以數學式:χ2=0≡H0,χ2≠0≡H1。χ^2→0即H0愈顯著 ,χ^2與χα^ 2差愈大,χ^2→1則H1愈顯著。
如果χ2值“小”,研究者就傾向於不拒絕H0;如果χ2值大,就傾向於拒絕H0。
適用性檢定:
χ^2(n-1)=[nΣi=1] (Oi - Ei)^2 / Ei,上式中,實測值為Oi,期望次數為Ei ,自由度為(n −1)之卡方分布。
例題:有三種治療某病症的藥劑,分別給受試者使用後如下表,請問這三種治療某病症的藥劑,有無差異。
┌───┬─┬─┬─┬──┐
│藥劑名│ A│ B│ C│總和│
│有改善│48│56│34│138 │
│無改善│32│30│58│120 │
│總和數│80│86│92│258 │
計算E期望值:
期望值的計算是以行與列交乘值除以總數(Total),
例如:[(A+B+C)*(有改善+無改善)]/Total為A Cell之期望值。
藥劑A有改善的期望:E=(138*80)/258=42.7906
藥劑B有改善的期望:E=(138*86)/258=46.0000
藥劑C有改善的期望:E=(138*92)/258=49.2093
藥劑A無改善的期望:E=(120*80)/258=37.2093
藥劑B無改善的期望:E=(120*86)/258=40.0000
藥劑C無改善的期望:E=(120*92)/258=42.7906
計算卡方值:
χ2為每一分組項目之卡方值,O為觀察值,E為期望值,使用χ^2= Σ (O-E)^2 / E ,計算變異值。
(48-42.7906)^2/42.7906=0.6341+
(56-46.0000)^2/46.0000=2.1739+
(34-49.2093)^2/49.2093=4.7007+
(32-37.2093)^2/37.2093=0.7293+
(30-40.0000)^2/40.0000=2.5000+
(58-42.7906)^2/42.7906=5.4059+
上述用SUM()加總=16.144 =χ2變異值。
這次檢定的自由度Φ=(3-1)X(2-1)=2=自由度Φ
或反求卡方分配的左尾機率反傳卡方值=
=CHISQ.INV(顯著性機率一般是用0.95,自由度),卡方值愈小,相似性愈高
1-α% | 自由度 | 卡方值 | α% |
0.04877 | 2 | 0.1000 | 0.9512 |
0.94999 | 2 | 5.9910 | 0.0500 |
0.99969 | 2 | 16.1441 | 0.0003 |
0.99999 | 2 | 24.0000 | 0.0000 |
0.15 | 2 | 0.3250 | 0.8500 |
0.2 | 2 | 0.4463 | 0.8000 |
0.25 | 2 | 0.5754 | 0.7500 |
0.3 | 2 | 0.7133 | 0.7000 |
或反求卡方分配的右尾機率反傳卡方值=
=CHISQ.INV.RT(相似性機率一般是用0.05,自由度),卡方值愈小,相似性愈高
α% | 自由度 | 卡方值 | 1-α% |
0.95123 | 2 | 0.1000 | 0.0488 |
0.05001 | 2 | 5.9910 | 0.9500 |
0.00031 | 2 | 16.1441 | 0.9997 |
0.00001 | 2 | 24.0000 | 1.0000 |
0.85000 | 2 | 0.3250 | 0.1500 |
0.80000 | 2 | 0.4463 | 0.2000 |
0.75000 | 2 | 0.5754 | 0.2500 |
0.70000 | 2 | 0.7133 | 0.3000 |
由結果可知,當自由度為2,其設置α顯著性為1-0.05=0.95,卡方值為5.991,
χ2 >χα 2 →16.144 > 5.991 ,H0初始主張:三種治療骨質酥鬆症的藥劑沒有差異,H1拒絕初始主張:三種治療骨質酥鬆症的藥劑有差異。
因χ2 >χα^2 →16.144 > 5.991,所以此次檢定χ2其變異差異性大於χα 2時設置的檢定直值:拒絕H0,接受 H1,所以三種治療骨質酥鬆症的藥劑有差異的,但因α設置0.05,故是犯第一類型錯誤(type I error)的機率可能有5%。
關心的是fo(x)-fe(x)=H0,來評判H1差異多少顯著性。
求顯著性機率%:卡方分配的左尾機率值從0~+∞
=CHISQ.DIST(卡方值,自由度,1跟0的差別可參考前面章節常態分布機率的講解)
卡方值 | 自由度 | P值 | 1-α% | α% |
0.1 | 2 | 0.04877 | 4.877% | 95.123% |
5.991 | 2 | 0.94999 | 94.999% | 5.001% |
16.144 | 2 | 0.99969 | 99.969% | 0.031% |
24 | 2 | 0.99999 | 99.999% | 0.001% |
Σ[fo-fe^2]/fe=χ2=0.1=變異為0.1=1-α%4.877%=α%為95.123%
Σ[fo-fe^2]/fe=χ2=5.991=變異為5.991=1-α%94.999%=α%為5.001%
Σ[fo-fe^2]/fe=χ2=16.144=變異為16.144=1-α%99.969%=α%為0.031%
Σ[fo-fe^2]/fe=χ2=24=變異為24=1-α%=99.999%=α%為0.001%
統計推算後的差異性99.969%是否有大於預設主張的94.999%,若有,則表示統計推算後,其此次檢定是有差異性的。
那看來是有大於4.97%的情況,所以,可以用數學推導檢定的依據方式:表明三種治療某病症的藥劑有差異的。
沒有留言:
張貼留言