(以下書中筆記心得摘錄內容及例題來自為:發行時間於民國75年一月,由中興管理顧問公司發行,書名:品質管制與工廠統計一書,譯者:陳文哲(現任國立交通大學管理科學研究所專任教授),黃清連(中國鋼鐵股份有限公司技術開發處長)。原著者為中井重行(早稻田大學工業經營科主任),池澤辰夫(早稻田大學工學教授)。
相關與迴歸分析:相關係數r分析
使用圖「表」來將事件A與事件B與事件C的密切關係,以數「量」化表示出來。
與先前所評估的不同在於,先前兩組或多組資料同樣假設本源是常態分析理論(如先前剛開始學習常態分析理論的源頭時所理解,於諸萬事中,凡各個變因皆會互相影響,而形成某種趨勢(以數學函數)來顯示於現實中,我們倒推於實際中可互相比對函數近似於實際發生的事。
(但是,必須了解的是,它的論證的數據的始終的本源是機率,在其所處環境,所處當下社會歷史文化思想下,就算有數據,也不一定能使人接受。
更何況,有些事物就算有數據也只能代表某一部份的接近真實趨勢,而另一部份才是隱藏在符合某種階級的某種觀念的期望狀態的期望。)
評估其相關與迴歸分析時,須使一特性為獨立變量(可單獨控制已知),而另一特性為任意變量(從屬變量)。
評估兩者間相對之關係常用:散佈圖:通常縱軸標示結果,橫軸標示原因,從觀察圖形具體分布狀態,預估趨勢將來會如何演變,兩者間是正相關嗎?相關聯關係影響大嗎?與實際對照時有哪些部分可能是無相關關係的?與實際對照時有哪些部分可能是遵循某變數而被引導產生的?
為了瞭解某事物發生的原因,對某事物評估某兩個變因導致發生次數多寡的表常用:分組次數分配相關表:縱向變因次數總和和橫向變因次數總和,其兩者加總後為:某事物發生的總和。這樣就可以去觀察某事物發生的總和,比較偏向受縱向變因次數影響還是橫向變因次數影響。
======
同樣是散佈圖,不過將原點設置為兩者之平均值,稱為:相關係數圖:此時圖上的新數值須變成原數值就減去平均值,那麼就可以看出對平均值來講,其兩者相對關係是趨向哪個象限之內。
一樣用之前的統計計算原理思路:全象限的總和S=(各象限加總)Σx'y'(第Ⅰ象限正正得正) +Σx'y'(第Ⅱ象限負正得負) +Σx'y'(第Ⅲ象限負負得正) +Σx'y'(第Ⅳ象限正負得負) 。
再對此S除以樣本數據n得到:S=Σx'y' / n,很孰悉這是平均值的基本思路,有了平均值,如果還需要繼續評估其他統計量,可以繼續往下推導。
https://zh.wikipedia.org/zh-tw/%E7%9A%AE%E5%B0%94%E9%80%8A%E7%A7%AF%E7%9F%A9%E7%9B%B8%E5%85%B3%E7%B3%BB%E6%95%B0
在統計學中,皮爾森積動差相關係數(英語:Pearson product-moment correlation coefficient,縮寫:PPMCC,或PCCs,有時簡稱相關係數r)
用於度量兩組數據的變數X和Y之間的線性相關的程度。它是兩個變數的共變異數與其標準差的乘積之比;
======
相關係數r=。若考慮到各個象限的標準差(變異程度)不同,我們可以以各個分配之標準差(sx,sy)除之,得相關係數r=1/n [nΣi=1](X'/sx)(y'/sy)。
又x'跟y'的源頭是新數值減去平均值(xi-x ̄)跟(yi-y ̄),代入r=1/n [nΣi=1](X'/sx)(y'/sy)中。
來導入樣本的偏差平方和概念:推導公式後得 r=1/n [nΣi=1] ((xi-x ̄)/sx)((yi-y ̄/sy)= r= [nΣi=1] (xi-x ̄)*(yi-y ̄) / √[nΣi=1] (xi-x ̄)^2 * √[nΣi=1] (yi-y ̄)^2 = S(x,y)x,y之偏差平方和 / √S(x)(√x之S(偏差平方和)) * √S(y)(√y之S(偏差平方和))=s^2xy(x、y之共變異數)/√Sx^2*√Sy^2(2變異數之幾和平均)。r = S(x,y) / √S(x) * √S(y)= S(x,y) =Σ XY - ( (ΣX)(ΣY) / n)
======
若絕對值|r|愈接近1.00,代表兩組變數相關程度愈密切。
r>0,r愈接近1.00時,表示有正相關。若r<0,r愈接近-1.00時,表示有負相關。
例如:假若依此ˊ製成產品的風險評估及工程判斷,將之大致上區分四個等級(自己分等級)的話(0-0.1,0.1-0.39,0.40-0.69,0.70-1.00):
絕對值|r|介於0.40~0.69 代表 兩組變數中度相關,若絕對值|r|介於0.10~0.39 代表 兩組變數低度相關。
例題:
有二組數組,一組稱為x,一組稱為y。先依前章檢定假說所述計算S(偏差平方和)= ΣX^2 - (ΣX )^2 } / n 。
雙側α= | 0.01 | 雙側α= | 0.01 | |||||
no. | x | X | X ^2 | no. | y | Y | Y ^2 | XY |
1 | 74 | 0.5 | 0.25 | 1 | 17 | 0.2 | 0.04 | 0.1 |
2 | 67 | -6.5 | 42.25 | 2 | 16 | -0.8 | 0.64 | 5.2 |
3 | 59 | -14.5 | 210.25 | 3 | 15 | -1.8 | 3.24 | 26.1 |
4 | 60 | -13.5 | 182.25 | 4 | 15 | -1.8 | 3.24 | 24.3 |
5 | 51 | -22.5 | 506.25 | 5 | 14 | -2.8 | 7.84 | 63 |
6 | 98 | 24.5 | 600.25 | 6 | 20 | 3.2 | 10.24 | 78.4 |
7 | 89 | 15.5 | 240.25 | 7 | 18 | 1.2 | 1.44 | 18.6 |
8 | 77 | 3.5 | 12.25 | 8 | 17 | 0.2 | 0.04 | 0.7 |
9 | 83 | 9.5 | 90.25 | 9 | 19 | 2.2 | 4.84 | 20.9 |
10 | 77 | 3.5 | 12.25 | 10 | 17 | 0.2 | 0.04 | 0.7 |
樣品平均 | 73.5 |
|
| 樣品平均 | 16.8 |
|
|
|
標準差 | 14.5 |
|
| 標準差 | 1.9 |
|
|
|
加總 | 311.00 | 0 | 1896.50 | 加總 | 77 | -7.11E-15 | 31.6 | 238 |
S(偏差平方和)= ΣX^2 - (ΣX )^2 } / n | Sy(偏差平方和)= ΣY^2 - (ΣY )^2 } / n | ||||
Sx= | 1896.5 | Sy= | 31.6 | ||
σe=√V =√ Sx(偏差平方和) / n-1 | σye=√V =√ Sy(偏差平方和) / n-1 | ||||
σe= | 14.51627 | σye= | 1.873796 | ||
tφ(α冒險率)=使用EXCEL的=T.INV.2T(α,φ) | tyφ(α冒險率)=使用EXCEL的=T.INV.2T(α,φ) | ||||
tφ(α) | 3.249836 | tyφ(α) | 3.249836 | ||
故信賴區間1%=x ̄±( tφ(α)* (σe / √n) | 故信賴區間1%=x ̄±( tφ(α)* (σe / √n) | ||||
即:pU= | 88.42 | 即:ypU= | 18.73 | ||
即:PL= | 58.58 | 即:yPL= | 14.87 |
我們來計算:
r = S(x,y) / √S(x) * √S(y)
S(x,y) =Σ XY - ( (ΣX)(ΣY) / n)
S(x,y) =238(因為剛好此例題ΣX=0)
r = 0.972203
因相關係數 r=0.97,故x數組與y數之間,有極密切的相關關係。
======
在相關係數 r,若無EXCEL的人可以用整數減整數的方法計算,X=x-70(真實平均73.5用假定平均70),Y=y-16(真實平均16.8用假定平均16),使用由原數值減去假定平均的方式而得到相關係數 r=266-((35*8)/10) / √1896.5*31.6 =0.972203的同樣解答。
但是:
用原真實平均值計算的x的pU=88.42,pL=58.58,而用假定平均計算的x的pU=85.39,pL=54.61。
用原真實平均值計算的y的pU=18.73,pL=14.87,而用假定平均計算的x的pU=18.11,pL=13.89。
對當須要用平均值介於上限與下限間的判斷會有些差距。
沒有留言:
張貼留言