2023年1月1日 星期日

相關與迴歸分析:相關係數r分析-排列組合機率80

(以下書中筆記心得摘錄內容及例題來自為:發行時間於民國75年一月,由中興管理顧問公司發行,書名:品質管制與工廠統計一書,譯者:陳文哲(現任國立交通大學管理科學研究所專任教授),黃清連(中國鋼鐵股份有限公司技術開發處長)。原著者為中井重行(早稻田大學工業經營科主任),池澤辰夫(早稻田大學工學教授)。


相關與迴歸分析:相關係數r分析

使用圖「表」來將事件A與事件B與事件C的密切關係,以數「量」化表示出來。


與先前所評估的不同在於,先前兩組或多組資料同樣假設本源是常態分析理論(如先前剛開始學習常態分析理論的源頭時所理解,於諸萬事中,凡各個變因皆會互相影響,而形成某種趨勢(以數學函數)來顯示於現實中,我們倒推於實際中可互相比對函數近似於實際發生的事。

(但是,必須了解的是,它的論證的數據的始終的本源是機率,在其所處環境,所處當下社會歷史文化思想下,就算有數據,也不一定能使人接受。

更何況,有些事物就算有數據也只能代表某一部份的接近真實趨勢,而另一部份才是隱藏在符合某種階級的某種觀念的期望狀態的期望。)


評估其相關與迴歸分析時,須使一特性為獨立變量(可單獨控制已知),而另一特性為任意變量(從屬變量)。

評估兩者間相對之關係常用:散佈圖:通常縱軸標示結果,橫軸標示原因,從觀察圖形具體分布狀態,預估趨勢將來會如何演變,兩者間是正相關嗎?相關聯關係影響大嗎?與實際對照時有哪些部分可能是無相關關係的?與實際對照時有哪些部分可能是遵循某變數而被引導產生的?


為了瞭解某事物發生的原因,對某事物評估某兩個變因導致發生次數多寡的表常用:分組次數分配相關表:縱向變因次數總和和橫向變因次數總和,其兩者加總後為:某事物發生的總和。這樣就可以去觀察某事物發生的總和,比較偏向受縱向變因次數影響還是橫向變因次數影響。

======


同樣是散佈圖,不過將原點設置為兩者之平均值,稱為:相關係數圖:此時圖上的新數值須變成原數值就減去平均值,那麼就可以看出對平均值來講,其兩者相對關係是趨向哪個象限之內。

一樣用之前的統計計算原理思路:全象限的總和S=(各象限加總)Σx'y'(第Ⅰ象限正正得正) +Σx'y'(第Ⅱ象限負正得負) +Σx'y'(第Ⅲ象限負負得正) +Σx'y'(第Ⅳ象限正負得負) 。

再對此S除以樣本數據n得到:S=Σx'y' / n,很孰悉這是平均值的基本思路,有了平均值,如果還需要繼續評估其他統計量,可以繼續往下推導。


https://zh.wikipedia.org/zh-tw/%E7%9A%AE%E5%B0%94%E9%80%8A%E7%A7%AF%E7%9F%A9%E7%9B%B8%E5%85%B3%E7%B3%BB%E6%95%B0
在統計學中,皮爾森積動差相關係數(英語:Pearson product-moment correlation coefficient,縮寫:PPMCC,或PCCs,有時簡稱相關係數r
用於度量兩組數據的變數X和Y之間的線性相關的程度。它是兩個變數的共變異數與其標準差的乘積之比; 


======

相關係數r=。若考慮到各個象限的標準差(變異程度)不同,我們可以以各個分配之標準差(sx,sy)除之,得相關係數r=1/n [nΣi=1](X'/sx)(y'/sy)。

又x'跟y'的源頭是新數值減去平均值(xi-x ̄)跟(yi-y ̄),代入r=1/n [nΣi=1](X'/sx)(y'/sy)中。

來導入樣本的偏差平方和概念:推導公式後得 r=1/n [nΣi=1] ((xi-x ̄)/sx)((yi-y ̄/sy)= r= [nΣi=1] (xi-x ̄)*(yi-y ̄) / √[nΣi=1] (xi-x ̄)^2  * √[nΣi=1] (yi-y ̄)^2 = S(x,y)x,y之偏差平方和 /  √S(x)(√x之S(偏差平方和)) * √S(y)(√y之S(偏差平方和))=s^2xy(x、y之共變異數)/√Sx^2*√Sy^2(2變異數之幾和平均)。r = S(x,y) /  √S(x) * √S(y)= S(x,y) =Σ XY -  ( (ΣX)(ΣY)  /  n)

======


若絕對值|r|愈接近1.00,代表兩組變數相關程度愈密切。
r>0,r愈接近1.00時,表示有正相關。若r<0,r愈接近-1.00時,表示有負相關。


例如:假若依此ˊ製成產品的風險評估及工程判斷,將之大致上區分四個等級(自己分等級)的話(0-0.1,0.1-0.39,0.40-0.69,0.70-1.00):

 絕對值|r|介於0.40~0.69 代表 兩組變數中度相關,若絕對值|r|介於0.10~0.39 代表 兩組變數低度相關。




例題:
有二組數組,一組稱為x,一組稱為y。先依前章檢定假說所述計算S(偏差平方和)=  ΣX^2   - (ΣX )^2 }  / n 。


雙側α=

0.01



雙側α=

0.01




no.

x

X

X ^2

no.

y

Y

Y ^2

XY

1

74

0.5

0.25

1

17

0.2

0.04

0.1

2

67

-6.5

42.25

2

16

-0.8

0.64

5.2

3

59

-14.5

210.25

3

15

-1.8

3.24

26.1

4

60

-13.5

182.25

4

15

-1.8

3.24

24.3

5

51

-22.5

506.25

5

14

-2.8

7.84

63

6

98

24.5

600.25

6

20

3.2

10.24

78.4

7

89

15.5

240.25

7

18

1.2

1.44

18.6

8

77

3.5

12.25

8

17

0.2

0.04

0.7

9

83

9.5

90.25

9

19

2.2

4.84

20.9

10

77

3.5

12.25

10

17

0.2

0.04

0.7

樣品平均

73.5

 

 

樣品平均

16.8

 

 

 

標準差

14.5

 

 

標準差

1.9

 

 

 

加總

311.00

0

1896.50

加總

77

-7.11E-15

31.6

238


S(偏差平方和)=  ΣX^2   - (ΣX )^2 }  / n

Sy(偏差平方和)=  ΣY^2   - (ΣY )^2 }  / n

Sx=

1896.5



Sy=

31.6

σe=√V =√ Sx(偏差平方和) / n-1

σye=V = Sy(偏差平方和) / n-1

σe=

14.51627



σye=

1.873796

 tφ(α冒險率)=使用EXCEL的=T.INV.2T(α,φ)

 tyφ(α冒險率)=使用EXCEL的=T.INV.2T(α,φ)

 tφ(α)

3.249836



 tyφ(α)

3.249836

故信賴區間1%=x ̄±(   tφ(α)* (σe /  √n)

故信賴區間1%=x ̄±(   tφ(α)* (σe /  √n)

即:pU=

88.42



即:ypU=

18.73

即:PL=

58.58



即:yPL=

14.87

我們來計算:

r = S(x,y) /  √S(x) * √S(y)

S(x,y) =Σ XY -  ( (ΣX)(ΣY)  /  n)

S(x,y) =238(因為剛好此例題ΣX=0)

r = 0.972203

因相關係數 r=0.97,故x數組與y數之間,有極密切的相關關係。



======

在相關係數 r,若無EXCEL的人可以用整數減整數的方法計算,X=x-70(真實平均73.5用假定平均70),Y=y-16(真實平均16.8用假定平均16),使用由原數值減去假定平均的方式而得到相關係數 r=266-((35*8)/10)  /  √1896.5*31.6 =0.972203的同樣解答。

但是:

用原真實平均值計算的x的pU=88.42,pL=58.58,而用假定平均計算的x的pU=85.39,pL=54.61。

用原真實平均值計算的y的pU=18.73,pL=14.87,而用假定平均計算的x的pU=18.11,pL=13.89。

對當須要用平均值介於上限與下限間的判斷會有些差距。

沒有留言:

張貼留言