2023年1月2日 星期一

相關與迴歸分析:迴歸趨勢線分析-排列組合機率81

 (以下書中筆記心得摘錄內容及例題來自為:發行時間於民國75年一月,由中興管理顧問公司發行,書名:品質管制與工廠統計一書,譯者:陳文哲(現任國立交通大學管理科學研究所專任教授),黃清連(中國鋼鐵股份有限公司技術開發處長)。原著者為中井重行(早稻田大學工業經營科主任),池澤辰夫(早稻田大學工學教授)。


迴歸不管如何總回於平均值左右,迴歸(Regression)由1880年生物學家哥爾頓研究雙親與子女身高遺傳關係時,觀察到假設身高高的雙親生下的子女,比雙親高,那其子女又生下子女又比雙親高,則世上必有許多巨人,反之則世上必有許多矮人,但事實上,人的身高皆在其平均值左右。


依前篇相關係數r分析所述,除了能依相關係數r分析,兩變量是否有關連性外,如何知曉兩變量,當以橫軸變量推導縱軸變量,或相反。


表示橫軸與縱軸的直線關係方程式,先假設以一次方程式(斜率)評估,若有需要,可再自行推演。

直線斜率一次方程式,a=截距,b=直線之斜率,則y(縱軸)=a+bx(橫軸)。

若將數據的變異趨勢,視為某種程度變異之直線,此即為迴歸直線。


求迴歸直線時,必須考慮工程判斷上的需求,是要以x橫軸變量推導y縱軸變量,或以y縱軸變量推導x橫軸變量。實務上直接將x軸設置成「成因」,y軸設置成「結果」。


======

b為迴歸係數


以x橫軸變量推導y縱軸變量:b=S(x,y)/S(x)


y縱軸變量-樣品 y ̄=b (x橫軸變量-樣品 x ̄),y- y ̄=b (x- x ̄),會形成一次方程式,例如 y=0.435 x + 1.695,這樣子的可畫出迴歸直線的一次方程式,


相關係數r分析: r = S(x,y) /  √S(x) * √S(y),再加乘以 √S(y) /√S(x)時, r =  S(y)/S(x) ,再S各除以√n 使其成為標準差,r‧ [ √S(y)/n  /  S(x)/n ] = r‧sy/sx。


最後推導:迴歸直線方程式,在以x推導y之迴歸直線時,以:y- y ̄=b (x- x ̄) = y- y ̄= r‧sy/sx‧ (x- x ̄)。(b=r‧sy/sx(標準差))


======


或以y縱軸變量推導x橫軸變量:b'=S(x,y)/S(y)。

x橫軸變量-樣品 x ̄=b' (y縱軸變量-樣品 y ̄),x- x ̄=b' (y- y ̄),會形成一次方程式,例如 y=0.435 x + 1.695,這樣子的可畫出迴歸直線的一次方程式,


同上x堆導y,當以y推導x時,以:x- x ̄=b' (y- y ̄) = x- x ̄= r‧sx/sy‧ (y- y ̄)。(b=r‧sx/sy(標準差))


若r=0,表示無相關時:以x推y之迴歸直線:y - y ̄=0,y= y ̄。以y推x之迴歸直線:x - x ̄=0,x= x ̄。


若r=1,表示完全相關時:以x推y之迴歸直線:y - y ̄= sy/sx‧(x - x ̄)。以y推x之迴歸直線:x - x ̄= sy/sx‧(y - y ̄)。



======

以前篇相關與迴歸分析:相關係數r分析-排列組合機率80-相關係數r分析例題為例:

例題:
有二組數組,一組稱為x,一組稱為y。先依前章檢定假說所述計算S(偏差平方和)=  ΣX^2   - (ΣX )^2 }  / n 。


雙側α=

0.01



雙側α=

0.01




no.

x

X

X ^2

no.

y

Y

Y ^2

XY

1

74

0.5

0.25

1

17

0.2

0.04

0.1

2

67

-6.5

42.25

2

16

-0.8

0.64

5.2

3

59

-14.5

210.25

3

15

-1.8

3.24

26.1

4

60

-13.5

182.25

4

15

-1.8

3.24

24.3

5

51

-22.5

506.25

5

14

-2.8

7.84

63

6

98

24.5

600.25

6

20

3.2

10.24

78.4

7

89

15.5

240.25

7

18

1.2

1.44

18.6

8

77

3.5

12.25

8

17

0.2

0.04

0.7

9

83

9.5

90.25

9

19

2.2

4.84

20.9

10

77

3.5

12.25

10

17

0.2

0.04

0.7

樣品平均

73.5

 

 

樣品平均

16.8

 

 

 

標準差

14.5

 

 

標準差

1.9

 

 

 

加總

311.00

0

1896.50

加總

77

-7.11E-15

31.6

238


S(偏差平方和)=  ΣX^2   - (ΣX )^2 }  / n

Sy(偏差平方和)=  ΣY^2   - (ΣY )^2 }  / n

Sx=

1896.5



Sy=

31.6

σe=√V =√ Sx(偏差平方和) / n-1

σye=V = Sy(偏差平方和) / n-1

σe=

14.51627



σye=

1.873796

 tφ(α冒險率)=使用EXCEL的=T.INV.2T(α,φ)

 tyφ(α冒險率)=使用EXCEL的=T.INV.2T(α,φ)

 tφ(α)

3.249836



 tyφ(α)

3.249836

故信賴區間1%=x ̄±(   tφ(α)* (σe /  √n)

故信賴區間1%=x ̄±(   tφ(α)* (σe /  √n)

即:pU=

88.42



即:ypU=

18.73

即:PL=

58.58



即:yPL=

14.87

我們來計算:

r = S(x,y) /  √S(x) * √S(y)

S(x,y) =Σ XY -  ( (ΣX)(ΣY)  /  n)

S(x,y) =238(因為剛好此例題ΣX=0)

r = 0.972203

因相關係數 r=0.97,故x數組與y數之間,有極密切的相關關係。


若以一般:以x橫軸變量推導y縱軸變量:

推算y- y ̄=b (x- x ̄) 這個迴歸方程式。


斜率: b=S(x,y)/S(x)

b=S(x,y)/S(x)=238/1896.5=0.125494332

在以x推導y之迴歸直線時:y- y ̄=b (x- x ̄),用excel來計算:y=bx + ((-1 * x ̄)+y ̄)

則會得到:y=0.1254943x+7.5761666。


=======

在相關係數 r,若無EXCEL的人可以用整數減整數的方法計算,

r= S(x,y) /  √S(x) * √S(y),X=(x-70(真實平均73.5用假定平均70))倍數g,Y=(y-16(真實平均16.8用假定平均16)))倍數h,

使用由原數值減去假定平均的方式而得到相關係數 r=266-((35*8)/10)  /  √1896.5*31.6 =0.972203的同樣解答。

但是在此計算迴歸係數b時,必須再轉換為原來的數據方可:此時數據之變換 X(假定平均)=(x-A)g,Y(假定平均)=(x-A)h,也就是:X=(x-70)1,Y=(x-16)1

即是:以x橫軸變量推導y縱軸變量:b=S(x,y)/S(x) =因變換數據故再需轉換

=  (S(x,y)/gh)   /   (S(x)/g^2)   =  (S(x,y) / (S(x) ) /  g^2 / gh  =  (S(x,y) / (S(x) ) ‧ g / h  。

======



以下是:在你已確認完基礎概念都已經學完後:

你可學著用EXCEL這個工具來快速評估:

(1)

你可以使用EXCEL相關係數函數 CORREL(y範圍,x範圍)計算相關係數r=CORREL(B51:B60,F51:F60)=0.9722030791。

以快速算出你的計算是沒有錯誤的。




======

(2)或是用Excel的圖表來觀察:


記得不要用折線圖,要用散布圖,看是要選x,y來做還是要選X,Y(X是xi=x-x ̄,Y是yi=y-y ̄))


折線圖中X值即使是數字,都會被視為類別資料 因此要帶入的X值不可以用原來的數字,而要用1,2,3,4。

散布圖選好X跟Y後:


然後打開圖表設計,新增圖表選項趨勢線,選擇線性,圖表上顯示公式,圖表上顯示R平方值。
https://learn.microsoft.com/zh-tw/office/troubleshoot/excel/inaccurate-chart-trendline-formula
趨勢線方程式 是一種公式,可尋找最適合資料點的線條。 R 平方值 會測量趨勢線可靠性 - R2 越接近 1,趨勢線就越適合資料。

注意 趨勢線公式用於 XY 散佈圖。此圖表會將 X 軸與 Y 軸繪製為值。

折線圖、直條圖與橫條圖只會將 Y 軸繪製為值。

在這些圖表類型中,不論標籤實際是什麼,X 軸只會繪製為線性數列。因此,如果趨勢線顯示在這些類型的圖表上,則該趨勢線將會不正確,產生此錯誤是系統刻意為之。

首先務必查看圖表。如果發現這些點非常接近趨勢線,則表示關係可能非常穩定。但是,如果點的分佈非常隨機,並且通常狀況下遠離趨勢線,那麼要小心了:相關性較弱,不應盲目相信估計出來的關係。




趨勢線選項:
線性:y=0.1255 x+ 7.5762,R2=0.9452。

多項次:冪次2,y=-5E-0.5x^2+ 0.1333x +7.2957,R2=0.9452。
指數:y=9.6388 e^0.0075x,R2=0.9417。
對數:y=8.9832 ln(x)- 21.642,R2=0.9369。

另外使用公式和使用EXCEL圖表趨勢線,圖表趨勢線常會有小數點造成的誤差,


【趨勢線種類】https://dotblogs.com.tw/eason/2010/10/26/18589

線性:線性趨勢線是適用於簡單線性資料集的擬合直線。如果資料點的散佈形狀近似直線,則資料為線性。線性趨勢線通常表示事物以穩定的速度增加或減少。

多項式:多項式趨勢線是一種曲線,適合擺動不定的資料使用,例如這種線便非常適合用來分析大量資料的損益。多項式的冪次可由資料波動的次數或曲線彎曲點 (波峰和波谷) 的個數決定。二階多項式趨勢線通常僅有一個波峰或波谷。三階多項式趨勢線通常有一個或兩個波峰或波谷。四階多項式趨勢線則通常多達三個。

對數:如果資料的增減速率一開始非常快,後來又趨於平緩,這種資料最適合使用針對曲線擬合的對數趨勢線。對數趨勢線可以使用正值和負值。

乘冪:指數趨勢線是一條曲線,最適合表示以特定比率增加的比較測量值所組成的資料集 (例如,賽車一秒內的加速度)。如果資料中包含零或負數值,就無法建立乘冪趨勢線。

指數:指數趨勢線是一種曲線,最適合驟增或驟減的資料值,但若資料值中有零或負數,就不能使用指數趨勢線。

移動平均:移動平均趨勢線可將資料中的微小波動平滑化,以便清楚顯示資料的範圍和趨勢。移動平均趨勢線使用特定數目的資料點 (由 [週期] 選項設定),取其平均值,然後以該平均值作為趨勢線中的一個點。例如,如果 [週期] 設定為 2,則前兩個資料點的平均值就是移動平均趨勢線中的第一個點。第二個和第三個資料點的平均值就是趨勢線的第二個點,依此類推。



======

(3)

最後是:使用內建分析工具:

EXCEL 功能表,開發人員,資料分析,迴歸,選Y跟X範圍,輸出新範圍。


摘要輸出

摘要
輸出


















迴歸
統計








R
倍數

0.972203








R 平方

0.945179








調整的
R 平方

0.938326








標準誤

0.465342








觀察值
個數

10

















ANOVA









 

自由度

SS

MS

F

顯著值




迴歸

1

29.86765

29.86765

137.929

2.53E-06




殘差

8

1.732349

0.216544






總和

9

31.6

 

 

 













 

係數

標準誤

t 統計

P-值

下限
95%

上限
 95%

下限
 99.0%

上限
 99.0%

截距

7.576167

0.799054

9.481423

1.26E-05

5.733545

9.418788

4.895032

10.2573

X 變數
 1

0.125494

0.010686

11.74432

2.53E-06

0.100853

0.150135

0.08964

0.161348




























殘差
輸出




機率
輸出














觀察值

預測
Y

殘差


百分比

Y




1

16.86275

0.137253


5

14




2

15.98429

0.015713


15

15




3

14.98033

0.019668


25

15




4

15.10583

-0.10583


35

16




5

13.97638

0.023622


45

17




6

19.87461

0.125389


55

17




7

18.74516

-0.74516


65

17




8

17.23923

-0.23923


75

18




9

17.9922

1.007804


85

19




10

17.23923

-0.23923


95

20
















沒有留言:

張貼留言