(以下書中筆記心得摘錄內容及例題來自為:發行時間於民國75年一月,由中興管理顧問公司發行,書名:品質管制與工廠統計一書,譯者:陳文哲(現任國立交通大學管理科學研究所專任教授),黃清連(中國鋼鐵股份有限公司技術開發處長)。原著者為中井重行(早稻田大學工業經營科主任),池澤辰夫(早稻田大學工學教授)。
迴歸不管如何總回於平均值左右,迴歸(Regression)由1880年生物學家哥爾頓研究雙親與子女身高遺傳關係時,觀察到假設身高高的雙親生下的子女,比雙親高,那其子女又生下子女又比雙親高,則世上必有許多巨人,反之則世上必有許多矮人,但事實上,人的身高皆在其平均值左右。
依前篇相關係數r分析所述,除了能依相關係數r分析,兩變量是否有關連性外,如何知曉兩變量,當以橫軸變量推導縱軸變量,或相反。
表示橫軸與縱軸的直線關係方程式,先假設以一次方程式(斜率)評估,若有需要,可再自行推演。
直線斜率一次方程式,a=截距,b=直線之斜率,則y(縱軸)=a+bx(橫軸)。
若將數據的變異趨勢,視為某種程度變異之直線,此即為迴歸直線。
求迴歸直線時,必須考慮工程判斷上的需求,是要以x橫軸變量推導y縱軸變量,或以y縱軸變量推導x橫軸變量。實務上直接將x軸設置成「成因」,y軸設置成「結果」。
======
b為迴歸係數
以x橫軸變量推導y縱軸變量:b=S(x,y)/S(x)。
y縱軸變量-樣品 y ̄=b (x橫軸變量-樣品 x ̄),y- y ̄=b (x- x ̄),會形成一次方程式,例如 y=0.435 x + 1.695,這樣子的可畫出迴歸直線的一次方程式,
相關係數r分析: r = S(x,y) / √S(x) * √S(y),再加乘以 √S(y) /√S(x)時, r = S(y)/S(x) ,再S各除以√n 使其成為標準差,r‧ [ √S(y)/n / S(x)/n ] = r‧sy/sx。
最後推導:迴歸直線方程式,在以x推導y之迴歸直線時,以:y- y ̄=b (x- x ̄) = y- y ̄= r‧sy/sx‧ (x- x ̄)。(b=r‧sy/sx(標準差))
======
或以y縱軸變量推導x橫軸變量:b'=S(x,y)/S(y)。
x橫軸變量-樣品 x ̄=b' (y縱軸變量-樣品 y ̄),x- x ̄=b' (y- y ̄),會形成一次方程式,例如 y=0.435 x + 1.695,這樣子的可畫出迴歸直線的一次方程式,
同上x堆導y,當以y推導x時,以:x- x ̄=b' (y- y ̄) = x- x ̄= r‧sx/sy‧ (y- y ̄)。(b=r‧sx/sy(標準差))
若r=0,表示無相關時:以x推y之迴歸直線:y - y ̄=0,y= y ̄。以y推x之迴歸直線:x - x ̄=0,x= x ̄。
若r=1,表示完全相關時:以x推y之迴歸直線:y - y ̄= sy/sx‧(x - x ̄)。以y推x之迴歸直線:x - x ̄= sy/sx‧(y - y ̄)。
======
以前篇相關與迴歸分析:相關係數r分析-排列組合機率80-相關係數r分析例題為例:
例題:
有二組數組,一組稱為x,一組稱為y。先依前章檢定假說所述計算S(偏差平方和)= ΣX^2 - (ΣX )^2 } / n 。
雙側α= | 0.01 | 雙側α= | 0.01 | |||||
no. | x | X | X ^2 | no. | y | Y | Y ^2 | XY |
1 | 74 | 0.5 | 0.25 | 1 | 17 | 0.2 | 0.04 | 0.1 |
2 | 67 | -6.5 | 42.25 | 2 | 16 | -0.8 | 0.64 | 5.2 |
3 | 59 | -14.5 | 210.25 | 3 | 15 | -1.8 | 3.24 | 26.1 |
4 | 60 | -13.5 | 182.25 | 4 | 15 | -1.8 | 3.24 | 24.3 |
5 | 51 | -22.5 | 506.25 | 5 | 14 | -2.8 | 7.84 | 63 |
6 | 98 | 24.5 | 600.25 | 6 | 20 | 3.2 | 10.24 | 78.4 |
7 | 89 | 15.5 | 240.25 | 7 | 18 | 1.2 | 1.44 | 18.6 |
8 | 77 | 3.5 | 12.25 | 8 | 17 | 0.2 | 0.04 | 0.7 |
9 | 83 | 9.5 | 90.25 | 9 | 19 | 2.2 | 4.84 | 20.9 |
10 | 77 | 3.5 | 12.25 | 10 | 17 | 0.2 | 0.04 | 0.7 |
樣品平均 | 73.5 |
|
| 樣品平均 | 16.8 |
|
|
|
標準差 | 14.5 |
|
| 標準差 | 1.9 |
|
|
|
加總 | 311.00 | 0 | 1896.50 | 加總 | 77 | -7.11E-15 | 31.6 | 238 |
S(偏差平方和)= ΣX^2 - (ΣX )^2 } / n | Sy(偏差平方和)= ΣY^2 - (ΣY )^2 } / n | ||||
Sx= | 1896.5 | Sy= | 31.6 | ||
σe=√V =√ Sx(偏差平方和) / n-1 | σye=√V =√ Sy(偏差平方和) / n-1 | ||||
σe= | 14.51627 | σye= | 1.873796 | ||
tφ(α冒險率)=使用EXCEL的=T.INV.2T(α,φ) | tyφ(α冒險率)=使用EXCEL的=T.INV.2T(α,φ) | ||||
tφ(α) | 3.249836 | tyφ(α) | 3.249836 | ||
故信賴區間1%=x ̄±( tφ(α)* (σe / √n) | 故信賴區間1%=x ̄±( tφ(α)* (σe / √n) | ||||
即:pU= | 88.42 | 即:ypU= | 18.73 | ||
即:PL= | 58.58 | 即:yPL= | 14.87 |
我們來計算:
r = S(x,y) / √S(x) * √S(y)
S(x,y) =Σ XY - ( (ΣX)(ΣY) / n)
S(x,y) =238(因為剛好此例題ΣX=0)
r = 0.972203
因相關係數 r=0.97,故x數組與y數之間,有極密切的相關關係。
若以一般:以x橫軸變量推導y縱軸變量:
推算y- y ̄=b (x- x ̄) 這個迴歸方程式。
斜率: b=S(x,y)/S(x)
b=S(x,y)/S(x)=238/1896.5=0.125494332
在以x推導y之迴歸直線時:y- y ̄=b (x- x ̄),用excel來計算:y=bx + ((-1 * x ̄)+y ̄)
則會得到:y=0.1254943x+7.5761666。
=======
在相關係數 r,若無EXCEL的人可以用整數減整數的方法計算,
r= S(x,y) / √S(x) * √S(y),X=(x-70(真實平均73.5用假定平均70))倍數g,Y=(y-16(真實平均16.8用假定平均16)))倍數h,
使用由原數值減去假定平均的方式而得到相關係數 r=266-((35*8)/10) / √1896.5*31.6 =0.972203的同樣解答。
但是在此計算迴歸係數b時,必須再轉換為原來的數據方可:此時數據之變換 X(假定平均)=(x-A)g,Y(假定平均)=(x-A)h,也就是:X=(x-70)1,Y=(x-16)1
即是:以x橫軸變量推導y縱軸變量:b=S(x,y)/S(x) =因變換數據故再需轉換
= (S(x,y)/gh) / (S(x)/g^2) = (S(x,y) / (S(x) ) / g^2 / gh = (S(x,y) / (S(x) ) ‧ g / h 。
======
以下是:在你已確認完基礎概念都已經學完後:
你可學著用EXCEL這個工具來快速評估:
(1)
你可以使用EXCEL相關係數函數 CORREL(y範圍,x範圍)計算相關係數r=CORREL(B51:B60,F51:F60)=0.9722030791。
以快速算出你的計算是沒有錯誤的。
======
(2)或是用Excel的圖表來觀察:
記得不要用折線圖,要用散布圖,看是要選x,y來做還是要選X,Y(X是xi=x-x ̄,Y是yi=y-y ̄))
折線圖中X值即使是數字,都會被視為類別資料 因此要帶入的X值不可以用原來的數字,而要用1,2,3,4。
散布圖選好X跟Y後:
然後打開圖表設計,新增圖表選項趨勢線,選擇線性,圖表上顯示公式,圖表上顯示R平方值。
https://learn.microsoft.com/zh-tw/office/troubleshoot/excel/inaccurate-chart-trendline-formula
趨勢線方程式 是一種公式,可尋找最適合資料點的線條。 R 平方值 會測量趨勢線可靠性 - R2 越接近 1,趨勢線就越適合資料。
注意 趨勢線公式用於 XY 散佈圖。此圖表會將 X 軸與 Y 軸繪製為值。
折線圖、直條圖與橫條圖只會將 Y 軸繪製為值。
在這些圖表類型中,不論標籤實際是什麼,X 軸只會繪製為線性數列。因此,如果趨勢線顯示在這些類型的圖表上,則該趨勢線將會不正確,產生此錯誤是系統刻意為之。
首先務必查看圖表。如果發現這些點非常接近趨勢線,則表示關係可能非常穩定。但是,如果點的分佈非常隨機,並且通常狀況下遠離趨勢線,那麼要小心了:相關性較弱,不應盲目相信估計出來的關係。
趨勢線選項:
線性:y=0.1255 x+ 7.5762,R2=0.9452。
多項次:冪次2,y=-5E-0.5x^2+ 0.1333x +7.2957,R2=0.9452。
指數:y=9.6388 e^0.0075x,R2=0.9417。
對數:y=8.9832 ln(x)- 21.642,R2=0.9369。
另外使用公式和使用EXCEL圖表趨勢線,圖表趨勢線常會有小數點造成的誤差,
【趨勢線種類】https://dotblogs.com.tw/eason/2010/10/26/18589
線性:線性趨勢線是適用於簡單線性資料集的擬合直線。如果資料點的散佈形狀近似直線,則資料為線性。線性趨勢線通常表示事物以穩定的速度增加或減少。
多項式:多項式趨勢線是一種曲線,適合擺動不定的資料使用,例如這種線便非常適合用來分析大量資料的損益。多項式的冪次可由資料波動的次數或曲線彎曲點 (波峰和波谷) 的個數決定。二階多項式趨勢線通常僅有一個波峰或波谷。三階多項式趨勢線通常有一個或兩個波峰或波谷。四階多項式趨勢線則通常多達三個。
對數:如果資料的增減速率一開始非常快,後來又趨於平緩,這種資料最適合使用針對曲線擬合的對數趨勢線。對數趨勢線可以使用正值和負值。
乘冪:指數趨勢線是一條曲線,最適合表示以特定比率增加的比較測量值所組成的資料集 (例如,賽車一秒內的加速度)。如果資料中包含零或負數值,就無法建立乘冪趨勢線。
指數:指數趨勢線是一種曲線,最適合驟增或驟減的資料值,但若資料值中有零或負數,就不能使用指數趨勢線。
移動平均:移動平均趨勢線可將資料中的微小波動平滑化,以便清楚顯示資料的範圍和趨勢。移動平均趨勢線使用特定數目的資料點 (由 [週期] 選項設定),取其平均值,然後以該平均值作為趨勢線中的一個點。例如,如果 [週期] 設定為 2,則前兩個資料點的平均值就是移動平均趨勢線中的第一個點。第二個和第三個資料點的平均值就是趨勢線的第二個點,依此類推。
======
(3)
最後是:使用內建分析工具:
EXCEL 功能表,開發人員,資料分析,迴歸,選Y跟X範圍,輸出新範圍。
摘要輸出
摘要 | ||||||||
迴歸 | ||||||||
R 的 | 0.972203 | |||||||
R 平方 | 0.945179 | |||||||
調整的 | 0.938326 | |||||||
標準誤 | 0.465342 | |||||||
觀察值 | 10 | |||||||
ANOVA | ||||||||
| 自由度 | SS | MS | F | 顯著值 | |||
迴歸 | 1 | 29.86765 | 29.86765 | 137.929 | 2.53E-06 | |||
殘差 | 8 | 1.732349 | 0.216544 | |||||
總和 | 9 | 31.6 |
|
|
| |||
| 係數 | 標準誤 | t 統計 | P-值 | 下限 | 上限 | 下限 | 上限 |
截距 | 7.576167 | 0.799054 | 9.481423 | 1.26E-05 | 5.733545 | 9.418788 | 4.895032 | 10.2573 |
X 變數 | 0.125494 | 0.010686 | 11.74432 | 2.53E-06 | 0.100853 | 0.150135 | 0.08964 | 0.161348 |
殘差 | 機率 | |||||||
觀察值 | 預測 | 殘差 | 百分比 | Y | ||||
1 | 16.86275 | 0.137253 | 5 | 14 | ||||
2 | 15.98429 | 0.015713 | 15 | 15 | ||||
3 | 14.98033 | 0.019668 | 25 | 15 | ||||
4 | 15.10583 | -0.10583 | 35 | 16 | ||||
5 | 13.97638 | 0.023622 | 45 | 17 | ||||
6 | 19.87461 | 0.125389 | 55 | 17 | ||||
7 | 18.74516 | -0.74516 | 65 | 17 | ||||
8 | 17.23923 | -0.23923 | 75 | 18 | ||||
9 | 17.9922 | 1.007804 | 85 | 19 | ||||
10 | 17.23923 | -0.23923 | 95 | 20 | ||||
沒有留言:
張貼留言