2022年12月22日 星期四

統計量分配與期望與群體母數的關係-排列組合機率71

 

對於群體母數,可以有許多選擇的估計量可視虛擬條件情況而設定符合實際具體條件,選擇較好的估計量。

參考引用:https://zh.wikipedia.org/zh-tw/%E4%BC%B0%E8%AE%A1%E9%87%8F
估計量上方加一 ^ 符號以示區別,對於x,估計量θ^ 的誤差,定義為:誤差差e(x) = 估計後母數θ^ – 待估真實母數θ (e(x) = θ^ – θ)。後推導無偏性估計量的意義是,用一個估計量去估計未知參數θ,有時候可能偏高,有時候可能偏低,但是平均來說它等於未知參數θ。對於參數 θ 的無偏估計量,其取值應在真值附近波動,我們自然希望它與真值之間的偏倚誤差越小越好,也就是說無偏估計量的Var(x)=σ^2、越小越好.


參考引用:https://zh.wikipedia.org/wiki/%E6%96%B9%E5%B7%AE#%E6%9C%89%E5%81%8F%E6%A0%B7%E6%9C%AC%E6%96%B9%E5%B7%AE
3.總體方差和樣本方差
3.1總體方差
3.2樣本方差
3.2.1有偏樣本方差
3.2.2無偏樣本方差
英文Variance,中國大陸方差,臺灣變異數,港澳方差,日本、韓國分散,越南分散(phương sai)

設X為服從分佈F的隨機變數,如果E[X]是隨機變數X的期望值(均值μ=E[X]),則隨機變數X或者分佈F的變異數為X的離差平方的期望值:也就是說,X的變異數(σ^2) = X平方的均值 減去X均值的平方(建議用雙邊機率分布曲線,單邊就不用考慮平方)。該等式不應該用於浮點運算,因為如果等式的兩個成分大小相似,將會造成災難性抵消。


參考引用:https://zh.wikipedia.org/zh-tw/%E5%B9%B3%E6%96%B9%E5%B9%B3%E5%9D%87%E6%95%B0
均方(平方平均數)表示一數組的平方和的平均值:x1^2+...+xn^2 / n。平方平均數(英語:quadratic mean)M=√ Nσi=1 xi^2 / n=x1^2+...+xn^2 / n。在連續函數 frms= √  1/b-a X b∫a [f(x)]^2 dx
均方誤差:在統計學中,均方誤差(英語:mean-square error、MSE)是對於無法觀察的參數 θ的一個估計函數T;其定義為:MSE(θ^)=E  [  ( θ^ (x) – θ )^2  ]。


總偏差平方和:名稱太多,大致上跟標準誤差一樣的思路,考慮總體的影響,然後加上估計值的定義。主要是若是實際上跟理論上有誤差時,有需要追求能更多考慮項目或是因子的機率分布曲線,離中央趨勢的修正方式。
先看其源頭基礎,平均差「和」:
數組內各數與數組標準差的差距,然後因為是用數組的項目算的,所以單獨看數組的某數還要除以數組的項數。簡化習慣用符號圖解分析計算表示法,平均差=Σ| x - x ̄| / N。一樣的思路也可用平均和=Σ(xi - x ̄) ^ 2 / N。
所以樣本標準差s ̄=x1-x ̄+…+xn-x ̄ /n, s ̄=√ nΣi=1  (xi-x ̄)^2 /n

接著又深入一點,有個叫var(x)=用符號表示σ^2 /n(整個±∞曲線),然後再看單邊機率分布曲線又有σx ̄=σ/√n。
https://baike.baidu.hk/item/%E5%81%8F%E5%B7%AE%E5%B9%B3%E6%96%B9%E5%92%8C/554655
接著又深入一點,隨機變量Xij與總平均數的偏差的平方和,是所得全部多批數據的離散程度,偏差平方和中包含各總體之間,所抽取的某數據的差異,如果能把偏差平方和中的這兩部分信息分解出來並對其進行比較,就可以大概追尋到隨機因素造成的試驗誤差就,可以達到檢驗假設是否證真或證假的目的。


參考引用:https://baike.baidu.hk/item/%E5%81%8F%E5%B7%AE%E5%B9%B3%E6%96%B9%E5%92%8C/554655
在單因素實驗中,為了使造成各隨機變量Xij之間的差異的(原因能明顯)能定量表示出來。使用平方和的平均值的概念,x1^2+...+xn^2 / n 把它引申擴展開來,xi ̄= √ niΣj=1 xij  /ni ,所以, xi ̄=√ rΣi=1 xi ̄ /r  = rΣi=1 niΣj=1 xij  /n。
然後,根據同一數據某個不同數據,及不同批數組某個不同數據的,應用數學式對比分析,來用數值衡量想要預估的某個數值在某個數組的差異程度,進而或許可以分析比對出,變異因素的影響,在數學式子的某種解決預測函數,進而製成表格或是進而製成曲線分析。用其上方數學式引用ST(全部)= rΣi=1 niΣj=1( xij - xi ̄)^2,因上式ST能分析全部數據之間對於某各數組與某各數據差異,所以又稱總偏差平方和。

偏差平方和的分解
如果H0成立,則r個總體間無顯著差異,也就是説某總和因素或是單一因素對指標沒有顯著影響。
所有的xij因而可能可以認為其中影響因子,可以認為是來自同一個總體服從常態分布N(μ,σ^2),各個xij間的差異只是由隨機因素引起的。
若H0不成立,則在總偏差中,除隨機因素引起的差異外,還包括由某個假設主張的變因的不同程度水平的作用而產生的差異,如果不同程度水平作用產生的差異比隨機因素引起的差異大得多,導致顯著影響的話,就認為此某個因素對指標有顯著影響,否則,認為無顯著影響。為此,可將總偏差中的這兩種差異分開,然後進行比較。

S某個變數= SA(某A變數)= rΣi=1 ni ( xi ̄ - x ̄)^2
S在A變數下樣本值與樣本均值差異=SE= rΣi=1 niΣj=1( xij - xi ̄)^2
假令:xi ̄ = niΣj=1 xij  / ni,i=1,2,…,r,則得到我們證實的SE+SA=ST。
SE表示在SA某變異水平下樣本值與樣本均值之間的差異,它是由隨機誤差引起的,稱為誤差平方和或組內平方和。
SA反映在每個水平下的樣本均值與樣本總均值的差異,它是由因素A發生不同變異水平引起的,稱為因素A的效應平方和或組間平方和,
ST=SE+SA式就是我們所需要的平方和分解式。

最後若我們初始主張假設H0成立,則所有的xij 都服從常態分布N(μ,σ^2),且相互獨立,則我們推導:
SE/σ^2 ~ χ^2 ( n-r ),且E(SE)= ( n-r ) σ^2,也就是σ^2的(估計)不偏(無偏)估計 = SE / n - r。
SA/σ^2 ~ χ^2 ( n-1 ),且E(SA)= ( n-1 ) σ^2,也就是σ^2的(估計)不偏(無偏)估計 = SA / n - 1。
SA與SE相互獨立,然後SA+SE=ST,如果SA顯著影響ST的話,就會等於我們認為SA就是可以估計群體的接近真實ST /σ^2~ χ^2 ( n-1 )。

與統計量分配與期望與估計量群體母數的關係
若N(μ,σ^2),則  x ̄=(1/n) X  nΣi=1 xi時,則μ=σx ̄=E(x ̄)


統計量之期望值

期望值母數的關係

樣本分配x ̄之期望值E(x)

期望值=標準差,樣本與母數標準差會相等,μ=x=E(x) =x=μ

樣本分配變異數S^2之期望值E(S^2)

E(S^2)=( (n-1) / n ) X  σ^2 ,σ^2 = E ( nX(S^2) / (n-1)  )

樣本分配變異數S^2之期望值E(S^2)

如偏差平方和為已知,則不偏變異數V=S/n-1=σ^2

樣本分配標準差S之期望值E(S)

E(S)=c2 X  σ,σ = E ( S / c2  )

樣本全距之期望值E(R)

E(R)=d2 X  σ,σ = E ( R / d2  )

總偏差平方和S分配之期望值E(ST)

E(S)=( n-1 ) X  σ^2σ^2 = E ( (S) / (n-1 )



例題:

某製程之標準差為未知數,故由製程中抽取樣本n=5,計算結果,樣本標準差s=0.532,試估計推定預測求該製程之母標準差σ為多少。
因樣本s=0.532,n=5,c2可由(查表)得知c2=0.8407,估計之σ^(估計量)=0.532/0.8407=0.6325。


例題:

某製程之變異數為未知數,故由製程中抽取樣本n=50,計算結果,總偏差平方和S=23.74,試估計推定預測求該製程之母變異數σ^2^為多少。
不(無)偏差變異數  = V=σ^2^= S / n-1 = 23.74  / 49 = 0.48。

設不(無)偏差V=樣本變異數=s^2=(xi - x ̄)^2 / n =  S/ n,ns^2=S。為總偏差平方和 / n, 故 因對樣本對 S 改除以 n-1 即為 S/ n-1 ,此即為變異數σ^2之不偏估計量σ^2^(不是次方符號。)


接上題:s=0.23,n=50,ns^2=S,不偏變異數  = V=σ^2^= ns^2 / n-1 = 50X0.23  / 49 = 0.2347。   

沒有留言:

張貼留言