2022年12月23日 星期五

gamma Γ (r) 分布,χ^2 卡方分布,-排列組合機率72

 

參考引用:https://kknews.cc/zh-tw/code/zpxlj63.html

還記得之前章節的卜式機率分布的基礎嗎?gamma函數也是跟連續時間時,事件發生的機率有關係。


我們已經知道,gamma函數是:Г(α)=+∞∫0 x^α-1 exp -x  dx,這是一個機率分布函數。
f(x,β,α)= β^α / Г(α) ^x^α-1 exp -βx,x > 0。
伽馬分布的均值與方差分別為:μ= α / β ,σ^2=α / β^2。其中a為實數,x>=0。


接下來我們基於gamma函數生成一個機率分布函數(probability density function),簡稱pdf。
機率分布函數在定義域內的積分為1,且函數值的範圍是[0,1]。

基於gamma函數得到一個pdf,方法就是在gamma函數的兩側都除以(a),得到

Г(α)/Г(α)=1= +∞∫0 1/Г(α) ^x^α-1 exp -x  dx。


為了使具有機率統計上的意義,將x用x/θ代替,θ為常數,得到gamma分布的概率密度函數。

f(x)=1 / (Г(α),θ^α) ^x^α-1 exp -x/θ 。


卜式機率分布的基礎,θ則為1/λ:P(X=X)=λ^x exp^-λ / x!
參考引用:https://www.getit01.com/p2017120765016/


指數分布和卜式分布。

卜式分布過程是一個計數過程,通常用於模擬一個事件在連續時間中微小時間內發生的判斷二項分布的機率,反過來追尋到底要多少間(指數分配)才會發生某件事的機率。
{N(t):t≧0}為一個卜式分布過程,則其滿足三個性質:

N(0)=0(t=0時什麼都沒發生)

N(t+s)-N(t)之間互相獨立:
=Pr(N(t+1)=n_{t+1}|N(t)=n_{t})

Pr(N(t+s)-N(s)=n)=Pr(N(t)=n)=e^{-λt / n!} 
即N(t) ~ Poi(λt)。

數學層層推導,=λ^k+1 /Г(k+1) x^k exp^{-λx 為Gamma(k+1, lambda)的pdf。


在事件的發生次數滿足卜式分布的情況下,事件發生一次的時間間隔滿足指數分布。而gamma分布,是指數分布的引申拓展,表示事件發生a次的時間間隔。
定義:事件單位時間內平均發生的次數為λ,事件發生一次等待的平均時間θ則為1/λ,W表示事件發生a次需要等待的時間,X表示單位時間內事件發生的次數。

則X滿足泊松分布。P(X=X)=λ^x exp^-λ / x!


經過數學層層產開推導後,我們知道X滿足泊松分布,時間間隔[0,w]的平均發生次數是λw,所以可以得到:
F(w)=1-  α-1 ∫ K=0  (λw)^K  exp^-λw / k!

對F(w)做微分,即可得到f(w),將λe−λw移出累加,並且k除以k!,將k=1,2,3…a-1展開得f(w)=λexp^-(λw) (λw)^α-1 / (α-1)!,由於λ=1/θ,代入得

f(x)=1/(α-1)!θ^α exp^-w/θ w^α-1 =得到了最上方的公式,(a-1)!可以用(a)表示, 1 / (Г(α),θ^α) ^x^α-1 exp -x/θ 。其中a代表事件發生a次,θ代表事件發生一次需要等待的平均時間,w代表事件發生a次需要等待的時間。表示為 W~GAMMA(a, θ)。當a=1時,gamma分布變成了指數分布。所以指數分布是gamma分布的特例。

卡方分布(英語:chi-square distribution, χ^2-distribution,或寫作χ^2分布)

參考引用:https://wiki.mbalib.com/zh-tw/%E5%8D%A1%E6%96%B9%E5%88%86%E5%B8%83

參考引用:https://zh.wikipedia.org/zh-tw/%E5%8D%A1%E6%96%B9%E5%88%86%E4%BD%88


其機率分布函數(probability density function),簡稱pdf:fk(x)= (1/2) k/2 / Г(K/2) x^(k/2)-1 X exp^-x/2,其中x≥0,當x≤0時fk(x) = 0。這裡Γ(r)代表Gamma 函數(卡方分布是一種特殊的伽瑪分布)。

若k個隨機變數Z1...Zk 相互獨立,且即服從標準正態分佈,則隨機變數 X = kΣi=1 Zi值^2,這樣為了符合某種實際情況
,而修訂推導的Z值分配函數的估計機率趨勢,被稱為服從自由度為K的卡方分布,簡化數學式記為:X~χ^2(K)
自由度為 k 的卡方變數的期望值平均值是 k,方差是 2k。


當Gamma變數頻率(λ)為1/2時,α的2倍為卡方變數之自由度。即r.u.Y=χ^2(U)=Γ( U/2 , 1/2)。即E(χ^2(U))=E(Y)=α/λ^2=(U/2) / (1/2)^2 = 2U。 卡方變數之期望值=自由度卡方變數之方差=兩倍自由度

參考引用:https://zh.wikipedia.org/zh-tw/%E5%8D%A1%E6%96%B9%E5%88%86%E4%BD%88


其偏差的平方和:X= kΣi=1 Zi值^2 = kΣi=1(Zi - Z ̄ )^2 ~χ^2 k-1,其中均值: Z ̄= kΣZi / k,它的平方比為自由度為1的χ^2分布,即 nZ ̄ ^2 ~χ1 ^2。

 p-value = 1- p_CDF.

χ^2越大,p-value越小,則可信度越高。通常用p=0.05作為閾值,即95%的可信度。

常用的χ^2與p-value表如下:


(機率)
/
自由度k

0.95

0.9

0.8

0.7

0.5

0.3

0.2

0.1

0.05

0.01

0.001

1

0.004

0.02

0.06

0.15

0.46

1.07

1.64

2.71

3.84

6.64

10.83

2

0.1

0.21

0.45

0.71

1.39

2.41

3.22

4.6

5.99

9.21

13.82

3

0.35

0.58

1.01

1.42

2.37

3.66

4.64

6.25

7.82

11.34

16.27

4

0.71

1.06

1.65

2.2

3.36

4.88

5.99

7.78

9.49

13.28

18.47

5

1.14

1.61

2.34

3

4.35

6.06

7.29

9.24

11.07

15.09

20.52

6

1.63

2.2

3.07

3.83

5.35

7.23

8.56

10.64

12.59

16.81

22.46

7

2.17

2.83

3.82

4.67

6.35

8.38

9.8

12.02

14.07

18.48

24.32

8

2.73

3.49

4.59

5.53

7.34

9.52

11.03

13.36

15.51

20.09

26.12

9

3.32

4.17

5.38

6.39

8.34

10.66

12.24

14.68

16.92

21.67

27.88

10

3.94

4.86

6.18

7.27

9.34

11.78

13.44

15.99

18.31

23.21

29.59


關係整理:從常態群體:N, μ,σ以常態分布機率函數N(μ,σ^2),隨機抽取樣本n個時,卡方χ^2=偏差平方和S/變異數σ^2  為自由度Φ=(C-P+n)=(n-1)之χ^2分配。或估計σ^2=S/n-1=不(無)偏變異數VAR=S/n-1。即卡方χ^2=n 樣品數 S^2 偏差平方和 /σ^2 母變異數。

沒有留言:

張貼留言