2022年11月5日 星期六

1938年,物理學家Frank Benford發現了一個有趣的數字規律(Benford Law) 。仔細研究後發現,從1~9出現的概率符合對數分佈,“1”出現的概率為30.10%,“2”出現的概率為17.61%,“3”出現的概率為12.49%,而“7”的概率只有5.80%。而“8”的概率只有5.12%,而“9”的概率只有4.58%。分析評估資料數值 數字與enford Law之差值並與截止值, KS值低於截止值,那麼可以判定資料為自然產生。否則就可能有造假的風險。-排列組合機率19

1938年,物理學家Frank Benford發現了一個有趣的數字規律(Benford Law) 。仔細研究後發現,從1~9出現的概率符合對數分佈,“1”出現的概率為30.1%,“2”出現的概率為17.6%,而“9”的概率只有4.6%。

換個角度,如果把尺度不變作為基礎,那麼只有對數分佈才能導致尺度不變。

可做折線圖比較分析,公司表現越好,偏離本福特定律的程度越小。反之,公司表現不好財務造假,就會與本福特定律有明顯偏離。


需要注意的是,“本福特定律”也有一定的使用條件。首先,資料樣本應是自然的,不能有人為操控,資料樣本需要盡可能的多;其次,資料樣本跨度要大。也正是因為有特定使用條件,“本福特定律”可用於檢查各項資料是否存在造假行為。在大部分情況下,本福特定律可以適用於具有以下特徵的資料:具有通過來自多個分佈的數位的數學組合形成的值的資料。

本福特定律不但適用於個位數字,連多位的數也可用。在十進位首位數字的出現機率(%,小數點後一個位):本福特定律不但適用於個位數字,連多位的數也可用。

若所用的數據有指定數值範圍;或不是以概率分佈出現的數據,如正態分佈的數據;這個定律則不準確。即使沒有單位的數字,只要有累進遞加,本福特定律就會出現。


這裡需要說明的是,本福特定律是一個經驗性的定理,並不是所有生活中的資料都滿足此條件。例如生活中極為常見的正態分佈(如人身高體重的分佈)、二項式分佈(如扔硬幣正面向上的次數)和均勻分佈(骰子點數頻率分佈)都不滿足本福特定律。

事實上,所有等比數列(指數函數)均符合此概率分佈並滿足本福特定律。
f(x)= 0 , x≦m
f(x)= 1 /  λx , m < X ≦ m ^eλ
f(x)= 0 , x> m ^eλ
其中,m,λ為任意正數。是不是一頭霧水...?其實一些常見的序列都遵循這個概率分佈。
logn (m+1) /m
P ( d ) = log10 ( d + 1 )-log10 ( d ) = log10 ( d + 1 / d ) = log10 ( 1 + 1 / d)
P ( 1 ) = log10 ( 1+ 1 / 1)…P ( 9 ) = log10 ( 1+ 1 / 9)。

參考網址如下:
https://zh.wikipedia.org/zh-tw/%E6%9C%AC%E7%A6%8F%E7%89%B9%E5%AE%9A%E5%BE%8B

https://www.bilibili.com/read/cv17505744

https://m.fx361.com/news/2018/0910/10647162.html

https://zhuanlan.zhihu.com/p/486123611

本福特定律線上測試

https://www.itshenji.com/benfute/

 


首位數字 Benford Law 自然出現機率 

 

1

 

=LOG(1+(1/B7))

=D7*100

P(

1

)

0.3010

30.10

P(

2

)

0.1761

17.61

P(

3

)

0.1249

12.49

P(

4

)

0.0969

9.69

P(

5

)

0.0792

7.92

P(

6

)

0.0669

6.69

P(

7

)

0.0580

5.80

P(

8

)

0.0512

5.12

P(

9

)

0.0458

4.58


第二位數字 Benford Law 自然出現機率

P(d2)的組合機率是包含d20~9的所有d11~9中的加總組合機率。

p(d2) = Σ d1=1 to 9 , log10 [1 + 1 / (10Xd1 + d2)]    

P(

0

)

0.1197

11.97

P(

1

)

0.1139

11.39

P(

2

)

0.1088

10.88

P(

3

)

0.1043

10.43

P(

4

)

0.1003

10.03

P(

5

)

0.0967

9.67

P(

6

)

0.0934

9.34

P(

7

)

0.0904

9.04

P(

8

)

0.0876

8.76

P(

9

)

0.0850

8.50

 

第三位數字 Benford Law 自然出現機率  

P(d3)的組合機率是包含d30~9的所有d11~9中與d20~9中的加總組合機率。

p(d3) = Σ d1=1 to 9  Σ d2=0 to 9 , log10 [1 + 1 / ((100Xd1) + (10Xd2) + d3)]          

P(

0

)

0.1018

10.18

P(

1

)

0.1014

10.14

P(

2

)

0.1010

10.10

P(

3

)

0.1006

10.06

P(

4

)

0.1002

10.02

P(

5

)

0.0998

9.98

P(

6

)

0.0994

9.94

P(

7

)

0.0990

9.90

P(

8

)

0.0986

9.86

P(

9

)

0.0983

9.83

 

分析評估以下數值 首位數字與enford Law之差值並與截止值,KS值低於截止值,那麼可以判定資料為自然產生。否則就可能有造假的風險。

KS值是對資料的實際概率值與期望概率值差異值後的最大值,截止值是1.36除以數據項數的平方根。

計算首位數字

計算次數

出現頻率

Benford Law

比對差值

1

4

0.16

0.301

0.141

2

3

0.12

0.1761

0.0561

3

1

0.04

0.1249

0.0849

4

2

0.08

0.0969

0.0169

5

6

0.24

0.0792

0.1608

6

2

0.08

0.0669

0.0131

7

2

0.08

0.058

0.022

8

2

0.08

0.0512

0.0288

9

3

0.12

0.0458

0.0742

加總

25

 

 MAX(KS)

0.1608

 

 

 

 截止值=SQRT(1.36/(項數))

0.233238076

 

KS=

0.1608

 

 

 

截止值=

0.233238076

 

 

https://zhuanlan.zhihu.com/p/486123611
單從實際概覽值我們無法辨別資料是否經過人為修飾。
要準確的判斷資料是否為自然生成還需要計算兩個指標,分別為KS值和截止值。
然後對兩個指標進行對比。如果KS值低於截止值,那麼可以判定資料為自然生成,沒有經過人工修飾。否則就可能有造假的風險。

 

 


斐波那契數列1~100

首位數字

計算次數

出現頻率

Benford Law

比對差值

1

28

0.2978723

0.301

0.00312766

2

17

0.1808511

0.1761

0.004751064

3

12

0.1276596

0.1249

0.002759574

4

9

0.0957447

0.0969

0.001155319

5

7

0.0744681

0.0792

0.004731915

6

6

0.0638298

0.0669

0.003070213

7

5

0.0531915

0.058

0.004808511

8

6

0.0638298

0.0512

0.012629787

9

4

0.0425532

0.0458

0.003246809

加總

94

 

MAX(KS)=

0.012629787

截止值=SQRT(1.36/(項數))=0.12028335      

KS值低於截止值,那麼可以判定資料為自然。      

       







 

 

沒有留言:

張貼留言