1938年,物理學家Frank Benford發現了一個有趣的數字規律(Benford Law) 。仔細研究後發現,從1~9出現的概率符合對數分佈,“1”出現的概率為30.1%,“2”出現的概率為17.6%,而“9”的概率只有4.6%。
換個角度,如果把尺度不變作為基礎,那麼只有對數分佈才能導致尺度不變。
可做折線圖比較分析,公司表現越好,偏離本福特定律的程度越小。反之,公司表現不好財務造假,就會與本福特定律有明顯偏離。
需要注意的是,“本福特定律”也有一定的使用條件。首先,資料樣本應是自然的,不能有人為操控,資料樣本需要盡可能的多;其次,資料樣本跨度要大。也正是因為有特定使用條件,“本福特定律”可用於檢查各項資料是否存在造假行為。在大部分情況下,本福特定律可以適用於具有以下特徵的資料:具有通過來自多個分佈的數位的數學組合形成的值的資料。
本福特定律不但適用於個位數字,連多位的數也可用。在十進位首位數字的出現機率(%,小數點後一個位):本福特定律不但適用於個位數字,連多位的數也可用。
若所用的數據有指定數值範圍;或不是以概率分佈出現的數據,如正態分佈的數據;這個定律則不準確。即使沒有單位的數字,只要有累進遞加,本福特定律就會出現。
這裡需要說明的是,本福特定律是一個經驗性的定理,並不是所有生活中的資料都滿足此條件。例如生活中極為常見的正態分佈(如人身高體重的分佈)、二項式分佈(如扔硬幣正面向上的次數)和均勻分佈(骰子點數頻率分佈)都不滿足本福特定律。
事實上,所有等比數列(指數函數)均符合此概率分佈並滿足本福特定律。
f(x)= 0 , x≦m
f(x)= 1 / λx , m < X ≦ m ^eλ
f(x)= 0 , x> m ^eλ
其中,m,λ為任意正數。是不是一頭霧水...?其實一些常見的序列都遵循這個概率分佈。
logn (m+1) /m
P ( d ) = log10 ( d + 1 )-log10 ( d ) = log10 ( d + 1 / d ) = log10 ( 1 + 1 / d)
P ( 1 ) = log10 ( 1+ 1 / 1)…P ( 9 ) = log10 ( 1+ 1 / 9)。
參考網址如下:
https://zh.wikipedia.org/zh-tw/%E6%9C%AC%E7%A6%8F%E7%89%B9%E5%AE%9A%E5%BE%8B
https://www.bilibili.com/read/cv17505744
https://m.fx361.com/news/2018/0910/10647162.html
https://zhuanlan.zhihu.com/p/486123611
https://www.itshenji.com/benfute/
首位數字 Benford Law 自然出現機率
|
1 |
|
=LOG(1+(1/B7)) |
=D7*100 |
P( |
1 |
) |
0.3010 |
30.10 |
P( |
2 |
) |
0.1761 |
17.61 |
P( |
3 |
) |
0.1249 |
12.49 |
P( |
4 |
) |
0.0969 |
9.69 |
P( |
5 |
) |
0.0792 |
7.92 |
P( |
6 |
) |
0.0669 |
6.69 |
P( |
7 |
) |
0.0580 |
5.80 |
P( |
8 |
) |
0.0512 |
5.12 |
P( |
9 |
) |
0.0458 |
4.58 |
第二位數字 Benford Law 自然出現機率
P(d2)的組合機率是包含d2的0~9的所有d1的1~9中的加總組合機率。
p(d2) = Σ d1=1 to 9 , log10 [1 + 1 / (10Xd1 + d2)]
P( |
0 |
) |
0.1197 |
11.97 |
P( |
1 |
) |
0.1139 |
11.39 |
P( |
2 |
) |
0.1088 |
10.88 |
P( |
3 |
) |
0.1043 |
10.43 |
P( |
4 |
) |
0.1003 |
10.03 |
P( |
5 |
) |
0.0967 |
9.67 |
P( |
6 |
) |
0.0934 |
9.34 |
P( |
7 |
) |
0.0904 |
9.04 |
P( |
8 |
) |
0.0876 |
8.76 |
P( |
9 |
) |
0.0850 |
8.50 |
第三位數字 Benford Law 自然出現機率
P(d3)的組合機率是包含d3的0~9的所有d1的1~9中與d2的0~9中的加總組合機率。
p(d3) = Σ d1=1 to 9 Σ d2=0 to 9 , log10 [1 + 1 / ((100Xd1) + (10Xd2) + d3)]
P( |
0 |
) |
0.1018 |
10.18 |
P( |
1 |
) |
0.1014 |
10.14 |
P( |
2 |
) |
0.1010 |
10.10 |
P( |
3 |
) |
0.1006 |
10.06 |
P( |
4 |
) |
0.1002 |
10.02 |
P( |
5 |
) |
0.0998 |
9.98 |
P( |
6 |
) |
0.0994 |
9.94 |
P( |
7 |
) |
0.0990 |
9.90 |
P( |
8 |
) |
0.0986 |
9.86 |
P( |
9 |
) |
0.0983 |
9.83 |
分析評估以下數值 首位數字與enford Law之差值並與截止值,KS值低於截止值,那麼可以判定資料為自然產生。否則就可能有造假的風險。
KS值是對資料的實際概率值與期望概率值差異值後的最大值,截止值是1.36除以數據項數的平方根。
計算首位數字 |
計算次數 |
出現頻率 |
Benford Law |
比對差值 |
1 |
4 |
0.16 |
0.301 |
0.141 |
2 |
3 |
0.12 |
0.1761 |
0.0561 |
3 |
1 |
0.04 |
0.1249 |
0.0849 |
4 |
2 |
0.08 |
0.0969 |
0.0169 |
5 |
6 |
0.24 |
0.0792 |
0.1608 |
6 |
2 |
0.08 |
0.0669 |
0.0131 |
7 |
2 |
0.08 |
0.058 |
0.022 |
8 |
2 |
0.08 |
0.0512 |
0.0288 |
9 |
3 |
0.12 |
0.0458 |
0.0742 |
加總 |
25 |
|
MAX(KS) |
0.1608 |
|
|
|
截止值=SQRT(1.36/(項數)) |
0.233238076 |
|
KS值= |
0.1608 |
|
|
|
截止值= |
0.233238076 |
|
|
https://zhuanlan.zhihu.com/p/486123611
單從實際概覽值我們無法辨別資料是否經過人為修飾。
要準確的判斷資料是否為自然生成還需要計算兩個指標,分別為KS值和截止值。
然後對兩個指標進行對比。如果KS值低於截止值,那麼可以判定資料為自然生成,沒有經過人工修飾。否則就可能有造假的風險。
斐波那契數列1~100項
首位數字 | 計算次數 | 出現頻率 | Benford Law | 比對差值 |
1 | 28 | 0.2978723 | 0.301 | 0.00312766 |
2 | 17 | 0.1808511 | 0.1761 | 0.004751064 |
3 | 12 | 0.1276596 | 0.1249 | 0.002759574 |
4 | 9 | 0.0957447 | 0.0969 | 0.001155319 |
5 | 7 | 0.0744681 | 0.0792 | 0.004731915 |
6 | 6 | 0.0638298 | 0.0669 | 0.003070213 |
7 | 5 | 0.0531915 | 0.058 | 0.004808511 |
8 | 6 | 0.0638298 | 0.0512 | 0.012629787 |
9 | 4 | 0.0425532 | 0.0458 | 0.003246809 |
加總 | 94 |
| MAX(KS)= | 0.012629787 |
截止值=SQRT(1.36/(項數))=0.12028335
KS值低於截止值,那麼可以判定資料為自然。
沒有留言:
張貼留言