本帖最后由 KarenGao 于 2024-6-12 11:12 编辑
“第一数字定律”,又称“本·福特定律”(但其实纽康是首位发现者),是指:只要统计的样本足够多,同时数据没有特定的上限和下限,那么数据中以1为开头的数字出现的频率是30.10%,而以2为首的数字出现的频率为17.60%,以3打头的数字出现的频率为12.50%……首位数越大出现的频率依次减少,9出现的频率最低,只有4.60%。符合概率公式: P(n)=logd(1+ 1/n),其中d取决于数据使用的进位制,对十进制数据而言,d=10。
自然数据源(信用卡账单、采购记录、现金收据)生成的数字中,约有30%的数字的首位数是1,首位数为2的数字约有18%;顺序递减,首位数为9的数字少于5%
如果一组会计数据不符合本福特定律的话,就存在被篡改过的嫌疑。
这个定律常用来分析数据作假,只要数据非人为规定的规律的,属于跨越几个量级的,在数量足够大的情况下就基本符合该定律。
美国华盛顿州曾侦破过一个当时最大的投资诈骗案,金额高达1亿美元。诈骗主谋凯文·劳伦斯及其同伙,从投资者手中筹集了大量资金,挪用公款来享乐。为了掩饰他们的不法行为,他们人为做假账。当时就有一位会计师感觉不对头,他将七万多个与支票和汇款有关的数据收集起来,将这些数据首位数字发生的概率与本福特定律相比较,发现这些数据通过不了本福特定律的检验。最后经过了3年的司法调查,终于拆穿了这个投资骗局。
现在市面上数据作假的事件简直已经见怪不怪了,我看很多up,抖主粉丝数量都作假,这就很离谱。如果我们去分析他以往所有的作品的转发数或者点赞数,看看符不符合“第一数字定律”就可以轻而易举识别出是不是数据作假。
如果,Wyn 能有一个插件,统计出数据源各个数值的首位出现的概率,形成类似上图的一个柱状图,同时有一个符合本福特定律的平滑曲线做为参照,就可以直观地看出数据源是不是造假了
这个插件并不难搞,但是据我所知没有哪个BI有这个东西
当然,这东西肯定挺糟人恨的
|
|