【6】聊一聊第一数字定律【编号：41288】

收藏

本帖最后由 KarenGao 于 2024-6-12 11:12 编辑

“第一数字定律”，又称“本·福特定律”（但其实纽康是首位发现者），是指：只要统计的样本足够多，同时数据没有特定的上限和下限，那么数据中以1为开头的数字出现的频率是30.10%，而以2为首的数字出现的频率为17.60%，以3打头的数字出现的频率为12.50%……首位数越大出现的频率依次减少，9出现的频率最低，只有4.60%。符合概率公式: P(n)=logd(1+ 1/n)，其中d取决于数据使用的进位制，对十进制数据而言，d=10。

image.png991510314.png

自然数据源（信用卡账单、采购记录、现金收据）生成的数字中，约有30%的数字的首位数是1，首位数为2的数字约有18%；顺序递减，首位数为9的数字少于5%
如果一组会计数据不符合本福特定律的话，就存在被篡改过的嫌疑。

这个定律常用来分析数据作假，只要数据非人为规定的规律的，属于跨越几个量级的，在数量足够大的情况下就基本符合该定律。

美国华盛顿州曾侦破过一个当时最大的投资诈骗案，金额高达1亿美元。诈骗主谋凯文·劳伦斯及其同伙，从投资者手中筹集了大量资金，挪用公款来享乐。为了掩饰他们的不法行为，他们人为做假账。当时就有一位会计师感觉不对头，他将七万多个与支票和汇款有关的数据收集起来，将这些数据首位数字发生的概率与本福特定律相比较，发现这些数据通过不了本福特定律的检验。最后经过了3年的司法调查，终于拆穿了这个投资骗局。

现在市面上数据作假的事件简直已经见怪不怪了，我看很多up，抖主粉丝数量都作假，这就很离谱。如果我们去分析他以往所有的作品的转发数或者点赞数，看看符不符合“第一数字定律”就可以轻而易举识别出是不是数据作假。

如果，Wyn 能有一个插件，统计出数据源各个数值的首位出现的概率，形成类似上图的一个柱状图，同时有一个符合本福特定律的平滑曲线做为参照，就可以直观地看出数据源是不是造假了

这个插件并不难搞，但是据我所知没有哪个BI有这个东西

当然，这东西肯定挺糟人恨的