找回密码
 立即注册

QQ登录

只需一步,快速开始

swejet 悬赏达人认证 活字格认证
论坛元老   /  发表于:2022-7-4 16:14  /   查看:2698  /  回复:2
本帖最后由 KarenGao 于 2024-6-12 11:12 编辑

“第一数字定律”,又称“本·福特定律”(但其实纽康是首位发现者),是指:只要统计的样本足够多,同时数据没有特定的上限和下限,那么数据中以1为开头的数字出现的频率是30.10%,而以2为首的数字出现的频率为17.60%,以3打头的数字出现的频率为12.50%……首位数越大出现的频率依次减少,9出现的频率最低,只有4.60%。符合概率公式: P(n)=logd(1+ 1/n),其中d取决于数据使用的进位制,对十进制数据而言,d=10。

image.png991510314.png

自然数据源(信用卡账单、采购记录、现金收据)生成的数字中,约有30%的数字的首位数是1,首位数为2的数字约有18%;顺序递减,首位数为9的数字少于5%
如果一组会计数据不符合本福特定律的话,就存在被篡改过的嫌疑。

这个定律常用来分析数据作假,只要数据非人为规定的规律的,属于跨越几个量级的,在数量足够大的情况下就基本符合该定律。

美国华盛顿州曾侦破过一个当时最大的投资诈骗案,金额高达1亿美元。诈骗主谋凯文·劳伦斯及其同伙,从投资者手中筹集了大量资金,挪用公款来享乐。为了掩饰他们的不法行为,他们人为做假账。当时就有一位会计师感觉不对头,他将七万多个与支票和汇款有关的数据收集起来,将这些数据首位数字发生的概率与本福特定律相比较,发现这些数据通过不了本福特定律的检验。最后经过了3年的司法调查,终于拆穿了这个投资骗局。

现在市面上数据作假的事件简直已经见怪不怪了,我看很多up,抖主粉丝数量都作假,这就很离谱。如果我们去分析他以往所有的作品的转发数或者点赞数,看看符不符合“第一数字定律”就可以轻而易举识别出是不是数据作假。


如果,Wyn 能有一个插件,统计出数据源各个数值的首位出现的概率,形成类似上图的一个柱状图,同时有一个符合本福特定律的平滑曲线做为参照,就可以直观地看出数据源是不是造假了

这个插件并不难搞,但是据我所知没有哪个BI有这个东西

当然,这东西肯定挺糟人恨的

image.png42266844.png

2 个回复

倒序浏览
Bella.YuanWyn认证
超级版主   /  发表于:2022-7-4 16:59:37
沙发
您好,我这边已记录并反馈您的这个需求 编号【41288】,需要产品经理评估一下哦~后期有反馈我及时追贴回复您。
回复 使用道具 举报
KarenGao
超级版主   /  发表于:2024-6-12 11:12:16
板凳
您好
       Wyn 支持开放的可视化插件机制,一方面我们鼓励您可以自行开发插件来定制上述需求(可视化插件开发教程:https://www.grapecity.com.cn/sol ... v/development-steps),或者后续我们官方发布这个插件后,我及时反馈给您,谢谢!
回复 使用道具 举报
您需要登录后才可以回帖 登录 | 立即注册
返回顶部