本福特 | 数数就能查假账?突然碗里的饭都不香了

作者 | 南方、小风

数据支持 | 勾股大数据(www.gogudata.com)

美国大选落定,拜登赢了特朗普。

本以为这事就吃瓜结束,没想到有人很勤快地用本福特定律对美国大选结果进行了验证,经统计各候选人在某地所有选区的得票数后发现,川普一切正常,而拜登得票不符合“本福特定律”涉嫌选票舞弊。

这不是本福特定律第一次用于证明大选造假,早在2009年,本福特定律就证明当年伊朗大选存在“欺诈”,而且还被《华盛顿邮报》引用报道“魔鬼存在于数字上”。

1992年,Mark J. Nigrini在其博士论文"The Detection of Income Tax Evasion Through an Analysis of Digital Frequencies."(Ph.D. thesis. Cincinnati, OH: University of Cincinnati, 1992.)中提出“以它检查是否有伪帐”。

2009年,西班牙数学家的一项素数发现,提供了本福特定律还能应用于欺骗检测和股票市场分析等领域的新思路。

有人曾拿该定律验证在财报中虚报盈利的美国安然公司,因为安然高层改动过财务数据,他们公布的2001-2002年每股盈利数据的确不符合本福特定律。

于是,本福特定律经过口口相传,得出了一条惊世骇俗,吓尿审计狗的结论——“不满足本福特定律的就意味着财务造假,这条定律能帮助侦破“财务造假”。

这个结论突然就让探雷哥觉得碗里的饭不香了,如果这个定律这么牛,探雷哥就真的哪里凉快哪儿待着去了。


本福特定律


关于本福特定律的介绍网上很多,探雷哥就不再详细介绍了,我看了很多文章都神化了这个定律“它可以用来检查各种数据是否有造假”,比如选举、直播数据造假。

以及,即使是不懂财务知识都可以操作使用,靠数数就能辨别财务造假。

但它的应用是有前提的。

前提是,数据必须杂乱无章,随机、跨度大、样本数量多,没有人为设计成分。在这几个条件下,如果财报没经过人为修饰/造假,就会基本符合本福特定律(Benford's law),即样本和本福特标准的拟合情况就会如下图所示,基本没偏差。

更有人提出,美股历史上被查出财务造假的公司,事后都被发现财报数据严重偏离本福特定律,有明显的有明显操纵痕迹。

请注意是“事后”。


样本选取及示例


我们选取的样本数据来源是聚源的所有A股上市公司。但需要满足以下几个条件:

1、取在2009年及以前上市的A股公司,保证所取上市公司上市时间大于10年,这个目的主要是确保样本数据足够多;

2、取出上述公司2008年-2019年(共计12年)的资产负债表、利润表、现金流量表数据;为啥取2019年呢,是因为2019年是退市大年,如果在19年得不出退市结论的,则在之后年份会更少;

3、因为本福特定律适用于自然增长、杂乱无章、随机产生的数据验证,所以我们需要将资产负债表、利润表、现金流量表剔除掉部分行数据,逻辑是这些行数据具有人为成分,不符合自然增长、随机产生、杂乱无章的特点。比如财务费用项下的包含项(利息费用和利息收入)、借款、投资收益类数据等;

4、将三大报表数据的负数换成绝对值、空行填0

5、再取各列数据第一位首字母,比如营业收入593456878元,取首字母就是5;

6、统计出三大报表中数字1-9出现的次数,得出结果;

最终,我们筛选出1631家上市公司,57366行、516294个数据。最终的基础数据表如下图所示。

在上述数据筛选的过程中,我们曾遇到这样一个数据问题:

针对同一个“表来源”字段,同一个“年报日期”,如果报告公告日期出现多个时,则选取原始未修订数据,理由是修订后的数据会比原始数据更符合本福特定律。

最后保证资产负债表、利润表、现金流量表的行数据数量一致,如,本次样本的资产负债表数据为19122行、利润表行数据为19122行、现金流量表行数据19122行。

我们以股票代码为000001的平安银行举例说明。年报日期是财报的期末日期,报告公告日期是对应年报披露的日期。从08年到19年,一共12年,3张财务报表对应生成的行数据为12*3=36行。

不区分财报来源(资产负债表、利润表、现金流量表),对平安银行上述各列数据进行汇总统计,得出1-9各列的数据合计和概率,如下图所示。

然后再将其进行图形化展示,如下图所示,基本与本福特定律贴合。

怎么量化这种贴合度呢?我们就需要设置检验公式。检验样本实际概率分布与本福特定律的偏差程度,用到卡方检验,卡方检验又称最佳拟合度检验,具体计算公式如下。

经过计算,平安银行与本福特定律的偏离度只有0.62%。

按照这个计算逻辑,对上述全部样本进行全部计算。


样本统计情况


最终整理出这样一张结果表,包括股票代码、股票名称、频次、概率和偏离度的全部信息。

得出1631家公司的偏离度范围是0.1%-46.5%,分布情况如下。

假如1%-5%是容错率,只关注偏离度较小(偏离度范围为0.1%-1%)和偏离度较大(偏离度范围为5%-50%)的部分样本。

偏离度较小的公司有332家,辅以市值从高到低的顺序排列,如下图所示,前面的画风还挺正,是大家熟悉的大白马。

但越往后越看,似乎画风有点不对劲,3家退市股,286家市值在300亿左右的公司都在列,其中有183家只有几十亿市值。

(限于篇幅下图仅选取部分展示)

我们再看看偏离度较大的个股。通过整理发现,103家公司中,有39家已经退市,49家市值在100亿以下,15家的市值在100亿-700亿之间。

这15家公司中(上述标记颜色的公司),包括探雷哥近期分析过的国轩高科《一个价值300亿的"壳"》《让子弹再飞一会》中都提到国轩高科的确存在“人为操纵业绩的迹象”。

其他几家,有兴趣的读者可以继续分析分析。


“异常股”再筛


综上两种情况来看,本福特定律在偏离度较大的“退市股”验证上好像行之有效,但在偏离度较小的“绩优股”方面证明好像行不通。

这也就意味着,偏差大大概率是问题股,但偏差小,并不意味着不是问题股。

我们再加入相关财务指标对这些可能错杀和误判的股票进行再筛。

于是我们筛选出偏离度较小,市值在500亿以下的个股和偏离度较大,市值在100亿以上的个股。

借助格隆汇的诊股宝工具进行再次筛查,从这两份样本中筛选出来评分较低的公司,验证本福特定律在证伪方面的准确率和证实方面的误判率。

诊股宝的样本范围是3863家上市公司,得分区间是【-9,100】,按照1:1的数量比例去定义及格线, 55.5分较为合适。

我们对偏离度较小的325家公司按照55.5的及格线进行再次筛选,有173家在及格线以下,比例占53%,按照得分从高到低排列,名单如下图所示。

(限于篇幅下图仅选取部分个股展示)

偏离度较小的公司样本总数一共332家,其中评分低的公司有173家,证明本福特定律在偏离度较小的样本中的误判率为52%。

我们再对偏离度较大的,需要再筛的15家上市公司名单按照55.5的及格线进行筛选,有5家在及格线以下。按照得分从高到低排列,名单如下图所示,国轩高科再次中选。

偏离度较大的公司样本总数一共103家,评分较低的有93家,在偏离度较大的样本中出现问题股的概率接近90%。

是否可以得出“用本福特定律筛选出的偏离度较大的公司是“雷股”的准确度高,而筛选出来的偏离度较小的公司没问题的概率并不高。

是否说明本福特定律具有较强的“后验性”?


怎么看待本福特定律?


在此次验证过程中,探雷哥就发现在样本选取方面就存在一些阻碍,比如多少数据算大样本?对具有人为性数据剔除的判断是否准确?

这是本福特定律应用的大前提,这在一定程度上决定了结论准确与否。

另外,除了探雷哥和技术同事联合验证了下本福特定律,探雷哥还找了其他用本福特定律验证财务造假的案例,就比如德勤。

德勤曾就基于中国债券市场对所有标的公司用本福特定律进行测算,以期发现可能存在财务粉饰的,与本福特定律不符的公司。

探雷哥还特地采访了该信用风险咨询项目的当事人,他给我的反馈是“没什么用、伪命题”。

以及本福特定律不具备提前警示性。

还有其他曾用本福特定律证明财务造假的同仁,曾发表过其他相关结论:统计越偏离本福特定律,该上市公司的持续盈利能力越低(上述偏差较大的样本,其市值也普遍偏低,也在一定程度上证明了该结论的适用性)。

另外都曾在文章中表明一条共识——“本福特定律并非万能,只是参考,是否财务造假还需要专业的财务知识深入分析”(如上述偏差度较小的公司,还需要辅助其他财务指标进行再筛)


结束语


综上,本福特定律似乎在一定程度上对绩优公司和退市公司有所区分,尤其是在退市公司身上的确出现了大幅偏离本福特分布曲线的现象。但在偏离度较小的公司名单中也发现了少量几个退市公司和暂停上市公司。

这意味着完全依赖本福特定律帮助发现财务造假不太可能,但偏离度越大,财务造假、盈利能力弱的可能性更大,说明本福特定律对财务造假的后验性很强。

回到文章开头的那句“不满足本福特定律的就意味着财务有可能造假”,结论有可能是对的,但用本福特定律去发现造假的结论则有点武断。

至于它能不能帮助你提前发现造假,有兴趣的读者可以通过继续跟踪下上述“异常名单”去验证它的有效性,就比如探雷哥已经验证它对“国轩高科”的判断是正确的。

另外,深入研究,辅以财务分析手段、常识等专业知识技能去判断一家公司是否存在财务造假才会减少误判,这也是研究的价值所在!

格隆汇声明:文中观点均来自原作者,不代表格隆汇观点及立场。特别提醒,投资决策需建立在独立思考之上,本文内容仅供参考,不作为实际操作建议,交易风险自担。

相关阅读

评论