大数据的混沌与无力

数据之于商业从未如今天般重要:通过聚合、分析大量的消费、社交数据,绘制用户肖像,并据此提供精准的个性化产品和服务推荐,已经成为了很多企业营销的新模式。

作者:周伯通 

来源: 未来商业评论

NetFlix出品的迷你剧《黑镜》第三季节中讲述过这样的一个场景:

“在不远的将来,我们基于和人互动所产生的社交分数,会决定我们在这个世界上的基本生活权利。剧中的成员是被抽离成一个个5分制评分的人,他们必须通过在社交网络上表现良好,在生活中展现精致的一面而获得好评。

人们的打分仅仅是基于表面的印象,为了维持5分,人不得不去做许多表面上的功夫,如假装热情友善,摆拍出各种“岁月静好”的社交状态,我们看不到这些高分人士内心的阴暗和丑陋;而每一个低分者所经历的各种曲折,则没有人关心,他们只因为低分便被世人遗弃……”

数据崇拜

科幻故事往往折射人类内心恐惧与欲望。我们对数据的恐惧来源于 “数据化”作为一种表面上的技术,正在逐渐对人们的意识观念和社会制度结构进行解构”,并成为一种被广泛接受的新范式。

互联网界有个新兴词——ABC,它集合了当下三大技术热点概念的词:人工智能AI,大数据Big Data和云计算Cloud Computing。黑镜中的画面便与这里的“BigData”息息相关。

从2012年开始,大数据的概念被学界与商界轮番地提及也标志着人类已经察觉,自己在不经意之间进入了充满革新氛围的“大数据”时代。

相比人工智能和云计算是两个稍微偏技术型的概念,而大数据则在更大程度上超出了技术范畴,它有着社会学的意义,也更能让我们思考“黑镜中所讲述的场景会不会在”明天“来临那一天,幻境成真?还是明天已经来临?”

举个栗子:当下数据已经成为一种常规“货币”,公民们用它来支付所享受到的沟通服务和安全;平台则通过提供服务获取数据进行商业变现。而对于这种交换,大多数人都已经习以为常了。

事实上,近几年商界对“大数据”的崇拜达到前所未有的高度,很多企业家、学者公开宣称:未来的生意都是数据生意。

数据之于商业从未如今天般重要:通过聚合、分析大量的消费、社交数据,绘制用户肖像,并据此提供精准的个性化产品和服务推荐,已经成为了很多企业营销的新模式。

不管是在刚刚过去的双十一中,各个电商app根据用户的历史浏览数据主推相关品牌,还是刷分,打榜,控评……这些制造“好”数据的行动将明星推上流量神坛的行为。数据成为我们这个时代一个影响力巨大的神,它人的习惯和商业行为皆发生改变。

瓦尔·赫拉利在他的的演讲中曾提到,也许有一天,人们在结婚之前,不再会征询父母的或其他人意见,而是向谷歌等企业咨询。因为,在它们的数据库里拥有所有人产生的数据,通过对数据的整合、分析,可以准确预测未来的婚姻状况,并给出合适的建议。

今天,大量的创业者和互联公司的领导人或号称自己公司(业务)是由数据来驱动的。市场部用它,自媒体用它,公司经营者也在用它,数据被用来当作证明某些结论的终极证据——但是要警惕数据崇拜,它可以起到辅助作用,作为制定决策时的参考因素之一,但不应该由它来引领一个公司的策略性决定。

虽然,数据技术对人类社会的影响是革命性、颠覆性的。它使人类的创造性活动达到巅峰,并能有效解决既往无法解决、也不敢想象会被解决的诸多问题。但是 “数据技术”将一切理解为数据,其中不管是人的行为产生的数据、还是人在获取数据、清洗数据、利用数据中扮演的角色亦不例外。可问题是,人这种智慧生物并不是二进制。这就导致数据技术不可避免的有一些先天性缺陷。

数据真的靠谱嘛?

  • 数据会撒慌

克雷•克里斯坦森(Clay Christensen)教授曾讲过一个有关天堂旅游的笑话。“这里怎么没有数据呢?”这位哈佛教授问他的天堂向导。“因为数据撒谎,”对方回答说。克里斯坦森教授接着讲,所以“每当有人说‘把数据拿给我看’时,我就会说‘下地狱去’”。

经营者需要谨防大数据中的忽悠成分。数据的样本很多时候会说谎,要知道最准确的数据集不仅要很大,还很广泛。大数据代表人物杰夫·哈梅巴赫

在其新书《大数据主义》中提到,历史上90%的数据都产生于过去两年。2014年,国际数据公司推算出全世界的数据总量有即4.4万亿兆字节。数据总量如此之大,是数码图片与数码影像的兴起产生的结果。现在大家用智能设备照相变得十分简单,这样就形成了大量的数码图片和影像的信息流。

图片来源于网络

样本缺乏代表还有——幸存者偏差。我们可以用一个具体的案例来解释:二战时军方对战机损毁的原因进行分析得出机翼受员是造成飞机损坏的最重要原因,然后展开行动改进机翼以求减少飞机的损毁,但收效并不明显,为什么?真正的原因是由于数据抽样不正确:受损分机简单可以分为两类,一类是受损后仍可以返航的;另一类是受损后无法返航的;而用来做统计的分析来自于第一类数据,即能够返航的飞机,而严重受损无法返航的却未被计算在内,有缺陷的数据源便是说谎”的原因。

  • 数据鸿沟

1995年,美国商业部电信与信息局(NTIA)发布了一份名为《被互联网遗忘的角落---一项有关美国城乡信息穷人的调查报告》,报告中提到的“数字鸿沟”这个概念。

数字鸿沟是指人们在数字化生存过程中利用媒介的机会与能力上存在的差异。社会中的某些个人或群体会因为贫穷、数字媒体使用技能的不足等原因而无法成为数据的贡献者,从“而被忽视或未被充分的代表(overlooked orunderrepresented)“。而平台则会基于数据做出歧视性的决策,这里面最经典案例莫过于“五环外的拼多多”。

拼多多刚出现的时候,被很多人笑称五环外的APP,有人调侃“拼多多,拼得多,骗的多,假的多”。然而近三年拼多多的发展成绩远超一些发展10年的电商企业,令不少人大跌眼镜。

这背后有一个重要的原因就是数字鸿沟:尽管电商已经发展了十几年,但是,以红米为代表的低价智能手机普及,快速地让三到六线用户上了网,农村互联网的渗透率提升。2017年,36%的农村人口已经成为了网民。这是拼多多的基本盘!

而在此之前,广大农村和城市远郊地区的消费者们完全没有经历过这场变更。他们的数据是接近空白的,创业者听不到他们的声音,他们成了被忽视被歧视的市场和人群。

  • 数据是否保持”中立“ 不变”

人们常常说数据不会说谎,但是数据的背后是人和平台。就像那句俗语 “有用的知识”本身就不是中立的,它天然就隐含了利益主体。数据背后的人在创造数据的过程中,以及平台获取在这个过程中,我们怎么能保证网站收集到的数据是人们实际行为和自然情绪?比如说人有出于社交需求的伪装。而网站本身则代表一定的利益方,这就很难保证数据的生产到获取是中立的。

比起中立,人这个变量是个更大的问题。要知道一个统计数据只是在这个不停改变的大环境里的一粒尘埃。人会变,态度和行为方式会变,品味会变,经济形势会变,人心、体型、彼此关系以及关注的事物都会变。根据物理学中的“观察者效应”理论,仅仅是“观察”的这个行为,也可能改变被观察的对象。

数据“中立”和变量“问题,在金融投资领域的应用尤为明显。2011年,高盛集团前任宽客、物理学家伊曼纽尔·德曼在《失灵:为什么看起来可靠的模型最终都会失效》一书中分析了在金融领域采用数学模型的危险性:“在物理学研究领域,我们面对的是上帝,上帝制定了一条条规则之后,一般不会朝令夕改。但是在金融领域,我们面对的是上帝创造的人,他们估计金融资产价值的依据就是自己的直觉。”人在投资中是经常会变化的,这是研究与人相关的学科时必须要特别注意的

反思:数据中的“大”字确实重要,但是远没有很多人想象的那么重要。正如海洋里的水也非常多,但是我们无法直接饮用。因此,我们需要意识到,用大数据来做长期的战略、做全局的考虑,其中的内生缺陷性。

到结尾,笔者更想要强调是数据纷繁庞杂之下,决策者任何时候都应该提醒自己的初衷“是为了什么做的决策”,不然被一些概念绕晕,丢了本心。老子在《道德经》里就说过:“其出弥远,其知弥少”。说的是如果不先行了解自然界运行法则的,即使到处游荡,到处见识,满目尽是人间琐事,反而会使自己受到蒙蔽。这样,向外探索得越远,对事物真相的了解就愈少。

同样,对于创业者而言,不要人云亦云,对于大数据这样的新兴技术需要回归到他们本源中去探究,从数据样本、数据获取这个些基本的角度去探究,会有不一样的看法和思考。

参考资料:

Auerbach, D. (2015). We Can’t Control WhatBig Data Knows About Us. Big Data Can’t Control It Either. [online] SlateMagazine. Available at: 

《The JoylessWorld of Data-Driven Startups》

《DATA-ISM: TheRevolution Transforming Decision Making, Consumer Behavior, and AlmostEverything Else》

《数据化,数据主义和数据监控:在科学范式和意识观念之间的大数据》

《失灵:为什么看起来可靠的模型最终都会失效》

格隆汇声明:文中观点均来自原作者,不代表格隆汇观点及立场。特别提醒,投资决策需建立在独立思考之上,本文内容仅供参考,不作为实际操作建议,交易风险自担。

相关阅读

评论