AI背后的厮杀：数据标注巨头Appen 3亿美元收购竞争对手-格隆汇

来源：晨哨并购

数据标注得越精准、对算法模型训练的效果就越好。大部分算法在拥有足够多普通标注数据的情况下，能够将准确率提升到 95%，但从95%再提升到99%甚至99.9%，就需要大量高质量的标注数据。可以说，高质量的数据是制约模型和算法突破瓶颈的关键指标。目前中国数据采标市场规模最高达到近400亿元人民币。

数据是21世纪的石油，由数据喂养的AI产业背后是一个劳动密集型行业——数据标注。

近日，全球数据标注行业巨头再出新动作。

澳洲数据标注上市公司Appen以约3.4亿澳元（约合3亿美元）的价格收购了美国公司Figure Eight。Appen将先支付1.75亿美元现金，然后根据Figure Eight的2019财年收入再支付最多1.25亿美元。

Figure Eight是一个机器学习软件平台，利用自动化工具将未经标记的文本、图像、音频和视频数据转换为高质量的AI训练数据。

同样是提供AI训练数据，Appen则是通过众包的模式将数据交由人工进行标注。Appen表示，收购Figure Eight将使公司通过合并两家业务，进一步利用人工智能带来的机遇，同时将Appen在人员规模、数据处理质量和语言专业知识方面的优势与Figure Eight的创新数据注释平台结合起来，从而创建出一个独特的端到端数据训练产品。

随着AI行业的蓬勃发展，对数据的需求呈井喷式增长，在一系列的兼并收购之后，Appen逐渐成长到如今25亿美元市值的规模。

其所在的数据标注行业是伴随着AI的兴起而产生的一个新兴行业。

背靠AI

伴随AI兴起最关键的技术莫过于深度学习，作为深度学习的基础，神经网络是一种以输入为导向的算法，其结果的准确性取决于接近“无穷”量级的数据。深度学习最关键的就是需要大量的数据训练，这就是为什么在互联网大数据的时代AI才可以崛起。而在数据训练之前，又必须先对大量的数据进行标注，作为机器学习的先导经验。

数据标注得越精准、对算法模型训练的效果就越好。大部分算法在拥有足够多普通标注数据的情况下，能够将准确率提升到 95%，但从95%再提升到99%甚至99.9%，就需要大量高质量的标注数据。可以说，高质量的数据是制约模型和算法突破瓶颈的关键指标。

基于此，在AI产业的上游形成了一条数据标注产业链。数据标注公司的工作比较多样，图片标注是最普通的，其次还有视频标注、语音标注、3D点云标注，以及各种类型的数据采集。上游科技巨头会将任务交给中游的数据标注公司，再由中游公司众包给下游的小公司，小公司再将任务众包给3-5人的小作坊甚至临时兼职人员，比如学生或家庭主妇。

而Appen就是中游的数据标注公司，但是这家公司拥有全球100万兼职众包人员。

100万人的数据标注众包帝国

Appen是一家开发人工智能和机器学习用高质量、人类标注数据集的公司，这些标注数据用于移动设备、数字助理、车辆、执法、搜索、社交媒体、电子商务和消费电子产品中的机器学习。

1996年，澳洲语言学家Julie Vonwiller博士在悉尼创立了Appen公司。2011年，Appen与美国Butler Hill Group合并，后者的创始人是前IBM T.J.Watson研究中心语法检查技术团队的成员。合并后公司更名为Appen-Butler-Hill，业务范围扩大到语言资源、搜索和文本。

2012年，Appen收购了美国人力资源管理平台Wikman Remer，该公司开发了员工敬业度、在线调节和员工管理的工具和平台。2013年，Appen-Butler-Hill重新更名为Appen，两年后在澳大利亚证券交易所上市。2016年10月，Appen收购了一家位于英国的转录服务公司Mendip Media Group。

在2017年11月，Appen以8000万美元的价格收购了美国Leapforce，后者主营业务也是为大公司提供众包来的数据集。收购之后，Appen增加了与搜索相关的额外功能。

据2018年财报，Appen公司2018年营收同比增长118.7%，至3.6亿美元，净利润增长192.2%，至4100万美元。Appen公司表示，整个2018年实施了详细的计划来整合Leapforce的团队和资产，现在Leapforce已经成为Appen Connect平台的核心部分。

目前，Appen的数据包括来自130个国家超过180种语言的语音、自然语言数据，图像和视频数据，拥有513名全职员工和超过100万名分布在全球的兼职众包人员。

Appen的客户包括世界领先的技术公司、汽车制造商和政府，Appen首席执行官Mark Brayan称，全球十大科技公司中有九家正在使用其公司的服务。

而Appen此次收购的Figure Eight公司创建了一套数据注释工具，它可以将非结构化文本、图像、音频或视频数据自动转换为数据。Brayan称，若Appen来开发这套工具软件，将会耗费五年的时间，但是现在可以将它直接拿过来用。这套工具软件在标注视频数据时是人类效率的50倍，这符合Appen今后逐渐加码自动驾驶汽车的战略。

Figure Eight成立于2007年，有包括Twitter、谷歌、微软、LinkedIn和美国运通在内的200多客户。2018年，该公司收入为4200万美元。

在2018年报中，Appen董事长Christopher Vonwiller表示，公司已经开始在中国招聘以建立团队。

国外数据标注行业的巨头终于看到了诱人的中国市场。

百亿数据标注市场去向何方？

2017年7月，国务院印发《新一代人工智能发展规划》，其中包含三步走战略，第一步是到2020年人工智能核心产业规模超过1500亿元，带动相关产业规模超过1万亿元。第二步到2025年人工智能核心产业规模超过4000亿元，带动相关产业规模超过5万亿元。第三步到2030年人工智能理论、技术与应用总体达到世界领先水平。

此外，据iiMedia Research（艾媒咨询）发布的《2018中国人工智能产业研究报告——商业应用篇》，2018年中国人工智能领域共融资1311亿元，增长率超过100%。

业内人士称，AI公司投入10%—15%的经费用于数据采标。也有观点认为，这一比例应为20%-30%。以此测算，目前中国数据采标市场规模达到130亿-近400亿元人民币。其中，有三分之一是AI公司内部的标注部门消化，有一些会被商务流程外包公司瓜分，剩下的25%-33%流向专门做数据采标的第三方公司。

目前，越来越多的头部公司开始组建自己的数据标注部门，京东（京东众智）、百度（百度众测）、腾讯、阿里（阿里数据标注）都已经拥有自己的标注平台和工具。

头部公司之外，国内近年兴起众多数据标注公司，如龙猫数据、Testin云测、倍赛 BasicFinder、数据堂等，这些公司仅次于头部公司，都具有相当的规模。

据IT桔子数据，2017至2018年获得千万融资的国内数据标注公司有：2017年7月，BasicFinder完成1000万人民币Pre-A轮融资；2017年11月，龙猫数据获得A轮3370万人民币融资；2018年1月，星尘数据获得1000万人民币Pre-A轮融资；2018年3月，爱数智慧获得A轮融资；2018年5月，周同科技完成2000万人民币A轮融资。

这些公司的业务方向有一定细分区别，有的以处理图像见长，有的数据标注公司更擅长做一些视频标注。这些公司的服务企业包括百度、小米、京东、今日头条这样的互联网公司，也有出门问问、云从科技、深鉴科技等AI公司。

数据标注——一个本来不存在的行业，在人工智能的助推下蓬勃发展、熙熙攘攘，然而，随着人工智能越来越“智能”，人工是否还会被需要？数据标注会成为一个昙花一现的行业吗？

AI背后的厮杀：数据标注巨头Appen 3亿美元收购竞争对手

相关阅读

评论