AI背后的厮杀:数据标注巨头Appen 3亿美元收购竞争对手

数据标注得越精准、对算法模型训练的效果就越好

来源:晨哨并购

数据标注得越精准、对算法模型训练的效果就越好。大部分算法在拥有足够多普通标注数据的情况下,能够将准确率提升到 95%,但从95%再提升到99%甚至99.9%,就需要大量高质量的标注数据。可以说,高质量的数据是制约模型和算法突破瓶颈的关键指标。目前中国数据采标市场规模最高达到近400亿元人民币。

数据是21世纪的石油,由数据喂养的AI产业背后是一个劳动密集型行业——数据标注。 

近日,全球数据标注行业巨头再出新动作。 

澳洲数据标注上市公司Appen以约3.4亿澳元(约合3亿美元)的价格收购了美国公司Figure Eight。Appen将先支付1.75亿美元现金,然后根据Figure Eight的2019财年收入再支付最多1.25亿美元。 

Figure Eight是一个机器学习软件平台,利用自动化工具将未经标记的文本、图像、音频和视频数据转换为高质量的AI训练数据。 

同样是提供AI训练数据,Appen则是通过众包的模式将数据交由人工进行标注。Appen表示,收购Figure Eight将使公司通过合并两家业务,进一步利用人工智能带来的机遇,同时将Appen在人员规模、数据处理质量和语言专业知识方面的优势与Figure Eight的创新数据注释平台结合起来,从而创建出一个独特的端到端数据训练产品。 

随着AI行业的蓬勃发展,对数据的需求呈井喷式增长,在一系列的兼并收购之后,Appen逐渐成长到如今25亿美元市值的规模。 

其所在的数据标注行业是伴随着AI的兴起而产生的一个新兴行业。 

背靠AI 

伴随AI兴起最关键的技术莫过于深度学习,作为深度学习的基础,神经网络是一种以输入为导向的算法,其结果的准确性取决于接近“无穷”量级的数据。深度学习最关键的就是需要大量的数据训练,这就是为什么在互联网大数据的时代AI才可以崛起。而在数据训练之前,又必须先对大量的数据进行标注,作为机器学习的先导经验。 

数据标注得越精准、对算法模型训练的效果就越好。大部分算法在拥有足够多普通标注数据的情况下,能够将准确率提升到 95%,但从95%再提升到99%甚至99.9%,就需要大量高质量的标注数据。可以说,高质量的数据是制约模型和算法突破瓶颈的关键指标。 

基于此,在AI产业的上游形成了一条数据标注产业链。数据标注公司的工作比较多样,图片标注是最普通的,其次还有视频标注、语音标注、3D点云标注,以及各种类型的数据采集。上游科技巨头会将任务交给中游的数据标注公司,再由中游公司众包给下游的小公司,小公司再将任务众包给3-5人的小作坊甚至临时兼职人员,比如学生或家庭主妇。 

而Appen就是中游的数据标注公司,但是这家公司拥有全球100万兼职众包人员。

100万人的数据标注众包帝国

Appen是一家开发人工智能和机器学习用高质量、人类标注数据集的公司,这些标注数据用于移动设备、数字助理、车辆、执法、搜索、社交媒体、电子商务和消费电子产品中的机器学习。 

1996年,澳洲语言学家Julie Vonwiller博士在悉尼创立了Appen公司。2011年,Appen与美国Butler Hill Group合并,后者的创始人是前IBM T.J.Watson研究中心语法检查技术团队的成员。合并后公司更名为Appen-Butler-Hill,业务范围扩大到语言资源、搜索和文本。 

2012年,Appen收购了美国人力资源管理平台Wikman Remer,该公司开发了员工敬业度、在线调节和员工管理的工具和平台。2013年,Appen-Butler-Hill重新更名为Appen,两年后在澳大利亚证券交易所上市。2016年10月,Appen收购了一家位于英国的转录服务公司Mendip Media Group。 

在2017年11月,Appen以8000万美元的价格收购了美国Leapforce,后者主营业务也是为大公司提供众包来的数据集。收购之后,Appen增加了与搜索相关的额外功能。 

据2018年财报,Appen公司2018年营收同比增长118.7%,至3.6亿美元,净利润增长192.2%,至4100万美元。Appen公司表示,整个2018年实施了详细的计划来整合Leapforce的团队和资产,现在Leapforce已经成为Appen Connect平台的核心部分。 

目前,Appen的数据包括来自130个国家超过180种语言的语音、自然语言数据,图像和视频数据,拥有513名全职员工和超过100万名分布在全球的兼职众包人员。

Appen的客户包括世界领先的技术公司、汽车制造商和政府,Appen首席执行官Mark Brayan称,全球十大科技公司中有九家正在使用其公司的服务。 

而Appen此次收购的Figure Eight公司创建了一套数据注释工具,它可以将非结构化文本、图像、音频或视频数据自动转换为数据。Brayan称,若Appen来开发这套工具软件,将会耗费五年的时间,但是现在可以将它直接拿过来用。这套工具软件在标注视频数据时是人类效率的50倍,这符合Appen今后逐渐加码自动驾驶汽车的战略。 

Figure Eight成立于2007年,有包括Twitter、谷歌、微软、LinkedIn和美国运通在内的200多客户。2018年,该公司收入为4200万美元。

在2018年报中,Appen董事长Christopher Vonwiller表示,公司已经开始在中国招聘以建立团队。 

国外数据标注行业的巨头终于看到了诱人的中国市场。

百亿数据标注市场去向何方? 

2017年7月,国务院印发《新一代人工智能发展规划》,其中包含三步走战略,第一步是到2020年人工智能核心产业规模超过1500亿元,带动相关产业规模超过1万亿元。第二步到2025年人工智能核心产业规模超过4000亿元,带动相关产业规模超过5万亿元。第三步到2030年人工智能理论、技术与应用总体达到世界领先水平。 

此外,据iiMedia Research(艾媒咨询)发布的《2018中国人工智能产业研究报告——商业应用篇》,2018年中国人工智能领域共融资1311亿元,增长率超过100%。 

业内人士称,AI公司投入10%—15%的经费用于数据采标。也有观点认为,这一比例应为20%-30%。以此测算,目前中国数据采标市场规模达到130亿-近400亿元人民币。其中,有三分之一是AI公司内部的标注部门消化,有一些会被商务流程外包公司瓜分,剩下的25%-33%流向专门做数据采标的第三方公司。 

目前,越来越多的头部公司开始组建自己的数据标注部门,京东(京东众智)、百度(百度众测)、腾讯、阿里(阿里数据标注)都已经拥有自己的标注平台和工具。 

头部公司之外,国内近年兴起众多数据标注公司,如龙猫数据、Testin云测、倍赛 BasicFinder、数据堂等,这些公司仅次于头部公司,都具有相当的规模。 

据IT桔子数据,2017至2018年获得千万融资的国内数据标注公司有:2017年7月,BasicFinder完成1000万人民币Pre-A轮融资;2017年11月,龙猫数据获得A轮3370万人民币融资;2018年1月,星尘数据获得1000万人民币Pre-A轮融资;2018年3月,爱数智慧获得A轮融资;2018年5月,周同科技完成2000万人民币A轮融资。 

这些公司的业务方向有一定细分区别,有的以处理图像见长,有的数据标注公司更擅长做一些视频标注。这些公司的服务企业包括百度、小米、京东、今日头条这样的互联网公司,也有出门问问、云从科技、深鉴科技等AI公司。 

数据标注——一个本来不存在的行业,在人工智能的助推下蓬勃发展、熙熙攘攘,然而,随着人工智能越来越“智能”,人工是否还会被需要? 数据标注会成为一个昙花一现的行业吗?

格隆汇声明:文中观点均来自原作者,不代表格隆汇观点及立场。特别提醒,投资决策需建立在独立思考之上,本文内容仅供参考,不作为实际操作建议,交易风险自担。

相关阅读

评论