人工智能系列一：AI发展渐入高潮，未来有望引爆新一轮技术革命-格隆汇

人工智能嵌入多个生活场景，被寄望为下一轮技术革命。微观层面，机器翻译、资讯分发和辅助驾驶等AI应用已让人类生活更美好。

作者：恒大研究院沈明辉刘宸

来源：泽平宏观

摘要

人工智能（Artificial Intelligence，简称AI）嵌入多个生活场景，被寄望为下一轮技术革命。微观层面，机器翻译、资讯分发和辅助驾驶等AI应用已让人类生活更美好。宏观层面，AI能替代繁琐、重复人类工作，提升资源配置效率并减少生产损耗，其被寄望为经济增长新引擎。

人工智能前景判断：1）技术层面：短期或不及预期，长期仍有望引爆新一轮技术革命。2）产业层面：短期看商业模式，中期看公司技术研发，长期看基础研究突破。

人工智能是模拟人类思维和行为的系统，当前处于弱AI时代。人工智能旨在模拟人类思考方式、行为规划和学习能力，最终像人类一样感知周边环境并且做出反应。当前人工智能处于仅能解决特定问题且往往扮演辅助角色的弱AI时代。

人工智能螺旋式发展，经历三个时期：1）起步时期：1956年达特茅斯会议提出人工智能概念，计算机性能和数据量制约AI发展。2）专家系统时期：“知识库+推理机”实现AI商用化，台式机性能提升终结专家系统。3）深度学习时期：2006年Hinton论文开启当前深度学习时代。

人工智能已是新风口，技术是核心驱动力。2017年全球AI融资超150亿美元，谷歌、亚马逊、苹果以及百度、腾讯等中美科技巨头纷纷布局。算法、算力和数据是AI发展的核心驱动力：深度学习算法使AI迈入数据驱动时代，互联网孕育海量的多维度数据，GPU并行计算能力为“大数据+神经网络”提供算力。

人工智能产业链分为基础层、技术层和应用层，中国产业布局偏好技术成熟、应用性强的领域，对需要长周期、基础研究的芯片的关注度小。

1）基础层提供算力和“操作系统”。芯片赛道，GPU仍是人工智能首选，产业格局呈三足鼎立，AI专用芯片中国企业存弯道超车机会。开发框架赛道，“开源+巨头支持”是主流模式，TensorFlow、Torch等各有所长。

2）技术层解决具体类别问题。语音识别负责语音转文本，技术和行业格局趋于成熟，但智能音箱等消费级产品或已侵蚀Nuance等头部企业先发优势。自然语言处理实现机器“听得懂”，技术成熟度较低，市场分散且未形成头部企业，新入局者仍有机会。计算机视觉实现机器“看得懂”，静态物体识别趋于成熟，安防厂商、互联网巨头和创业公司是主要玩家。

3）应用层解决实践问题。目前AI产品普遍是人类辅助者，自动驾驶或是下一个重量级市场。语音场景，智能音箱流量入口属性使科技巨头群雄逐鹿，生态整合决定发展前景。安防场景，视频结构化、人脸比对助力警务管理，误报率、动态人脸监控仍是短板。金融场景，应用于身份认证、征信风控和投顾理财。医疗场景，应用于医学影像、辅助诊疗和语音电子病例，腾讯觅影已筛查400多例早期食道癌病例。自动驾驶场景，主流系统处于辅助驾驶级别，谷歌、特斯拉和百度领跑中美自动驾驶赛道。

1 人工智能：已融入多个生活场景，未来有望引爆新一轮技术革命

1.1 人工智能已嵌入多个生活场景，被寄望为下一轮技术革命

1.2 前景判断：短期或不及预期，长期仍充满希望

2 概念、标准与分类：人类思维和行为的模拟，目前仍处于弱人工智能时代

2.1 概念：人类思维和行为的模拟

2.2 标准：图灵测试

2.3 分类：弱AI、强AI和超强AI

3 人工智能的“前身今世”：螺旋式发展，深度学习开启新浪潮

3.1 起步时期：达特茅斯会议提出人工智能概念，人机对话小程序ELIZAL令人惊艳

3.2 专家系统时期：“知识库+推理机”组合实现人工智能商用化

3.3 深度学习时期：Hinton论文开启人工智能新浪潮，Alphago战胜人类世界冠军

4 技术+政策+资本助力行业发展，Alphago引爆行业风口

4.1 新风口：未来十年人工智能或使全球GDP增长12%

4.2 算法+算力+数据：行业发展的核心驱动力

4.3 政策+资本：行业发展的沃土

4.4 Alphago：引爆风口的催化剂

5 人工智能产业链：基础层+技术层+应用层，中国基础层存不足

5.1 产业链初探：基础层+技术层+应用层

5.2 产业链布局：中国偏好技术成熟、可应用性强的领域

6 基础层：芯片+开发框架

6.1 芯片：GPU带来算力革命性突破，未来发展瞄准AI专用芯片

6.2 开发框架：“开源+巨头支持”模式，百度推出Paddle-Paddle

7 技术层：语音识别+自然语言交互+计算机视觉

7.1 语音识别：正确率提升推动商业化，消费级产品或打破市场格局

7.2 自然语言处理：实现机器“听得懂”，技术成熟度仍较低

7.3 计算机视觉：实现机器“看得懂”，安防厂商、科技巨头和创业公司机会并存

8 应用层：智能语音+安防+金融+医疗+自动驾驶

8.1 智能语音：人工智能时代的流量入口，科技巨头群雄逐鹿

8.2 AI+安防：智慧安防助力警务管理，动态人脸识别仍存不足

8.3 AI+金融：人工智能助力金融服务效率，身份认证、风控和投顾是三大应用场景

8.4 AI+医疗：医学影像、辅助诊疗和语音电子病例是主要应用场景，腾讯觅影已筛查400多例早期食道癌病例

8.5 自动驾驶：未来或颠覆全球汽车产业链，谷歌、特斯拉和百度领跑自动驾驶赛道

正文

1 人工智能：已融入多个生活场景，未来有望引爆新一轮技术革命

1.1 人工智能已嵌入多个生活场景，被寄望为下一轮技术革命

人工智能落地于多个场景，让人类生活变得更加美好。目前不少智能手机应用已经嵌入人工智能技术，如机器翻译、智能分发、图片美化、智能语音等，汽车也装载了辅助驾驶系统。机器翻译降低了不同文化间交流的门槛，智能分发实现了“千人千面”的资讯分发，智能语音让人机互动方式从键盘转变为语音，辅助驾驶让人类驾驶汽车变得更加轻松、容易。

人工智能有望成为全球经济增长的新引擎，因此被视作是互联网之后的新一轮技术革命。人工智能促进经济增长的影响机制存在于以下方面：

替代固定、繁琐和标准化工作，释放劳动力，既缓解人口老龄化时代劳动力短缺，也提升劳动生产率，如机器翻译替代部分翻译的工作，智能分发替代部分编辑的工作，智能语音替代部分客服助手工作，未来的自动驾驶将替代驾驶员工作。
提升资源配置效率，如智能分发将资讯、广告等信息资源精准投放给需求用户。
减少社会生产中的损耗，如自动驾驶避免了疲劳驾驶、违反交通规则等所产生的交通事故。

基于上述三大机制，人工智能将使基于场景的微观领域创新传导至宏观经济领域，技术进步提升社会生产率，打开新的增量空间，人工智能因此被寄望为新一轮技术革命。

1.2 前景判断：短期或不及预期，长期仍充满希望

新技术革命依赖人工智能技术水平提升，奇点是业界和学界讨论焦点。以新技术革命来定位人工智能意味着其不仅需要覆盖更多的应用场景，而且需要更高的智能程度。因此人工智能有了“奇点”概念：奇点是一个时刻，过了该时刻，人工智能的智能化程度将指数式上升，且拥有自我完善能力，超越人类智慧，预测技术发展奇点是人工智能领域关注焦点。

对技术发展来说，短期将不及预期，长期仍有望引爆新一轮技术革命，当前技术发展水平看自动驾驶。此轮以数据驱动的人工智能发展浪潮（详见第4部分）存在部分硬伤：1）数据驱动意味着计算机无法理解规则关联的内在机理，因此缺乏人类的推理能力和常识认知能力。2）深度学习必须以海量数据作为训练集，缺乏人类快速提取特征能力（如看iphone一眼后就可以认出它），因此训练速度受到制约。此外，摩尔定律逐渐失效让计算机数据采集、处理和存储能力短期内赶超人脑存疑，且生命科学对人脑运作机理的探索速度比计算机科学发展要慢得多，数据驱动的人工智能发展路径短期内难以被替代。因此人工智能短期内很难大规模替代人类工作，短期技术发展程度和速度或不及预期，但是长期来看人工智能始终处于螺旋上升通道中，未来仍然有望引爆新一轮技术革命。面向特定领域的弱AI仍是当前技术发展重点，自动驾驶市场规模大且汇聚技术、人才和资本，自动驾驶的技术能力和商业化程度是当前观察人工智能技术发展水平的重要指标。

对产业发展来说，短期看商业模式，中期看公司技术研发，长期看基础研究突破。短期来说，产业爆发需要将现有的技术条件更好地与应用场景结合，创新服务模式来满足原有产品所难以满足的需求，例如今日头条的“千人千面”精准分发和智能音箱的人机语音互动。中期来说，企业层面的研发能力是关键，技术研发将提升和优化技术水平，解决产品中的技术痛点，如计算机视觉企业能否提升复杂环境下动态人脸识别准确度将直接决定智能安防的应用程度。长期来说，产业发展依赖算法、芯片等领域基础研究突破，此轮人工智能浪潮正是源于深度学习理论的突破（详见第3部分）。

2 概念、标准与分类：人类思维和行为的模拟，目前仍处于弱人工智能时代

2.1 概念：人类思维和行为的模拟

人工智能（Artificial Intelligence，简称AI）是“模拟”人类思维和行为的系统。人工智能对人类的“模拟”包括思考方式、行为规划和学习能力等范围，最终目的是像人类一样感知周边环境并且做出反应。

2.2 标准：图灵测试

图灵测试是判定机器智能与否最悠久、最经典的方法。人工智能是“模拟”人类思维和行为的系统，但是模拟能力本身就是一个连续的光谱，模拟能力只有超过某个标准，系统才会被认为是智能的。1952年，图灵在《计算机械与智能》（Computing Machinery and Intelligence）一文中提出了“图灵测试”来验证机器有无智能：如果一台机器能够与人类展开交流，且有超过30%的人无法在规定时间内识别出与自己交谈的是人还是机器，那么这台机器就具有智能。图灵测试提出至今已超过60年，不过目前机器仅在短时长和细分领域的测试中通过了图灵测试。后来的计算机科学家也提出了其他界定人工智能的标准，包括能否实现语音识别、机器翻译、文本的自动摘要或者写作、战胜人类的国际象棋冠军、自动回答问题。

2.3 分类：弱AI、强AI和超强AI

当前人工智能世界处于弱人工智能时代，人工智能还无法拥有人类的推理、规划和学习等能力，超强人工智能仅存于哲学层面。为区分人工智能的智能程度，人们提出了弱人工智能（Artificial Narrow Intelligence，简称ANI）、强人工智能（Artificial General Intelligence，简称AGI）和超强人工智能（Artificial Superintelligence，简称ASI）三个分类。当前人工智能处于弱人工智能的发展阶段，系统仅能解决某个特定问题，且往往扮演辅助工具的角色。例如，AlphaGO仅限于利用“大数据+深度学习”来推算围棋每一步获胜的概率，但是并不了解每一步背后的原理。强人工智能仍然无法实现，人工智能尚无法拥有人类推理、规划和学习能力，超强人工智能甚至只能从哲学和科幻角度进行探讨。

3 人工智能的“前身今世”：螺旋式发展，深度学习开启新浪潮

3.1 起步时期：达特茅斯会议提出人工智能概念，人机对话小程序ELIZAL令人惊艳

兴起：达特茅斯会议提出人工智能概念，人工智能迎来第一轮繁荣期。1956年达特茅斯会议，麦卡锡（John McCarthy）、明斯基（Marvin Minsky）、罗切斯特（Nathaniel Rochester）和香农（Claude Shannon）等首次提出“人工智能”术语。此后，麻省理工大学、卡内基梅隆大学等学府均建立人工智能实验室，美国国防高级研究计划署投入了大笔研究资金，研究者也乐观认为“二十年内机器将能完成人能做到的一切”。
标志事件：人机对话小程序ELIZA面世，智能交互能力令人惊艳。资金投入和人才涌入产生了一批显著成果，其中人机对话小程序ELIZA是第一款人机对话程序。Eliza被设计成一个可以通过交谈帮助病人完成心理恢复的精神治疗医师，程序模拟人的反应来回答用户问题。
衰落：计算机技术制约早期人工智能发展，明斯基的《语义信息处理》催生行业拐点。乐观情绪伴随着早期人工智能，但研究始终受制于当时技术瓶颈：计算机性能制约了早期程序的应用、程序处理的对象少且复杂性低、机器无法读取足够数据来实现智能化。1968年，明斯基在《语义信息处理》（Semantic Information）一文中指出了人工智能的局限性：人们对语言的理解不是来源于语法和语义，而是来自常识，人工智能无法拥有该能力，也就不可能实现人的智能。明斯基的论文直接导致美国政府大规模削减人工智能研究经费。

3.2 专家系统时期：“知识库+推理机”组合实现人工智能商用化

兴起：专家系统XCON为DEC公司每年节省数千万美元，人工智能迎来新一轮繁荣。专家系统是基于知识的智能计算机程序系统，其内部根据该领域大量的专家知识与经验进行推理和判断，即利用“知识库+推理机”来模拟专家决策。1968年第一台专家系统DENDRAL面世，其可用于推断化合物的可能分子结构。1980年卡内基梅隆大学为DEC公司设计了专家系统XCON，每年可为DEC省下超过4000万元经费，人工智能商业化带动了新一轮产业热潮。
标志事件：日本斥资8.5亿美元研发第五代计算机。专家系统使人工智能商业化落地，并且诞生了Symbolics、Lisp Machines、IntelliCorp和Aion等软硬件公司，日本甚至斥资8.5亿美元用以研发第五代能够像人一样推理的计算机。
衰落：苹果和IBM台式机性能超过Symbolics等厂商生产的通用计算机，专家系统逐渐淘汰。专家系统复杂而精密，使其造价和维护费用居高不下，然而功能却仅限于极其狭小的领域，1987年苹果和IBM公司生产的台式机性能都超过了Symbolics等厂商生产的通用计算机，彻底终结了此轮以专家系统主导的人工智能浪潮。

3.3 深度学习时期：Hinton论文开启人工智能新浪潮，Alphago战胜人类世界冠军

兴起：2006年Hinton提出了神经网络Deep Learning算法，开启了深度学习在学术界和工业界的浪潮。Hinton的深度学习打破了传统BP神经网络的短板：1）多隐层的人工神经网络具有优异的特征学习能力，从而有利于可视化或分类。2）人工神经网络的训练难度可通过“逐层初始化”来克服。
标志事件：Alphago战胜人类世界冠军，微软语音识别错误率降至5.5%。深度学习算法使人工智能获得突破性进展：在围棋领域，2016年3月基于深度学习算法的AlphaGo成为了第一个击败人类围棋世界冠军的人工智能程序，2016年末2017年初该程序以Master为账号与中日韩数十位职业围棋高手对弈，连续60局无一败绩。在语音识别领域，深度学习突破了技术瓶颈，大幅降低语音识别的错误率，2017年微软转录Switchboard语料库录音的错误率已降至5.5%。

4 技术+政策+资本助力行业发展，Alphago引爆行业风口

4.1 新风口：未来十年人工智能或使全球GDP增长12%

人工智能已成新风口，未来十年或使全球GDP增长12%，以FAAG和BAT为首的科技巨头均涉猎人工智能，其中不少企业布局了全产业链。

市场规模：从全球来看，根据赛迪研究院估算，2018年AI市场规模预计达2697.3亿元，且呈加速增长态势。《经济参考报》统计国内外20家权威机构预测数据，未来十年AI将使全球GDP增长12%，近10万亿美元。从中国来看，根据国务院发展规划，2020年、2025年和2030年中国AI核心产业规模将分别超1500亿元、4000亿元和10000亿元，并且带动数万亿规模的相关产业。
巨头布局：中美科技巨头均涉足人工智能产业，Facebook、Amazon、Google、Mircrosoft和百度甚至布局了芯片、技术平台/框架、消费级产品和行业解决方案的人工智能全产业链。其中，智能音箱Echo、智能超市Amazon go、TensorFlow系统、小冰聊天机器人、Watson、Apollo、DuerOS均已成为行业内的现象级产品。

4.2 算法+算力+数据：行业发展的核心驱动力

4.2.1 算法：从传统机器学习到人工神经网络，深度学习大幅提升机器学习能力

人工智能算法经历了基于既定规则系统、传统机器学习和深度学习三个时代：

基于既定规则系统：人类搭建智能背后的逻辑关联，即人工提取特征，并且构建特征之间的“IF…THEN…”关联规则。
传统机器学习算法：由机器构建逻辑关联，即人工提取特征后，由机器根据输入的特征和分类构建“IF…THEN…”关联规则，其本质是实现特征学习器功能。传统机器学习算法（如支持向量机和决策树）的扩展性较差，适合小数据集，其始终难以模拟现实世界的特征规律。
深度学习算法：特征提取和规则构建均由机器完成。深度学习是一个复杂的、包含多个层级的数据处理网络，根据输入的数据和分类结果不断调整网络的参数设置，直到满足要求位置，形成特征和分类之间的关联规则。因此，深度学习由海量数据驱动，如支撑图像识别的数据库ImageNet是一个百万量级图片数据集。人工神经网络是最典型的深度学习算法，深度学习的隐含层数量将决定网络的拟合能力。

4.2.2 数据：互联网孕育大数据时代，为深度学习提供外部支撑

互联网造就了大数据时代，海量、多维度数据为机器学习提供了养料。数据驱动是深度学习算法区别于传统机器学习的关键点，因此深度学习算法需要以海量大数据作为支撑。人工神经网络算法起源于20世纪40年代，此轮兴起一定程度上源于互联网带动数据量爆发。互联网生产并存储大量图片、语音、视频以及网页浏览数据，移动互联网更是将数据拓展到线下场景，线下零售消费、滴滴打车等数据丰富了大数据维度。灼识咨询数据显示，全球结构化数据从2013年的0.8ZB增长至2017年的2.3ZB，非结构化数据从2013年的3.6ZB增至2017年11.3ZB，两者复合增长率分别为30.2%和33.1%，预计2022年将达到18.9ZB和55.7ZB。

4.2.3 算力：GPU芯片提供高效计算能力，加速深度学习训练

“大数据+多层神经网络”需要高速和大规模算力作为支撑，GPU芯片弥补了CPU在并行计算上的短板，大规模、高速率的算力加速了深度学习训练。“大数据+多层神经网络”意味着深度学习需要利用数据进行拟合，即不断地迭代、试错以挖掘最优的关联规则，因此深度学习需要以算力作为支撑。

CPU芯片：擅长逻辑控制和串行计算，大规模和高速率计算能力不足。从CPU芯片架构来看，负责存储的Cache、DRAM模块和负责控制的Control模块占据CPU的大部分，而负责处理计算的ALU仅占据了很小一部分，因此CPU难以满足大规模和高速率的计算需求。
GPU芯片：擅长并行计算，加速深度学习训练。GPU芯片最初用于电脑和工作站的绘图运算处理，对图片每个像素的处理是类型统一但数量众多的工作，负责计算的ALU单元占据了GPU架构大部分，GPU可一次执行多个指令算法。以英伟达的GPU芯片为例，Tesla P100和Tesla V100的推理学习能力分别是传统CPU的15倍和47倍。2011年GPU被引入人工智能，并行计算加速了多层人工神经网络训练。

4.3 政策+资本：行业发展的沃土

政策的密集出台和资本的频频介入为人工智能行业发展提供了沃土，使技术逐渐转化为商业实践。

政策支持：中国、美国和欧洲均出台了产业发展规划，中国对人工智能产业的政策支持力度不断加大。中国对于人工智能产业的政策支持力度不断加大，2015年人工智能仅是中国制造2050和互联网+战略的子集，而2017年人工智能形成了独立战略规划和实施细则，且进入政府工作报告和十九大报告。2016年，美国白宫陆续发布了《为了人工智能的未来做好准备》、《美国国家人工智能研究与发展战略规划》和《人工智能、自动化和经济》等报告，为美国人工智能产业发展制定宏伟蓝图。此外，法国、欧盟和日本也均推出了人工智能战略。

资本介入：2017年全球人工智能融资规模达152.42亿美元，中国人工智能融资规模已超美国。全球人工智能融资规模从2013年的17.4亿美元增至2017年的152.4亿美元（约合1054.0亿人民币），年复合增长率72.0%。2017年中国人工智能融资额825.0亿人民币，融资事件数441起。根据CB Insight数据，2017年中国人工智能融资规模占全球的49%，而美国仅为38%。

4.4 Alphago：引爆风口的催化剂

AlphaGO战胜李世石九段标志人类最后棋类智力堡垒的失守，人工智能行业热度被彻底引爆。早在1997年,IBM“深蓝”就战胜了世界冠军卡斯帕罗夫，但是围棋比国际象棋难了6-9个数量级，围棋也因此被视作是人类棋类智力的最后堡垒。2016年3月AlphaGO战胜李世石九段点燃了人工智能的热度，AlphaGO使人们意识到人工智能技术的发展水平远甚于人类预期，人力资本和资金开始大规模涌入。2017年10月，DeepMind推出AlphaGO Zero，AlphaGO Zero在没有人类经验情况下通过自我对弈实现自我学习，这意味着部分领域的人工智能不需要人类经验就能实现智能化。

5 人工智能产业链：基础层+技术层+应用层，中国基础层存不足

5.1 产业链初探：基础层+技术层+应用层

人工智能产业链分为基础层、技术层和应用层。基础层提供算力和算法，技术层致力于解决不同类别问题，应用层将技术应用于商业场景。

基础层：包含硬件和软件，分别提供算力和算法框架。人工智能技术层由芯片和算法框架组成，芯片主要为深度学习的训练和推理提供运算能力，算法框架是人工智能开发的“操作系统”，为开发者提供编程环境和算法模块。目前中国企业尚未深度涉足基础层，芯片研制和生产以及算法框架设计基本由国外巨头垄断。
技术层：致力于解决具体类别问题，语音识别、自然语言处理和计算机视觉是主要方向。技术层开始使用机器学习和深度学习算法来解决具体的语音或图像问题，并且根据问题导向划分为语音识别、自然语言处理和计算机视觉三大技术方向，识别准确率等技术能力指标是技术层关注焦点。
应用层：将技术运用于商业场景，模拟人类以解决实践问题。应用层将语音识别、自然语言处理和计算机视觉直接应用于实践产品，如金融、医疗、安防等领域。应用层由“技术水平+用户体验”双轮驱动，且用户体验更为关键，产品能否洞察人性、迎合用户需要将决定产品成败。目前人脸识别认证、安防视频搜索和智能音箱已迈向成熟，而自动驾驶、医疗影像诊断等产品处于探索期。

5.2 产业链布局：中国偏好技术成熟、可应用性强的领域

5.2.1 中美对比：中国侧重技术层和应用层，美国侧重基础层

对比中美AI产业链布局（2017年7月前），中国偏好技术相对成熟的应用层和技术层（如语音识别和计算机视觉），而美国对需要长周期、基础研究的芯片和技术平台的关注度明显超过中国。

企业分布（2017年7月）：中国技术层和应用层AI企业数与美国差距较小，而基础层差距尤为明显。中国芯片、技术平台企业数仅为美国42.4%和24.3%，而技术层和应用层差距较小，技术相对成熟的语音识别和计算机视觉的企业数为美国的150%和76.8%，仍处于探索期的自然语言处理仅为美国的36.5%。
累计融资规模（截止2017年7月）：中国在语音识别、计算机视觉和智能无人机领域的累计融资规模超过美国，芯片融资规模差距明显。中国人工智能融资同样投向了技术相对成熟、可应用性强的领域，如语音识别、计算机视觉、智能机器人、自动驾驶的融资规模超过了美国，而芯片企业融资仅为美国的4.3%。
累计融资事件数（截止2017年7月）：中美应用层融资事件均超基础层和技术层，美国芯片领域融资事件数已比肩应用层。中美在无人机、智能机器人和自动驾驶领域融资事件数明显超基础层和应用层，表明技术层的通用技术需要根据细分应用场景进行再开发，使产品有效结合技术和用户体验，这为小型企业切入人工智能提供机会。

5.2.2 中国融资事件分析：大市场且技术成熟领域受资本追捧

市场规模和技术成熟度是中国AI投资关注焦点。为了解近2年AI领域投融资状况，我们分析IT桔子AI融资数据库中2017年至今且金额过亿的融资事件（共92笔），发现中国AI投资偏好未发生改变，即应用层和相对成熟的技术层的融资事件数依旧超过基础层。此外，市场规模和技术成熟度是决定融资能力的核心因素：

大市场的细分领域被资本追逐。自动驾驶、AI+医疗和计算机视觉融资数明显超过其他领域，其中自动驾驶和AI+医疗市场规模大，计算机视觉通用性强，应用场景覆盖新零售、安防等多个领域。
技术趋于成熟且已有产品落地的领域是投资热点。在金额超过5亿人民币的中国企业融资事件中，计算机视觉占据9笔，且合计金额超200亿元，语音识别占据3笔。自动驾驶和AI芯片处于研发初期，因此芯片领域仅寒武纪获得过亿美元融资，自动驾驶领域则有多笔资金投向了海外企业。

6 基础层：芯片+开发框架

6.1 芯片：GPU带来算力革命性突破，未来发展瞄准AI专用芯片

人工智能引入GPU突破CPU并行计算短板，GPU、FPGA和ASIC各有优劣。“大数据+人工神经网络”的人工智能模式将海量数据切割进行并行计算，这需要芯片作为硬件支撑。目前市场上的人工智能芯片主要有GPU、FPGA和ASCI三类。

GPU：通用性强，但功耗高，目前仍是人工智能芯片首选。GPU全称图形处理器（Graphics Processing Unit），起初是专用于图像运算的微处理器。人工智能训练有大量浮点计算和矩阵计算，GPU计算的内部并行度高，GPU恰好突破了CPU在并行计算上的短板，为深度学习带来革命性变化。GPU通用性强，不过功耗相对较高。
ASIC：人工智能专用芯片，功耗低，但研发门槛高。ASIC全称专用集成电路（Application-Specific Integrated Circuit）。与GPU的通用性截然相反，ASIC特点是专用性，ASIC根据任务和算法量身定制芯片，结构上节省大量没有使用的逻辑实现，同等工艺下执行速度超过其他类型芯片，且能耗更低。不过，ASIC芯片无法更改任务目标，适用的算法相对有限，研发周期明显长于其他类型芯片。Google的TPU与寒武纪的NPU是ASIC的典型代表。
FPGA：介于GPU和ASIC之间，提供逻辑可设计的电路平台。FPGA全称现场可编程门阵列（Field Programmable Gate Array），其折中于通用型芯片GPU和专用型芯片ASIC之间，用户可根据需要设计逻辑，支持重复编程。FPGA使用灵活，用户可随意组合逻辑功能，且无需介入芯片布线和工艺，效率略高于GPU（GPU乘法器和加法器数量固定，应用环节可能造成功能浪费）。FPGA功耗小于CPU，但是大规模开发难度大，总体性价比不占优。

6.1.1 GPU市场格局：Intel、AMD和NVIDIA三足鼎立，NVIDIA领跑AI赛道

GPU芯片技术发展历史悠久，行业巨头技术先发优势明显。GPU市场呈现Intel、AMD和NVIDIA三足鼎立格局,尚无中国厂商有能力参与市场竞争。从JPR提供的2017Q4数据来看，在PC GPU市场，Intel市占率达到67.4%，AMD和NVIDIA则瓜分了剩余的市场份额，市占率分别达到18.4%和14.2%；在独立GPU市场，NVIDIA以66.3%市占率占据第一大市场份额。

NVIDIA推出多款面向人工智能的GPU芯片，领跑AI赛道。2016年4月NVIDIA推出了面向人工智能设计的GPU——Tesla P100，2017年5月推出了升级版——Tesla V100，将深度学习训练速度提升了约2.4倍。

6.1.2 FPGA市场格局：Xilinx、Altera占据主要市场份额，Intel并购布局

FPGA核心玩家是Altera、Xilinx，其中Altera被Intel天价收购。与GPU相似，FPGA市场同样出现寡头垄断趋势，市场份额由Altera、Xilinx瓜分。2016年Xilinx、Altera的FPGA市占率分别达到54%和36%，剩余10%市场份额由Microsemi和Lattice等厂商占据。2015年6月，Intel宣布以167亿美元价格收购第二大FPGA厂商Altera，丰富AI芯片产品线。

6.1.3 谷歌TPU领跑ASIC，寒武纪NPU是新生力量

ASIC行业格局未定，谷歌TPU引爆人工智能专用芯片热潮，寒武纪NPU尝试弯道超车。

谷歌TPU：内在需求驱动谷歌研发TPU。2011年谷歌测算发现，如果用户每天使用3分钟谷歌提供的语音搜索服务，谷歌的数据中心就必须扩大两倍，深度学习的海量数据处理需求驱动谷歌研发更高效的芯片。大约在2015年，谷歌在内部数据中心上线了TPU芯片（Tensor Processing Unit）。TPU为机器学习量身定制，每个操作执行所需晶体管数量更少，因此提升了深度学习效率。根据谷歌发表的论文，TPU平均比当前GPU或CPU快15-30倍，性能功耗比高出约30-80倍。
寒武纪NPU：避开传统芯片红海市场，发力智能芯片旨在弯道超车。寒武纪脱胎于中科院学术团队，主要面向人工智能专用芯片，目前已是中国芯片领域的独角兽企业。寒武纪瞄准了智能芯片，避开Intel、AMD等巨头垄断的传统芯片市场，尝试利用技术迭代来实现弯道超车。寒武纪有智能处理器IP、MLU智能芯片和软件开发环境三条产品线，分别面向终端、云端和开发者。NPU芯片是寒武纪核心产品，目前已推出了1A、1H8和1H6三款产品，其中华为首款AI手机芯片麒麟970已集成寒武纪1A，并在华为Mate 10中实现大规模商用。

6.2 开发框架：“开源+巨头支持”模式，百度推出Paddle-Paddle

6.2.1 开发框架链接软硬件，降低AI使用门槛

人工智能开发框架为AI开发、深度学习提供了软件环境，降低AI应用门槛帮助开发者进行高效训练和推断。芯片提升了底层硬件支持，不过硬件和软件之间需要链接纽带，人工智能开发框架即是人工智能开发和应用的“操作系统”。人工智能开发框架主要功能包括为开发者提供编程环境和硬件工具库、根据开发需要分配GPU等硬件资源，其最终目的是为开发者提供模块化、通用、灵活的软件环境，使开发者只需要关注高层结构，无需注意底层琐碎问题，降低人工智能开发和使用门槛。

6.2.2 市场格局：开源平台普遍背靠互联网巨头，百度推出PaddlePaddle

TensorFlow、Torch、Caffee、CNTK等主流框架各有所长，百度推出国内首个开源框架PaddlePaddle。目前最主流的人工智能开发框架有TensorFlow、Torch、Caffee、CNTK等，主要面向深度学习开发，各平台在稳定性、调试难度、执行速度、内存占用等方面各有所长。2013年百度宣布其深度学习开源平台PaddlePaddle在开源社区Github及百度大脑平台开放，PaddlePaddle是首个国内企业推出的开源框架。

“开源+巨头支持”是人工智能框架的主流模式，巨头介入或为内部应用和搭建“框架-硬件”产业链条的双重需求。主流人工智能框架均采用开源模式，但是普遍由科技巨头支持，TensorFlow和CNTK由谷歌和微软研发推出，Torch和MXNet分别被Facebook和亚马逊推荐（作为公司的主要深度学习框架，且为生态系统开发提供软件代码、文档和投资）。我们认为“开源+巨头支持”模式或源于以下原因：1）人工智能仍处于发展初期，开源框架有助于推广，且有利于知识溢出和行业发展。2）开源框架仍然需要不断进行技术迭代和开发体验优化（如由李沐及社区贡献者开发的MXNet框架就因为API文档和自定义教程过于简单而难以满足开发者需要），这些均需要雄厚资金的支持。3）谷歌、亚马逊、百度等科技巨头布局开源平台一方面源于企业内部深度学习应用需要，拥有开发框架知识产权可以避免后续发展受制于人，另一方面则可建立“框架-硬件”产业链条，借力开源框架推广自身的人工智能业务，进而带动后续的AI芯片和AI云服务业务（自己研发平台对自己产业链上下游产品支持度更好）。

7 技术层：语音识别+自然语言交互+计算机视觉

7.1 语音识别：正确率提升推动商业化，消费级产品或打破市场格局

7.1.1 语音识别正确率已提升至95%，颠覆人机交互模式仍需技术进一步提升

深度学习将语音识别正确率提升至95%，不过颠覆人机交互模式仍有待于语音识别正确率提升。语音识别（Auto Speech Recognize，简称AS）是机器将语音转化为相应文本或命令的技术。从发展历史来看，语音识别经历了2个技术阶段：1）GMM计算概率分布-HMM决策判断：GMM是高斯混合模型，HMM是隐马尔可夫模型，两者结合将语音识别正确率提升至约80%，不过该正确率仍然难以满足商业化需要。2）深度学习：2011年深度学习技术被引入语音识别，语音识别正确率突破了技术瓶颈（2017年识别正确率已达95%），Siri、Google Assistant、Echo等一系列商业化产品随之涌现。不过，95%的正确率仅能满足偶尔使用需求，语音彻底取代键盘成为最常用人机交互模式仍有待于正确率的进一步提升。

语音识别可分为“降噪-特征提取-解码”三个环节，深度学习提升“特征-单词”映射正确率。语音识别首先对输入的语音信号进行清洗，然后将信号切割成若干片段并抽取辨别单词的语音特征，最后根据深度学习生成的语音模型将提取特征映射到单词。

7.1.2 市场格局：行业格局已初步形成，消费级产品助力科技巨头后发制人

作为人工智能领域相对成熟的技术，语音识别市场格局已初步形成。根据中国语音产业联盟数据，2015年Nuance和科大讯飞分别占据全球和中国语音市场的头把交椅。

Nuance是全球最大的语音识别厂商，2015年全球市场份额达31.6%。Nuance语音识别技术被用于苹果Siri，旗下产品Dragon Drive（车载语音识别）用于奔驰、雷克萨斯、丰田、荣威等众多汽车品牌。
科大讯飞是中国智能语音产业的领导者，2015年中国市场份额达 44.2%。科大讯以讯飞超脑、AIUI为内核打造了AI开放平台，面向教育、城市、汽车、医疗和家居等多个场景，其在电信、金融、能源、交通、政府等主流行业的市场份额达到80%以上。

技术趋于成熟且消费级产品出现为行业格局带来变数，谷歌、苹果、亚马逊以及百度、阿里等中美科技巨头目前在语音识别赛道增长迅猛。Nuance和科大讯飞在技术上的先发优势使其占据了大量市场份额，不过随着语音识别技术趋于成熟，行业发展重心从基础技术研发转向产品应用，谷歌、亚马逊和苹果等互联网巨头的消费级产品或将颠覆现有的市场格局，Echo、Google Assistant等消费级产品的诞生驱动科技巨头涌入语音市场，科技巨头的人才和资本优势以及消费级产品积累的数据将侵蚀Nuance和科大讯飞的基础技术优势，传统头部企业市占率或进一步下滑。

全球市场来看，Nuance市场份额已从2012年的62%下滑至2015年的31.6%，谷歌和苹果市场份额已提升至28.4%和15.4%。
中国市场来看，科大讯飞市场份额已从2012年的54.3%下滑至2015年的44.2%，百度则提升至27.8%。

7.2 自然语言处理：实现机器“听得懂”，技术成熟度仍较低

7.2.1 自然语言处理实现机器“听得懂”，语言规则复杂性制约技术成熟度

自然语言处理主要解决机器“听得懂”问题，机器翻译、问答系统和文本摘要是其主要应用场景。自然语言处理（Natural Language Processing，简称NPL）主要解决机器“听得懂”问题，即理解人类语言和文字，是人工智能的核心分支之一。自然语言处理也是人机互动闭环的关键技术，计算机首先需要使用语义理解技术来分析用户输入的语言，进而调取知识库，最后生成语言输出给用户。自然语言处理主要应用于以下领域：

机器翻译：机器翻译将一种自然语言翻译到另一种自然语言，其不仅包含了两种语言间词和短语的映射，而且需要根据上下文的语境表征并结合自然语言知识图谱（基于海量数据训练）进行适当推理，最后给出最合适、自然的翻译结果。
问答系统：问答系统旨在使计算机像人类一样用自然语言与人进行交流，即人们向计算机提问并获取关联度较高的答案。问答系统目前已广泛应用于聊天机器人、智能客服、智能手机助手。
文本摘要：文本摘要通过阅读文字段落进而将其中的核心内容提炼出来。文字摘要已有广泛的应用场景，如新闻标题和关键词的提炼，也包括谷歌、百度等搜索引擎的优化，实现搜索的“所见即所得”，提升用户搜索的准确率。

语言的不确定性、不可预测性、长尾现象和非线性关联使自然语言处理的技术成熟度较低。自然语言处理的技术成熟度明显逊于语音识别和计算机视觉，其在技术上主要面临以下挑战：1）词法、句法、语义、语用和语音的不确定性。2）新的词汇、术语、语义和语法的不可预测性。3）数据不充分的长尾现象，即数字资源难以覆盖全部语言现象。4）语义知识的非线性关联，即语义关联难以用简单数学模型描述。以“我们把香蕉给猴子，因为它们熟透了”和“我们把香蕉给猴子，因为它们饿了”两句为例，其中的“它们”需要结合猴子和香蕉属性进行推理。

7.2.2 市场格局：市场较为分散，新入局者仍有机会

技术发展水平制约自然语言处理头部企业诞生，新入局者仍有机会。语言规则复杂性以及技术的低成熟度使自然语言处理领域尚未诞生覆盖所有细分领域且占据市场多数份额的龙头企业。目前，自然语言处理产品可分为3类：1）细分领域技术应用：人工智能律师Ross、百度和谷歌翻译。2）消费级平台产品：如Alexa语音助手和小度在家等，不过仅限于资讯了解、闹钟设定、任务提醒等简单功能。3）面向B端的产品解决方案：如Duroes、谷歌和三角兽等，但是功能和应用场景仍然相对有限。因此，受制于技术水平和语义规则复杂性，自然语言处理市场相对分散，新入局者仍有机会获取一定的市场份额。

7.3 计算机视觉：实现机器“看得懂”，安防厂商、科技巨头和创业公司机会并存

7.3.1 计算机视觉实现机器“看得懂”，静态物体识别技术趋于成熟

计算机视觉实现了计算机“看得懂”，人脸识别、OCR和图像结构化是其主要应用场景。计算机视觉是用计算机模拟人眼对目标进行识别、跟踪和测量，并且对图形进行处理，即实现计算机“看得懂”。计算机视觉处理过程包括预处理、分割、特征提取和分类四个环节：预处理主要对图像传输过程中的退化进行改善（如亮度、色彩和对比度），切割将图像分成互补重叠而又具有各自特征的子区域，特征提取描绘边缘的方向密度分布，分类根据算法模型给出类型结果。计算机视觉可用于以下领域：

人脸识别：基于人的脸部特征信息进行身份识别，用于门禁考勤、身份认证、人脸对比等。
文字OCR：计算机读取印在或写在纸上的字，实现文字的快速录入。
图像结构化：提取图片或视频中的人、车、物，使得图片和视频的信息可以被计算机搜索和查询，并对车辆及车辆行为、人体属性及其行为进行分析。

静态物体识别技术趋于成熟，监督学习和推理能力是计算机视觉技术的主要短板。从技术成熟度来看，生物特征（人脸、指纹和瞳孔）和静态物体识别较为成熟，动态图像识别难度较大。从图像识别技术瓶颈来看，1）现有技术难以解决光线过爆和过暗问题。2）图像识别分类主要依赖监督学习（利用标记训练数据来推断分类），即机器学习需要手工标注物体特征，数据标注的体量和数量受限使计算机可识别的物体种类有限。3）现有技术仍然由数据驱动，因此计算机视觉技术缺乏基于常识的推理能力。

7.3.2 市场格局：2020年中国市场规模预计725亿元，安防厂商、互联网巨头和创业公司机会并存

计算机视觉2020年市场规模预计达725亿元，安防厂商、互联网巨头和创业公司是主要玩家。根据智研咨询的数据，2017年计算机视觉市场规模为40亿元，2020年市场规模预计达725亿元。国内计算机视觉的玩家有三类：1）海康、大华等安防厂商：安防影像分析的市场需求驱动此类企业的技术研发。2）互联网巨头：以百度为首的互联网巨头在数据获取上有明显优势，且以收购或并购形式扩大技术优势。3）创业公司：包括商汤科技、依图科技和旷视科技等企业，普遍以细分领域为发力点。

8 应用层：智能语音+安防+金融+医疗+自动驾驶

8.1 智能语音：人工智能时代的流量入口，科技巨头群雄逐鹿

智能语音或将成为人工智能时代的流量入口，以FAAG和BAT为代表的科技巨头均发力智能语音技术。智能语音主要通过“语音识别+自然语言处理”作为媒介来调取后端应用，从而为用户提供服务。随着语音识别和自然语言处理技术的日趋成熟，人机互动方式将逐渐从文字转变为语音，智能语音或将成为人工智能时代的流量入口。因此，以FAAG和BAT为代表的科技巨头均发力智能语音技术，推出了Siri（苹果）、Assistant（谷歌）、Alexa（亚马逊）、Cortana（微软）、DuerOS（百度）、腾讯叮当（腾讯）等产品，以占据下一轮技术迭代的风口。主流智能语音已覆盖了日常信息查询、影音娱乐、个人助手、生活服务、智能家居控制等功能，实现人、物和服务的互通互联。

手机、车载设备和智能音箱是智能语音的硬件载体，其中主打家庭场景的智能音箱已成新风口。目前，手机、车载设备和智能音箱是智能语音技术的主要硬件载体，分别面向移动场景、驾驶场景和家庭场景。其中，主打智慧家庭的智能音箱已成众多科技巨头布局重点：1）智能音箱是家庭IoT设备（Internet of things）的控制器，智能音箱未来有望带动同一厂商其他家庭IoT产品的消费量（如冰箱、空调等）。2）作为家庭生活的流量入口，智能音箱将为厂商提供家庭生活的行为数据，进一步支撑数字营销和产品研发。2017年全球智能音箱出货量达3000万台，2019年预计达8500万台，2018Q2亚马逊和谷歌合计占据了70%的智能音箱市场份额。作为消费级人工智能产品，用户体验、功能覆盖的优先级高于技术水平，因此智能音箱的生态整合能力是未来发展的关键，流量入口的“网络效应”将取决于平台能否接入更多种类的应用、设备以及更多数量的用户。

8.2 AI+安防：智慧安防助力警务管理，动态人脸识别仍存不足

千亿视频监控市场使“AI+安防”落地，智能安防的视频结构化、人脸比对功能助力警务管理。2018年中国视频监控市场规模预计达1192亿元，千亿市场和政府网格化管理的双重驱动力使“AI+安防”落地。借助于计算机视觉技术，人工智能能够对视频数据进行实时结构化处理，不仅使警务人员对视频内容进行快速检索，而且还可自动将抓拍人脸与数据库进行比对，提供黑名单预警、人员布控、人脸检索、大库比对等智能化应用，对嫌疑人员进行实时布控，警务管理效率明显提升：

案例一：2016年某地公安引入大华股份的警务方案后，警情同比下降46%，落地侵财破案率达到72%，入户盗窃破案率达到61%，扒窃破案率高达90%。
案例二：某抢劫案侦破需要对来自500多个监控点的长达250个小时视频中的50万人流进行分析，传统人力查阅至少需要30天时间，且极易遗漏关键信息，而海康威视人工智能视频分析技术仅5秒就找到了犯罪嫌疑人。
案例三：襄阳市襄城区曾发生抢劫案，接警后嫌疑人照片被导入旷视（Face++）智能安防人脸识别系统比对搜索，民警迅速锁定了涉案人员。

“AI+安防”目前受制于误报率和复杂多变的应用环境，动态人脸监控尚未大规模运用。目前动态人脸识别准确率无法达到100%，导致系统频频误报干扰正常警务工作，使不少公安部门弃用动态人脸识别。此外，现有人脸识别未形成数据闭环（缺乏自主学习和自主标注功能），千万人口级城市仍然存在数十万的人脸盲点。

8.3 AI+金融：人工智能助力金融服务效率，身份认证、风控和投顾是三大应用场景

重复度高、数据标准化和数据处理量大使金融成为人工智能落地场景，智能身份认证、智能征信风控和智能投顾理财是AI+金融典型应用。资料归档等固定程序工作以及客户、行业数据整合优化均可被人工智能取代，节省人力和物力，并且提升金融服务效率。目前“AI+金融”主要集中在以下三个方面：

智能身份认证：基于计算机视觉的人脸识别使得用户远程开户、刷脸支付成为现实，助力金融机构远程获客和数字营销，优化了用户体验，且人脸信息较难复制和盗取特点提升了金融服务的安全性。目前智能身份识别技术较为成熟，已广泛应用于银行和券商开户、业务办理以及新零售等场景。
智能风控：人工智能技术可助力金融行业形成标准化、模型化、智能化、精准化的风控系统。传统风控依靠地推式实地考察和人工资质核实，效率低且存在委托代理风险，而智能风控可实现实时、智能征信和审批，提升放贷效率。对个人用户来说，多维度用户数据（如通话记录、短信信息、购买历史和社交网络信息）通过自然语言处理可转化为用户特征画像，进而根据评分模型评估个人信用。对企业用户来说，智能征信风控可挖掘企业间关联以及企业子母公司、上下游、竞争对手和高管等深度信息，最后使用机器学习来评估企业还款能力。以京东金融为例，其基于人工智能开展放贷业务效率比传统金融机构提升了70倍，成本降低了30%。智能风控技术已经较为成熟，未来数据数量与质量将决定风控效果。
智能投顾：智能投顾通过特定算法模型管理帐户，结合投资者风险偏好、财产状况与理财目标，为用户提供自动化的资产配置。AI+投顾有以下优势：1）挖掘用户个性化需求，弥补投资顾问在深度了解客户方面的不足。2）结合用户需求以及生命周期等特征，提供“千人千面”的定制化资产配置。从行业格局来看，智能投顾已孕育了诸多知名公司，2017年Betterment在美国的AUM（Asset Under Management，简称AUM）达80亿美元，中国则诞生了理财魔方、摩羯智投和金贝塔等头部企业，分别主打国内资产配置、“银行+人机结合”和“基金+社交跟投”，不过智能投顾尚处于技术探索期，技术仍在不断改良和优化。

8.4 AI+医疗：医学影像、辅助诊疗和语音电子病例是主要应用场景，腾讯觅影已筛查400多例早期食道癌病例

人工智能赋能医生，提升诊疗能力和工作效率破局医疗服务痛点。人口老龄化加剧、慢性疾病增长使大众对医疗服务需求日益增加，而区域医疗资源分布不均，医生培养周期长，优质医疗服务供不应求等医疗服务痛点使其成为AI应用场景。目前AI+医疗主要集中在医学影像、辅助诊疗和语音电子病历三大领域：

医学影像：AI+医学影像利用计算机视觉技术来模拟医生读片，筛选出有潜在疾病的影像片子并且指出病灶所在位置。传统人工读片模式速度慢，读片量有限，且基层医院医生受限于知识结构难以发现早期病变。AI+医学影像助力疾病早期筛查，提高患者生存率。
辅助诊疗：AI+辅助诊疗是让计算机学习医疗知识和诊疗案例，帮助医生诊疗推理疾病原因，并且给出可靠的诊断治疗方案。AI+辅助诊疗弥补了社区医院、村诊所等基层医疗卫生机构在诊疗能力方面的短板，提升基层医疗效率，降低患者的就医成本。以精神疾病为例，中国人均精神科专家不足发达国家10%，检查率仅9%，人工智能辅助诊疗可将诊断效率提升69%。
语音电子病例：语音电子病例利用语音识别技术将医生语音直接转成电子文字病例。撰写病例往往占据医生大量时间，根据香港德信的调查，50%中国住院医生每天用于写病例时间超4小时，有部分医生甚至超7小时。语音电子病例大幅节约医生在患者病程、手术记录等电子文本的录入时间，使医生专注于医患交流。

科技巨头纷纷入局，腾讯觅影已筛查400多例早期食道癌病例。2016年10月百度推出了“百度医疗大脑”，2017年3月阿里云发布医疗操作系统“ET医疗大脑”，2017年8月腾讯推出AI医学影像产品“腾讯觅影”。腾讯觅影已在全国100多家三甲医院落地，覆盖食管癌、肺癌、糖尿病视网膜病变、乳腺癌、结直肠癌和宫颈癌六种疾病的早期筛选，筛查出高风险病变3.7万例。以食管癌为例，由于缺乏足够认知和有效筛查手段，中国早期食管癌检出率低于10%，而腾讯觅影对早期食道癌发现准确率高达90%，截止2018年9月已筛查400多例早期食道癌病例。

AI+医疗仍处于发展初期，缺乏高质量标注数据是AI+医疗面临的主要挑战。医疗服务特殊性使其对产品识别准确性要求高，因此数据标注准确性尤为关键，且医学影像需要训练数据量大，仅腾讯觅影食管癌筛选系统就使用了10万张不同级别医生双盲随机循环标注的医学影像作为训练数据。

8.5 自动驾驶：未来或颠覆全球汽车产业链，谷歌、特斯拉和百度领跑自动驾驶赛道

自动驾驶通过“感知-认知决策-控制执行”模拟人类驾驶，主流自动驾驶系统处于L2、L3级技术水平。自动驾驶是依靠人工智能、视觉计算、雷达、监控装置和全球定位系统协同合作，让计算机在没有任何人类主动操作情况下，自动安全地操作机动车辆。自动驾驶通过“感知-认知决策-控制执行”三个环节来模拟人类车辆驾驶流程，感知环节主要由传感器检测周边障碍物和道路环境，认知决策环节根据云端算法、地图和数据进行行为决策与路线规划，控制执行环节负责最后的车辆行驶。根据SAE（国际自动机工程师学会）定义，自动驾驶分为L0-L5六级，L4、L5是无人驾驶阶段，汽车可在限定环境或全部环境下去自动完成驾驶任务，L1、L2和L3是辅助驾驶阶段，汽车可完成纵向、转弯和加减速等操作，但是仍然需要人类驾驶员随时接管车辆。目前，包括特斯拉AutoPilot在内的自动驾驶系统均处于L2、L3级，百度“阿波龙”则是全球首款量产的L4级自动驾驶巴士。

自动驾驶或颠覆全球汽车产业链，谷歌、特斯拉和百度领跑中美自动驾驶。自动驾驶的颠覆性影响存在于以下方面：1）自动驾驶使车辆不再受驾驶员心理和情绪干扰，减少违反交通犯规和人为疏忽所造成的交通事故。NHTSA（美国国家公路交通安全管理局）报告显示，特斯拉在引入AutoPilot后，每百万英里交通事故数从1.3降至0.8。2）自动驾驶将节省人工驾驶的时间成本，根据科技智库RethinkX估计，美国在汽车驾驶上花费了1400亿小时，这部分时间释放的生产力将使GDP增长1万亿美元。3）共享出行将成为现实，私家车保有量减少将大幅降低温室气体排放。汽车行业巨大市场规模以及自动驾驶颠覆性影响让科技巨头纷纷入局自动驾驶，目前谷歌、特斯拉和百度分别领跑中美自动驾驶赛道：

谷歌：先发优势明显，测试里程、传感器制造设计和全自动驾驶均领先其他厂商。谷歌是科技巨头中最早布局自动驾驶的企业，2009年谷歌就创建了自动驾驶项目，2012年谷歌获得了美国第一张自动驾驶测试牌照。先发优势已形成了技术上领先：1）测试里程远超其他厂商：截止2018年8月谷歌自动驾驶测试里程数已达900万公里。2）拥有自己设计制造的自动驾驶硬件传感器：包括激光雷达、视觉传感器等。3）公路测试完全自动驾驶：2017年末谷歌路测完全自动驾驶，即测试车辆中没有驾驶员掌握方向盘。2016年12月，谷歌自动驾驶Waymo脱离谷歌母公司Alphabet独立运作，开启了商业化进程，目前已经在美国菲尼克斯推出了600辆无人出租车供志愿者试用。
特斯拉：AutoPilot商业化早，且用户体验好，但技术存风险。特斯拉AutoPilot是最早商业化且受关注程度最高的自动驾驶技术，2015年特斯拉为Model S开启了AutoPilot功能。从技术能力来看，AutoPilot处于L2、L3级。从用户体验来看，AutoPilot操作简单，对道路环境的宽容度高，且能及时、准确处理变道和插队情况。不过，AutoPilot发生了多起因未能识别障碍物而发生的车祸，技术仍然存在巨大风险。2016年5月美国弗罗里达州一位车主使用自动驾驶时发生事故死亡，同年1月AutoPilot在中国京港粤高速上因未能识别道路清扫车而发生撞击致死事故。
百度：自动驾驶研发明显领先腾讯和阿里，商用型L4级自动驾驶客车“阿伯龙”已量产下线。百度是中国自动驾驶赛道最早的入局者，百度启动自动驾驶项目、成立自动驾驶事业部、获得T3牌照和推出自动驾驶平台的时间节点均领先于腾讯和阿里。2018年7月百度自动驾驶技术已进入商业化阶段，百度和金龙客车推出的首款商用型L4级自动驾驶客车“阿伯龙”正式量产下线，将在北京、雄安、深圳和日本东京等地进行商业化运营。

人工智能系列一：AI发展渐入高潮，未来有望引爆新一轮技术革命

相关阅读

评论