从万物静默到声情并茂:百度输入法的AI发声计划

当我们讨论AI的时候,常常会将注意力放在人类未来、城市发展、经济动能等等宏大叙事上,却往往忽略了很多日常细节中AI带来的变化。比如,输入法。输入法早已充斥在我们生活的每一个角落,如同一双虚拟的手,为每一个人延展出恢弘多彩的网络世界。而输入

当我们讨论AI的时候,常常会将注意力放在人类未来、城市发展、经济动能等等宏大叙事上,却往往忽略了很多日常细节中AI带来的变化。比如,输入法。

输入法早已充斥在我们生活的每一个角落,如同一双虚拟的手,为每一个人延展出恢弘多彩的网络世界。

而输入法所连接的每一条评论、每一次对话、每一段博文,都或多或少有着可以被AI所改变的地方。

在今天看来,更好的智能输入法,意味着更清晰的用户剪影,更顺滑的使用体验,也意味着更多流量和交互入口,正在技术帝国中发挥越来越重要的作用。

百度高级副总裁王海峰

如今,各大输入法厂商都在暗自发力,希望掌握更强大的智能输入技术。今天刚刚亮相的百度输入法AI探索版,就把全语音引入了输入法,让我们看到了一场值得思考的输入法技术进阶感官实验。

新渴求与新方向:网上冲浪注定投入AI的怀抱?

在探讨百度输入法AI探索版之前,有必要先梳理一下,AI对输入法的改变到底能在哪些维度进行渗透。

比如我们能感受到,输入法行业之怪现象,就是我们能在网上冲浪的各个环节看到输入法工作的身影,而且每个头部产品的用户体量都不小,可仔细一想,却集体面目模糊,很少有明显的差异化,更不用提让人产生改变世界的兴奋感。

这样一个超级流量入口,在渠道成本持续增长的今天,是厂商们必须努力刷出存在感的必争之地。不能再依靠用户惯性混吃等死,但那些长期存在于全行业的问题并不能以常规方式克服:

比如文本输入,存在着输入效率低、词汇联想错误率高、功能个性化不足等种种问题,很难满足用户的体验需求。尤其是在大量老年人、儿童、残障人士涌入互联网之后,文本输入的弊端越来越清晰地显现出来。

这种情况下,我们希望语音输入承担起更多的工具角色,却又受困于识别准确率、NLP技术瓶颈的限制,需要投入很大的技术研发资源,决定了只能是少数硬核技术玩家的舞台。

另外,网络交互场景也前所未有地碎片化。比如儿童既有查阅资料的需求,也有游戏交流、视频直播的需求,如何同时满足不同人群多样化的交互场景且稳定可靠,非常有挑战性。

总的来说,输入法可以说是互联网世界的一面镜子,各种用户各种需求的痛点和问题在这里被集中投射出来。那么要刷出存在感的路径也就很清晰了,做出让绝大多数人能够无学习成本、多场景耦合的输入法产品。

要做到这一点当然很难,但幸好技术的发展也带来了很多命运的礼物,比如说——AI。

打造AI交互“样板间”:声情并茂的百度AI输入法有何不同

死磕AI的百度,这次在输入法上的体验革命,堪称决绝。最清晰地体现在,这是国内首款默认全语音输入的产品,并且把表情、肢体等互动与虚拟世界相连接,形成了一种颠覆式的交互方式。

在畅想中,用语音这种最为简单、老少皆宜的方式进行输入,无疑是学习门槛最低、群体包容性最高的方式。但在现实中,很少有厂商能够如此大刀阔斧孤注一掷。

从这个角度来看,百度输入法AI探索版,无疑为AI交互技术在输入法领域的应用打造了一个独一无二的“样板间”,让AI的作用清晰地跃然眼前。

首先是语音技术上,百度的流式截断多层注意力建模(SMLTA),解决了传统Attention模型在识别中的时延性问题,成为网络大规模在线语音实时交互的现实基础支撑。百度输入法在线语音准确率依然好于最优竞品15%。

而在一些网络连续性不太强的地方,比如海外旅游、电梯地铁隧道等离线场景中,百度持续优化的Deep Peak 2系统,也能实现精准的语音输入,高于行业平均水平35%。

AI在语音方面的另外一个比较重要的能力,就是识别算法对语音特征的精准细分。基于此,百度输入法AI探索版轻松carry中英文混杂、花式普通话、中英方言口音等障碍,大大降低了“五环外人口”网上冲浪的难度,成为目前唯一实现了高精度“中英自由说”和“方言自由说”的输入法产品。

另一个AI带来的突破,在于全感官的交互成为可能。网络已经成为复杂的社交功能载体,除了文字交流之外,还可能涉及直播、虚拟人像等新玩法。但在传统输入法中,这些需求几乎很难被满足。除了硬件上的诸多限制,更多需要人脸识别、图像分割、神经迁移一类的技术。百度就结合AI技术,得到了新的解决方案,推出了拍立活、秀场、凌空手写等新功能玩法。

比如可以让宠物或偶像照片,结合用户自己的动作做出相同的表情;或者是让用户自由穿越各种虚拟场景,打破次元壁;凌空手写如同隔空打怪,在空中书写也能被流畅识别,据说目前整体识别率已达到大规模应用的要求,不失为一种新的装逼神器。

AI在产业端登场之后,我们已经见证了它在众多领域提升效率的传奇故事。从百度“第一个吃螃蟹”推行全语音的举措来看,一旦冲破识别精度和语义理解的技术瓶颈,语音输入就可以凭借绝佳的技术普适性,从“常年辅助”变成“最强王者”。而在这背后,AI作为胜负手,是毋庸置疑的。

不止于输入法:AI崛起意味着什么

AI的能量正在将老人、外国人等人群无差别地引入自由输入的畅快世界,可能是科技体现出人文温度的瞬间,也是输入法从工具属性到AI连接点的自我进化。

而对于百度这样将AI作为产业抓手的企业来说,输入法也正在反哺AI,从三个角色改变技术的面貌:

1.最贴近大众的技术抓手:截至2018年底,百度输入法月活跃人数已达5亿,语音日请求量峰值突破5.5亿,AR表情使用次数超过1亿。正是大众行为的自发选择,让下一代输入法的形态呼之欲出。靠AI来协助提升输入效率甚至革新社交方式,输入法显然是最好的AI技术输出窗口和连接点。

2. 新交互技术的试验田:在越多越多企业将人脸识别作为互动新想象力的时候,选择输入法作为AR、annimoji等CV技术的输出窗口,显然成为百度技术版图中必不可少的重要补充。

3.海外市场的“春风化雨手”:出海对于大多数中国科技企业而言都是挑战,也是难题。而输入法这样的工具型产品,可以“润物细无声”地潜移默化,快速打入市场并输出技术能力,同时更好地输入和适应不同文化的知识结构。

比如百度输入法AI探索版,其日文输入法的语音识别精度目前位列行业第一,已经成为日本最大的第三方输入法产品;在印度市场的表现也很出色,语音功能的使用率达到21%。

在AI的加持下,还和Hello Kitty、小黄鸭、小王子、格林奇等全球100余个知名IP达成合作,推出了一系列IP皮肤和表情,让本地化运营如虎添翼。

不难看出,利用AI实现输入法的能力进击,虽然只是一个产品方向的小切口,却把错综复杂的技术升级、功能迭代和全球市场需求,带到了有序的新方向上,不仅仅是一项增益技术,更是产业掘金的必由之路。

而百度技能全开、先下一城,会给亟待冲出舒适区的输入法之战带来哪些震动,值得期待一下。

格隆汇声明:文中观点均来自原作者,不代表格隆汇观点及立场。特别提醒,投资决策需建立在独立思考之上,本文内容仅供参考,不作为实际操作建议,交易风险自担。

相关阅读

评论