ChatGPT迎来“炸裂”升级！能看、能听、会说，超级AI助理即将诞生？-格隆汇

ChatGPT迎来“炸裂”升级！能看、能听、会说，超级AI助理即将诞生？

2023年09月26日 09时37分

28,947

功能越来越强大

ChatGPT又迎来大升级，这次是“多模态”，能开口说话，识别物体。

当地时间周一，OpenAI宣布，将在ChatGPT推出新的语音和图像功能，新功能将于未来两周内面向Plus和企业用户推出。

OpenAI介绍称，ChatGPT推出的语音和图像功能提供了一种新的、更直观的界面，允许用户进行语音对话或向ChatGPT显示用户正在谈论的内容。新功能可以给用户提供在生活中使用ChatGPT的更多方式：

1）用户可以在旅行时拍下一张地标的照片，并就它的有趣之处与ChatGPT进行现场对话；
2）当用户在家时，拍下冰箱和餐具室的照片，ChatGPT可以给出晚餐食谱；
3）如果用户在帮自己的孩子做一道数学题，拍张照片，圈出题集，ChatGPT会给出提示。

新功能有哪些用途？

据OpenAI介绍，语音输入功能类似于手机上的语音助手，用户只需按下一个按钮，说出自己的问题，ChatGPT 就会将其转换为文本，然后生成答案，再将答案转换为语音，播放给用户。

OpenAI 还开发了一种新的文本转语音模型，可以根据几秒钟的样本语音，生成与之相似的人声。用户可以从五种选项中选择 ChatGPT 的声音，而且这种模型还有更多的潜在用途，包括将播客翻译成其他语言，同时保留播客主持人的声音。

OpenAI表示，它与配音演员合作，共同构建了该功能的文本到语音AI模型。

图像输入功能则类似于 Google Lens，用户可以拍摄自己感兴趣的事物，并上传到 ChatGPT 中。ChatGPT会尝试识别用户想要询问的内容，并给出相应的回答。用户还可以用应用中的绘图工具来帮助表达自己的问题，或者配合语音或文本输入来进行交流。

OpenAI给出的例子是，用户拍了一张自行车的图片，询问ChatGPT如何调低座椅，根据用户的提问，ChatGPT很快识别出车座调节类型和需要的工具。

随后，用户又询问其工具箱中哪个是所需的工具，ChatGPT也是成功识别，并提示用户需要拿哪一个尺寸。

设想即将实现？

可以看出，ChatGPT的功能越来越强大，非常智能。最新功能发布后，就连马斯克也发推文称：“你害怕吗？”

此前，OpenAI首席执行官Sam Altman和比尔·盖茨都曾对ChatGPT未来的应用前景进行设想。

Altman曾私下告诉开发者，希望将ChatGPT打造成“超级智能个人工作助理”，可以根据个人及工作需求执行多种任务，如按照用户的风格起草邮件或文件，提供相关业务的最新信息。

盖茨也曾表示，技术竞赛将推动顶级AI助理的诞生，颠覆现有生产力，可能会从根本上改变用户的行为，乃至取代搜索和购物网站。

不过，ChatGPT也提示，这些功能也带来了新的风险，例如恶意行为者可能冒充公众人物或实施欺诈。

投资上，国盛证券分析称，ChatGPT开放图生文及语音对话功能，AI技术持续迭代再翻新一页。相关标的：

1）多模态应用：大华股份、海康威视、中科创达、千方科技、虹软科技、当虹科技等
2）办公应用：金山办公、万兴科技、福昕软件、科大讯飞等。
3）落地快&估值性价比：大华股份、漫步者、传音控股、海康威视、紫天科技等。
4）算力侧：英伟达、中科曙光、浪潮信息、中际旭创、工业富联、云赛智联、神州数码、拓维信息、四川长虹、烽火通信、海光信息、恒润股份、新易盛、恒为科技、易华录、阿尔特、润建股份、寒武纪、景嘉微、中贝通信、创业黑马等。

格隆汇声明：文中观点均来自原作者，不代表格隆汇观点及立场。特别提醒，投资决策需建立在独立思考之上，本文内容仅供参考，不作为实际操作建议，交易风险自担。

ChatGPT迎来“炸裂”升级！能看、能听、会说，超级AI助理即将诞生？

新功能有哪些用途？

设想即将实现？

相关阅读

评论