大科技燃爆全场!英伟达发布最强AI加速卡,性能暴涨 30 倍

“见证AI的变革时刻”

北京时间3月19日4时-6时,英伟达创始人黄仁勋在美国加州圣何塞SAP中心登台,发表GTC 2024的主题演讲《见证AI的变革时刻》。

作为英伟达 2024 的开年大戏,在这场两个小时的演讲中,黄仁勋介绍了运行AI模型的新一代芯片和软件。英伟达正式推出名为Blackwell的新一代AI图形处理器(GPU),预计将在今年晚些时候发货。

市场层面,截至收盘,英伟达股价报884.55美元,小幅上涨0.7%,最新总市值为2.21万亿美元(约合人民币15.9万亿元)。


最强AI芯片Blackwell来了!


在本届 GTC 大会开始之前,国外媒体就已经开始盛传:黄仁勋将在 GTC 2024 上发布一款 GPU 家族的新品,果然,采用 Blackwell 架构的 B200 和 GB200 系列芯片如期而至。

据英伟达称,Blackwell 架构系列芯片是迄今为止功能最强大的 AI 芯片家族。

据介绍,B200 拥有 2080 亿个晶体管(而 H100/H200 上有 800 亿个晶体管),采用台积电 4NP 工艺制程,可以支持多达 10 万亿个参数的 AI 模型,而 OpenAI 的 GPT-3 由 1750 亿个参数组成。它还通过单个 GPU 提供 20 petaflops 的 AI 性能——单个 H100 最多可提供 4 petaflops 的 AI 计算。

但值得注意的是,Blackwell B200 并不是传统意义上的单一 GPU。它由两个紧密耦合的芯片组成,这两个芯片通过 10 TB/s NV-HBI(Nvidia 高带宽接口)连接进行连接,以确保它们能够作为单个完全一致的芯片正常运行。

Blackwell 将被整合到英伟达的 GB200 Grace Blackwell 超级芯片中,该芯片将两个 B200 Blackwell GPU 连接到一个 Grace CPU。具体来看:

Blackwell拥有六项革命性技术

英伟达称,Blackwell拥有六项革命性的技术,可以支持多达10万亿参数的模型进行AI训练和实时LLM推理:

全球最强大的芯片:Blackwell 架构 GPU由 2080 亿个晶体管组成,采用量身定制的台积电4纳米(nm)工艺制造,两个reticle极限GPU裸片将10 TB/秒的芯片到芯片链路连接成单个统一的GPU 。

第二代 Transformer引擎:结合了Blackwell Tensor Core技术和TensorRT-LLM和 NeMo Megatron 框架中的 英伟达先进动态范围管理算法,Blackwell 将通过新的4位浮点AI 支持双倍的计算和模型大小推理能力。

第五代 NVLink:为提高数万亿参数和混合专家AI 模型的性能,最新一代英伟达NVLink为每个 GPU 提供了突破性的 1.8TB/s 双向吞吐量,确保最复杂LLM之间多达576 个GPU 之间的无缝高速通信。

RAS 引擎 :Blackwell 支持的 GPU 包含一个专用引擎,实现可靠性、可用性和服务性。 此外,Blackwell 架构还增加了芯片级功能,利用基于AI的预防性维护进行诊断和预测可靠性问题。

安全人工智能:先进的机密计算功能可在不影响性能的情况下保护AI模型和客户数据,并支持新的本机接口加密协议,这对于医疗保健和金融服务等隐私敏感行业至关重要。

解压缩引擎:专用解压缩引擎支持最新格式,加快数据库查询,提供数据分析和数据科学的最高性能。 未来几年,在企业每年花费数百亿美元的数据处理方面,将越来越多地由 GPU 加速。

据英伟达高管表示,该公司正逐步从纯粹的芯片供应商转变为平台提供商,类似微软或苹果。Blackwell不仅仅是一个芯片的名称,更是一个全新的平台,为其他公司提供了开发软件的广阔天地。

新芯片预计将于今年晚些时候上市。英伟达表示,AWS、戴尔科技、谷歌、Meta、微软、OpenAI 和特斯拉计划使用 Blackwell GPU。

亚马逊、谷歌、微软和甲骨文将通过云服务提供对GB200的访问。GB200将两个B200 Blackwell GPU与一个基于Arm的Grace CPU配对。英伟达表示,亚马逊网络服务将构建一个包含20000个GB200芯片的服务器集群。

英伟达没有提供新款GB200或其使用系统的成本。据分析师估计,英伟达基于Hopper的H100芯片成本在2.5万至4万美元之间,而整个系统的成本高达20万美元。

英伟达还发布了 GB200 NVL72 液冷机架系统,其中包含 36 颗 GB200 Grace Blackwell 超级芯片,拥有 1440 petaflops(又名 1.4 exaflops)的推理能力,它内部有近两英里长的电缆,共有 5000 根单独的电缆。

英伟达表示,与用于推理用途的相同数量的 H100 Tensor Core 图形处理单元相比,GB200 NVL72 性能提升高达 30 倍。此外,该系统还可将成本和能耗降低多达 25 倍。


推理微服务NIM


英伟达的NIM软件也引起了业界的广泛关注。

黄仁勋在GTC宣布,将在其企业软件订阅中增加一款名为NIM的新产品。NIM可以更容易地使用旧的英伟达GPU进行推理,并允许公司继续使用他们已经拥有的数亿个英伟达GPU。 推理所需的算例比最初训练新的AI模型的少。 NIM 让企业能运行自己的AI 模型,而不是从OpenAI 等公司购买AI的成果。

该产品将使新人工智能模型的初始训练推理所需的算力更少。该公司的策略是让购买英伟达服务器的客户注册英伟达企业版,每个GPU每年收取费用4500美元。

黄仁勋表示,该软件还将帮助在配备GPU的笔记本电脑上运行人工智能,而不是在云服务器上运行。

英伟达将与微软或Hugging Face等AI公司合作,确保他们的AI模型能够在所有兼容的英伟达芯片上运行。随后,开发者可以使用NIM在自有服务器或基于云端的英伟达服务器上高效运行模型,无需繁琐的配置过程。

此外,英伟达希望通过发布另一个新的 API 集合 Project GROOT 来推动人形机器人的开发。

Project GROOT 是一个人形机器人模型,英伟达与 Jetson Thor 一起生产,Jetson Thor 是一款 SoC,也是 Nvidia Isaac 的升级版。英伟达表示,GROOT 机器人将理解自然语言并模仿人类动作来学习灵活性。Jetson Thor 运行基于 Blackwell 的 GPU,可在 8 位数据处理中提供 800 teraflops 的 AI 性能。

黄仁勋透露,由该平台驱动的机器人将被设计为能够理解自然语言并模仿机器人的动作,观察人类行为。这使 GROOT 机器人能够快速学习协调性、灵活性和其他技能,以导航、适应现实世界并与之互动——并且绝对不会导致机器人叛乱。

格隆汇声明:文中观点均来自原作者,不代表格隆汇观点及立场。特别提醒,投资决策需建立在独立思考之上,本文内容仅供参考,不作为实际操作建议,交易风险自担。

相关股票

相关阅读

评论