4 月 13 日报道,今日凌晨,一年一度影响人工智能及高性能计算技术盛会 NVIDIA GTC 如期而至,这是 GTC 大会继去年后第二次在线上举行。

NVIDIA(英伟达)创始人黄仁勋依然穿着拉风的皮衣,在自家厨房举办发布会。可以明显看到,老黄的头发更白了,也更长了。

去年 NVIDIA 重磅发布旗舰 A100 GPU 以及一系列服务器、集群、超算,轰动整个人工智能领域,如今,老黄带着一系列软硬件新品高调回归。

万万没想到,这一次,全球 GPU 霸主 NVIDIA 推出了一款基于 Arm 的数据中心 CPU!

在宣布 400 亿美元收购 Arm 的 6 个月后,NVIDIA 连发三款基于 Arm IP 打造的处理器,包括全球首款专为 TB 级加速计算而设计的 CPU NVIDIA Grace、全新 BlueField-3 DPU,以及业界首款 1000TOPS 算力的自动驾驶汽车 SoC。

“我们每年都会发布激动人心的新品。三类芯片,逐年飞跃,一个架构。”黄仁勋说,数据中心路线图包括 CPU、GPU 和 DPU 这三类芯片,而 Grace 和 BlueField 是其中必不可少的关键组成部分。每个芯片架构历经两年的打磨周期(周期内可能出现转变),一年专注于 x86 平台,另一年专注于 Arm 平台。

此外,NVIDIA 还公布了与亚马逊 AWS、Ampere Computing、联发科和 Marvell 等基于 Arm 的 CPU 平台的合作伙伴关系。

在软件方面,超大规模语言模型训练与推理问答引擎 Megatron、实时对话式 AI 平台 Jarvis、AI 网络安全框架 Morpheus、Omniverse 企业版、由 GPU 加速的量子电路模拟框架 CuQuantum 等一系列最新进展首次揭晓。

显然,面向数据中心异构计算的新天地,NVIDIA 正集合软硬件技术优势,打出高调的组合拳。

一、3 款自研 Arm 芯:首颗数据中心 CPU 落地全球最快 AI 超算

此次发布会令人最印象深刻的,就是 NVIDIA 在助推 Arm 生态方面不遗余力,从自研 CPU、DPU、自动驾驶处理器到 GPU 的合作伙伴,从云、高性能计算、边缘计算到 PC,无处不 Arm。

先来看下这次发布的五款硬件新品:

1、首颗数据中心 CPU:落地全球最快 AI 超算

黄仁勋宣布的第一个重磅新品,是一款专为大规模人工智能和高性能计算应用而设计的 CPU——NVIDIA Grace。

绝大多数的数据中心仍将继续使用现有的 CPU,而 Grace 主要将用于计算领域的细分市场,预计将于 2023 年可供货。

由于超大规模的模型很难完全放进 GPU 内存,如果存储在系统内存,访问速度则会大大受限,这款 CPU 的问世主要即是为了解决这一瓶颈。

NVIDIA Grace 以发明了世界上第一个编译器、被称为“计算机软件工程第一夫人”的先驱计算机科学家 Grace Hopper 命名,具体有 3 点创新进步:

(1)内置下一代 Arm Neoverse 内核,每个 CPU 能在 SPECrate2017_int_base 基准测试中单位时间运行超过 300 个实例;

(2)采用第四代 NVIDIA NVLink,从 CPU 到 GPU 连接速度超过 900GB/s,达到相当于目前服务器 14 倍的带宽;从 CPU 到 CPU 的速度超过 600GB/s。

(3)拥有最高的内存带宽,采用的新内存 LPDDR5x 技术,带宽是 LPDDR4 的两倍,能源效率提高了 10 倍,能提供更多计算能力。

明年将有两台性能强大的 AI 超级计算机面世,都将采用 NVIDIA Grace,据称其与 NVIDIA GPU 紧密结合,性能将比目前最先进的 NVIDIA DGX 系统(在 x86 CPU 上运行)高出 10 倍。

这两台 AI 超算中,瑞士国家计算中心(CSCS)正在打造一个算力可达 20Exaflops 的系统,美国洛斯阿拉莫斯国家实验室(Los Alamos National Laboratory)也将为其研究人员配备新 AI 超算。

2、Bluefield-3 DPU:220 亿晶体管

在黄仁勋看来,负责在数据中心传输和处理数据的数据处理单元(DPU),正与 CPU、GPU 共同组成“未来计算的三大支柱”。

NVIDIA 全新 BlueField-3 DPU 包含 220 亿个晶体管,采用 16 个 Arm A78 CPU 核心、18M IOPs 弹性块存储,加密速度是上一代的 4 倍,并完全向下兼容 BlueField-2。

BlueField-2 能够卸载相当于 30 个 CPU 核的工作负载,而 BlueField-3 实现了 10 倍的加速计算性能提升,能够替代 300 个 CPU 核,以 400Gbps 的速率,对网络流量进行保护、卸载和加速。该处理器也是首款支持第五代 PCIe 总线并提供数据中心时间同步加速的 DPU。

BlueField-3 通过 NVIDIA DOCA(集数据中心于芯片的架构)软件开发包为开发者提供一个完整、开放的软件平台,开发在 BlueField DPU 上开发软件定义和硬件加速的网络、存储、安全和管理等应用。DOCA 已于今日发布并提供下载。

新一代 BlueField-3 DPU 预计将于 2022 年第一季度发布样品,第四代 BlueField DPU 算力达 1000TOPS,网络速率达 800Gbps。

3、车轮上的数据中心:业界率先达成 1000TOPS

NVIDIA DRIVE Atlan 是新一代 AI 自动驾驶汽车处理器,算力将达到 1000TOPS,约是上一代 Orin 处理器的 4 倍,超过了绝大多数现有无人驾驶出租车的智能计算能力。

这是 DRIVE 平台首次集成 DPU,通过 Arm 核为自动驾驶汽车带来数据中心级的网络,致力于应用到 2025 年的车型。

该 SoC 采用下一代 GPU 的体系结构、新型 Arm CPU 内核、新深度学习和计算机视觉加速器,并内置为先进的网络、存储和安全服务的 BlueField DPU,网络速度可达 400Gbps。

黄仁勋夸赞说:“Atlan 集 NVIDIA 在 AI、汽车、机器人、安全和 BlueField 安全数据中心领域的所有技术之大成,堪称一项技术奇迹。”

4、便捷式 AI 数据中心和 DGX SuperPod 双升级

黄仁勋还宣布升级 NVIDIA 专为工作组打造的“便携式 AI 数据中心”NVIDIA DGX Station,以及 NVIDIA 专为密集型 AI 研发打造的 AI 数据中心产品 NVIDIA DGX SuperPod。

全新 DGX Station 320G 借助 320GB 超快速 HBM2e 连接至 4 个 NVIDIA A100 GPU,内存带宽达到每秒 8TB。然而,仅需将其插入普通的壁装电源插座即可使用,耗电量只有 1500W。

黄仁勋说,达到这种性能的 CPU 集群成本约为 100 万美元,而 DGX Station 仅需 14.9 万美元。

DGX SuperPOD 使用全新 80GB NVIDIA A100,将其 HBM2e 内存提升至 90TB,实现 2.2EB/s 的总带宽。要实现如此的带宽,需要 11000 台 CPU 服务器,大约相当于有 250 个机柜的数据中心,比 SuperPOD 多 15 倍。

目前它已经升级至采用 NVIDIA BlueField-2,且 NVIDIA 如今还为该产品提供配套的 NVIDIA Base Command DGX 管理和编排工具。

5、Aerial A100:5G+AI 的新型边缘计算平台

黄仁勋还提到了 NVIDIA 的 AI-on-5G 计算平台,这是一款专为边缘设计、将 5G 和 AI 相结合的新型计算平台。该平台将采用 NVIDIA Aerial 软件开发套件与 NVIDIA BlueField-2 A100,将 GPU 和 CPU 组合成“有史以来最先进的 PCIE 卡。”

富士通、谷歌云、Mavenir、Radisys 和 Wind River 等合作伙伴都在开发适用于 NVIDIA AI-on-5G 平台的解决方案。

二、协作亚马逊自研 CPU 支持云服务,打造 Arm+GPU 新 PC

除了推出基于 Arm 的 CPU 外,NVIDIA 还宣布一系列与 Arm 处理器设计商的合作进展,包括将为亚马逊 AWS Graviton2 CPU 提供 GPU 加速、为科学和 AI 应用开发提供支持的全新 HPC 开发者套件、提升边缘视频分析和安全功能、打造新一类基于 Arm 并搭载 NVIDIA RTX GPU 的新款 PC 等。

这些举动反映出无论是市场还是 NVIDIA 自身,对基于 Arm 的解决方案的兴趣已经超出移动领域。

1、NVIDIA GPU 搭配亚马逊自研 CPU 赋能云服务

2021 年下半年,基于亚马逊云科学(AWS)自研服务器处理器 AWS Graviton2 的 Amazon EC2 实例将与 NVIDIA GPU 相结合,在云端部署。

这一新组合将实现降低成本、支持更丰富的游戏串流体验、优化云上安卓游戏和人工智能推理、以更低成本提供更高的 AI 推理性能等优势。

黄仁勋说:“我们致力于将 Arm 生态系统扩展到移动和嵌入式系统以外的市场,而今日宣布的新合作伙伴,正是我们迈出的第一步。”

2、新 HPC 开发者套件,支持科学和 AI 应用开发

为了更好地支持科学和 AI 应用开发,面向高性能计算领域,NVIDIA 推出了全新 HPC 开发者套件。

NVIDIA 全新 HPC 开发者套件为超级计算机提供了一个高性能、高能效的平台,该平台结合了 1 个 Ampere Altra CPU(包含 80 个 Arm Neoverse 核,运行频率高达 3.3GHz)、双 NVIDIA A100 GPU(每个 GPU 可提供 312TFLOPS 的 FP16 深度学习性能)、两个用于加速网络、存储和安全的 NVIDIA BlueField-2 DPU。

该开发者套件包含一套 NVIDIA 编译器、库和工具,可用于创建 HPC 和 AI 应用,以及将其迁移到 GPU 加速的 Arm 计算系统中,将于 2021 年第三季度上市,多家顶尖研究机构已率先展开部署。

3、加速边缘安全功能,打造由 GPU 驱动的新 PC

今天 NVIDIA 还宣布了提升边缘视频分析和安全功能、打造新一类基于 Arm 并搭载 NVIDIA RTX GPU 的新款 PC 等进展。

在边缘计算领域,NVIDIA 正扩大与 Marvell 的合作,将基于 Arm 的 OCTEON DPU 与 GPU 相结合,加速 AI 工作负载,实现网络优化和安全。

在 PC 领域,NVIDIA 与全球最大的基于 Arm 的 SoC 供应商之一联发科合作,共同打造一个采用 Arm 核与 NVIDIA 显卡、支持 Chromium、Linux 和 NVIDIA SDK 的参考平台,将 GPU 的性能及先进的 AI、光线追踪图形等技术带入 Arm PC 平台。

此外,NVIDIA 也正与富士通、SiPearl 等其他合作伙伴共同致力于扩展 Arm 生态系统。

三、更多 AI 平台落地,首秀量子电路模拟框架

NVIDIA 在去年推出了一个机架比肩 AI 数据中心的 AI 系统 DGX A100、AI 算力高达 700 PFLOPS 的集群 DGX SuperPOD、千万亿级工作组服务器 DGX Station A100。

面向 AI 应用需求,NVIDIA 已经提供 Megatron、Jarvis、Merlin、Maxine、Isaac、Metropolis、Clara 和 DRIVE、以及各种可使用 TAO 进行定制化的预训练模型。

今天,NVIDIA 进一步强化企业计算服务,不仅推出大型语言模型训练与推理问答引擎、宣布对话式 AI 平台最新落地进展,还展示了其量子电路模拟框架。

1、NVIDIA EGX:扩大认证服务器生态系统

为进一步实现 AI 民主化,黄仁勋发布了来自顶尖制造商的新系列 NVIDIA 认证系统,即大容量企业级服务器,现已通过认证。

这一系统可运行 NVIDIA AI Enterprise 软件套件,该套件得到了全球应用最广泛的计算虚拟化平台 ——VMware vSphere 7 的独家认证。

NVIDIA 今日推出多款新系统,以扩大 NVIDIA 认证服务器生态系统。这些新系统配备用于主流 AI 和数据分析的 NVIDIA A30 GPU,以及用于 AI 图形、虚拟工作站以及混合计算和图形工作负载的 NVIDIA A10 GPU。

2、Megatron:超大型语言模型训练与推理

黄仁勋发布了用于训练 Transformers 的超大语言模型的 NVIDIA Megatron Triton 推理服务器。

Transformers 已帮助开发者在自然语言处理领域取得了突破性进展,能够生成文档摘要、将电子邮件中的短语补充完整、对测验进行评分、生成体育赛事现场评论、甚至生成代码。

使用 Megatron Triton 的 DGX A100 能在 1 秒内做出响应,可同时支持 16 项查询,而双插座 CPU 服务器支持 1 条问询就超过了 1 分钟。

3、Jarvis:实时对话式 AI 平台现可使用

Jarvis 是一个基于 NVIDIA GPU 提供实时性能的灵活、多模态对话式 AI 服务应用框架,可帮助开发者轻松实现实时语音识别、转录、摘要、翻译、封闭式字幕、虚拟助手、聊天机器人等功能。

现在,NVIDIA 已经是一个生产就绪、现已可用的端到端对话式 AI 模型,企业可基于自身数据和特定需求对模型做进一步的微调,并使用 NGC 实现在云或边缘快速部署定制化语言型 AI 服务。

为帮助客户将自身专业知识应用于 AI 领域,黄仁勋还宣布推出 NVIDIA TAO,其可以运用客户和合作伙伴的数据,对 NVIDIA 预训练模型进行微调和适配,同时保护数据隐私。

4、Morpheus:AI 网络安全应用框架

为了保障现代化数据中心的安全,黄仁勋宣布推出基于 NVIDIA GPU、BlueField DPU、Net-Q 网络遥测软件和 EGX 的新型 AI 框架而构建的 NVIDIA Morpheus 数据中心安全平台,能够对完整的数据包进行实时检测、预防安全威胁,现可抢先试用。

作为一个基于 AI 的云原生网络安全框架,NVIDIA Morpheus 通过在边缘和 AI 技术的结合,利用实时的遥测、策略执行及操作,可以在不牺牲成本和性能的情况下分析更多的安全数据,识别、捕捉和应对以往无法识别的威胁和异常情况,如未加密敏感数据的泄露、网络钓鱼攻击和恶意软件。

Morpheus 与 BlueField DPU 相结合,使网络中的每个计算节点都成为边缘网络防御传感器,企业无需复制数据,也能够以线速分析每个数据包。相比之下,传统的 AI 安全工具通常只能采样 5% 左右的网络流量数据,因此威胁检测算法并非基于完整的模型。

同步推出的 BlueField-3 可为 NVIDIA Morpheus 提供实时的网络可视化、网络威胁的检测与响应、以及监控、遥测和代理服务。开发者还能够在现有 IP 投资的基础上,使用深度学习模型来创建自己的 Morpheus AI 功能。

5、CuQuantum:量子电路模拟框架

为加快有赖于量子位(或量子比特,能作为单个的 0 或 1 存在,也可以同时作为二者存在)的量子计算研究,黄仁勋推出了 cuQuantum,为量子电路模拟器提供加速。

这是专为模拟量子电路而设计的加速库,适用于张量网络求解器和状态向量求解器,经过优化后,可以扩展到大 GPU 显存、多个 GPU 和多个 DGX 节点。

运行 cuQuantum 基准测试时,状态向量模拟在双 CPU 服务器上需要 10 天,但在 DGX A100 上只需 2 小时,DGX 上的 cuQuantum 可以高效模拟 10 倍的量子位,从而助力研究人员设计出更完善的量子计算机。

四、公布自动驾驶新平台,扩大与沃尔沃合作

自动驾驶汽车(AV,Autonomous vehicles)是 NVIDIA 近年来极其重视的赛道之一。除了前文提及的 1000TOPS 自动驾驶处理器外,此次黄仁勋还推出了 Hyperion 8 AV 平台,并宣布沃尔沃汽车扩大与 NVIDIA 的合作。

NVIDIA Hyperion 8 AV 平台是一个先进的数据采集、开发和测试平台,包含参考传感器、自动驾驶汽车和中央计算机、3D 地面真实数据记录仪、网络以及所有必要的软件。

沃尔沃汽车从 2016 年开始借助高性能且高能效的 NVIDIA DRIVE 的算力,基于 NVIDIA DRIVE Xavier,为新车型开发 AI 辅助驾驶功能,软件则由沃尔沃汽车旗下的自动驾驶软件开发公司 Zenseact 自主研发。

黄仁勋说,将于 2022 年投产的 NVIDIA 自动驾驶汽车计算系统级芯片 NVIDIA DRIVE Orin,旨在成为汽车的中央电脑。

而沃尔沃汽车将为新一代汽车的自动驾驶计算机配备 NVIDIA DRIVE Orin。

这意味着两家公司的合作深入到更多软件定义车型,首发就是将于 2022 年发布的新一代 XC90。

五、推出英伟达 Omniverse 企业版,赋能 Drive SIM 2.0

黄仁勋强调说,NVIDIA 是一家软件平台公司,并大力发展 NVIDIA AI 和将 3D 世界连接至共享虚拟世界的 NVIDIA Omniverse。

NVIDIA Omniverse 是一款多 GPU 可扩展的云原生平台,支持建模、布局、着色、合成、渲染、动画等一系列构建 3D 虚拟建模所需的功能,用于仿真、协作和自主机器训练。

其特点还包括:具有高物理精度、能够充分运用 RTX 实时路径追踪和 DLSS、可以使用 NVIDIA MDL 模拟材料、可以使用 NVIDIA PhysX 模拟物理学并且与 NVIDIA AI 完全集成。

黄仁勋提到:“Omniverse 旨在创建共享虚拟 3D 世界,就像尼尔・斯蒂芬森在 1990 年代早期的小说《雪崩》中所描述的科幻虚拟空间那样。”

去年 12 月,NVIDIA 推出了 Omniverse 公测版本。自公测版发布以来,建筑、游戏以及大型广告公司等合作伙伴都将 Omniverse 运用到其工作中。

从今年夏季开始,NVIDIA 将提供 Omniverse 企业授权许可。

黄仁勋还宣布 DRIVE Sim 将于今年夏季开放供业界使用。他提到 Omniverse 中的 DRIVE 数字孪生是能够与车队中每一位工程师和每一辆车互联的虚拟空间。

正如 Omniverse 能够构建汽车生产工厂的数字孪生一样,DRIVE Sim 也可用于创建自动驾驶汽车的数字孪生,并将其用于自动驾驶汽车的开发。

此外,NVIDIA 正与宝马合作打造一个完全采用数字化设计的未来工厂,自始至终在 Omniverse 中进行模拟,创建数字孪生,并让机器人与人类协同工作开展运营。

结语:NVIDIA 集齐“未来计算的三大支柱”

总体来看,NVIDIA 今日公布的多项成果与进展,为基于 Arm 的解决方案带来更多可能性,NVIDIA 这又打造硬件又优化软件的势头,更加彰显了其主导数据中心领域 AI 和 HPC 市场的决心,也为颇负盛名的 GTC 大会打出了响亮的头炮。

此次 GTC 线上大会共超过 10 万人注册参会,共计将举行 1600 多场技术演讲。在接下来的 5 天内,3 位图灵奖得主、12 位戈登 - 贝尔奖得主、10 位奥斯卡奖得主,以及来自微软、Arm、奥迪汽车、亚马逊、通用电气、微软等企业的领导人均将在此次科技盛会上发表演讲。

从最新一系列努力来看,NVIDIA 身上早已贴上远多于 GPU 巨头的更多标签,成为全栈计算平台。首款数据中心 CPU 的发布,也宣告着 NVIDIA 的异构计算布局再添新的关键元件,数据中心产品线集齐 CPU、GPU、DPU 这“未来计算的三大支柱”。

NVIDIA 正卯足了劲儿推进将 GPU 与 Arm 系 CPU 相结合的生态发展,这一切显然还只是开始。