美国当地时间1月5日,在超威半导体AMD CEO苏姿丰即将在CES开幕前夜主题演讲的几个小时前,英伟达CEO黄仁勋率先在不远的酒店举行新年的第一场演讲。
当天上午11点,距离英伟达发布会正式开始还有3个多小时,第一财经记者看到,在拉斯维加斯枫丹白露酒店的剧场中心外,观众已经开始排起了百米长队。
3000人的剧场座无虚席,黄仁勋一身闪亮的皮衣入场,发布了多款与物理AI有关的开源模型,同时首次详细披露了新一代芯片平台Rubin的性能数据。
此外,还有一系列机架产品、超节点产品发布。从新发布的产品看,英伟达不再只依赖芯片上晶体管密度提升,而是着力网络处理、低精度浮点运算、数据中心超节点等方面,来综合提升算力。黄仁勋还在演讲中展望了自动驾驶汽车加速到来的前景。
物理AI是黄仁勋演讲的重中之重。他说,英伟达已为物理AI工作了8年。现场演示视频中,来自黄仁勋的声音说:物理AI的ChatGPT时刻即将到来。
点赞中国DeepSeek
一开场,黄仁勋指出,计算机行业每10到15年就会经历一次平台变革,从大型机,PC,互联网到云计算和移动端,每次都会催生新的应用生态。但这次不同,AI和计算架构正在同时发生双重变革。
AI本身既是应用又是新平台,开发者将在AI之上构建更多应用。更关键的是软件开发范式被彻底颠覆:从编写代码转向训练模型,从预编译执行转向实时生成。这意味着整个计算机技术栈正在被重构,每一次交互都是全新的动态生成过程。
他透露,在英伟达内部,AI编程应用cursor已经彻底改变了公司进行软件编程的方式 。
黄仁勋指出,加速计算和人工智能正在彻底重塑计算领域的每个层面。这意味着过去十年价值约10万亿美元的计算基础设施正在进行现代化改造,每年还有数千亿美元的风投资金涌入这一领域。
更关键的是,全球100万亿美元的产业正在将研发预算从传统方法转向人工智能。当人们疑惑资金从何而来时,答案正是来自AI的现代化改造,以及研发预算的战略性转移。
他还总结,去年行业最重要的改变之一就是开源模型真正起飞。他专门提到中国的DeepSeek R1,称该模型让世界为之惊讶,并真正激活了这场全球性的开源运动,并且它们的性能越来越逼近领先的前沿模型。
在他身后的PPT上,展示了多个开源模型,其中包括三个中国开源模型,分别是Kimi K2、Qwen、DeepseekV3.2 。
自动驾驶汽车拐点
黄仁勋认为,AI发展的下一站是进入物理世界。英伟达已为此工作了8年。
核心挑战在于,如何让AI获得对物理世界的“常识”——物体恒存性、因果性、摩擦力、重力、惯性等对人类孩子而言自然的认知,对AI却完全陌生。
为此,英伟达建立一个系统,让AI学习物理世界的常识。这需要三台计算机,一台训练AI,一台用来模拟,一台在机器中运行。合成数据的方式则能以物理定律为基础,生成一些数据来训练AI。
“仿真是英伟达几乎所有物理AI工作的核心。”黄仁勋强调。这一多层次的技术栈,正推动AI从屏幕内的对话者,转变为能够在现实世界中执行任务的行动者。
一个最被看好的落地场景就是自动驾驶。
“我想我们都同意,从非自动驾驶汽车到自动驾驶汽车的转折点,可能就发生在这个时候。”黄仁勋表示,未来十年里,可以相当肯定,世界上很大一部分汽车将是自动驾驶或高度自动驾驶的。
黄仁勋表示,英伟达此前推出的Cosmos世界基础模型下载次数已达到数百万次。此次英伟达推出开源推理VLA模型Alpamayo,该模型系列包含开源AI模型、仿真工具和数据集,可加速基于推理的、安全的自动驾驶车辆开发,这是英伟达AV团队数千人的工作成果。
据介绍,英伟达DRIVE AV软件将在梅赛德斯奔驰车辆上使用,相关的AV自动驾驶汽车刚投入生产。第一辆AV自动驾驶汽车将在今年第一季度在美国上路,第二季度进入欧洲,第三或第四季度进入亚洲。英伟达还将继续更新版本,合作建造L4 Robotaxi的生态系统还在扩大。
工业制造是物理AI的另一核心战场。黄仁勋宣布了与西门子深化合作,将英伟达的物理AI模型、Omniverse仿真平台集成至西门子的工业软件组合,覆盖从芯片设计、工厂模拟到生产运营的全生命周期。
“我们正站在一场新工业革命的开端,”他表示。物理AI将赋能芯片设计、生产线自动化乃至整个数字孪生系统,实现“在计算机中设计、在计算机中制造”。
机器人方面,黄仁勋称,机器人系统的下一段征程是机器人,这些机器人会有不同的尺寸。一些与机器人相关的开源模型也在今日推出,包括Cosmos Transfer 2.5和Cosmos Predict 2.5世界模型、面向智能机器人的推理视觉语言模型(VLM)Isaac GR00T N1.6等,还有多个用于机器人开发的新开源框架。
Rubin芯片全面生产
英伟达每年更新一代的芯片平台,也披露了一些新信息。黄仁勋表示,Rubin平台包含六款新芯片,分别是Vera CPU、Rubin GPU、NVLink 6交换机芯片、ConnectX-9 Spectrum-X超级网卡芯片、BlueField-4 DPU、Spectrum-6以太网交换机芯片。
其中,Rubin GPU的NVFP4(4位浮点数格式)推理算力为50PFLOPS,是Blackwell的5倍;NVFP4训练算力是35PFLOPS,是Blackwell的3.5倍;HBM4内存带宽22TB/s,是Blackwell的2.8倍,晶体管数量3360亿个,是Blackwell的1.6倍。与Blackwell平台相比,Rubin平台通过软硬件协同设计,将推理token成本降低10倍,将训练MoE模型(专家模型)所需的GPU数量减少4倍。
“如果我们不做协同设计,即便在每年提升1.6倍晶体管数量的最好情况下,以及在每个晶体管性能提升一些,例如提升25%的情况下,也难以获得巨大的性能提升。”黄仁勋表示,这就是为什么要做另外一些事情,例如推出NVFP4,以便在可以损失精度的地方实现更高的吞吐量。这种协同设计,使新的芯片平台可以有比较大的性能提升。
其他新芯片中,ConnectX-9 Spectrum-X超级网卡芯片有230亿个晶体管,支持800 GB/s以太网;BlueField-4 DPU有1260个晶体管,网络能力、计算能力和内存带宽是上一代BlueField-3的2倍、6倍、3倍;Spectrum-X 以太网共封装光学器件有3520亿个晶体管,可支持102.4 Tb/s横向扩展交换基础设施。
黄仁勋表示,ConnectX-9 Spectrum-X改变了以太网被AI所使用的方式。此前英伟达推出Spectrum-X平台,可用于提高数据中心网络吞吐量,但随着人们与AI进行长时间对话,需要的记忆量快速增长,当大量AI同时运行,网络还是显得不够快。AI实验室和云服务提供商都遭受了大量网络流量带来的困扰。因此英伟达推出了推理上下文内存存储平台,作为一种新型的AI存储基础设施,并由BlueField-4 DPU提供支持,BlueField-4 DPU可为AI基础设施提供单一、可信的控制点,以便配置、隔离和运营大规模AI环境。
新一代NVLink72、新一代超节点DGX SuperPOD的性能数据也在此次演讲中公布。其中,NVLink72是一种机架级扩展系统,通过整合多个CPU、GPU等形成单一较高效率的加速单元。
据介绍,Rubin平台采用新的Vera Rubin NVL72。Vera Rubin NVL72的NVFP4推理和训练算力分别是3.6EFLOPS、2.5EFLOPS,分别是Blackwell的5倍和3.5倍。HBM4内存带宽1.6PB/s,是Blackwell的2.8倍,晶体管数量220万亿个,是Blckwell的1.7倍。黄仁勋表示,相比使用Blackwell NVL72,使用Rubin NVLink72去训练模型,其他条件相同的情况下,所需GPU数量是前者的1/4,思考输出的token数量则是10倍。此外,DGX SuperPOD由一个超节点整合8个Rubin NVL72机架中的576颗GPU,产品将于今年下半年上市。
英伟达透露,Rubin平台产品已全面投入生产。基于NVIDIA Rubin的产品则将于2026年下半年由合作伙伴推出。首批使用Rubin的云服务提供商包括AWS、谷歌云、微软等。Anthropic、OpenAI、xAI等AI实验室也将使用Rubin提供的算力。