Groq 3 LPU发布 英伟达强化AI推理芯片与Vera Rubin平台布局
2026-03-17
随着人工智能大模型规模不断扩大,推理计算需求迅速增长,芯片厂商正在加快布局专门面向AI推理场景的硬件架构。近期,英伟达在相关技术活动中披露了Groq 3 LPU(语言处理单元)的更多细节。这款芯片是英伟达在去年12月以约200亿美元收购AI推理芯片初创公司Groq之后推出的首个重要产品,被视为其在AI推理领域的重要布局之一。根据规划,Groq 3 LPU预计将在今年第三季度开始正式出货,并将与英伟达的新一代AI计算平台形成协同。
Groq 3 LPU主要针对大型语言模型和生成式人工智能推理任务设计。与传统GPU相比,LPU更加专注于处理语言模型推理中的高效率计算需求。为了充分发挥这一芯片的性能,英伟达还推出了Groq 3 LPX机架系统。该机架能够容纳256颗LPU芯片,并配备128GB片上SRAM高速存储,同时提供高达每秒640TB的扩展互连带宽。这种设计使得系统在处理复杂推理任务时能够获得更高的数据吞吐能力,并减少数据在不同计算单元之间传输所带来的延迟。
根据官方介绍,当LPX机架与Vera Rubin NVL72系统联合部署时,整体AI推理能力将显著提升。在单位电力消耗下,每兆瓦的推理吞吐量最高可以提升35倍。这样的性能提升意味着,在同样的能源条件下,数据中心能够处理更多AI任务,从而降低整体运营成本。
此外,这种架构还被认为能够解锁更大规模模型的商业化潜力。例如,在万亿参数级别的大模型推理任务中,系统需要处理极其庞大的计算与数据传输需求。LPX系统通过增加片上内存容量和高速互连带宽,使模型能够在更大上下文窗口中进行推理。官方表示,该架构可以支持百万令牌级别的上下文推理,这对于复杂的对话系统、代码生成以及多模态应用等场景具有重要意义。
英伟达首席执行官黄仁勋在介绍相关技术时,将Groq 3 LPU与Vera Rubin GPU形容为“极端差异却相互统一”的两种处理器。他指出,GPU架构通常更强调高吞吐量计算能力,而LPU则更加注重低延迟处理。在AI系统中,这两种能力往往需要同时存在,因此通过不同类型处理器的协同,可以构建更高效的AI基础设施。
在LPX机架系统中,片上内存设计也是一个关键创新。相比传统架构,大量高速SRAM存储能够减少外部存储访问次数,从而提升推理效率。更大的可用内存空间还意味着模型在运行时能够加载更多参数和上下文信息,这对于大型语言模型尤其重要。
按照计划,Groq 3 LPX机架将在今年下半年与Vera Rubin平台一同上市。这意味着未来的数据中心在建设AI基础设施时,可以将高吞吐GPU计算与低延迟推理芯片进行组合部署,从而形成更加完整的AI工厂架构。
除了当前发布的产品外,英伟达还在大会上展示了下一代机架架构的原型。该架构代号为Kyber,是未来AI计算平台的重要技术方向。Kyber机架将传统水平排列的GPU计算托盘改为垂直布局,使144颗GPU能够在更高密度的空间中部署。通过这种设计,系统可以缩短芯片之间的物理距离,从而降低通信延迟并提高整体性能。
Kyber架构预计将应用于Vera Rubin平台的继任系统——Vera Rubin Ultra。根据英伟达的规划,这一新平台预计将在2027年推出,并进一步提升AI计算能力。通过更高密度的硬件设计以及改进的互连技术,下一代平台将能够支持规模更大的人工智能模型训练和推理任务。
整体来看,Groq 3 LPU与LPX机架系统的推出标志着AI推理芯片竞争进入新的阶段。随着生成式人工智能应用不断扩展,从数据中心到云计算平台,对高效率推理硬件的需求正在快速增长。英伟达通过整合GPU计算、LPU推理以及未来的Kyber架构,正在构建一个覆盖训练与推理的完整AI基础设施体系。这一战略也被视为其在未来人工智能计算市场中保持领先地位的重要举措。
