DoNews3月17日消息,在 3 月 17 日美國(guó)圣何塞舉行的GTC主題演講中,黃仁勛透露了英偉達(dá)如何利用 2025 年從 Groq 收購(gòu)的知識(shí)產(chǎn)權(quán)來(lái)擴(kuò)展 Rubin 的功能。
Rubin 平臺(tái)現(xiàn)在包含一款新的芯片——英偉達(dá) Groq 3 LPU,這是一款推理加速器,能夠增強(qiáng)這些系統(tǒng)以低延遲、大批量的方式交付令牌的能力,從而在人工智能模型的前沿實(shí)現(xiàn)高交互性。
與大多數(shù)依賴 HBM 作為工作內(nèi)存層的 AI 加速器不同,每個(gè) Groq 3 LPU 都集成了 500 MB 的 SRAM,這種內(nèi)存也用于 CPU 和 GPU 的超高速緩存。
雖然與每個(gè) Rubin GPU 上容量高達(dá) 288GB 的 HBM4 相比,這顯得微不足道,但這塊 SRAM 可提供 150 TB/s 的帶寬,遠(yuǎn)高于 HBM 的 22 TB/s。對(duì)于帶寬敏感型 AI 解碼操作而言,Groq 3 芯片帶寬的大幅提升為推理應(yīng)用帶來(lái)了誘人的優(yōu)勢(shì)。
反過來(lái),英偉達(dá)將構(gòu)建包含 256 個(gè) Groq 3 LPU 的 Groq 3 LPX 機(jī)架。該機(jī)架提供 128GB 的 SRAM 和 40 PB/s 的推理加速帶寬,并通過每個(gè)機(jī)架 640 TB/s 的專用擴(kuò)展接口將這些芯片連接起來(lái)。
英偉達(dá)將 Groq LPX 設(shè)想為 Rubin 的協(xié)處理器,據(jù)英偉達(dá)超大規(guī)模副總裁 Ian Buck 稱,它將提升“每個(gè)令牌上 AI 模型每一層”的解碼性能,并使 Rubin 能夠服務(wù)于人工智能的下一個(gè)前沿領(lǐng)域:多智能體系統(tǒng),這些系統(tǒng)需要在推理數(shù)萬(wàn)億個(gè)參數(shù)的模型的同時(shí),在數(shù)百萬(wàn)個(gè)token的上下文窗口中提供交互式性能。
隨著多智能體系統(tǒng)中的人工智能代理越來(lái)越多地與其他人工智能進(jìn)行交互,而非與查看聊天機(jī)器人窗口的人類進(jìn)行交流,對(duì)響應(yīng)速度的要求也隨之改變。
對(duì)人類而言看似合理的每秒token生成速率,對(duì)人工智能代理來(lái)說卻如同蝸牛爬行。在巴克所描述的未來(lái)多智能體系統(tǒng)中,Rubin GPU 和 Groq LPU 的組合將人工智能代理間通信的吞吐量從每秒 100 個(gè)token提升到每秒 1500 個(gè)token甚至更高。