DoNews4月8日消息,智譜今日正式發(fā)布新一代開(kāi)源模型 GLM-5.1,官方稱這是目前全球最強(qiáng)的開(kāi)源模型。據(jù)官方介紹,其是唯一達(dá)到 8 小時(shí)級(jí)持續(xù)工作的開(kāi)源模型,在最接近真實(shí)軟件開(kāi)發(fā)的 SWE-bench Pro 基準(zhǔn)測(cè)試中,GLM-5.1 實(shí)現(xiàn)國(guó)產(chǎn)模型首次超越 Opus 4.6。
OpenRouter 顯示,伴隨此次發(fā)布,智譜 GLM 再度提價(jià) 10%。調(diào)價(jià)后,GLM-5.1 在 Coding 場(chǎng)景的緩存命中 Token 價(jià)格已接近 Anthropic 旗下 Claude Sonnet4.6 水平。這是國(guó)產(chǎn)大模型首次在核心場(chǎng)景實(shí)現(xiàn)與海外頭部廠商的價(jià)格對(duì)齊。
官方詳細(xì)介紹如下:
從 3 分鐘的 Vibe Coding(氛圍編程)到 30 分鐘的 Agentic Engineering(智能體工程),再到本次我們帶來(lái)的 8 小時(shí) Long-Horizon Task(長(zhǎng)程任務(wù)),GLM-5.1 再次取得突破。

GLM-5.1 是我們迄今最智能的旗艦?zāi)P停彩悄壳叭蜃顝?qiáng)的開(kāi)源模型。GLM-5.1 大大提高了代碼能力,在完成長(zhǎng)程任務(wù)方面提升尤為顯著。和此前分鐘級(jí)交互的模型不同,它能夠在一次任務(wù)中獨(dú)立、持續(xù)工作超過(guò) 8 小時(shí),期間自主規(guī)劃、執(zhí)行、自我進(jìn)化,最終交付完整的工程級(jí)成果。

代碼能力是模型智能水平進(jìn)一步提升的關(guān)鍵。下圖是業(yè)內(nèi)最具代表性的三個(gè)代碼評(píng)測(cè)基準(zhǔn)的平均結(jié)果,包括衡量模型專業(yè)軟件開(kāi)發(fā)工作的 SWE-Bench Pro、操作命令行解決問(wèn)題的 Terminal-Bench 2.0、從零構(gòu)建完整代碼倉(cāng)庫(kù)的 NL2Repo,GLM-5.1 取得全球模型第三、國(guó)產(chǎn)模型第一、開(kāi)源模型第一。

在最接近真實(shí)軟件開(kāi)發(fā)的 SWE-bench Pro 基準(zhǔn)測(cè)試中,GLM-5.1 刷新全球最佳成績(jī),超過(guò) GPT-5.4、Claude Opus 4.6。SWE-Bench Pro 要求模型在真實(shí) GitHub 倉(cāng)庫(kù)中定位并修復(fù)高難度工程 Bug,是衡量模型能否勝任專業(yè)軟件開(kāi)發(fā)的最硬指標(biāo)。