4月8日,智譜正式發(fā)布GLM-5.1,并宣布正式開源。
二級市場上,港股開盤后智譜大漲,一度漲近18%,股價觸及925港元,截至發(fā)稿,漲幅小幅回至13.48%。
GLM-5.1是全球第一個在真實工程任務(wù)中驗證了8小時持續(xù)工作能力的開源模型。有別于當前以分鐘級交互為主的模型,GLM-5.1能夠在單次任務(wù)中持續(xù)、自主地工作長達8小時。過程中模型自主規(guī)劃、執(zhí)行、測試,碰壁時主動切換策略,出錯后自行修復(fù),最終交付完整的工程級成果。
據(jù)了解,GLM-5.1是智譜迄今智能度排名居前的旗艦?zāi)P?,也是目前全球領(lǐng)先的開源模型。GLM-5.1大幅提高了代碼能力,在完成長程任務(wù)方面提升尤為顯著。和此前分鐘級交互的模型不同,GLM-5.1能夠在一次任務(wù)中獨立、持續(xù)地工作超過8小時,期間自主規(guī)劃、執(zhí)行、自我進化,最終交付完整的工程級成果。
過去兩年,大模型行業(yè)用benchmark(基準測試)來衡量模型的智能程度。智譜指出,下一階段的衡量標準應(yīng)該是“能工作多久”,即模型在長程任務(wù)(Long-Horizon Task)中的表現(xiàn),能獨立完成多長時間的人類任務(wù)。
這對模型提出了更深層次的挑戰(zhàn)。在長程任務(wù)中保持穩(wěn)定輸出,模型面對的不只是更大的代碼量,而是一連串復(fù)雜的工程決策點:主動跑benchmark(基準測試)、定位瓶頸、修改方案、再跑測試。模型需要像一個真正的工程師一樣,形成“實驗→分析→優(yōu)化”的完整閉環(huán),而不是寫完一版代碼就停下來等人打分。
具體來看,用戶在涵蓋50個真實機器學(xué)習(xí)計算負載的KernelBench Level 3優(yōu)化基準上,讓GLM-5.1對每個負載獨立進行持續(xù)優(yōu)化。在超過24小時的不間斷迭代中,GLM-5.1自主完成了多輪編譯—測試—分析—重寫循環(huán),最終取得3.6倍的幾何平均加速比,顯著高于超torch.compile max-autotune模式的1.49倍。以上體現(xiàn)出GLM-5.1展現(xiàn)的長時間工作和自進化能力,其從單純的“代碼生成器”進化為“主動的系統(tǒng)優(yōu)化器”。
這一結(jié)果亦表明,在GPU內(nèi)核優(yōu)化這一傳統(tǒng)上高度依賴專家經(jīng)驗的領(lǐng)域,AI模型已經(jīng)展現(xiàn)出從問題分析、方案設(shè)計到迭代調(diào)優(yōu)的端到端自主工作能力。在GPU以及更廣泛的高性能計算領(lǐng)域,長期制約工程效率的優(yōu)化瓶頸正在被AI逐步打破。
智譜方面強調(diào),延長模型的“有效工作時長”是提升智能體能力的一個基礎(chǔ)維度。在這條路上仍然有顯著的技術(shù)挑戰(zhàn):如何克服模型面對復(fù)雜任務(wù)的上下文焦慮、如何在數(shù)千次工具調(diào)用后保持執(zhí)行的一致性、如何更早地跳出局部最優(yōu),以及更重要的是如何在沒有確定數(shù)值指標的任務(wù)上建立可靠的自我評估機制。
“GLM-5.1是我們在這個方向上邁出的一步,我們會持續(xù)推進?!敝亲V表示。
值得一提的是,智譜正式發(fā)布GLM-5.1之際,模型聚合平臺OpenRouter顯示,智譜GLM再度提價10%,調(diào)價后,GLM-5.1在Coding場景的緩存命中Token價格已接近Anthropic旗下Claude Sonnet4.6水平。
據(jù)悉,這是國產(chǎn)大模型首次在核心場景實現(xiàn)與海外頭部廠商的價格對齊,一年前,國產(chǎn)大模型廠商還在以降價90%以上爭奪市場份額。這一轉(zhuǎn)折表明國產(chǎn)大模型不再單純依靠大幅降價爭奪市場,而是以性能溢價錨定國際基準。
據(jù)悉,GLM-5.1在編程能力上繼續(xù)保持領(lǐng)先,在SWE-bench Pro、Terminal-Bench、NL2Repo三大代碼評測基準的綜合平均分中,取得全球第三、國產(chǎn)第一、開源第一;在最接近真實軟件開發(fā)的SWE-bench Pro基準測試中更是實現(xiàn)國產(chǎn)模型首次超越Opus 4.6,刷新全球最佳成績。