蜜桃麻豆久久久男人天堂网,手机可以直接看av的网站

4月8日，智譜正式發(fā)布GLM-5.1，并宣布正式開源。

二級市場上，港股開盤后智譜大漲，一度漲近18%，股價觸及925港元，截至發(fā)稿，漲幅小幅回至13.48%。

GLM-5.1是全球第一個在真實工程任務(wù)中驗證了8小時持續(xù)工作能力的開源模型。有別于當前以分鐘級交互為主的模型，GLM-5.1能夠在單次任務(wù)中持續(xù)、自主地工作長達8小時。過程中模型自主規(guī)劃、執(zhí)行、測試，碰壁時主動切換策略，出錯后自行修復(fù)，最終交付完整的工程級成果。

據(jù)了解，GLM-5.1是智譜迄今智能度排名居前的旗艦?zāi)Ｐ?，也是目前全球領(lǐng)先的開源模型。GLM-5.1大幅提高了代碼能力，在完成長程任務(wù)方面提升尤為顯著。和此前分鐘級交互的模型不同，GLM-5.1能夠在一次任務(wù)中獨立、持續(xù)地工作超過8小時，期間自主規(guī)劃、執(zhí)行、自我進化，最終交付完整的工程級成果。

過去兩年，大模型行業(yè)用benchmark（基準測試）來衡量模型的智能程度。智譜指出，下一階段的衡量標準應(yīng)該是“能工作多久”，即模型在長程任務(wù)（Long-Horizon Task）中的表現(xiàn)，能獨立完成多長時間的人類任務(wù)。

這對模型提出了更深層次的挑戰(zhàn)。在長程任務(wù)中保持穩(wěn)定輸出，模型面對的不只是更大的代碼量，而是一連串復(fù)雜的工程決策點：主動跑benchmark（基準測試）、定位瓶頸、修改方案、再跑測試。模型需要像一個真正的工程師一樣，形成“實驗→分析→優(yōu)化”的完整閉環(huán)，而不是寫完一版代碼就停下來等人打分。

具體來看，用戶在涵蓋50個真實機器學(xué)習(xí)計算負載的KernelBench Level 3優(yōu)化基準上，讓GLM-5.1對每個負載獨立進行持續(xù)優(yōu)化。在超過24小時的不間斷迭代中，GLM-5.1自主完成了多輪編譯—測試—分析—重寫循環(huán)，最終取得3.6倍的幾何平均加速比，顯著高于超torch.compile max-autotune模式的1.49倍。以上體現(xiàn)出GLM-5.1展現(xiàn)的長時間工作和自進化能力，其從單純的“代碼生成器”進化為“主動的系統(tǒng)優(yōu)化器”。

這一結(jié)果亦表明，在GPU內(nèi)核優(yōu)化這一傳統(tǒng)上高度依賴專家經(jīng)驗的領(lǐng)域，AI模型已經(jīng)展現(xiàn)出從問題分析、方案設(shè)計到迭代調(diào)優(yōu)的端到端自主工作能力。在GPU以及更廣泛的高性能計算領(lǐng)域，長期制約工程效率的優(yōu)化瓶頸正在被AI逐步打破。

智譜方面強調(diào)，延長模型的“有效工作時長”是提升智能體能力的一個基礎(chǔ)維度。在這條路上仍然有顯著的技術(shù)挑戰(zhàn)：如何克服模型面對復(fù)雜任務(wù)的上下文焦慮、如何在數(shù)千次工具調(diào)用后保持執(zhí)行的一致性、如何更早地跳出局部最優(yōu)，以及更重要的是如何在沒有確定數(shù)值指標的任務(wù)上建立可靠的自我評估機制。

“GLM-5.1是我們在這個方向上邁出的一步，我們會持續(xù)推進?！敝亲V表示。

值得一提的是，智譜正式發(fā)布GLM-5.1之際，模型聚合平臺OpenRouter顯示，智譜GLM再度提價10%，調(diào)價后，GLM-5.1在Coding場景的緩存命中Token價格已接近Anthropic旗下Claude Sonnet4.6水平。

據(jù)悉，這是國產(chǎn)大模型首次在核心場景實現(xiàn)與海外頭部廠商的價格對齊，一年前，國產(chǎn)大模型廠商還在以降價90%以上爭奪市場份額。這一轉(zhuǎn)折表明國產(chǎn)大模型不再單純依靠大幅降價爭奪市場，而是以性能溢價錨定國際基準。

據(jù)悉，GLM-5.1在編程能力上繼續(xù)保持領(lǐng)先，在SWE-bench Pro、Terminal-Bench、NL2Repo三大代碼評測基準的綜合平均分中，取得全球第三、國產(chǎn)第一、開源第一；在最接近真實軟件開發(fā)的SWE-bench Pro基準測試中更是實現(xiàn)國產(chǎn)模型首次超越Opus 4.6，刷新全球最佳成績。