一区二三区欧美大片|最新中文字幕九色婷婷在线|国产成人在线手机视频|丰臀巨乳无码在线观看|中文字幕 亚洲欧洲|人妻中文字幕在线播放

DeepSeek,最新發(fā)布!
來(lái)源:證券時(shí)報(bào)網(wǎng)2026-01-01 19:13

DeepSeek發(fā)布新論文,梁文鋒參與署名。

1月1日消息,DeepSeek發(fā)布了一篇新論文,提出了一種名為mHC(流形約束超連接)的新架構(gòu)。該研究旨在解決傳統(tǒng)超連接在大規(guī)模模型訓(xùn)練中的不穩(wěn)定性問(wèn)題,同時(shí)保持其顯著的性能增益。這篇論文的第一作者有三位:Zhenda Xie(解振達(dá))、Yixuan Wei(韋毅軒)、Huanqi Cao。值得注意的是,DeepSeek創(chuàng)始人梁文鋒也在作者名單中。

image.png

論文摘要指出,近來(lái),以超連接(HC)為代表的研究通過(guò)拓寬殘差流寬度和多樣化連接模式,拓展了過(guò)去十年間確立的普遍采用的殘差連接范式。雖然這些改進(jìn)帶來(lái)了顯著的性能提升,但連接模式的多樣化從根本上削弱了殘差連接固有的恒等映射特性,導(dǎo)致嚴(yán)重的訓(xùn)練不穩(wěn)定性與受限的可擴(kuò)展性,同時(shí)還造成了顯著的內(nèi)存訪問(wèn)開(kāi)銷。為了解決這些問(wèn)題,DeepSeek提出了流形約束超連接(mHC)——一種通用框架,能夠?qū)C的殘差連接空間投影到特定流形上,從而恢復(fù)恒等映射特性,并融合嚴(yán)格的基礎(chǔ)設(shè)施優(yōu)化以確保運(yùn)行效率。實(shí)證實(shí)驗(yàn)表明,mHC能夠有效支持大規(guī)模訓(xùn)練,在提供明顯性能提升的同時(shí)具備更優(yōu)的可擴(kuò)展性。DeepSeek預(yù)計(jì),mHC作為HC的一種靈活而實(shí)用的拓展,將有助于深化對(duì)拓?fù)浼軜?gòu)設(shè)計(jì)的理解,并為基座模型的演進(jìn)指明富有前景的方向。

內(nèi)部大規(guī)模訓(xùn)練結(jié)果顯示,mHC可有效支持規(guī)?;?xùn)練,當(dāng)擴(kuò)展率????=4時(shí),僅帶來(lái)6.7%的額外時(shí)間開(kāi)銷。

圖為殘差連接范式的示意圖。本圖對(duì)比了 (a) 標(biāo)準(zhǔn)殘差連接、(b) 超連接 以及 (c) 流形約束超連接的結(jié)構(gòu)設(shè)計(jì)。與無(wú)約束的HC不同,mHC通過(guò)將連接矩陣投影到一個(gè)約束流形上,專注于優(yōu)化殘差連接空間,從而確保訓(xùn)練的穩(wěn)定性。

論文在結(jié)論與展望部分指出,實(shí)證結(jié)果表明,mHC能有效恢復(fù)恒等映射特性,相較于傳統(tǒng)HC,能以更優(yōu)的可擴(kuò)展性實(shí)現(xiàn)穩(wěn)定的大規(guī)模訓(xùn)練。關(guān)鍵的是,通過(guò)高效的基礎(chǔ)設(shè)施級(jí)優(yōu)化,mHC以可忽略的計(jì)算開(kāi)銷實(shí)現(xiàn)了上述改進(jìn)。

論文還指出,作為HC范式的廣義拓展,mHC為未來(lái)研究開(kāi)辟了多個(gè)重要方向:雖然本研究采用雙隨機(jī)矩陣確保穩(wěn)定性,但該框架可兼容針對(duì)特定學(xué)習(xí)目標(biāo)設(shè)計(jì)的多種流形約束探索;預(yù)計(jì)對(duì)差異化幾何約束的深入研究可能催生能更好權(quán)衡可塑性—穩(wěn)定性關(guān)系的新方法。此外,DeepSeek希望mHC能重新激發(fā)學(xué)界對(duì)宏觀架構(gòu)設(shè)計(jì)的關(guān)注。通過(guò)深化對(duì)拓?fù)浣Y(jié)構(gòu)如何影響優(yōu)化與表征學(xué)習(xí)的理解,mHC將有助于突破現(xiàn)有局限,并可能為下一代基礎(chǔ)架構(gòu)的演進(jìn)指明新路徑。

近期,DeepSeek動(dòng)作不斷。2025年12月1日,DeepSeek同時(shí)發(fā)布兩個(gè)正式版模型:DeepSeek-V3.2和DeepSeek-V3.2-Speciale。

DeepSeek表示,DeepSeek-V3.2的目標(biāo)是平衡推理能力與輸出長(zhǎng)度,適合日常使用,例如問(wèn)答場(chǎng)景和通用Agent任務(wù)場(chǎng)景。在公開(kāi)的推理類Benchmark測(cè)試中,DeepSeek-V3.2達(dá)到了GPT-5的水平,僅略低于Gemini-3.0-Pro;相比Kimi-K2-Thinking,V3.2的輸出長(zhǎng)度大幅降低,顯著減少了計(jì)算開(kāi)銷與用戶等待時(shí)間。

DeepSeek-V3.2-Speciale是DeepSeek-V3.2的長(zhǎng)思考增強(qiáng)版,同時(shí)結(jié)合了DeepSeek-Math-V2的定理證明能力。該模型具備出色的指令跟隨、嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)證明與邏輯驗(yàn)證能力,在主流推理基準(zhǔn)測(cè)試上的性能表現(xiàn)媲美Gemini-3.0-Pro。

2025年9月29日,DeepSeek宣布,正式發(fā)布DeepSeek-V3.2-Exp模型。作為邁向新一代架構(gòu)的中間步驟,V3.2-Exp在V3.1-Terminus的基礎(chǔ)上引入了DeepSeek Sparse Attention(一種稀疏注意力機(jī)制),針對(duì)長(zhǎng)文本的訓(xùn)練和推理效率進(jìn)行了探索性的優(yōu)化和驗(yàn)證。同時(shí)API大幅度降價(jià)。在新的價(jià)格政策下,開(kāi)發(fā)者調(diào)用DeepSeek API的成本將降低50%以上。

2025年9月17日,在最新一期的國(guó)際權(quán)威期刊Nature(自然)中,DeepSeek-R1推理模型研究論文登上了封面。該論文由DeepSeek團(tuán)隊(duì)共同完成,梁文鋒擔(dān)任通訊作者,首次公開(kāi)了僅靠強(qiáng)化學(xué)習(xí)就能激發(fā)大模型推理能力的重要研究成果。這是中國(guó)大模型研究首次登上Nature封面,也是全球首個(gè)經(jīng)過(guò)完整同行評(píng)審并發(fā)表于權(quán)威期刊的主流大語(yǔ)言模型研究,標(biāo)志著中國(guó)AI技術(shù)在國(guó)際科學(xué)界獲得最高認(rèn)可。

Nature在其社論中評(píng)價(jià)道:“幾乎所有主流的大模型都還沒(méi)有經(jīng)過(guò)獨(dú)立同行評(píng)審,這一空白終于被DeepSeek打破?!?/p>

綜合自:DeepSeek論文、證券時(shí)報(bào)此前報(bào)道

校對(duì):王錦程

責(zé)任編輯: 王智佳
聲明:證券時(shí)報(bào)力求信息真實(shí)、準(zhǔn)確,文章提及內(nèi)容僅供參考,不構(gòu)成實(shí)質(zhì)性投資建議,據(jù)此操作風(fēng)險(xiǎn)自擔(dān)
下載“證券時(shí)報(bào)”官方APP,或關(guān)注官方微信公眾號(hào),即可隨時(shí)了解股市動(dòng)態(tài),洞察政策信息,把握財(cái)富機(jī)會(huì)。
網(wǎng)友評(píng)論
登錄后可以發(fā)言
發(fā)送
網(wǎng)友評(píng)論僅供其表達(dá)個(gè)人看法,并不表明證券時(shí)報(bào)立場(chǎng)
暫無(wú)評(píng)論
為你推薦
時(shí)報(bào)熱榜
換一換
    熱點(diǎn)視頻
    換一換