国产av不卡二区三区,亚洲天堂饮尿失禁网站

DeepSeek發(fā)布新論文，梁文鋒參與署名。

1月1日消息，DeepSeek發(fā)布了一篇新論文，提出了一種名為mHC（流形約束超連接）的新架構(gòu)。該研究旨在解決傳統(tǒng)超連接在大規(guī)模模型訓(xùn)練中的不穩(wěn)定性問(wèn)題，同時(shí)保持其顯著的性能增益。這篇論文的第一作者有三位：Zhenda Xie（解振達(dá)）、Yixuan Wei（韋毅軒）、Huanqi Cao。值得注意的是，DeepSeek創(chuàng)始人梁文鋒也在作者名單中。

論文摘要指出，近來(lái)，以超連接（HC）為代表的研究通過(guò)拓寬殘差流寬度和多樣化連接模式，拓展了過(guò)去十年間確立的普遍采用的殘差連接范式。雖然這些改進(jìn)帶來(lái)了顯著的性能提升，但連接模式的多樣化從根本上削弱了殘差連接固有的恒等映射特性，導(dǎo)致嚴(yán)重的訓(xùn)練不穩(wěn)定性與受限的可擴(kuò)展性，同時(shí)還造成了顯著的內(nèi)存訪問(wèn)開(kāi)銷。為了解決這些問(wèn)題，DeepSeek提出了流形約束超連接（mHC）——一種通用框架，能夠?qū)C的殘差連接空間投影到特定流形上，從而恢復(fù)恒等映射特性，并融合嚴(yán)格的基礎(chǔ)設(shè)施優(yōu)化以確保運(yùn)行效率。實(shí)證實(shí)驗(yàn)表明，mHC能夠有效支持大規(guī)模訓(xùn)練，在提供明顯性能提升的同時(shí)具備更優(yōu)的可擴(kuò)展性。DeepSeek預(yù)計(jì)，mHC作為HC的一種靈活而實(shí)用的拓展，將有助于深化對(duì)拓?fù)浼軜?gòu)設(shè)計(jì)的理解，并為基座模型的演進(jìn)指明富有前景的方向。

內(nèi)部大規(guī)模訓(xùn)練結(jié)果顯示，mHC可有效支持規(guī)?；?xùn)練，當(dāng)擴(kuò)展率????=4時(shí)，僅帶來(lái)6.7%的額外時(shí)間開(kāi)銷。

圖為殘差連接范式的示意圖。本圖對(duì)比了 (a) 標(biāo)準(zhǔn)殘差連接、(b) 超連接以及 (c) 流形約束超連接的結(jié)構(gòu)設(shè)計(jì)。與無(wú)約束的HC不同，mHC通過(guò)將連接矩陣投影到一個(gè)約束流形上，專注于優(yōu)化殘差連接空間，從而確保訓(xùn)練的穩(wěn)定性。

論文在結(jié)論與展望部分指出，實(shí)證結(jié)果表明，mHC能有效恢復(fù)恒等映射特性，相較于傳統(tǒng)HC，能以更優(yōu)的可擴(kuò)展性實(shí)現(xiàn)穩(wěn)定的大規(guī)模訓(xùn)練。關(guān)鍵的是，通過(guò)高效的基礎(chǔ)設(shè)施級(jí)優(yōu)化，mHC以可忽略的計(jì)算開(kāi)銷實(shí)現(xiàn)了上述改進(jìn)。

論文還指出，作為HC范式的廣義拓展，mHC為未來(lái)研究開(kāi)辟了多個(gè)重要方向：雖然本研究采用雙隨機(jī)矩陣確保穩(wěn)定性，但該框架可兼容針對(duì)特定學(xué)習(xí)目標(biāo)設(shè)計(jì)的多種流形約束探索；預(yù)計(jì)對(duì)差異化幾何約束的深入研究可能催生能更好權(quán)衡可塑性—穩(wěn)定性關(guān)系的新方法。此外，DeepSeek希望mHC能重新激發(fā)學(xué)界對(duì)宏觀架構(gòu)設(shè)計(jì)的關(guān)注。通過(guò)深化對(duì)拓?fù)浣Y(jié)構(gòu)如何影響優(yōu)化與表征學(xué)習(xí)的理解，mHC將有助于突破現(xiàn)有局限，并可能為下一代基礎(chǔ)架構(gòu)的演進(jìn)指明新路徑。

近期，DeepSeek動(dòng)作不斷。2025年12月1日，DeepSeek同時(shí)發(fā)布兩個(gè)正式版模型：DeepSeek-V3.2和DeepSeek-V3.2-Speciale。

DeepSeek表示，DeepSeek-V3.2的目標(biāo)是平衡推理能力與輸出長(zhǎng)度，適合日常使用，例如問(wèn)答場(chǎng)景和通用Agent任務(wù)場(chǎng)景。在公開(kāi)的推理類Benchmark測(cè)試中，DeepSeek-V3.2達(dá)到了GPT-5的水平，僅略低于Gemini-3.0-Pro；相比Kimi-K2-Thinking，V3.2的輸出長(zhǎng)度大幅降低，顯著減少了計(jì)算開(kāi)銷與用戶等待時(shí)間。

DeepSeek-V3.2-Speciale是DeepSeek-V3.2的長(zhǎng)思考增強(qiáng)版，同時(shí)結(jié)合了DeepSeek-Math-V2的定理證明能力。該模型具備出色的指令跟隨、嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)證明與邏輯驗(yàn)證能力，在主流推理基準(zhǔn)測(cè)試上的性能表現(xiàn)媲美Gemini-3.0-Pro。

2025年9月29日，DeepSeek宣布，正式發(fā)布DeepSeek-V3.2-Exp模型。作為邁向新一代架構(gòu)的中間步驟，V3.2-Exp在V3.1-Terminus的基礎(chǔ)上引入了DeepSeek Sparse Attention（一種稀疏注意力機(jī)制），針對(duì)長(zhǎng)文本的訓(xùn)練和推理效率進(jìn)行了探索性的優(yōu)化和驗(yàn)證。同時(shí)API大幅度降價(jià)。在新的價(jià)格政策下，開(kāi)發(fā)者調(diào)用DeepSeek API的成本將降低50%以上。

2025年9月17日，在最新一期的國(guó)際權(quán)威期刊Nature（自然）中，DeepSeek-R1推理模型研究論文登上了封面。該論文由DeepSeek團(tuán)隊(duì)共同完成，梁文鋒擔(dān)任通訊作者，首次公開(kāi)了僅靠強(qiáng)化學(xué)習(xí)就能激發(fā)大模型推理能力的重要研究成果。這是中國(guó)大模型研究首次登上Nature封面，也是全球首個(gè)經(jīng)過(guò)完整同行評(píng)審并發(fā)表于權(quán)威期刊的主流大語(yǔ)言模型研究，標(biāo)志著中國(guó)AI技術(shù)在國(guó)際科學(xué)界獲得最高認(rèn)可。

Nature在其社論中評(píng)價(jià)道：“幾乎所有主流的大模型都還沒(méi)有經(jīng)過(guò)獨(dú)立同行評(píng)審，這一空白終于被DeepSeek打破?！?/p>

綜合自：DeepSeek論文、證券時(shí)報(bào)此前報(bào)道

校對(duì)：王錦程

責(zé)任編輯：王智佳

DeepSeek

梁文鋒

MHC

聲明：證券時(shí)報(bào)力求信息真實(shí)、準(zhǔn)確，文章提及內(nèi)容僅供參考，不構(gòu)成實(shí)質(zhì)性投資建議，據(jù)此操作風(fēng)險(xiǎn)自擔(dān)

下載“證券時(shí)報(bào)”官方APP，或關(guān)注官方微信公眾號(hào)，即可隨時(shí)了解股市動(dòng)態(tài)，洞察政策信息，把握財(cái)富機(jī)會(huì)。

網(wǎng)友評(píng)論

登錄后可以發(fā)言

發(fā)送

網(wǎng)友評(píng)論僅供其表達(dá)個(gè)人看法，并不表明證券時(shí)報(bào)立場(chǎng)

暫無(wú)評(píng)論

為你推薦

002475，緊急澄清！

證券時(shí)報(bào) 2026-01-03 22:25
大跳水！特斯拉，痛失“銷冠”

證券時(shí)報(bào) 陳霞昌 2026-01-03 13:55
多家金融機(jī)構(gòu)，獲新資質(zhì)！

券商中國(guó) 劉藝文 2026-01-03 17:05
茅臺(tái)玩不起？?jī)H過(guò)3天，i茅臺(tái)飛天每日購(gòu)酒上限砍半！

e公司唐強(qiáng) 2026-01-03 22:25
芯片賽道大消息！百度分拆昆侖芯上市

創(chuàng)業(yè)資本匯陳霞昌 2026-01-03 20:04
央行信用修復(fù)新政落地！網(wǎng)友曬圖：我的貸款逾期記錄“清零”了

證券時(shí)報(bào) 2026-01-03 17:03

一区二三区欧美大片|最新中文字幕九色婷婷在线|国产成人在线手机视频|丰臀巨乳无码在线观看|中文字幕 亚洲欧洲|人妻中文字幕在线播放

一区二三区欧美大片|最新中文字幕九色婷婷在线|国产成人在线手机视频|丰臀巨乳无码在线观看|中文字幕亚洲欧洲|人妻中文字幕在线播放