
證券時(shí)報(bào)記者 陳雨康
今年興起的“龍蝦”(OpenClaw)熱潮展現(xiàn)出人工智能(AI)無(wú)所不能的一面,它可以抓數(shù)據(jù)、寫(xiě)代碼、生成大片、接管計(jì)算機(jī)。然而一旦脫離屏幕,機(jī)器人面對(duì)現(xiàn)實(shí)世界時(shí)宛如稚嫩的孩童,僅能完成固定、流程化的動(dòng)作,“莫拉維克悖論”橫亙?cè)谌祟?lèi)通往通用人工智能(AGI)的道路上。
世界模型則是破解這一困境的密鑰,它可讓機(jī)器人真正理解物理世界的規(guī)律,擁有思考和推理能力,是實(shí)現(xiàn)AGI的關(guān)鍵路徑。今年,圖靈獎(jiǎng)得主楊立昆創(chuàng)辦世界模型公司,“AI教母”李飛飛的世界模型公司獲巨額融資,國(guó)內(nèi)出現(xiàn)超20起世界模型相關(guān)融資事件,業(yè)內(nèi)直呼世界模型或是AI下一個(gè)10年的重要風(fēng)口。
多名AI領(lǐng)域的企業(yè)家對(duì)證券時(shí)報(bào)記者表示,世界模型能讓AI真正實(shí)現(xiàn)對(duì)物理世界的理解和交互,是實(shí)現(xiàn)AGI的必經(jīng)之路。當(dāng)下世界模型發(fā)展仍處早期,誰(shuí)能率先撬動(dòng)物理交互數(shù)據(jù)飛輪,誰(shuí)就能搶占發(fā)展先機(jī)。
AI需在現(xiàn)實(shí)世界落地生根
OpenAI近日宣布關(guān)閉視頻生成應(yīng)用Sora,并調(diào)整戰(zhàn)略方向:此后Sora團(tuán)隊(duì)將專(zhuān)注于世界模型研究。
放棄AI生成現(xiàn)實(shí),轉(zhuǎn)而讓AI理解現(xiàn)實(shí),OpenAI的決定映射出行業(yè)的下一個(gè)戰(zhàn)略高地:世界模型。根據(jù)復(fù)旦大學(xué)等高校的闡釋?zhuān)澜缒P屯ㄟ^(guò)從感官數(shù)據(jù)中學(xué)習(xí)和預(yù)測(cè)運(yùn)動(dòng)、力以及空間關(guān)系等動(dòng)態(tài)特性,來(lái)理解物理世界中事物的性質(zhì)、運(yùn)行規(guī)律和空間特性。借助世界模型,AI從認(rèn)知、識(shí)別轉(zhuǎn)向理解、推理,是具身智能和客觀環(huán)境自主高效交互的基礎(chǔ)。
復(fù)旦大學(xué)管理學(xué)院院長(zhǎng)助理、信息管理與商業(yè)智能系系主任張誠(chéng)在接受證券時(shí)報(bào)記者采訪時(shí)表示,AI“思考”的本質(zhì)是基于數(shù)據(jù)統(tǒng)計(jì)的概率預(yù)測(cè),缺乏真正情感和對(duì)世界的深層認(rèn)知。問(wèn)題的根源在于模型主要建立在語(yǔ)言數(shù)據(jù)之上,當(dāng)模型只通過(guò)文本學(xué)習(xí)世界時(shí),其認(rèn)知邊界也被限制在語(yǔ)言所能表達(dá)的范圍內(nèi);而世界模型能讓系統(tǒng)通過(guò)多模態(tài)信息,包括視覺(jué)、聽(tīng)覺(jué)、空間動(dòng)態(tài)等去刻畫(huà)環(huán)境運(yùn)行的規(guī)律。
畢馬威中國(guó)汽車(chē)行業(yè)華東及華西區(qū)審計(jì)主管合伙人苗楨在接受證券時(shí)報(bào)記者采訪時(shí)表示,世界模型的核心價(jià)值,在于通過(guò)構(gòu)建符合物理規(guī)則的虛擬平行世界,通過(guò)其環(huán)境空間理解、長(zhǎng)時(shí)序推演預(yù)測(cè)輸出決策,實(shí)現(xiàn)場(chǎng)景推演、因果預(yù)測(cè)與長(zhǎng)尾場(chǎng)景覆蓋,彌補(bǔ)純數(shù)據(jù)驅(qū)動(dòng)模型對(duì)極端長(zhǎng)尾場(chǎng)景泛化能力不足的短板。
若沒(méi)有世界模型,機(jī)器人的上限很可能是被動(dòng)執(zhí)行代碼的高級(jí)自動(dòng)化工具??嵬劭萍紕?chuàng)始人兼CEO何弢向證券時(shí)報(bào)記者列舉了公司保潔機(jī)器人在城市場(chǎng)景落地中的實(shí)際難題:機(jī)器人遇到標(biāo)準(zhǔn)墻壁時(shí)可以避開(kāi),但當(dāng)接近折斷的樹(shù)枝或不規(guī)則堆積物時(shí),由于預(yù)設(shè)代碼中沒(méi)有這類(lèi)物體的定義,系統(tǒng)會(huì)判定為不可通行障礙,導(dǎo)致原地停工。“若有世界模型,系統(tǒng)就能基于材質(zhì)、物理特性進(jìn)行預(yù)測(cè),規(guī)劃繞行軌跡,甚至在安全前提下輕推物體通過(guò),保持連續(xù)作業(yè)。”
世界模型融資盛宴正酣
基于世界模型的前景和潛力,國(guó)內(nèi)外資本已大量押注。今年2月,李飛飛創(chuàng)立的世界模型企業(yè)完成10億美元融資;不久后,楊立昆的世界模型初創(chuàng)公司AMI也完成逾10億美元融資。
國(guó)內(nèi)方面,企查查提供的數(shù)據(jù)顯示,今年以來(lái),國(guó)內(nèi)發(fā)生25起世界模型相關(guān)的融資事件,融資總額超22億元。其中,極佳視界3月宣告完成10億元的Pre-B輪融資,并在同月宣布其具身世界模型GigaWorld-1登上WorldArena榜首。
“世界模型的‘融資熱’,表明行業(yè)共識(shí)正在形成:AI從數(shù)字世界走向物理世界是下一個(gè)主戰(zhàn)場(chǎng)。”擎朗智能相關(guān)負(fù)責(zé)人在接受證券時(shí)報(bào)記者采訪時(shí)表示,過(guò)去10年,AI能力的躍遷主要發(fā)生在感知和語(yǔ)言層面。但要真正進(jìn)入物理世界,就必須理解物理世界的運(yùn)行規(guī)律:空間關(guān)系、因果關(guān)系和物理屬性。
上述負(fù)責(zé)人表示,資本押注世界模型,本質(zhì)上是押注物理AI這個(gè)萬(wàn)億級(jí)賽道。未來(lái)技術(shù)路線有望從大一統(tǒng)走向?qū)I(yè)化分工,世界模型負(fù)責(zé)物理直覺(jué),視覺(jué)—語(yǔ)言—?jiǎng)幼髂P停╒LA)負(fù)責(zé)語(yǔ)義理解,底層控制負(fù)責(zé)精準(zhǔn)執(zhí)行。分工明確,資本也能找到更精準(zhǔn)的切入點(diǎn)。
何弢對(duì)證券時(shí)報(bào)記者表示,2026年以來(lái)針對(duì)世界模型的密集高額融資,表明資本和技術(shù)界一致認(rèn)定“大語(yǔ)言模型的下一站是物理世界”,世界模型是通往物理AI的必經(jīng)之路,屬于具身智能的“ChatGPT時(shí)刻”即將來(lái)臨。在未來(lái)的世界模型行業(yè)競(jìng)爭(zhēng)中,掌控規(guī)?;锢頂?shù)據(jù)入口并實(shí)現(xiàn)商業(yè)閉環(huán)的企業(yè),才能主導(dǎo)這一輪技術(shù)革命。
可以讓機(jī)器人變得更像“人”
過(guò)去幾年,以大語(yǔ)言模型為基礎(chǔ)的數(shù)字AGI重塑了數(shù)字世界。全球GDP中約有一半在物理世界,物理AGI仍有不可限量的增長(zhǎng)空間。而物理AGI騰飛的基礎(chǔ),在于世界模型。基于此前在端到端模型和垂類(lèi)模型的技術(shù)積累和數(shù)據(jù)沉淀,今年多家AI企業(yè)將業(yè)務(wù)支點(diǎn)切入到世界模型。
酷哇科技2月發(fā)布了Coowa WAM 2.0通用世界模型。何弢對(duì)記者表示,這一世界模型的推出,是為了解決具身智能行業(yè)普遍存在的“泛化能力缺失”和“產(chǎn)業(yè)發(fā)展上限”問(wèn)題。過(guò)去,行業(yè)多依賴(lài)規(guī)則驅(qū)動(dòng)或單一場(chǎng)景的端到端模型,WAM 2.0模型則賦予了多形態(tài)物理AI實(shí)體對(duì)復(fù)雜物理世界的常識(shí)性理解、幾何推演和因果預(yù)測(cè)能力。
同大語(yǔ)言模型依賴(lài)互聯(lián)網(wǎng)文本的數(shù)據(jù)飛輪一樣,世界模型迭代也有賴(lài)于物理終端在真實(shí)世界產(chǎn)生的高價(jià)值交互數(shù)據(jù)。何弢說(shuō),公司計(jì)劃將搭載WAM 2.0模型的城市管家類(lèi)機(jī)器人直接推向城市街巷進(jìn)行常態(tài)化作業(yè),在創(chuàng)造商業(yè)收益的同時(shí),不斷回流高質(zhì)量物理世界數(shù)據(jù),反哺模型迭代。
擎朗智能是服務(wù)機(jī)器人賽道的領(lǐng)軍企業(yè),其商用服務(wù)機(jī)器人出貨量占比全球第一。該公司去年發(fā)布了全球首個(gè)針對(duì)服務(wù)行業(yè)的VLA模型KOM2.0。
擎朗智能有關(guān)負(fù)責(zé)人近日對(duì)證券時(shí)報(bào)記者透露,公司正積極探索將VLA模型同世界模型融合。VLA模型的短板在于缺乏對(duì)物理世界的因果理解,難以預(yù)判動(dòng)作帶來(lái)的物理后果。世界模型是通向“少樣本學(xué)習(xí)”和“零樣本泛化”的關(guān)鍵,它能讓機(jī)器人在“腦?!敝心M動(dòng)作后果,選擇最優(yōu)策略。
“世界模型還是實(shí)現(xiàn)人機(jī)安全交互的基礎(chǔ)。在服務(wù)場(chǎng)景中,機(jī)器人需要預(yù)判行動(dòng)后果,比如遞物時(shí)力度是否過(guò)猛等。沒(méi)有世界模型,機(jī)器人就無(wú)法真正理解這些因果鏈條?!鄙鲜鲐?fù)責(zé)人提到,“今年公司將在部分場(chǎng)景中試點(diǎn)引入世界模型的預(yù)測(cè)能力,提升機(jī)器人的環(huán)境適應(yīng)性和安全性?!?/p>
聚焦工業(yè)場(chǎng)景、研發(fā)“藍(lán)領(lǐng)機(jī)器人”的上海開(kāi)普勒機(jī)器人有限公司(以下簡(jiǎn)稱(chēng)“開(kāi)普勒”)亦開(kāi)始構(gòu)建工業(yè)世界模型和家庭世界模型。開(kāi)普勒首席技術(shù)官席奧在接受證券時(shí)報(bào)記者采訪時(shí)表示,公司計(jì)劃先將工業(yè)世界模型與工業(yè)VLA融合,并通過(guò)小規(guī)模POC(可行性驗(yàn)證)驗(yàn)證其效果,為未來(lái)大規(guī)模落地打下基礎(chǔ)。
數(shù)據(jù)壁壘或決定世界模型競(jìng)爭(zhēng)力
過(guò)去一年被稱(chēng)為具身智能元年,機(jī)器人“花拳繡腿”的同時(shí),也暴露出不夠聰明的痛點(diǎn)。隨著越來(lái)越多的企業(yè)朝世界模型展開(kāi)布局,有業(yè)內(nèi)人士直言,2026年或是世界模型為AGI奠定基礎(chǔ)的元年。英偉達(dá)機(jī)器人主管Jim Fan今年曾發(fā)文稱(chēng),2026年將成為大世界模型真正為機(jī)器人以及更廣義的多模態(tài)AI奠定基礎(chǔ)的第一年。
盡管前景預(yù)期廣闊且演進(jìn)速度可觀,世界模型賽道仍處于早期階段,業(yè)內(nèi)尚未形成統(tǒng)一且成熟的技術(shù)范式。更令業(yè)界焦慮的是,高質(zhì)量的物理世界數(shù)據(jù)稀缺,極大地制約世界模型普及。
何弢表示,世界模型的演進(jìn)將高度綁定具身智能產(chǎn)業(yè)三大階段:從當(dāng)前的垂類(lèi)智能化轉(zhuǎn)型,到未來(lái)兩年的場(chǎng)景化協(xié)同作業(yè),再到三至五年后的家庭場(chǎng)景普及。目前行業(yè)正處于從第一階段向第二階段跨越的關(guān)鍵期?,F(xiàn)階段主要挑戰(zhàn)在于高質(zhì)量、多模態(tài)的真實(shí)物理世界交互數(shù)據(jù)極度匱乏。
“操作數(shù)據(jù)不能完全依賴(lài)互聯(lián)網(wǎng)視頻數(shù)據(jù)或計(jì)算機(jī)仿真數(shù)據(jù)。換句話說(shuō),溫室里長(zhǎng)不出真正的世界模型,純靠云端仿真數(shù)據(jù)無(wú)法解決物理世界無(wú)盡的長(zhǎng)尾問(wèn)題。”何弢說(shuō)。
擎朗智能有關(guān)負(fù)責(zé)人對(duì)記者表示,短期內(nèi),VLA結(jié)合強(qiáng)化學(xué)習(xí)已能解決大量實(shí)際問(wèn)題。但從具身智能發(fā)展的中期來(lái)看,隨著機(jī)器人進(jìn)入更開(kāi)放、更復(fù)雜的環(huán)境(如家庭、公共場(chǎng)所),缺乏世界模型的系統(tǒng)會(huì)遭遇泛化瓶頸。屆時(shí)具備世界模型能力的玩家將形成代際優(yōu)勢(shì)。從長(zhǎng)期來(lái)看,世界模型將是通用機(jī)器人的必備能力。
“數(shù)據(jù)壁壘正在形成,先發(fā)優(yōu)勢(shì)至關(guān)重要。高質(zhì)量物理數(shù)據(jù)的獲取與規(guī)范使用是核心挑戰(zhàn)。”上述負(fù)責(zé)人強(qiáng)調(diào),資本押注的是企業(yè)能否跑通“數(shù)據(jù)—模型—場(chǎng)景”飛輪。若企業(yè)能率先在真實(shí)場(chǎng)景中完成規(guī)?;渴穑涂梢孕纬上劝l(fā)優(yōu)勢(shì)。