近日,智元牽頭聯(lián)合清華大學(xué)、麥吉爾大學(xué)完成的研究成果MANSION成功入選CVPR2026。該成果在全球首次提出面向整棟建筑的語言驅(qū)動(dòng)多樓層3D場(chǎng)景生成框架,構(gòu)建大規(guī)模場(chǎng)景生態(tài)系統(tǒng),為具身智能落地復(fù)雜現(xiàn)實(shí)環(huán)境打造關(guān)鍵“數(shù)字試驗(yàn)場(chǎng)”。
當(dāng)機(jī)器人在醫(yī)院跨樓層運(yùn)送物資、在寫字樓完成多樓層配送、在家庭執(zhí)行跨空間家務(wù),這些長(zhǎng)時(shí)程、跨樓層任務(wù),正是具身智能走向現(xiàn)實(shí)的核心考驗(yàn)。當(dāng)前行業(yè)研究場(chǎng)景仍停留在“單層樣板間”,與真實(shí)世界需求存在顯著斷層。
近年來,機(jī)器人感知、操作、導(dǎo)航能力快速提升,但場(chǎng)景基準(zhǔn)嚴(yán)重滯后。真實(shí)掃描數(shù)據(jù)成本高、難編輯;現(xiàn)有合成環(huán)境多為單層布局,缺少樓梯、電梯、跨層連接等關(guān)鍵結(jié)構(gòu),無法支撐跨樓層、長(zhǎng)時(shí)程復(fù)雜任務(wù)訓(xùn)練。
場(chǎng)景研究停留在“樣板間時(shí)代”,已成為制約具身智能走向現(xiàn)實(shí)的核心瓶頸。構(gòu)建可交互、可配置、貼近真實(shí)的樓宇級(jí)研究平臺(tái),成為行業(yè)迫切需求。
為破解行業(yè)難題,該團(tuán)隊(duì)創(chuàng)新推出MANSION混合框架,融合多模態(tài)大模型與幾何求解器,實(shí)現(xiàn)從自然語言指令到完整多樓層3D建筑的端到端生成。
區(qū)別于簡(jiǎn)單房間拼接,MANSION從建筑全局邏輯出發(fā):先規(guī)劃整棟樓功能分區(qū)、垂直交通與整體風(fēng)格,再逐層生成拓?fù)浣Y(jié)構(gòu)與房間布局,通過幾何求解生成符合物理約束的平面圖,最終生成可直接在仿真器運(yùn)行的交互式3D場(chǎng)景??蚣軓脑搭^保證樓梯、電梯、跨層結(jié)構(gòu)對(duì)齊合理,生成建筑連貫可用。
基于MANSION,團(tuán)隊(duì)發(fā)布MansionWorld數(shù)據(jù)集:包含1000+棟多樓層建筑、2—10層、10000+房間,覆蓋住宅、辦公、醫(yī)院、學(xué)校、商超等全場(chǎng)景,支持導(dǎo)出至Blender、NVIDIAIsaacSim等平臺(tái),全面賦能全球研究。
公開資料顯示,CVPR是計(jì)算機(jī)視覺領(lǐng)域全球頂級(jí)會(huì)議,MANSION的入選,標(biāo)志著學(xué)術(shù)界對(duì)這項(xiàng)工作的創(chuàng)新性與價(jià)值的認(rèn)可。從單層到多層、從靜態(tài)到可編輯、從“仿真場(chǎng)景”到“真實(shí)任務(wù)世界”,MANSION不僅是技術(shù)突破,更重新定義具身智能研究方向,即讓技術(shù)扎根真實(shí)需求,服務(wù)產(chǎn)業(yè)落地。
智元機(jī)器人表示,未來將持續(xù)深耕具身智能核心技術(shù),開放MansionWorld數(shù)據(jù)集與生態(tài)能力,攜手全球產(chǎn)學(xué)研伙伴,推動(dòng)通用機(jī)器人走進(jìn)樓宇、家庭、醫(yī)院、商場(chǎng)等復(fù)雜現(xiàn)實(shí)場(chǎng)景,以持續(xù)創(chuàng)新打造中國(guó)機(jī)器人全球技術(shù)名片。