如何讓具身智能成為真正的物理AI?答案或許是世界模型。
在前幾天的GTC大會上,談及物理AI,黃仁勛分享了如何利用Omniverse數(shù)字孿生技術(shù)訓(xùn)練、打造機(jī)器人。這一想法可以追溯到今年初,當(dāng)時(shí)他在CES 2025主題演講中提到,世界模型是實(shí)現(xiàn)物理人工智能的關(guān)鍵,能夠幫助AI理解物理世界的規(guī)律,從而實(shí)現(xiàn)機(jī)器人、自動駕駛汽車等設(shè)備的自主操控。
基于相似的理念,10月26日,特斯拉發(fā)布了自研神經(jīng)網(wǎng)絡(luò)世界模型(World Simulator),并附上多個(gè)演示視頻。其中一條視頻以第一人稱視角記錄了機(jī)器人在3D數(shù)據(jù)合成環(huán)境中四處行走的過程。特斯拉表示,Optimus正在神經(jīng)網(wǎng)絡(luò)世界模型中進(jìn)行訓(xùn)練,其能夠在100%仿真環(huán)境下學(xué)習(xí),將模擬訓(xùn)練的策略部署到真實(shí)世界。
(資料圖)
什么是世界模型?區(qū)別于寬泛意義上的AI模型,世界模型并非通過可獲取的語言、圖像及視頻來理解現(xiàn)實(shí)場景,而是通過大量數(shù)據(jù)學(xué)習(xí)現(xiàn)實(shí)世界的物理規(guī)則,實(shí)施因果推理,從而預(yù)測、生成合乎現(xiàn)實(shí)規(guī)律的未來。其終極目的在于,通過訓(xùn)練讓人工智能適應(yīng)現(xiàn)實(shí)世界而非理論世界,讓AI進(jìn)化為物理AI。
正如圖靈獎得主、Meta首席AI科學(xué)家楊立昆所言:“我們不是在造會說話的機(jī)器人,而是在造會思考的物理實(shí)體?!?/p>
當(dāng)下,世界模型的理念正成為科技巨頭們,乃至全科技界的共識:xAI挖角英偉達(dá)專家,致力于研發(fā)出用于游戲領(lǐng)域和機(jī)器人系統(tǒng)的世界模型;Meta發(fā)布代碼世界模型(Code World Model),探索如何使用世界模型改進(jìn)AI代碼生成性能;“AI教母”李飛飛籌集2.3億美元創(chuàng)建的世界模型初創(chuàng)公司W(wǎng)orld Labs,開發(fā)出了一款能夠渲染持久且一致3D世界的實(shí)時(shí)框架模型(RTFM)。
世界模型何以引得人工智能先驅(qū)們競相發(fā)力?或與具身智能本身的爭議有關(guān)。宇樹科技CEO王興興曾強(qiáng)調(diào):“之所以目前機(jī)器人還未能達(dá)到智能,現(xiàn)在最大的問題是模型問題,而不是數(shù)據(jù)問題?!睎|吳證券指出,作為具身智能的大腦,AI模型的技術(shù)路線仍處在探索階段,并且成為了機(jī)器人等終端產(chǎn)品大規(guī)模應(yīng)用的最大瓶頸。
世界模型的優(yōu)勢恰在此體現(xiàn)。根據(jù)弗若斯特沙利文近期發(fā)布的《2025年中國世界模型發(fā)展白皮書》,具身智能代表著AI從純粹的信息處理轉(zhuǎn)向物理世界的交互,其所需的數(shù)據(jù)需要整合文本指令、多視角視覺、物理交互等多維信號,復(fù)雜度遠(yuǎn)超純文本或單一視覺模態(tài)。而世界模型能生成視覺逼真、物理精確的合成數(shù)據(jù),有效克服傳統(tǒng)仿真數(shù)據(jù)與真實(shí)世界之間的差異。
據(jù)上述機(jī)構(gòu)統(tǒng)計(jì),當(dāng)前超過80%自動駕駛算法使用世界模型進(jìn)行輔助訓(xùn)練,其已推動自動駕駛系統(tǒng)持續(xù)學(xué)習(xí)、自主驗(yàn)證并快速迭代優(yōu)化。
國內(nèi)世界模型研發(fā)進(jìn)展上,宇樹、智元等人形機(jī)器人廠商走在前列。今年9月,宇樹開源了UnifoLM-WMA-0世界模型架構(gòu),用于推進(jìn)物理環(huán)境中的學(xué)習(xí)與執(zhí)行效率,為未來與更復(fù)雜模型的融合預(yù)留了工程接口。智元方面,其于今年8月發(fā)布了行業(yè)首個(gè)機(jī)器人世界模型開源平臺Genie Envisioner,旨在使機(jī)器人在同一世界模型中完成從“看”到“想”再到“動”的端到端推理與執(zhí)行。
與此同時(shí)。其他機(jī)器人機(jī)構(gòu)亦動作頻頻。日前,湖北人形機(jī)器人創(chuàng)新中心發(fā)布了具身基礎(chǔ)模型GigaBrain-0,其背后采用了世界模型平臺GigaWorld生成數(shù)據(jù)。同樣在今年,北京人形機(jī)器人創(chuàng)新中心和成都人形機(jī)器人創(chuàng)新中心先后發(fā)布了全新的世界模型架構(gòu)WoW,以及國內(nèi)首個(gè)基于世界模型的機(jī)器人任務(wù)執(zhí)行系統(tǒng)R-WMES。
不過,作為一種技術(shù)路徑,世界模型的研究仍處于早期階段。東吳證券判斷,世界模型代表具身智能算法層最前沿的探索方向,預(yù)計(jì)具身智能大腦市場會成為具身智能市場里發(fā)展最快,技術(shù)難度最高,也是最關(guān)鍵的環(huán)節(jié)。
從投資層面來看,國投證券表示,結(jié)合物理AI和世界模型需要運(yùn)用到的技術(shù)和環(huán)節(jié),仿真、感知以及機(jī)器人廠商會受益,建議關(guān)注:1)已經(jīng)具備物理AI產(chǎn)品的國內(nèi)CAE(計(jì)算機(jī)輔助工程)廠商;2)為世界物理模型提供技術(shù)支撐的3D感知廠商;3)提供工業(yè)數(shù)字孿生解決方案的廠商。