當(dāng)前位置：首頁 > 新聞資訊 > 行業(yè)動態(tài) > OmniManip引⼊了 VLM 規(guī)劃和機(jī)器⼈執(zhí)⾏的雙閉環(huán)系統(tǒng)設(shè)計,提升機(jī)器人3D操作能力

OmniManip引⼊了 VLM 規(guī)劃和機(jī)器⼈執(zhí)⾏的雙閉環(huán)系統(tǒng)設(shè)計,提升機(jī)器人3D操作能力

來源：機(jī)器人大講堂編輯：創(chuàng)澤時間：2025/1/27 主題：其他 [加盟]

近年來視覺語⾔基礎(chǔ)模型（Vision Language Models, VLMs）在多模態(tài)理解和⾼層次常識推理上⼤放異彩，如何將其應(yīng)⽤于機(jī)器⼈以實(shí)現(xiàn)通⽤操作是具身智能領(lǐng)域的⼀個核⼼問題。這⼀⽬標(biāo)的實(shí)現(xiàn)受兩⼤關(guān)鍵挑戰(zhàn)制約：

1. VLM 缺少精確的 3D 理解能⼒：通過對⽐學(xué)習(xí)范式訓(xùn)練、僅以 2D 圖像 / ⽂本作為輸⼊的 VLM 的天然局限；

2. ⽆法輸出低層次動作：將 VLM 在機(jī)器⼈數(shù)據(jù)上進(jìn)⾏微調(diào)以得到視覺 - 語⾔ - 動作（VLA）模型是⼀種有前景的解決⽅案，但⽬前仍受到數(shù)據(jù)收集成本和泛化能⼒的限制。

針對上述難題，北⼤攜⼿智元機(jī)器⼈團(tuán)隊提出了 OmniManip 架構(gòu)，基于以對象為中⼼的 3D 交互基元，將 VLM 的高層次推理能力轉(zhuǎn)化為機(jī)器⼈的低層次高精度動作。

針對⼤模型幻覺問題和真實(shí)環(huán)境操作的不確定性，OmniManip 創(chuàng)新性地引⼊了 VLM 規(guī)劃和機(jī)器⼈執(zhí)⾏的雙閉環(huán)系統(tǒng)設(shè)計，實(shí)現(xiàn)了操作性能的顯著突破。

實(shí)驗(yàn)結(jié)果表明，OmniManip 作為⼀種免訓(xùn)練的開放詞匯操作⽅法，在各種機(jī)器⼈操作任務(wù)中具備強(qiáng)⼤的零樣本泛化能⼒。

OmniManip 的關(guān)鍵設(shè)計包括：

基于 VLM 的任務(wù)解析：利⽤ VLM 強(qiáng)⼤的常識推理能⼒，將任務(wù)分解為多個結(jié)構(gòu)化階段（Stages），每個階段明確指定了主動物體（Active）、被動物體（Passive）和動作類型（Action）。

以物體為中⼼的交互基元作為空間約束：通過 3D 基座模型⽣成任務(wù)相關(guān)物體的 3D 模型和規(guī)范化空間（canonical space），使 VLM 能夠直接在該空間中采樣 3D 交互基元，作為 Action 的空間約束，從⽽優(yōu)化求解出 Active 物體在 Passive 物體規(guī)范坐標(biāo)系下的⽬標(biāo)交互姿態(tài)。

閉環(huán) VLM 規(guī)劃：將⽬標(biāo)交互姿態(tài)下的 Active/Passive 物體渲染成圖像，由 VLM 評估與重采樣，實(shí)現(xiàn) VLM 對⾃身規(guī)劃結(jié)果的閉環(huán)調(diào)整。

閉環(huán)機(jī)器⼈執(zhí)⾏：通過物體 6D 姿態(tài)跟蹤器實(shí)時更新 Active/Passive 物體的位姿，轉(zhuǎn)換為機(jī)械臂末端執(zhí)⾏器的操作軌跡，實(shí)現(xiàn)閉環(huán)執(zhí)⾏。

物體的交互基元通過其在標(biāo)準(zhǔn)空間中的交互點(diǎn)和⽅向來表征。交互點(diǎn) p∈R3 表示物體上關(guān)鍵的交互位置，⽽交互⽅向 v∈R3 代表與任務(wù)相關(guān)的主要軸。這兩者共同構(gòu)成交互基元 O={p,v}，封裝了滿⾜任務(wù)約束所需的基本⼏何和功能屬性。這些標(biāo)準(zhǔn)交互基元相對于其標(biāo)準(zhǔn)空間定義，能夠在不同場景中保持⼀致，實(shí)現(xiàn)更通⽤和可重⽤的操作策略。

對于通⽤物體的交互點(diǎn)提取，OmniManip 利⽤視覺語⾔模型（VLM）在原圖（當(dāng)部件可⻅且實(shí)體存在時）或在正交視圖中渲染的 3D ⽹格（當(dāng)部件不可⻅或?qū)嶓w不存在時）上進(jìn)⾏定位。

與 CoPa 和 ReKep 等⽅法不同，OmniManip 直接讓 VLM 進(jìn)⾏ grounding，不會受限于不穩(wěn)定的 part 分割或聚類結(jié)果。

在交互⽅向的采樣⽅⾯，由于物體的規(guī)范化空間通過 Omni6DPose 錨定，軸的⽅向與語義對⻬，該團(tuán)隊讓 VLM 直接對物體標(biāo)準(zhǔn)空間的軸進(jìn)⾏語義描述，并根據(jù)操作任務(wù)進(jìn)⾏匹配度排序，以獲得交互⽅向的候選。

雙閉環(huán)系統(tǒng)設(shè)計

李⻜⻜團(tuán)隊的⼯作 ReKep 通過關(guān)鍵點(diǎn)跟蹤巧妙地實(shí)現(xiàn)了機(jī)械臂的閉環(huán)執(zhí)⾏，但其 VLM 規(guī)劃過程是開環(huán)的。OmniManip 則更進(jìn)⼀步，得益于以物體為中⼼的設(shè)計理念，⾸次在 VLM 規(guī)劃和機(jī)械臂執(zhí)⾏層⾯實(shí)現(xiàn)了雙閉環(huán)系統(tǒng)：

閉環(huán)規(guī)劃：在實(shí)驗(yàn)中，VLM 推理很容易出現(xiàn)幻覺，導(dǎo)致錯誤的規(guī)劃結(jié)果（尤其是在涉及 3D 旋轉(zhuǎn)的任務(wù)中，如倒⽔、插筆）。OmniManip 賦予 VLM 閉環(huán)規(guī)劃能⼒，通過渲染物體的三維模型，幫助 VLM 「腦補(bǔ)」出規(guī)劃結(jié)果后的物體樣貌，再判斷其合理性。

這⼀功能賦予了 VLM 空間反思能⼒，使其能夠在測試時進(jìn)⾏推理，類似于 OpenAI 的 O1，⼤⼤提⾼了操作成功率。為了保持框架的簡潔性，研究團(tuán)隊沒有設(shè)計復(fù)雜的測試時推理流程，僅作⼀輪校驗(yàn)就已明顯提⾼了 VLM 的規(guī)劃準(zhǔn)確率。

閉環(huán)執(zhí)⾏：OmniManip 提取的交互基元位于物體的規(guī)范空間中，只需引⼊⼀個 6D 位姿跟蹤器即可輕松實(shí)現(xiàn)閉環(huán)操作。與 ReKep 使⽤的關(guān)鍵點(diǎn)跟蹤器相⽐，基于物體的 6D 位姿跟蹤⽅式更為穩(wěn)定，并對遮擋具有更強(qiáng)的魯棒性。（缺點(diǎn)則是不如關(guān)鍵點(diǎn)靈活、⽆法建模柔性物體操作。）

▍實(shí)驗(yàn)結(jié)果

強(qiáng)⼤的開放詞匯操作性能

在 12 個真機(jī)短程任務(wù)上，OmniManip 均展現(xiàn)出卓越的性能。

雙閉環(huán)系統(tǒng)設(shè)計為 OmniManip 帶來了約 17% 的性能提升，這證明了 RRC 在有效減少⼤模型幻覺影響⽅⾯的作⽤。

交互基元的魯棒性

VLM 需要基于交互基元對機(jī)器⼈操作進(jìn)⾏規(guī)劃，如果交互基元本身存在問題，VLM 就會陷⼊「巧婦難為⽆⽶之炊」的困境。因此，可靠的交互基元⾄關(guān)重要。以往的⽅法通常是讓 VLM 直接在相機(jī)拍攝的 2D 圖像上采樣交互基元，然后通過相機(jī)的內(nèi)外參數(shù)轉(zhuǎn)換到 3D 空間。

然⽽，由于 2D 圖像存在空間歧義，采樣效果對相機(jī)視⻆、圖像紋理和部件形狀等因素極為敏感（例如，當(dāng)相機(jī)平視杯⼦時，之前的⽅法只能對準(zhǔn)杯⼦的側(cè)壁、⽽不是開⼝）。⽽ OmniManip 則是在物體的 3D 規(guī)范空間中進(jìn)⾏采樣，能夠輕松克服 2D 圖像的局限性，實(shí)現(xiàn)可靠的 3D 交互基元提取。

強(qiáng)⼤的拓展性與潛⼒

OmniManip 能夠與 high-level 任務(wù)規(guī)劃器結(jié)合，實(shí)現(xiàn)⻓程任務(wù)操作

作為⼀種以物體為中⼼的算法，OmniManip 與機(jī)械臂本體解耦，能夠零成本遷移⾄不同形態(tài)的本體（例如雙臂⼈形機(jī)器⼈）。

OmniManip 具有強(qiáng)⼤的通⽤泛化能⼒，不受特定場景和物體限制。團(tuán)隊已將其應(yīng)⽤于數(shù)字資產(chǎn)⾃動標(biāo)注 / 合成管道，實(shí)現(xiàn)⼤規(guī)模的機(jī)器⼈軌跡⾃動采集。

日韩精品导航,失落十三年,亚洲a∨精品一区二区三区下载,91国内在线

OmniManip引⼊了 VLM 規(guī)劃和機(jī)器⼈執(zhí)⾏的雙閉環(huán)系統(tǒng)設(shè)計,提升機(jī)器人3D操作能力

中國人工智能系列白皮書：復(fù)合多態(tài)機(jī)器人,具身智能重要實(shí)現(xiàn)路徑的技術(shù)特點(diǎn)、應(yīng)用場景及未來發(fā)展?jié)摿?/a>

移動機(jī)器人(AGV_AMR)專用激光雷達(dá)產(chǎn)品發(fā)展藍(lán)皮書-銷售數(shù)量約210000 臺, 銷售規(guī)模約 8億

表情陪伴人形機(jī)器人：AI 陪伴的高級賽道,市場需求近萬億,老年人群中的潛在需求約4200億

表情陪伴人形機(jī)器人：AI陪伴的高級賽道，需求近萬億，老年人需求約 4200億

醫(yī)療場景陪伴機(jī)器人市場前景:潛在需求約39億

青年陪伴機(jī)器人市場前景:潛在需求約5000億

深圳人形機(jī)器人產(chǎn)業(yè)發(fā)展情況：具有人形機(jī)器人產(chǎn)業(yè)先發(fā)優(yōu)勢

珠三角人形機(jī)器人產(chǎn)業(yè)發(fā)展情況：全球人形機(jī)器人供應(yīng)鏈的重要集聚區(qū)

長三角人形機(jī)器人產(chǎn)業(yè)發(fā)展情況：完整的機(jī)器人產(chǎn)業(yè)鏈條

京津冀人形機(jī)器人產(chǎn)業(yè)發(fā)展情況：產(chǎn)業(yè)鏈協(xié)同發(fā)展模式

老人陪伴機(jī)器人市場前景:潛在需求約4200億

機(jī)器人產(chǎn)業(yè)面臨的三個主要問題:行業(yè)內(nèi)卷無序價格競爭,關(guān)鍵核心技術(shù)和占有率低

服務(wù)機(jī)器人(迎賓、講解、導(dǎo)診...)

智能消毒機(jī)器人

機(jī)器人底盤

OmniManip引⼊了 VLM 規(guī)劃和機(jī)器⼈執(zhí)⾏的雙閉環(huán)系統(tǒng)設(shè)計,提升機(jī)器人3D操作能力

服務(wù)機(jī)器人(迎賓、講解、導(dǎo)診...)

智能消毒機(jī)器人

機(jī)器人底盤

服務(wù)機(jī)器人(迎賓、講解、導(dǎo)診...)