日韩精品导航,失落十三年,亚洲a∨精品一区二区三区下载,91国内在线


首頁
產(chǎn)品系列
行業(yè)應(yīng)用
渠道合作
新聞中心
研究院
投資者關(guān)系
技術(shù)支持
關(guān)于創(chuàng)澤
| En
 
  當(dāng)前位置:首頁 > 新聞資訊 > 行業(yè)動態(tài) > OmniManip引⼊了 VLM 規(guī)劃和機(jī)器⼈執(zhí)⾏的雙閉環(huán)系統(tǒng)設(shè)計,提升機(jī)器人3D操作能力  
 

OmniManip引⼊了 VLM 規(guī)劃和機(jī)器⼈執(zhí)⾏的雙閉環(huán)系統(tǒng)設(shè)計,提升機(jī)器人3D操作能力

來源:機(jī)器人大講堂      編輯:創(chuàng)澤      時間:2025/1/27      主題:其他   [加盟]

近年來視覺語⾔基礎(chǔ)模型(Vision  Language  Models,  VLMs)在多模態(tài)理解和⾼層次常識推理上⼤放異彩,如何將其應(yīng)⽤于機(jī)器⼈以實(shí)現(xiàn)通⽤操作是具身智能領(lǐng)域的⼀個核⼼問題。這⼀⽬標(biāo)的實(shí)現(xiàn)受兩⼤關(guān)鍵挑戰(zhàn)制約:

1. VLM 缺少精確的 3D 理解能⼒:通過對⽐學(xué)習(xí)范式訓(xùn)練、僅以 2D 圖像 / ⽂本作為輸⼊的 VLM 的天然局限;

2. ⽆法輸出低層次動作:將 VLM 在機(jī)器⼈數(shù)據(jù)上進(jìn)⾏微調(diào)以得到視覺 - 語⾔ - 動作(VLA)模型是⼀種有前景的解決⽅案,但⽬前仍受到數(shù)據(jù)收集成本和泛化能⼒的限制。

針對上述難題,北⼤攜⼿智元機(jī)器⼈團(tuán)隊提出了 OmniManip 架構(gòu),基于以對象為中⼼的 3D 交互基元,將 VLM 的高層次推理能力轉(zhuǎn)化為機(jī)器⼈的低層次高精度動作。

針對⼤模型幻覺問題和真實(shí)環(huán)境操作的不確定性,OmniManip 創(chuàng)新性地引⼊了 VLM 規(guī)劃和機(jī)器⼈執(zhí)⾏的雙閉環(huán)系統(tǒng)設(shè)計,實(shí)現(xiàn)了操作性能的顯著突破。

實(shí)驗(yàn)結(jié)果表明,OmniManip 作為⼀種免訓(xùn)練的開放詞匯操作⽅法,在各種機(jī)器⼈操作任務(wù)中具備強(qiáng)⼤的零樣本泛化能⼒。

OmniManip 的關(guān)鍵設(shè)計包括:

基于 VLM 的任務(wù)解析:利⽤ VLM 強(qiáng)⼤的常識推理能⼒,將任務(wù)分解為多個結(jié)構(gòu)化階段(Stages),每個階段明確指定了主動物體(Active)、被動物體(Passive)和動作類型(Action)。

以物體為中⼼的交互基元作為空間約束:通過 3D 基座模型⽣成任務(wù)相關(guān)物體的 3D 模型和規(guī)范化空間(canonical space),使 VLM 能夠直接在該空間中采樣 3D 交互基元,作為 Action 的空間約束,從⽽優(yōu)化求解出 Active 物體在 Passive 物體規(guī)范坐標(biāo)系下的⽬標(biāo)交互姿態(tài)。

閉環(huán) VLM 規(guī)劃:將⽬標(biāo)交互姿態(tài)下的 Active/Passive 物體渲染成圖像,由 VLM 評估與重采樣,實(shí)現(xiàn) VLM 對⾃身規(guī)劃結(jié)果的閉環(huán)調(diào)整。

閉環(huán)機(jī)器⼈執(zhí)⾏:通過物體 6D 姿態(tài)跟蹤器實(shí)時更新 Active/Passive 物體的位姿,轉(zhuǎn)換為機(jī)械臂末端執(zhí)⾏器的操作軌跡,實(shí)現(xiàn)閉環(huán)執(zhí)⾏。

物體的交互基元通過其在標(biāo)準(zhǔn)空間中的交互點(diǎn)和⽅向來表征。交互點(diǎn) p∈R3 表示物體上關(guān)鍵的交互位置,⽽交互⽅向 v∈R3 代表與任務(wù)相關(guān)的主要軸。這兩者共同構(gòu)成交互基元 O={p,v},封裝了滿⾜任務(wù)約束所需的基本⼏何和功能屬性。這些標(biāo)準(zhǔn)交互基元相對于其標(biāo)準(zhǔn)空間定義,能夠在不同場景中保持⼀致,實(shí)現(xiàn)更通⽤和可重⽤的操作策略。

對于通⽤物體的交互點(diǎn)提取,OmniManip 利⽤視覺語⾔模型(VLM)在原圖(當(dāng)部件可⻅且實(shí)體存在時)或在正交視圖中渲染的 3D ⽹格(當(dāng)部件不可⻅或?qū)嶓w不存在時)上進(jìn)⾏定位。

與 CoPa 和 ReKep 等⽅法不同,OmniManip 直接讓 VLM 進(jìn)⾏ grounding,不會受限于不穩(wěn)定的 part 分割或聚類結(jié)果。

在交互⽅向的采樣⽅⾯,由于物體的規(guī)范化空間通過 Omni6DPose 錨定,軸的⽅向與語義對⻬,該團(tuán)隊讓 VLM 直接對物體標(biāo)準(zhǔn)空間的軸進(jìn)⾏語義描述,并根據(jù)操作任務(wù)進(jìn)⾏匹配度排序,以獲得交互⽅向的候選。

雙閉環(huán)系統(tǒng)設(shè)計

李⻜⻜團(tuán)隊的⼯作 ReKep 通過關(guān)鍵點(diǎn)跟蹤巧妙地實(shí)現(xiàn)了機(jī)械臂的閉環(huán)執(zhí)⾏,但其 VLM 規(guī)劃過程是開環(huán)的。OmniManip 則更進(jìn)⼀步,得益于以物體為中⼼的設(shè)計理念,⾸次在 VLM 規(guī)劃和機(jī)械臂執(zhí)⾏層⾯實(shí)現(xiàn)了雙閉環(huán)系統(tǒng):

閉環(huán)規(guī)劃:在實(shí)驗(yàn)中,VLM 推理很容易出現(xiàn)幻覺,導(dǎo)致錯誤的規(guī)劃結(jié)果(尤其是在涉及 3D 旋轉(zhuǎn)的任務(wù)中,如倒⽔、插筆)。OmniManip 賦予 VLM 閉環(huán)規(guī)劃能⼒,通過渲染物體的三維模型,幫助 VLM 「腦補(bǔ)」出規(guī)劃結(jié)果后的物體樣貌,再判斷其合理性。

這⼀功能賦予了 VLM 空間反思能⼒,使其能夠在測試時進(jìn)⾏推理,類似于 OpenAI 的 O1,⼤⼤提⾼了操作成功率。為了保持框架的簡潔性,研究團(tuán)隊沒有設(shè)計復(fù)雜的測試時推理流程,僅作⼀輪校驗(yàn)就已明顯提⾼了 VLM 的規(guī)劃準(zhǔn)確率。

閉環(huán)執(zhí)⾏:OmniManip 提取的交互基元位于物體的規(guī)范空間中,只需引⼊⼀個 6D 位姿跟蹤器即可輕松實(shí)現(xiàn)閉環(huán)操作。與 ReKep 使⽤的關(guān)鍵點(diǎn)跟蹤器相⽐,基于物體的 6D 位姿跟蹤⽅式更為穩(wěn)定,并對遮擋具有更強(qiáng)的魯棒性。(缺點(diǎn)則是不如關(guān)鍵點(diǎn)靈活、⽆法建模柔性物體操作。)

▍實(shí)驗(yàn)結(jié)果

強(qiáng)⼤的開放詞匯操作性能

在 12 個真機(jī)短程任務(wù)上,OmniManip 均展現(xiàn)出卓越的性能。

雙閉環(huán)系統(tǒng)設(shè)計為 OmniManip 帶來了約 17% 的性能提升,這證明了 RRC 在有效減少⼤模型幻覺影響⽅⾯的作⽤。

交互基元的魯棒性

VLM 需要基于交互基元對機(jī)器⼈操作進(jìn)⾏規(guī)劃,如果交互基元本身存在問題,VLM 就會陷⼊「巧婦難為⽆⽶之炊」的困境。因此,可靠的交互基元⾄關(guān)重要。以往的⽅法通常是讓 VLM 直接在相機(jī)拍攝的 2D 圖像上采樣交互基元,然后通過相機(jī)的內(nèi)外參數(shù)轉(zhuǎn)換到 3D 空間。

然⽽,由于 2D 圖像存在空間歧義,采樣效果對相機(jī)視⻆、圖像紋理和部件形狀等因素極為敏感(例如,當(dāng)相機(jī)平視杯⼦時,之前的⽅法只能對準(zhǔn)杯⼦的側(cè)壁、⽽不是開⼝)。⽽ OmniManip 則是在物體的 3D 規(guī)范空間中進(jìn)⾏采樣,能夠輕松克服 2D 圖像的局限性,實(shí)現(xiàn)可靠的 3D 交互基元提取。

強(qiáng)⼤的拓展性與潛⼒

OmniManip 能夠與 high-level 任務(wù)規(guī)劃器結(jié)合,實(shí)現(xiàn)⻓程任務(wù)操作

作為⼀種以物體為中⼼的算法,OmniManip 與機(jī)械臂本體解耦,能夠零成本遷移⾄不同形態(tài)的本體(例如雙臂⼈形機(jī)器⼈)。

OmniManip 具有強(qiáng)⼤的通⽤泛化能⼒,不受特定場景和物體限制。團(tuán)隊已將其應(yīng)⽤于數(shù)字資產(chǎn)⾃動標(biāo)注 / 合成管道,實(shí)現(xiàn)⼤規(guī)模的機(jī)器⼈軌跡⾃動采集。



中國人工智能系列白皮書:復(fù)合多態(tài)機(jī)器人,具身智能重要實(shí)現(xiàn)路徑的技術(shù)特點(diǎn)、應(yīng)用場景及未來發(fā)展?jié)摿?/a>

探討了復(fù)合多態(tài)機(jī)器人作為具身智能重要實(shí)現(xiàn)路徑的技術(shù)特點(diǎn)、應(yīng)用場景及未來發(fā)展?jié)摿。報告通過多模態(tài)感知、多場景適應(yīng)和功能解耦等技術(shù)核心,全面分析了智能機(jī)器人如何革新服務(wù)與生產(chǎn)模式

移動機(jī)器人(AGV_AMR)專用激光雷達(dá)產(chǎn)品發(fā)展藍(lán)皮書-銷售數(shù)量約210000 臺, 銷售規(guī)模約 8億

中國市場AG V/AMR專用激光雷達(dá)銷售數(shù)量約 210000 臺, 銷售規(guī)模約 8億元; 相信 3D多線 激光雷達(dá)將在移動機(jī)器人領(lǐng)域迅速打開市場

表情陪伴人形機(jī)器人:AI 陪伴的高級賽道,市場需求近萬億,老年人群中的潛在需求約4200億

測算出陪伴機(jī)器人在老年人群中的潛在需求約 4200億元人民幣,陪伴機(jī)器人在青年人群中的潛在需求約5000億元人民幣,在醫(yī)療場景下也有較大的應(yīng)用前景

表情陪伴人形機(jī)器人:AI陪伴的高級賽道,需求近萬億,老年人需求約 4200億

人人都需要陪伴,中國陪伴機(jī)器人潛在市場需求近萬億;老年人群中的潛在需求約4200億元;在青年人群中的潛在需求約5000億,自閉癥兒童的情緒監(jiān)控領(lǐng)域也有較大的應(yīng)用前景

醫(yī)療場景陪伴機(jī)器人市場前景:潛在需求約39億

全球5歲以下患自閉癥兒童人數(shù)超過60萬人,平均每個兒童每年花費(fèi)6萬 美元,每年治療費(fèi)用約360億美元。假設(shè)當(dāng)前的陪伴機(jī)器人價格為6500美 元(參考東芝的宮原香苗機(jī)器人價格6500美元~12000美元),若每個自閉 癥兒童配備一個陪伴機(jī)器人,潛在市場需求為39億美元

青年陪伴機(jī)器人市場前景:潛在需求約5000億

陪伴機(jī)器人在中國青年人群中的潛在市場需求約5000億,售價將會在0.5-6萬元區(qū)間,我們認(rèn)為以2萬元/臺作為價格的中性假設(shè)是合理的

深圳人形機(jī)器人產(chǎn)業(yè)發(fā)展情況:具有人形機(jī)器人產(chǎn)業(yè)先發(fā)優(yōu)勢

深圳市機(jī)器人產(chǎn)業(yè)發(fā)展良好,且擁有優(yōu)必選、逐際動力、樂聚機(jī)器人等一批本體企業(yè),發(fā)布了優(yōu)必選Walker X、樂聚夸父、逐際動力CL-1等人形機(jī)器人產(chǎn)品,已具有人形機(jī)器人產(chǎn)業(yè)先發(fā)優(yōu)勢

珠三角人形機(jī)器人產(chǎn)業(yè)發(fā)展情況:全球人形機(jī)器人供應(yīng)鏈的重要集聚區(qū)

珠三角地區(qū)是全球人形機(jī)器人供應(yīng)鏈的重要集聚區(qū),控制、伺服系統(tǒng)技術(shù)較為領(lǐng)先;以深圳為發(fā)展重心,廣佛莞為發(fā)展主力的人形機(jī)器人產(chǎn)業(yè)發(fā)展格局

長三角人形機(jī)器人產(chǎn)業(yè)發(fā)展情況:完整的機(jī)器人產(chǎn)業(yè)鏈條

長三角是我國工業(yè)機(jī)器人產(chǎn)業(yè)發(fā)展最為完備的區(qū)域之一,產(chǎn)能規(guī)模大,產(chǎn)業(yè)鏈條完整,產(chǎn)業(yè)投資集聚度高,以上海為核心,蘇州、南京、常州、杭州、寧波、蕪湖多點(diǎn)發(fā)力的發(fā)展格局,綜合實(shí)力走在全國前列。

京津冀人形機(jī)器人產(chǎn)業(yè)發(fā)展情況:產(chǎn)業(yè)鏈協(xié)同發(fā)展模式

北京科技創(chuàng)新資源豐富,產(chǎn)業(yè)發(fā)展程度在三地居于首位,而天津與河北工業(yè)基礎(chǔ)也較雄厚且傳統(tǒng)產(chǎn)業(yè)轉(zhuǎn)型需求旺盛,故許多機(jī)器人企業(yè)采取北京研發(fā),生產(chǎn),落地在天津,河北的模式,且河北發(fā)展成為京津機(jī)器人企業(yè)的重要零部件供應(yīng)地

老人陪伴機(jī)器人市場前景:潛在需求約4200億

陪伴機(jī)器人在中國老年人群中的潛在市場需求為4200億人民幣,未來中國陪伴機(jī)器人(含桌面級、寵物級、表情陪 伴機(jī)器人)的售價將會在0.5-6萬元區(qū)間

機(jī)器人產(chǎn)業(yè)面臨的三個主要問題:行業(yè)內(nèi)卷無序價格競爭,關(guān)鍵核心技術(shù)和占有率低

機(jī)器人產(chǎn)品在技術(shù)上趨于同質(zhì)化,難以形成明顯的差異化競爭優(yōu)勢;部分關(guān)鍵核心技術(shù)仍需突破,限制產(chǎn)業(yè)進(jìn)一步發(fā)展;部分國產(chǎn)機(jī)器人品牌在高端市場表現(xiàn)相對薄弱
 
資料獲取

服務(wù)機(jī)器人在展館迎賓講解
新聞資訊
== 資訊 ==
» DeepSeek 策略三問-AI封鎖,有
» DeepSeek-R1技術(shù)報告-冷啟動數(shù)
» 人形機(jī)器人靈巧手:仿生設(shè)計大勢所趨,自由
» 四足機(jī)器人:移動智能體的踏浪者,售價已降
» 海外人形機(jī)器人深度:人形機(jī)器人GhatG
» DeepSeek最受益方向是云產(chǎn)業(yè)鏈,部
» DeepSeek從入門到精通-提出了AI
» AI陪伴互動軟件硬件全景解析-可交互內(nèi)容
» 2025人形機(jī)器人產(chǎn)業(yè)發(fā)展藍(lán)皮書-從研發(fā)
» 中國AI搜索行業(yè)發(fā)展報告-AI搜索能夠理
» 星動紀(jì)元打造人形機(jī)器人+靈巧手特色產(chǎn)品
» 普渡機(jī)器人R2X架構(gòu),專用、類人形、人形
» 宇樹科技9輪融資匯總
» 智元機(jī)器人8輪融資匯總
» 智元機(jī)器人具身智能技術(shù)演進(jìn)路線:G1 至
 
== 機(jī)器人推薦 ==
 
迎賓講解服務(wù)機(jī)器人

服務(wù)機(jī)器人(迎賓、講解、導(dǎo)診...)

智能消毒機(jī)器人

智能消毒機(jī)器人

機(jī)器人底盤

機(jī)器人底盤

 

商用機(jī)器人  Disinfection Robot   展廳機(jī)器人  智能垃圾站  輪式機(jī)器人底盤  迎賓機(jī)器人  移動機(jī)器人底盤  講解機(jī)器人  紫外線消毒機(jī)器人  大屏機(jī)器人  霧化消毒機(jī)器人  服務(wù)機(jī)器人底盤  智能送餐機(jī)器人  霧化消毒機(jī)  機(jī)器人OEM代工廠  消毒機(jī)器人排名  智能配送機(jī)器人  圖書館機(jī)器人  導(dǎo)引機(jī)器人  移動消毒機(jī)器人  導(dǎo)診機(jī)器人  迎賓接待機(jī)器人  前臺機(jī)器人  導(dǎo)覽機(jī)器人  酒店送物機(jī)器人  云跡科技潤機(jī)器人  云跡酒店機(jī)器人  智能導(dǎo)診機(jī)器人 
版權(quán)所有 © 創(chuàng)澤智能機(jī)器人集團(tuán)股份有限公司     中國運(yùn)營中心:北京·清華科技園九號樓5層     中國生產(chǎn)中心:山東日照太原路71號
銷售1:4006-935-088    銷售2:4006-937-088   客服電話: 4008-128-728