【
儀表網(wǎng) 研發(fā)快訊】在動態(tài)和開放的真實世界中,如何讓智能機器人像人類一樣持續(xù)掌握新技能,而又不遺忘舊有知識,是通用人工智能和機器人學領域面臨的一項核心技術瓶頸。傳統(tǒng)學習范式下的機器人在學習新任務時,新知識往往會干擾甚至完全覆蓋已習得的舊技能,這一“災難性遺忘”現(xiàn)象嚴重限制了機器人在復雜場景中長期自主服務的潛力。
近日,中國科學院重慶綠色智能技術研究院大數(shù)據(jù)與無人系統(tǒng)研究中心在自然語言處理(NLP)領域頂級學術會議ACL 2025(Annual Meeting of the Association for Computational Linguistics,國際計算語言學年會,CCF A類會議)上發(fā)表了題為《DRAE: Dynamic Retrieval-Augmented Expert Networks for Lifelong Learning and Task Adaptation in Robotics》的論文,提出了一種名為DRAE(動態(tài)檢索增強專家網(wǎng)絡)的機器人終身學習新框架。針對現(xiàn)有方法面臨的核心技術瓶頸——靜態(tài)網(wǎng)絡結(jié)構(gòu)難以適應動態(tài)任務變化、固定檢索系統(tǒng)無法處理不斷演進的知識需求,研究團隊受人腦神經(jīng)可塑性機制啟發(fā),構(gòu)建了四重協(xié)同的技術架構(gòu):動態(tài)專家混合模型(MoE)負責智能任務路由分配,指導參數(shù)化檢索增強生成(P-RAG)技術從外部知識庫精準獲取相關信息,這些增強信息與任務狀態(tài)一起輸入ReflexNet-SchemaPlanner-HyperOptima三層認知控制架構(gòu)進行感知-規(guī)劃-執(zhí)行的完整決策處理,而狄利克雷過程混合模型(DPMM)將整個處理過程中的關鍵知識以非參數(shù)貝葉斯方式動態(tài)存儲,形成任務級知識積累的閉環(huán)反饋。該方法的關鍵突破在于通過統(tǒng)一數(shù)學框架將四個核心組件深度融合,實現(xiàn)了知識檢索與參數(shù)更新的有效解耦,從根本上解決了新技能學習過程中對舊技能參數(shù)的破壞性覆蓋問題,為機器人系統(tǒng)在復雜環(huán)境中的持續(xù)自主學習提供了可行的技術路徑。
實驗結(jié)果表明,DRAE框架在多項關鍵指標上達到國際先進水平。在MimicGen多任務機器人操作基準測試中,平均任務成功率達到78%,顯著超越傳統(tǒng)MoE基線模型的73%;在NAVSIM自動駕駛導航仿真基準中,綜合評估分數(shù)達到82.5分,在路徑完成率(98.4%)和碰撞避免率(96.2%)兩項關鍵指標上均為最佳表現(xiàn);在LLFF和NeRF Synthetic 3D視覺合成數(shù)據(jù)集上,峰值信噪比分別達到26.07dB和27.47dB,超越當前最先進方法;在物理人形機器人的12項復雜動作指令測試中,成功率達到90-100%,驗證了框架在真實環(huán)境中的有效性。
該研究成果為提升機器人在復雜、非結(jié)構(gòu)化環(huán)境中的持續(xù)學習與自適應能力提供了新的技術途徑,在有效緩解災難性遺忘的同時保持了計算效率,為開發(fā)能夠長期自主學習的機器人系統(tǒng)提供了有價值的參考。
上述論文作者包括中國科學院重慶綠色智能技術研究院碩士一年級研究生龍埡宇、陳可為,通訊作者為尚明生研究員,相關研究得到了國家自然科學基金等項目的支持。
所有評論僅代表網(wǎng)友意見,與本站立場無關。