計算方法可以通過對話不斷教授機器人新技能

儘管機器人專家在過去幾十年中引入了越來越複雜的機器人系統，但迄今為止引入的大多數解決方案都經過了預編程和訓練，以解決特定任務。在與機器人互動時不斷教授它們新技能的能力可能非常有益，並可以促進它們的廣泛使用。

亞利桑那州立大學（ASO）的研究人員最近開發了一種新的計算方法，使用戶能夠通過基於對話的交互持續訓練機器人執行新任務。這種方法是在arXiv預印本伺服器上發表的一篇論文中居間的，最初用於教機器人機械手如何成功準備冷三明治。

該論文的指導作者納庫爾·戈帕蘭（Nakul Gopalan）告訴Tech Xplore：「我們的目標是為在人們家中部署可以學習烹飪冷菜的機器人做出貢獻。」「我們想從用戶的角度了解人們對家用機器人需要什麼行為。

「這種用戶視角允許我們在與機器人溝通時使用語言和對話。不幸的是，這些機器人可能並不知道一切，比如如何為你煮義大利麵。"

戈帕蘭和他的同事最近工作的主要目標是設計一種方法，使機器人能夠快速從人類代理人那裡獲得以前未知的技能或行為。

在AAAI人工智慧會議上發表的一篇論文中，該團隊重點關注教機器人通過基於對話的交互完成視覺任務。他們的新研究以之前的努力為基礎，並引入了更全面的基於對話的機器人訓練方法。

該論文的合著者顧薇薇告訴Tech Xplore：「我們的工作範圍是通過允許用戶個性化他們的機器人來提高機器人的適用性。」「由於機器人需要為不同的用戶完成不同的任務，而完成這些任務需要不同的技能，因此製造商不可能預先訓練機器人，使其具備所有這些場景所需的所有技能。因此，機器人需要從用戶那裡獲取這些技能和與任務相關的知識。"

為了確保機器人能夠有效地從用戶那裡獲得新技能，團隊必須克服各種挑戰。首先，他們必須確保在教授機器人時有人類用戶參與，並且機器人以非專家用戶可以理解的方式傳達任何問題或請求額外信息。

「其次，機器人需要從與用戶的多次互動中獲得知識，因為用戶無法無限長的時間與機器人在一起，」顧說。「最後，儘管獲得了新知識，機器人不應該忘記任何先前存在的知識。"

Gopalan、Gu和同事Suresh Kondepudi和Lixiao Huang開始共同努力解決持續學習的所有這些要求。他們提出的交互式持續學習系統通過三個不同的組件處理這三個子任務。

「首先，基於大型語言模型（LLM）的對話系統會向用戶提出問題，以獲得它可能不具備的任何知識或繼續與人們互動，」Gopalan解釋道。「但是機器人怎麼知道自己不知道一些事情呢？

「為了解決這個問題，我們在機器人技能庫上訓練了第二個組件，並了解了它們如何映射到語言命令。如果請求的技能與機器人已經知道的語言不接近，它將要求進行演示。"

該團隊新開發的系統還包括一種機制，允許機器人理解人類何時演示如何完成任務。如果提供的演示不足並且他們沒有可靠地獲得技能，則該模塊允許機器人請求額外技能。

「我們聯合使用技能表示和語言表示來模擬機器人的技能知識，」顧說。「當機器人需要執行某項技能時，它首先通過比較該技能的口頭表示與機器人擁有的所有技能的口頭表示來估計它是否有能力直接執行該技能。

「如果機器人有信心能夠執行該技能，它就會直接執行該技能。否則，將需要用戶在機器人面前親自表演該技能來演示該技能。"

本質上，在機器人觀察到用戶完成特定任務後，團隊的系統會根據收集的視覺信息確定它已經具備完成任務所需的技能。

如果系統預測機器人尚未獲得新技能，機器人將要求用戶使用遙控器追蹤相關的機器人軌跡，以便將這些軌跡添加到技能庫中並在機器人中獨立完成相同的任務。未來

「我們將這些技能的表示與LLM聯繫起來，讓機器人表達自己的疑問，這樣即使是非專家用戶也可以理解機器人的要求，並提供相應的幫助，」顧說。

該系統的第二個模塊基於預訓練和微調的具有低等級自適應（LoRA）的動作分段Transformer（ACT）。最後，團隊開發了一個持續學習模塊，允許機器人不斷地為其技能庫添加新技能。

「在機器人使用某些預先選擇的技能進行預訓練後，神經網絡的大部分權重都是固定的，只有一小部分由低級別適應引入的權重用於為機器人學習新技能，」顧說。「我們發現，我們的算法能夠有效地學習新技能，而不會災難性地忘記任何先前存在的技能。"

研究人員在一系列實際測試中評估了他們提出的閉環技能學習系統，並將其應用於Franka FR3機器人機械手。該機器人與八名人類用戶互動，並逐漸學會處理製作三明治的簡單日常任務。

由Gu、Gopalan及其同事開發的系統很快將得到進一步改進和測試，用於更廣泛的烹飪任務。研究人員現在正在努力解決他們觀察到的輪換問題，並擴大用戶可以教機器人烹飪的膳食範圍。他們還計劃進行更多涉及更多人類參與者的實驗。

「旋轉問題是自然互動中一個有趣的問題，」顧補充道。「這個研究問題對於交互式家庭機器人也具有很強的應用意義。

「除了解決這個問題之外，我們還有興趣通過引入更多不同的任務並在現實世界人口統計用戶中測試我們的系統來擴大這項工作的規模。"

此視頻下方的視頻中有連結。如果您感興趣，可以打開看看。
感謝您觀看此視頻。如果您喜歡，請訂閱並點讚。謝謝

原文：https://techxplore.com/news/2024-09-approach-robots-skills-dialogue.html
更多信息：顧薇薇等人，通過對話持續技能和任務學習，arXiv（2024）。DOI：10.48550/arxiv.2409.03166
期刊信息：arXiv

輸油管：