赫特福德郡大學的研究人員開發了一種新算法,使機器人能夠更直觀地發揮作用,以環境為指導做出決策。
其原理是,通過算法,機器人代理創建自己的目標。
該算法首次將不同的目標設定方法統一在一個與物理直接相關的概念下,並且使計算透明,以便其他人可以研究和採用。
該算法的原理與著名的混亂理論有關,因為這種方法使代理人成為「系統動力學混亂的大師」。"
這項研究發表在PRX Life雜誌上。赫茲的研究人員探索了一種機器人的「動機模型」,即使在沒有明確獎勵信號的情況下,它也可以模仿人類和動物的決策過程。
該研究引入了一種人工智慧(AI)公式,可以計算出機器人在沒有直接指令或手動輸入的情況下確定未來行動的方法。
計算機科學教授兼資深作者丹尼爾·波拉尼解釋說:「從應用意義上來說,這可能意味著讓機器人在不被告知的情況下自行玩耍和操縱物體。
「它可以通過鼓勵更『自然』的行為和互動來增強機器人學習與人類和其他機器人互動的方式。
「還有進一步的應用,例如放置在人類操作員無法到達的地方(例如地下或星際位置)的半自主機器人的生存行為。"
在人類和動物中,一種理論假設存在一種「內在動機」,其中行為僅由生物體與其環境之間的相互作用驅動,而不是由特定的習得獎勵(例如食物)驅動。本文成功地將「內在動機」理論轉化為可供機器人智能體使用的理論。
波拉尼教授補充道:「這項工作令人興奮,因為我們現在可以在機器人中實現一種類似於幫助人類和動物在沒有經驗的情況下解決新問題的機制。
「我們希望在這項工作的基礎上,未來能夠開發出更多流程更直觀的人形機器人。這為決策過程與我們類似的更複雜的機器人提供了巨大的機會。"
本文所基於的理論被稱為「最大化賦權」,並在赫茲中發展了多年。它表明,通過增加未來結果的範圍,機器人在更長的未來也將擁有更好的選擇。重要的是,這種方法取代並因此可能消除傳統的獎勵系統(例如食物信號)。
儘管最大化賦權已顯示出希望,但尚未被充分理解或廣泛應用。大多數研究過去依賴於模擬,同時仔細計算有關複雜系統的必要信息,而理論仍然具有挑戰性。
然而,這項最新的創新研究旨在解釋為什麼基於授權的動機可以創造類似於生物體的行為,從而可能創造出具有更內在動機的機器人;它還提供了一種顯著改進的計算這些動機的方法。
波拉尼教授表示,下一步是利用這種突破性的算法,讓機器人更多地了解世界,並開發直接學習、識別和磨練的新技能,以便在現實世界場景中發揮其價值。
此視頻下方的視頻中有連結。如果您感興趣,可以打開看看。
感謝您觀看此視頻。如果您喜歡,請訂閱並點讚。謝謝
原文:https://techxplore.com/news/2024-09-algorithm-robots-closer-intuition.html
更多信息:Stas Tiomkin等人,動態控制系統的內在動機,PRX Life(2024)。DOI:
期刊信息:PRX Life
輸油管: