算法让机器人离“凭直觉行动”又近了一步
赫特福德郡大学的研究人员开发了一种新算法,可以让机器人更直观地发挥作用,即利用环境作为指导做出决策。
其原理是,通过算法,机器人代理创建自己的目标。
该算法第一次将不同的目标设定方法统一在一个与物理学直接相关的概念下,而且它还使计算透明,以便其他人可以研究和采用它。
该算法的原理与著名的混沌理论有关,因为该方法使智能体“成为系统动力学混沌的掌握者”。
该研究已发表在《PRX Life》杂志上。赫兹研究人员探索了机器人“动机模型”,即使在没有明确奖励信号的情况下,它也能模仿人类和动物的决策过程。
该研究引入了人工智能(AI)公式,该公式可以计算出机器人无需直接指令或人工输入即可决定未来行动的方法。
计算机科学教授兼资深作者丹尼尔·波拉尼 (Daniel Polani) 解释说:“从应用意义上来说,这可能意味着让机器人在没有被告知的情况下自行玩耍和操纵物体。
“它可以通过鼓励更‘自然’的行为和互动,增强机器人学习与人类和其他机器人互动的方式。
“这还有进一步的应用,例如半自主机器人放置在人类操作员无法到达的地方(例如地下或星际位置)的生存行为。”
在人类和动物中,一种理论假设存在一种“内在动机”,即行为仅由生物与其环境之间的相互作用驱动,而不是由特定的习得奖励(例如食物)驱动。本文成功地将“内在动机”理论转化为可供机器人代理使用的理论。
波拉尼教授补充道:“这项工作令人兴奋,因为我们现在可以在机器人中实现一种机制,类似于帮助人类和动物在没有经验的情况下解决新问题的机制。
“我们希望在这项工作的基础上,未来能够开发出更多具有更直观流程的类人机器人。这为具有与我们类似决策流程的更复杂的机器人提供了巨大的机会。”
本文所依据的理论称为“赋权最大化”,已在赫茨发展多年。它表明,通过增加未来结果的范围,机器人在更长的未来也将拥有更好的选择。重要的是,这种方法取代并因此可能消除传统的奖励系统(例如食物信号)。
虽然赋权最大化已显示出希望,但尚未得到充分理解或广泛应用。大多数研究过去依赖于模拟,同时仔细计算复杂系统的必要信息,而理论仍然具有挑战性。
然而,这项最新的创新研究旨在解释为什么基于授权的动机可以创造与生物体类似的行为,从而有可能产生更具内在动机的机器人;它还提供了一种显着改进的方法来计算这些动机。
波拉尼教授表示,下一步是利用这一突破性算法让机器人更多地了解世界,开发直接学习、识别和磨练新技能,从而在现实世界场景中发挥其价值。
本视频下方有视频中的链接,感兴趣的可以打开看看
谢谢观看本视频。要是喜欢,请订阅、点赞。谢谢
原文:https://techxplore.com/news/2024-09-algorithm-robots-closer-intuition.html
更多信息: Stas Tiomkin 等人,动态控制系统的内在动机, PRX Life (2024)。 DOI:
期刊信息: PRX Life