繁中

WebDreamer(「模型驅動的Web Agent規劃」)

項目概況

WebDreamer(「模型驅動的Web Agent規劃」) 這是俄亥俄州立大學OSU-NLP研究小組提出的一種新方法。其核心思想是使用大語言模型(LLM)作為「世界模型」,在執行真實Web操作之前「想像」其結果,使多步驟規劃更安全、更有效

  • 目標:解決純反應式方法(例如ReAct框架)在Web自動化任務中往往短視且低效的多步決策問題,同時避免真實網站中「回滾」操作帶來的風險
  • 創新點:使用LLM來設想可能的未來狀態,預測和評估多種替代行動,然後選擇最佳執行計劃。

核心機制

  1. 世界模型
    使用LLM(如GPT-4 o或特別微調的Dreamer-7 B)輸入當前網頁截圖+狀態+動作描述,模擬動作執行後網頁的變化(包括文字描述、輔助無障礙樹或HTML結構)。
  2. 模擬評分
    對每條模擬軌跡進行評分,以評估其對任務目標的實際進展意義,並篩選出最潛在的行動
  3. 控制器決策(控制器)
    根據多步驟模擬的結果做出決策,執行選定的動作,然後重新啟動下一個周期,直到任務完成。

實驗和效果

標杆方法成功率
視覺網絡競技場GPT-4 o+反應性百分之十七點六
GPT-4 o+樹搜索26.2%
GPT-4o + WebDreamer23.6%(+34.1%領先反應)
在線-Mind 2 WebGPT-4 o+反應性26.0%
GPT-4o + WebDreamer37.0%(+42.3%)
Mind2網絡直播GPT-4 o+反應性20.2%
GPT-4o + WebDreamer25.0%(+23.8%)

總結:與純粹的反應方法相比,WebDreamer在真實網絡環境和視覺交互任務方面有顯著改進。儘管在完全可控的環境下它不如樹搜索,但在實際應用中它更安全、更高效。

實現和資源

  • 代碼結構
    • 世界模型:定義模擬功能。
    • 模擬_評分:負責模擬評估和評分。
    • 控制器:控制器模塊,集成模擬結果以做出行動決策。
    • 包含Visual WebArena和Mind 2 Web-live的評估腳本和示例數據
  • 模型和數據
    • Dreamer-7 B是針對這項任務進行微調的專門型號,已在Hugging Face上發布
    • HF Collection和GitHub倉庫中提供了培訓數據和檢查點(詳細信息請參閱紙質和倉庫)

技術價值和挑戰

  • 優勢
    • 安全:模擬階段不會影響真實網站,有效規避風險。
    • 效率:避免不必要的真實互動嘗試並降低成本。
    • 擴展性:適合多步複雜任務,可以集成更先進的規划算法。
  • 限制
    • 成本高:目前使用GPT-4 o,成本約為1美金/任務
    • 模擬質量有限:高度依賴LLM的模擬能力。如果環境變化很複雜,可能很難準確模擬。
    • 嚴重依賴LLM推理能力,未來需要探索特殊的微調和優化策略。

總結

WebDreamer是一個新的規劃框架,使用LLM作為「Web世界模型」來模擬然後執行動作。在現實世界的Web自動化任務中實現顯著的性能改進,結合靈活性和安全性。適合應用於跨領域、多步驟、高風險的Web代理系統。完整的實現、示例、評估代碼和模型已在GitHub上開源,值得深入研究。

Github:https://github.com/OSU-NLP-Group/WebDreamer

輸油管:

返回頂端