項目概況
WebDreamer(「模型驅動的Web Agent規劃」) 這是俄亥俄州立大學OSU-NLP研究小組提出的一種新方法。其核心思想是使用大語言模型(LLM)作為「世界模型」,在執行真實Web操作之前「想像」其結果,使多步驟規劃更安全、更有效
- 目標:解決純反應式方法(例如ReAct框架)在Web自動化任務中往往短視且低效的多步決策問題,同時避免真實網站中「回滾」操作帶來的風險
- 創新點:使用LLM來設想可能的未來狀態,預測和評估多種替代行動,然後選擇最佳執行計劃。
核心機制
- 世界模型
使用LLM(如GPT-4 o或特別微調的Dreamer-7 B)輸入當前網頁截圖+狀態+動作描述,模擬動作執行後網頁的變化(包括文字描述、輔助無障礙樹或HTML結構)。 - 模擬評分
對每條模擬軌跡進行評分,以評估其對任務目標的實際進展意義,並篩選出最潛在的行動 - 控制器決策(控制器)
根據多步驟模擬的結果做出決策,執行選定的動作,然後重新啟動下一個周期,直到任務完成。
實驗和效果
| 標杆 | 方法 | 成功率 |
|---|---|---|
| 視覺網絡競技場 | GPT-4 o+反應性 | 百分之十七點六 |
| GPT-4 o+樹搜索 | 26.2% | |
| GPT-4o + WebDreamer | 23.6%(+34.1%領先反應) | |
| 在線-Mind 2 Web | GPT-4 o+反應性 | 26.0% |
| GPT-4o + WebDreamer | 37.0%(+42.3%) | |
| Mind2網絡直播 | GPT-4 o+反應性 | 20.2% |
| GPT-4o + WebDreamer | 25.0%(+23.8%) |
總結:與純粹的反應方法相比,WebDreamer在真實網絡環境和視覺交互任務方面有顯著改進。儘管在完全可控的環境下它不如樹搜索,但在實際應用中它更安全、更高效。
實現和資源
- 代碼結構:
- 世界模型:定義模擬功能。
- 模擬_評分:負責模擬評估和評分。
- 控制器:控制器模塊,集成模擬結果以做出行動決策。
- 包含Visual WebArena和Mind 2 Web-live的評估腳本和示例數據
- 模型和數據:
- Dreamer-7 B是針對這項任務進行微調的專門型號,已在Hugging Face上發布
- HF Collection和GitHub倉庫中提供了培訓數據和檢查點(詳細信息請參閱紙質和倉庫)
技術價值和挑戰
- 優勢:
- 安全:模擬階段不會影響真實網站,有效規避風險。
- 效率:避免不必要的真實互動嘗試並降低成本。
- 擴展性:適合多步複雜任務,可以集成更先進的規划算法。
- 限制:
- 成本高:目前使用GPT-4 o,成本約為1美金/任務
- 模擬質量有限:高度依賴LLM的模擬能力。如果環境變化很複雜,可能很難準確模擬。
- 嚴重依賴LLM推理能力,未來需要探索特殊的微調和優化策略。
總結
WebDreamer是一個新的規劃框架,使用LLM作為「Web世界模型」來模擬然後執行動作。在現實世界的Web自動化任務中實現顯著的性能改進,結合靈活性和安全性。適合應用於跨領域、多步驟、高風險的Web代理系統。完整的實現、示例、評估代碼和模型已在GitHub上開源,值得深入研究。
Github:https://github.com/OSU-NLP-Group/WebDreamer
輸油管: