WebDreamer（「模型驅動的Web Agent規劃」）

項目概況

WebDreamer（「模型驅動的Web Agent規劃」） 這是俄亥俄州立大學OSU-NLP研究小組提出的一種新方法。其核心思想是使用大語言模型（LLM）作為「世界模型」，在執行真實Web操作之前「想像」其結果，使多步驟規劃更安全、更有效

世界模型
使用LLM（如GPT-4 o或特別微調的Dreamer-7 B）輸入當前網頁截圖+狀態+動作描述，模擬動作執行後網頁的變化（包括文字描述、輔助無障礙樹或HTML結構）。
模擬評分
對每條模擬軌跡進行評分，以評估其對任務目標的實際進展意義，並篩選出最潛在的行動
控制器決策（控制器）
根據多步驟模擬的結果做出決策，執行選定的動作，然後重新啟動下一個周期，直到任務完成。

總結：與純粹的反應方法相比，WebDreamer在真實網絡環境和視覺交互任務方面有顯著改進。儘管在完全可控的環境下它不如樹搜索，但在實際應用中它更安全、更高效。

代碼結構：
- 世界模型：定義模擬功能。
- 模擬_評分：負責模擬評估和評分。
- 控制器：控制器模塊，集成模擬結果以做出行動決策。
- 包含Visual WebArena和Mind 2 Web-live的評估腳本和示例數據
模型和數據：
- Dreamer-7 B是針對這項任務進行微調的專門型號，已在Hugging Face上發布
- HF Collection和GitHub倉庫中提供了培訓數據和檢查點（詳細信息請參閱紙質和倉庫）

優勢：
- 安全：模擬階段不會影響真實網站，有效規避風險。
- 效率：避免不必要的真實互動嘗試並降低成本。
- 擴展性：適合多步複雜任務，可以集成更先進的規划算法。
限制：
- 成本高：目前使用GPT-4 o，成本約為1美金/任務
- 模擬質量有限：高度依賴LLM的模擬能力。如果環境變化很複雜，可能很難準確模擬。
- 嚴重依賴LLM推理能力，未來需要探索特殊的微調和優化策略。

WebDreamer是一個新的規劃框架，使用LLM作為「Web世界模型」來模擬然後執行動作。在現實世界的Web自動化任務中實現顯著的性能改進，結合靈活性和安全性。適合應用於跨領域、多步驟、高風險的Web代理系統。完整的實現、示例、評估代碼和模型已在GitHub上開源，值得深入研究。

輸油管：