IMO 2025在澳大利亞結束,研究表明,當前的人工智慧模型在嚴格的數學推理方面仍然存在重大局限性。
結論:測試結果表明,當前的人工智慧模型在解決複雜數學問題方面仍有很大的改進空間,獲得正確答案與提供完整數學推理之間存在明顯差距。
項目「imo 2025-LLM」是一個基準工具和腳本庫,用於評估大型語言模型(LLM)在IMO(國際數學奧林匹克競賽)2025年競賽問題上的性能。由Hub用戶PaperPlanet o發布,
🧠項目背景和目的
- 目標:評估當前主流LLM(例如Anthropic十四行詩4、字節跳動Seed 1.6、Google Gemini 2.5 Pro)在所有六個IMO 2025問題上的問題解決能力、推理流程和問題解決成本;
- why it matters:imo級別的問題極其困難和具有挑戰性,非常適合作為衡量LLM數學推理能力和證明構建的「酸測試」
內容結構和功能
- 標題連結
每個IMO問題都通過AoPS(問題解決的藝術)連結,允許用戶預覽問題的含義並建立直觀的理解 - 評估腳本
包括evaluate.py可以加載本地模型或API模型進行測試的腳本。輸出包括答案是否正確、使用的代幣數量、成本估計和視覺比較圖表 - 擴展性強
只需添加任何模型(包括開源本地部署模型)config.yaml配置API接口或模型路徑,然後再次運行腳本以自動生成結果並在圖表中呈現
關鍵評估數據
| 模型 | 正確的問題數量 | 總的令牌 | 估計費用 |
|---|---|---|---|
| 克勞德十四行詩4 | 2/6(問題1、3) | ~ 235 k | 三塊五 |
| 雙子座2.5 Pro | 2/6(問題1、5) | ~184k | 1.84美金 |
| 種子1.6 | 2/6(問題3、5) | ~104k | 0.21美金 |
- 兩款型號(Seed 1.6和Gemini 2.5 Pro)成功徹底解決了問題5,這是評測中唯一徹底解決問題的案例
- Seed 1.6在推理的準確性和質量方面表現出色,同時成本極低--與Claude相比僅為成本的17%左右
結論及意義
- 國際海事組織問題仍然是LLM推理能力領域的高難度點;
- 項目須能開放、可複製、可擴展鼓勵社區持續評估更多模型的框架;
- 問題5被認為是衡量邏輯嚴謹性和創造性推理的「新酸測試」;
- 該項目由MIT授權,包括主題、模型輸出和評估數據,適用於科研、教學、產品開發等場景。
如何使用這個項目
如果您想嘗試自己使用或分析其他模型,請遵循以下步驟:
- 克隆倉庫:
git clone https://github.com/PaperPlaneDeemo/IMO2025-LLM.git光碟IMA 2025-LLM - 在REAUTE中查看每個問題的連結、輸入格式和離散模型描述;
- 運行評估腳本,例如測試本地模型的問題5:
Python evaluate.py--模型my-Local-模型--問題5 - 該腳本將返回解決方案結果(正確/錯誤)、代幣數量、成本估計並更新可視化圖表。
總結
- IMO2025-LLM 它是專門為IMO 2025數學問題設計的LLM基準;
- 它提供評估腳本、數據記錄、成本分析和視覺圖表;
- 目前只有Seed 1.6和Gemini 2.5 Pro可以完全解決第5題,其他題仍然很難;
- 如果您正在關注LLM在更高級數學推理方面的進展或想要使用它們來評估自定義模型,那麼這個項目是一個有價值的起點。
Github:https://github.com/PaperPlaneDeemo/IMO2025-LLM
輸油管: