人工智慧挑戰2025年數學奧林匹克競賽：只有兩個模型提供完整答案

IMO 2025在澳大利亞結束，研究表明，當前的人工智慧模型在嚴格的數學推理方面仍然存在重大局限性。
結論：測試結果表明，當前的人工智慧模型在解決複雜數學問題方面仍有很大的改進空間，獲得正確答案與提供完整數學推理之間存在明顯差距。

項目「imo 2025-LLM」是一個基準工具和腳本庫，用於評估大型語言模型（LLM）在IMO（國際數學奧林匹克競賽）2025年競賽問題上的性能。由Hub用戶PaperPlanet o發布，

🧠項目背景和目的

目標：評估當前主流LLM（例如Anthropic十四行詩4、字節跳動Seed 1.6、Google Gemini 2.5 Pro）在所有六個IMO 2025問題上的問題解決能力、推理流程和問題解決成本;
why it matters：imo級別的問題極其困難和具有挑戰性，非常適合作為衡量LLM數學推理能力和證明構建的「酸測試」

模型	正確的問題數量	總的令牌	估計費用
克勞德十四行詩4	2/6（問題1、3）	~ 235 k	三塊五
雙子座2.5 Pro	2/6（問題1、5）	~184k	1.84美金
種子1.6	2/6（問題3、5）	~104k	0.21美金

如果您想嘗試自己使用或分析其他模型，請遵循以下步驟：

克隆倉庫：git clone https://github.com/PaperPlaneDeemo/IMO2025-LLM.git光碟IMA 2025-LLM
在REAUTE中查看每個問題的連結、輸入格式和離散模型描述;
運行評估腳本，例如測試本地模型的問題5：Python evaluate.py--模型my-Local-模型--問題5
該腳本將返回解決方案結果（正確/錯誤）、代幣數量、成本估計並更新可視化圖表。

輸油管：