IMO 2025在澳大利亚结束,研究显示当前AI模型在严格数学推理方面仍存在显著局限。
结论:测试结果表明,当前AI模型在复杂数学问题解决方面仍有很大改进空间,获得正确答案与提供完整数学推理之间存在显著差距。
这个项目 “IMO2025‑LLM” 是一个用于评估大语言模型(LLM)在 IMO(International Mathematical Olympiad,国际数学奥林匹克)2025 年赛题上表现的基准测试工具和脚本库。它由 GitHub 用户 PaperPlaneDeemo 发布,
🧠 项目背景和目的
- 目标:评估当前主流 LLM(如 Anthropic Sonnet 4、ByteDance Seed 1.6、Google Gemini 2.5 Pro)在 IMO 2025 所有六道题目上的解题能力、推理过程和解题成本;
- 为什么重要:IMO 级别问题难度极高,具有挑战性,非常适合作为衡量 LLM 数学推理能力和证明构造的“酸性测试(acid test)”
内容结构与功能
- 题目链接
每道 IMO 题目都通过 AoPS(Art of Problem Solving)给出链接,供用户预览题意并构建直观理解 - 评估脚本
包含evaluate.py
脚本,可加载本地模型或 API 模型进行测试。输出包括答题是否正确、使用的 token 数、成本估算,以及可视化比较图表等 - 扩展性强
你可以将任意模型(包括开源局部部署模型)加入,只需在config.yaml
配置 API 接口或模型路径,然后重新运行脚本,就能自动生成结果并呈现在图表中
关键评估数据
模型 | 正确题数 | 总 token | 估算成本 |
---|---|---|---|
Claude Sonnet 4 | 2/6 (题 1,3) | ~235k | $3.50 |
Gemini 2.5 Pro | 2/6 (题 1,5) | ~184k | $1.84 |
Seed 1.6 | 2/6 (题 3,5) | ~104k | $0.21 |
- 两款模型(Seed 1.6 与 Gemini 2.5 Pro)成功完整解出了第 5 题,这是评估中唯一完全解题的案例
- Seed 1.6 在正确率与推理质量上表现出色,同时成本极低——与 Claude 相比仅用了约 17% 的费用
结论与意义
- IMO 题仍然是 LLM 推理能力领域的高难点;
- 项目提供了一个开放、可复现、可扩展的框架,鼓励社区持续测评更多模型;
- 第 5 题被认为是衡量逻辑严密和创造性推理的“新酸性测试”;
- 该项目采用 MIT 许可,包含题目、模型输出、评估数据,适用于研究、教学、产品开发等场景
🚀 如何使用该项目
如果你想亲自尝试使用或分析其它模型,可按以下步骤:
- 克隆仓库:
git clone https://github.com/PaperPlaneDeemo/IMO2025-LLM.git cd IMO2025-LLM
- 查看 README 中各题链接、输入格式与离散模型说明;
- 运行评估脚本,例如测试本地模型的第 5 题:
python evaluate.py --model my-local-model --problem 5
- 脚本会返回解题结果(对/错)、token 数、成本估算,并更新可视化图表。
总结
- IMO2025‑LLM 是一个专门为 IMO 2025 数学题设计的 LLM benchmark;
- 它提供评测脚本、数据记录、成本分析和可视化图表;
- 当前只有 Seed 1.6 与 Gemini 2.5 Pro 能完整解决第 5 题,其他题目仍很艰难;
- 若你关注 LLM 在高阶数学推理上的进步或想用它们评测自定义模型,这个项目是非常有价值的起点。