AI 挑战奥数 IMO 2025:仅两款模型给出完整解答

https://youtu.be/2PAWvwtRo70

IMO 2025在澳大利亚结束,研究显示当前AI模型在严格数学推理方面仍存在显著局限。
结论:测试结果表明,当前AI模型在复杂数学问题解决方面仍有很大改进空间,获得正确答案与提供完整数学推理之间存在显著差距。

这个项目 “IMO2025‑LLM” 是一个用于评估大语言模型(LLM)在 IMO(International Mathematical Olympiad,国际数学奥林匹克)2025 年赛题上表现的基准测试工具和脚本库。它由 GitHub 用户 PaperPlaneDeemo 发布,

🧠 项目背景和目的

  • 目标:评估当前主流 LLM(如 Anthropic Sonnet 4、ByteDance Seed 1.6、Google Gemini 2.5 Pro)在 IMO 2025 所有六道题目上的解题能力、推理过程和解题成本;
  • 为什么重要:IMO 级别问题难度极高,具有挑战性,非常适合作为衡量 LLM 数学推理能力和证明构造的“酸性测试(acid test)”

内容结构与功能

  1. 题目链接
    每道 IMO 题目都通过 AoPS(Art of Problem Solving)给出链接,供用户预览题意并构建直观理解
  2. 评估脚本
    包含 evaluate.py 脚本,可加载本地模型或 API 模型进行测试。输出包括答题是否正确、使用的 token 数、成本估算,以及可视化比较图表等
  3. 扩展性强
    你可以将任意模型(包括开源局部部署模型)加入,只需在 config.yaml 配置 API 接口或模型路径,然后重新运行脚本,就能自动生成结果并呈现在图表中

关键评估数据

模型正确题数总 token估算成本
Claude Sonnet 42/6 (题 1,3)~235k$3.50
Gemini 2.5 Pro2/6 (题 1,5)~184k$1.84
Seed 1.62/6 (题 3,5)~104k$0.21
  • 两款模型(Seed 1.6 与 Gemini 2.5 Pro)成功完整解出了第 5 题,这是评估中唯一完全解题的案例
  • Seed 1.6 在正确率与推理质量上表现出色,同时成本极低——与 Claude 相比仅用了约 17% 的费用

结论与意义

  • IMO 题仍然是 LLM 推理能力领域的高难点;
  • 项目提供了一个开放、可复现、可扩展的框架,鼓励社区持续测评更多模型;
  • 第 5 题被认为是衡量逻辑严密和创造性推理的“新酸性测试”;
  • 该项目采用 MIT 许可,包含题目、模型输出、评估数据,适用于研究、教学、产品开发等场景

🚀 如何使用该项目

如果你想亲自尝试使用或分析其它模型,可按以下步骤:

  1. 克隆仓库:git clone https://github.com/PaperPlaneDeemo/IMO2025-LLM.git cd IMO2025-LLM
  2. 查看 README 中各题链接、输入格式与离散模型说明;
  3. 运行评估脚本,例如测试本地模型的第 5 题:python evaluate.py --model my-local-model --problem 5
  4. 脚本会返回解题结果(对/错)、token 数、成本估算,并更新可视化图表。

总结

  • IMO2025‑LLM 是一个专门为 IMO 2025 数学题设计的 LLM benchmark;
  • 它提供评测脚本、数据记录、成本分析和可视化图表;
  • 当前只有 Seed 1.6 与 Gemini 2.5 Pro 能完整解决第 5 题,其他题目仍很艰难;
  • 若你关注 LLM 在高阶数学推理上的进步或想用它们评测自定义模型,这个项目是非常有价值的起点。

Github:https://github.com/PaperPlaneDeemo/IMO2025-LLM

油管:https://youtu.be/2PAWvwtRo70

滚动至顶部