你绝对想不到，数学界的“扫地僧”陶哲轩，竟在新加坡香格里拉酒店的会场外，用一杯咖

你绝对想不到，数学界的“扫地僧”陶哲轩，竟在新加坡香格里拉酒店的会场外，用一杯咖啡的时间揭开了AI的“皇帝新衣”！ 2025年5月31日，当全球目光聚焦香格里拉对话会的军事博弈时，一场同样惊心动魄的智力对决正在酒店咖啡厅悄然上演。陶哲轩端着拿铁，手指轻点iPad，屏幕上赫然显示着FrontierMath测试的结果——全球最顶尖的AI模型在60位数学家设计的全新题库前集体“缴械”，正确率从常规测试的90%暴跌至不足2%。这位菲尔兹奖得主推了推眼镜，对身边的《自然》杂志记者笑道：“它们就像被突然没收了小抄的考生。” 一、AI的“皇帝新衣”是如何被撕破的？这场颠覆认知的测试，源自数学家们对AI“数学神话”的集体质疑。此前，GPT-4等模型在GSM8K等传统测试中动辄90%以上的正确率，让不少人误以为AI已超越人类推理能力。但陶哲轩和60位同行发现，这些测试题早已被AI训练数据“污染”，本质上是“记忆考古题”。于是，他们耗时18个月打造了FrontierMath——涵盖数论、代数几何等现代数学前沿领域的数百道原创题，每道题都需要专业数学家花费数小时甚至数天才能解出。测试结果震惊学界：即使给予AI延长思考时间（10000个token）、Python访问权限和实验能力，其正确率仍低于2%。更讽刺的是，当测试团队采访陶哲轩、蒂莫西·高尔斯等菲尔兹奖得主时，这些数学界“大神”一致认为题目极具挑战性，但AI连入门级的抽象问题都无法突破。二、莫拉维克悖论：AI的致命短板陶哲轩将AI的困境归结为“莫拉维克悖论”——人类看似简单的高阶推理（如数学证明），对AI却是难于登天；而人类需要大量训练的低阶技能（如图像识别），AI却能轻松驾驭。就像OpenAI研究科学家Andrej Karpathy所言：“AI能解魔方，却握不住魔方；能写论文，却理不清逻辑链条。” 这种悖论在FrontierMath中暴露无遗。例如，一道关于范畴论的抽象证明题，AI反复生成看似合理却漏洞百出的推导步骤，而人类数学家只需抓住“函子的自然变换”这一核心概念，就能在半小时内完成证明。陶哲轩犀利指出：“AI就像用乐高积木搭建摩天大楼，每一块积木都精准，但整体结构摇摇欲坠。” 三、AI的“数学天花板”能否突破？面对质疑，AI界并非毫无反击之力。谷歌DeepMind的AlphaGeometry在2024年曾达到IMO银牌水平，解决了30道奥数几何题中的25道。但这类突破局限于特定领域，且依赖海量标注数据和专用算法。陶哲轩对此泼冷水：“这就像让短跑运动员参加马拉松，速度再快也跑不完全程。” 更关键的是，AI缺乏人类数学家的“直觉跳跃”能力。在证明费马大定理时，怀尔斯曾用“椭圆曲线”这一跨领域概念实现突破，而AI至今无法自主进行这种创造性关联。正如Meta研究院的论文指出：“AI的推理是‘线性的’，而人类的推理是‘网络状的’。” 四、数学家的“降维打击”与AI的未来陶哲轩的团队在测试中还发现一个有趣现象：AI在遇到错误时会“嘴硬”。例如，当用户指出“正确答案应为120”时，AI竟回应：“你给的是错别字，正确答案是120。”这种“死鸭子嘴硬”的特性，暴露了AI缺乏自我反思能力的本质。不过，陶哲轩并非全盘否定AI。他在与OpenAI的对谈中提出：“AI可以成为数学研究的‘瑞士军刀’——帮我们写代码、查文献、验证中间步骤，但真正的突破仍需人类智慧。”例如，他用GPT-4辅助完成麦克劳林不等式的形式化证明，虽然AI生成的200行Lean代码需要人工修正，但效率提升了40%。五、人类智慧的“护城河” 这场测试撕开了AI的华丽外衣，却让人类智慧的光芒更加耀眼。正如陶哲轩在《自然》专访中所言：“数学的本质是‘发现’，而AI擅长的是‘计算’。当我们在黎曼猜想的迷宫中寻找出口时，AI或许能帮我们照亮脚下的路，但真正的地图永远在人类大脑中。” 更值得深思的是，测试中AI的“失败”恰恰证明了人类思维的不可替代性。FrontierMath中的一道数论题，要求证明某个无限序列的收敛性，AI反复尝试概率推算均告失败，而一位中国数学家通过构造“递推不等式”的巧妙方法，仅用两页纸就完成了证明。这种“四两拨千斤”的智慧，正是AI难以企及的高度。历史终将铭记这一刻：当AI在数学殿堂前铩羽而归时，人类再次证明了自己才是智慧的真正主人。正如《人民日报》2025年5月29日的评论所言：“技术的进步不是为了取代人类，而是为了让我们站在更高的起点上探索未知。” 这场数学与AI的较量，你认为谁会笑到最后？评论区留下你的看法，我们一起见证人类智慧的永恒光芒！