让AI学会在该思考时思考人类想太多会容易秃顶,AI想太多会怎么样?
答案显然易见:用复杂的推理来解决所有问题,计算效率会变得极其低下,同时成本不停upupup。
那么,有没有什么方法让AI学会在恰当的时候进行思考呢?有的,朋友,有的。
来自新加坡国立大学的研究团队提出了一种名为Thinkless的框架,让AI学会了根据任务复杂度和模型能力,自动选择简短回答或长链推理。【图2】
具体怎么做到的呢?Thinkless可以分为两个阶段:蒸馏预热和利用DeGRPO进行强化学习。
蒸馏预热阶段通过两个专家模型进行知识蒸馏,一个用于生成详细的推理链,另一个用于生成简洁答案,使目标模型掌握两种回答风格。
利用DeGRPO进行强化学习的第二个阶段是这个框架的核心阶段。它将混合推理的学习目标分解为两个部分:
- 控制标记损失函数:用于推理模式的选择
- 回答损失函数:用于提高生成答案的准确性
通过解耦的方式平衡两个目标的贡献,稳定训练过程,有效防止了在普通GRPO中观察到的崩溃。
Thinkless框架在Minerva Algebra、MATH-500、GSM8K等基准测试中都表现出色。结果表明该框架能够显著减少长链推理的使用,提高推理语言模型的效率。【图3】(量子位)