AI仅凭自信学会推理浙大校友复刻DeepSeek逻辑链AI真能靠“自信”学会推

量子位看科技 2025-05-29 16:30:40

AI仅凭自信学会推理 浙大校友复刻DeepSeek逻辑链

AI真能靠“自信”学会推理!

新强化学习方法RLIF,不再依赖外部奖励或标准答案,仅用模型自身的“置信度”作为内在奖励。这个方法叫Intuitor,通过优化模型对答案的信心分布,训练出更强的推理能力。

与传统GRPO方法相比,Intuitor在数学、代码等任务上表现更优,甚至小模型也能涌现出长链推理行为。实验中,基础模型Qwen2.5在数学任务中由最初的重复输出转变为结构清晰、响应有效,表现提升显著。

该方法还规避了“奖励黑客”问题:模型试图“作弊”以提高自信分,但在线训练策略使评估标准随能力演进,从机制上封堵漏洞。

此外,模型在代码任务中表现尤为亮眼,会在输出前加入自然语言推理。整个训练过程被总结为三阶段:学会写代码、加推理解释、逐步细化。

研究由浙大校友赵轩东主导,他与团队将继续探索基于内在信号的训练方式,在更大模型和数据上验证效果。

0 阅读:4
量子位看科技

量子位看科技

感谢大家的关注