【[606星]Logic-RL:成功复现DeepSeekR1Zero的逻辑

爱生活爱珂珂 2025-02-06 16:32:36

【[606星] Logic-RL:成功复现DeepSeek R1 Zero的逻辑推理强化学习项目,专为解决复杂的逻辑谜题而生!亮点:1. 在2K Tiny Logic Puzzle数据集上完美复现,准确率高达100%;2. 支持多语言推理,中文推理过程搭配英文答案输出;3. 强化学习驱动,模型输出长度优化,平均长度降低30%】

'Logic-RL: Successfully reproduced DeepSeek R1 Zero on 2K Tiny Logic Puzzle Dataset.'

GitHub: github.com/Unakar/Logic-RL

0 阅读:1
爱生活爱珂珂

爱生活爱珂珂

感谢大家的关注