【[606星]Logic-RL：成功复现DeepSeekR1Zero的逻辑

爱生活爱珂珂 2025-02-06 16:32:36

【[606星] Logic-RL：成功复现DeepSeek R1 Zero的逻辑推理强化学习项目，专为解决复杂的逻辑谜题而生！亮点：1. 在2K Tiny Logic Puzzle数据集上完美复现，准确率高达100%；2. 支持多语言推理，中文推理过程搭配英文答案输出；3. 强化学习驱动，模型输出长度优化，平均长度降低30%】

'Logic-RL: Successfully reproduced DeepSeek R1 Zero on 2K Tiny Logic Puzzle Dataset.'

GitHub: github.com/Unakar/Logic-RL

0 阅读：1

爱生活爱珂珂

感谢大家的关注

作者最新文章

1

【[616星]Rybbit：开源且无Cookie的网站分析工具，比传统工具更直观

2

【[619星]Bracket：自托管的赛事管理系统，为赛事组织者提供一站式解决方

3

【[486星]SimAI：AI大规模训练的全栈高精度模拟器，助力研究人员深入分析

4

【[43星]LLM-Agent-Evaluation-Survey：一站式LLM

5

【[374星]MCP-SuperAssistant：一个 Chrome 扩展程序

6

当前AI领域专业化分工和协同智能的趋势——通过构建一个多模型协作系统，可以在特定

7

【Parakeet TDT 0.6B V2 (En)：Nvidia开源的超强语音

8

【AI in the Enterprise：OpenAI为企业提供的AI部署实战

9

早！[太阳] 早安

10

【[77星]PodAgent：一个能生成播客的框架，输入话题就能生成完整的播客音

热门分类

推荐热榜军事 NBA 体育社会明星八卦娱乐财经科技汽车历史国际游戏动漫公益搞笑商业互联网数码国际足球房产家居时尚科学探索职场育儿股票教育影视情感热点中国军情武器中国南海中国足球亚洲杯科比综合体育 CBA 投资楼市大咖秀外汇创业风口 SUV 豪车概念车优惠新能源美国欧洲朝日韩俄罗斯孕期街拍恋爱攻略婚姻正能量

科技TOP

1

好纠结呀！现在的小屏手机到底哪款性价比最出色呢？

2

2025年手机选购指南，全价位段手机推荐

3

一图解读：十款手机配置，各显神通，你更喜欢哪款？

4

一个人躺在沙发上玩手机。

5

以前这样挂着一部手机那是相当时髦的

6

昨天，华为终端发布华为nova全球代言人易烊千玺手持华为nova14系列的海报

7

字节的工资是真的高啊！

8

投屏之前一定要检查好啊这下可麻烦了

9

618手机大促，不同价位手机，超值推荐！你觉得618购买手机性价比高吗？

10

存一张美得很人山人海的（AI

科技最新文章

1

王自如回应做AI内容看完他讲述的故事，其实后面更动容。人生就是很多选择，敢去做

2

首发4499你们不买，降到3999你们不买，3599还是不买那么现在荣耀Ma

3

大吃一惊！华为正式官宣了！6月3日，华为终端正式官宣：首款鸿蒙AI智能手表W

4

618购物节，小米手机专场最值得推荐的机型，性能与价格全面解析，哪款最值得入手呢

5

618新机推荐：智能选机指南，哪款值得入手呢？

6

一个印度商人进退两难的处境：不想从中国进口USB线，但是这样一根标准USB线，

7

刘强东这次真的当了冤大头了！一个叫姜官成的外卖小哥，刚从美团跳槽到京东外卖没几天

8

2025年5月OPPO四款手机推荐，性能与颜值并存！618你会选购哪款呢？

9

iOS26设计渲染图曝光为什么是iOS26？因为用年份命名版本，比如26年就是

10

苹果iOS26泄露了，看起来似乎还不错呢。[吃瓜]ios用户ios一觉

随机资讯

1

战车VS雄鸡军团！全年无冠的姆巴佩渴望胜利，誓要击碎德国防线

2

世俱杯前瞻（三）：穆勒拜仁生涯最后一舞，本菲卡需尽早确立优势

3

2025NBA选秀观察（三）：长臂投篮机器——艾斯-贝利

4

Here we go！国米新主帅浮出水面！竟是国米三冠王传奇！

5

[赛事简报] 法网女单半决赛：萨巴伦卡战胜斯瓦泰克，首进法网决赛

6

[赛事简报] 法网女单半决赛：高芙轻取布瓦松，将与萨巴伦卡争冠

7

步行者不仅拿下NBA总决赛首胜，还赢得了大部分NBA球迷的支持！

8

国足0-1印尼无缘世界杯，下届世预赛这些老将还应该被征召吗？

9

战术板（四）：变化无穷尽的奥秘——三角进攻

10

安切洛蒂巴西首秀闷平！厄瓜多尔0-0锁死维尼修斯，安东尼替补未登场