通义强化学习框架突破搜索引擎依赖LLM搜索训练告别搜索引擎利用强化学习提升LLM

通义强化学习框架突破搜索引擎依赖LLM搜索训练告别搜索引擎

利用强化学习提升LLMs的搜索能力，一定需要与真实搜索引擎交互吗？

阿里巴巴通义实验室最新论文表示，未必如此！【图1】

通常来说，采用真实搜索引擎进行训练的方式，会面临两个问题：

1. 文档质量不可控：搜索引擎返回的文档质量参差不齐，给训练过程带来噪声和不稳定性，影响模型训练效果。

2. API成本过高：强化学习训练需要频繁进行API调用，这会带来巨额费用，制约模型可扩展性。

为了应对这些挑战，研究团队创新性地提出了强化学习框架ZeroSearch，将LLMs转化为检索模块，无需与真实搜索引擎交互即可进行训练。【图2】

他们是如何做到的呢？关键在于以下四点：

1、轻量级监督微调（SFT）

- 收集LLMs与真实搜索引擎交互的轨迹，将产生正确答案的轨迹标记为正样本，产生错误答案的轨迹标记为负样本。

- 提取查询-文档对，并进行轻量级SFT，使其能够根据提示生成有用或噪声文档。

2、渐进式课程学习策略

- 在训练过程中，逐步增加生成文档的噪声比例，使模型逐渐适应更具挑战性的检索场景。

- 使用概率函数控制生成噪声文档的可能性，随着训练的进行，逐渐增加噪声文档的比例。

3、奖励设计：采用基于F1分数的奖励函数，专注于答案的准确性。

4、强化学习算法

- ZEROSEARCH与多种强化学习算法兼容，如近端策略优化（PPO）、组相对策略优化（GRPO）和Reinforce++等。

- 这些算法通过奖励信号指导模型的学习，使模型能够更好地掌握搜索策略。

从测试结果看，ZeroSearch的表现相当亮眼：

- 在多个问答基准数据集上均优于基线方法。【图3】

- 性能上超越了依赖真实搜索引擎的方法：【图3】

- 70亿参数的检索模块已达到与真实搜索引擎相当的性能

- 而140亿参数模块甚至实现了超越

- 在不同规模的基础模型和指令微调模型上均表现出良好的泛化性，并能兼容多种强化学习算法。【图4】

更多技术细节，欢迎点击论文链接查看➡️：

项目主页：

0 阅读：0

苹果即将推送iOS18.5更新，带来多项新功能。邮件应用新增“全部邮件”视图和