通义强化学习框架突破搜索引擎依赖LLM搜索训练告别搜索引擎利用强化学习提升LLM

量子位看科技 2025-05-09 11:24:47

通义强化学习框架突破搜索引擎依赖LLM搜索训练告别搜索引擎

利用强化学习提升LLMs的搜索能力,一定需要与真实搜索引擎交互吗?

阿里巴巴通义实验室最新论文表示,未必如此!【图1】

通常来说,采用真实搜索引擎进行训练的方式,会面临两个问题:

1. 文档质量不可控:搜索引擎返回的文档质量参差不齐,给训练过程带来噪声和不稳定性,影响模型训练效果。

2. API成本过高:强化学习训练需要频繁进行API调用,这会带来巨额费用,制约模型可扩展性。

为了应对这些挑战,研究团队创新性地提出了强化学习框架ZeroSearch,将LLMs转化为检索模块,无需与真实搜索引擎交互即可进行训练。【图2】

他们是如何做到的呢?关键在于以下四点:

1、轻量级监督微调(SFT)

- 收集LLMs与真实搜索引擎交互的轨迹,将产生正确答案的轨迹标记为正样本,产生错误答案的轨迹标记为负样本。

- 提取查询-文档对,并进行轻量级SFT,使其能够根据提示生成有用或噪声文档。

2、渐进式课程学习策略

- 在训练过程中,逐步增加生成文档的噪声比例,使模型逐渐适应更具挑战性的检索场景。

- 使用概率函数控制生成噪声文档的可能性,随着训练的进行,逐渐增加噪声文档的比例。

3、奖励设计:采用基于F1分数的奖励函数,专注于答案的准确性。

4、强化学习算法

- ZEROSEARCH与多种强化学习算法兼容,如近端策略优化(PPO)、组相对策略优化(GRPO)和Reinforce++等。

- 这些算法通过奖励信号指导模型的学习,使模型能够更好地掌握搜索策略。

从测试结果看,ZeroSearch的表现相当亮眼:

- 在多个问答基准数据集上均优于基线方法。【图3】

- 性能上超越了依赖真实搜索引擎的方法:【图3】

- 70亿参数的检索模块已达到与真实搜索引擎相当的性能

- 而140亿参数模块甚至实现了超越

- 在不同规模的基础模型和指令微调模型上均表现出良好的泛化性,并能兼容多种强化学习算法。【图4】

更多技术细节,欢迎点击论文链接查看➡️:

项目主页:

0 阅读:0
量子位看科技

量子位看科技

感谢大家的关注