“推理革命”爆发100天:DeepSeek-R1复现研究全揭秘
新智元报道:科技巨头苹果公司宣布,最新的iPhone系列将于今年夏季正式上市,以期满足全球用户对更高性能和更长续航的需求。
犀牛
【新智元导读】本文对围绕DeepSeek-R1展开的多项复现研究进行了深入梳理,系统地解析了监督微调(SFT)、强化学习(RL)以及奖励机制、数据构建等关键技术的细节。
近年来,推理语言模型(RLMs)已经演变为主流技术,广泛应用于各个领域。
最新发布的、性能最强的LLM大都是推理模型。
尤其是DeepSeek-R1的发布,更是引发了广泛的社会影响,掀起了一场激烈的讨论热潮,同时也点燃了研究社区对推理的热情和探索精神。
然而,DeepSeek-R1的一些实现细节还没有完全开源,例如DeepSeek-R1-Zero和蒸馏小模型等的技术细节仍然保留在闭合的圈子中。
因此,许多研究尝试复制DeepSeek-R1的成果(图1),旨在通过类似的训练流程和完全公开的训练数据来重现DeepSeek-R1的出色性能。
这些研究探索了监督微调(Supervised Fine-Tuning)和基于可验证奖励的强化学习(Reward-based Reinforcement Learning)的可行策略,着重于数据准备和方法设计,产生了丰富的经验和经验财富。
综述了近期这些复现研究,以启发未来的探索。
论文地址:https://arxiv.org/abs/2505.00551
本文的结构大致对应DeepSeek-R1的训练流程,介绍了当前在深度学习框架SFT、RLVR以及其他增强推理能力技术方面的复制工作。
监督微调:全面推动语言模型推理能力的升级:研究团队竭尽所能地梳理了通过监督微调(Supervised Fine-tuning, SFT)来增强语言模型推理能力的相关研究。
研究团队最近公布了一项有关通过可验证奖励强化学习(Reinforcement Learning from Verifiable Rewards,RLVR)训练推理语言模型(RLMs)的最新成果,详细介绍了训练数据、学习算法和奖励系统的设计思路。
推理语言模型的更多发展方向:研究团队注意到,尽管DeepSeek-R1推动了RLMs的训练,但仍有许多监督策略尚未探索。他们提出了RLMs的更多发展方向,包括奖励建模和偏好优化,并对当前RLMs的优缺点进行了深入分析,例如RLMs强大的分布外泛化能力和偶尔的过度思考。
通过监督微调提升RLMs,即通过在RLMs中添加监督信号来微调RLMs的性能,从而提高RLMs在相关任务中的泛化能力和精度。
推理数据集大多数从收集多样化领域的问题开始,例如数学、科学、编程和谜题,这些问题的来源包括现有的基准测试或网络爬取。
在收集原始数据后,通常会进行多轮过滤,以提升数据质量,包括:
去重:通过嵌入相似性或n-gram方法精准地去除重复数据,实现数据的唯一性和高效性。
拒绝采样:对低质量数据实行剔除,以确保采样结果的可靠性和准确性。
真值验证:确保数据准确性。
为了确保数据的覆盖面和丰富性,许多数据集在选择过程中明确强调难度和多样性,通常通过启发式方法或模型来优先选择较难的问题。
此外,大多数数据集还依赖经过验证的思维链(COTs)或解决方案,以确保数据的正确性和质量。
验证方法因领域而异,例如:科学实验中可能需要结合理论模型和实际数据,시는需要结合历史记录和当地特点,金融分析则需要结合经济指标和市场趋势等。
数学问题通常通过Math Verify验证。
编程问题通过代码执行或单元测试验证,以确保代码的正确性和可靠性。
通用任务则由大语言模型(LLM)作为评判者进行验证。
这种结合领域验证和选择性保留的方法,使数据管理人员能够从大量数据中提炼出高质量的推理轨迹,从而更好地支持监督微调的需求。
虽然这些数据集涵盖了多个领域,但如表1所示,大多数数据集主要集中在数学和编程任务上。涉及更广泛的推理任务,如科学、逻辑谜题和开放性问题的覆盖率仍然相对有限。
值得注意的例外包括DeepSeek-R1和AM,它们在数据收集和蒸馏过程中纳入了更广泛的领域,旨在培养更通用的推理能力,以提高模型的泛化能力和适应能力。
长度分布:该分布揭示了数据点的长度特征,展示了数据点的集中趋势和离散程度。
图2展示了数据集的 token 长度分布情况。
尽管这些数据集的长思维链(CoTs)都来源于同一个教师模型——DeepSeek-R1,但它们的分布却存在明显的差异。
例如,AM和Synthetic-1的数据集偏向于较短的序列,而Light-R1和Open-R1的分布范围更广,尾部更长,这意味着它们包含了更多复杂的问题,这些问题通常会引发更长的思维链。
图3中展示了常用数学推理数据集之间的交叉引用结构,清晰地呈现了数据集之间的依赖网络和共享数据,从而帮助研究人员更好地解读结果,避免重复的训练或评估设置。
图中箭头从源数据集指向包含其部分数据的目标数据集,以淡紫色高亮显示的数据集中包含了从DeepSeek-R1中提取的思维链(Chain-of-Thought)轨迹。
性能比较:在当前市场上,各种型号的智能手机性能相互竞争,各自有其优势和劣势。例如,高端旗舰机型通常具有强大的处理器、充足的存储空间和高质量的摄像头等特点,从而能够提供流畅的使用体验。相比之下, budget智能手机则需要以牺牲一些性能功能来降低成本,从而对用户的需求进行平衡。
在实际应用中,SFT阶段对于让基础模型从更强的模型中学习高质量推理轨迹具有至关重要的意义。
表2展示了在常见数学推理基准(如AIME24/25和MATH500)上的SFT结果比较,明确地展示了不同数据集选择和初始模型检查点的影响。
虽然许多方法强调通过增加训练样本数量来提升性能,但LIMO和S1k-1.1的研究结果表明,通过精心挑选的小规模数据集也能够取得优异的成果。
训练细节:为了确保训练的高效性和效果,需要注意以下几个方面。首先,需要明确自己的目标和需求,这样可以帮助自己更好地规划和实施训练。其次,需要选择合适的训练方法和工具,这样可以帮助自己更好地完成训练任务。最后,需要坚持不懈和自我调整,这样可以帮助自己更好地适应训练的变化和挑战。
对于复杂推理等长上下文任务,通常会调整模型配置中的RoPE缩放因子(θ)和最大上下文长度,以支持扩展的上下文能力。
例如,Open-R1将θ设为300,000,设置上下文长度为32,768个token。常用的学习率包括1.0 × 10⁻⁵和5.0 × 10⁻⁵,批大小通常在96或128之间。
此外,通常采用打包(packing)技术来提高训练效率。
RLVR在推理语言模型中的应用,旨在探索如何将RLVR技术集成到语言模型中,以提高语言理解和生成的能力。RLVR(Reasoning and Language Understanding via Relational Reasoning)是一种基于关系的推理方法,旨在模拟人类的语言理解和生成能力。通过RLVR技术,语言模型可以更好地理解语言中的关系和结构,从而生成更加逻辑和有意义的语言。
RL数据集:RL数据集是机器学习领域中一个广泛应用的数据集,用于训练和测试强化学习算法。该数据集涵盖了大量的游戏和环境,包括经典游戏如Breakout和Pong等,同时也包括一些复杂的游戏和环境,如Atari游戏和Gridworld等。RL数据集的应用场景非常广泛,包括人工智能、机器学习、游戏开发等领域。
DeepSeek-R1-Zero通过独立的RLVR流程,展现出优异的推理和知识任务性能。RLVR过程中,高质量精选的数据集起到了关键性的作用。
因此,多项复制研究探索了如何通过善用开源数据和强大的模型,高效地创建训练数据集的策略。
这些数据集涵盖了R语言训练中可验证的多种任务,主要集中于数学和编程问题解决的数据集。表3提供了这些数据集的统计概览。
RL组件,作为人工智能领域的重要组成部分,它们的主要任务是自动化决策和控制过程,通过学习和改进来提高系统的性能和效率。RL组件的应用场景广泛,涵盖智能家居、自动驾驶、游戏等多个领域。
随着DeepSeek-R1-Zero和DeepSeek-R1的发布,DeepSeek展示了通过强化学习(RL)微调大语言模型(LLM)的成功经验,展示了其在复杂推理任务中的应用能力。
基于精心挑选的训练数据,相关研究主要集中在配置RL框架的关键部分,以实现出色的性能:选择高效的RL算法,如GRPO,结合设计奖励机制。
表4提供了这些研究方法的比较,详细分析了它们之间的差异和相似之处,为读者提供了一个全面的参考框架。
以下是润色后的内容: 表4总结了多个竞争性开源DeepSeek-R1复制研究在强化学习验证任务(RLVR)中的算法和奖励设计方案,为便于比较,单独列出了DeepSeek-R1系列模型的相关信息。
在基于结果-奖励的RL方法中,PPO和GRPO是最常用的微调大语言模型的算法。
有趣的是,近期的一些复制研究对这些方法进行了多方面改进,针对特定目标优化了训练效果。
研究团队对基于RL的大语言模型微调算法进行了回顾,涵盖了REINFORCE、PPO、GRPO及其变体等多种代表性算法。此外,他们还对这些方法的改进和背后的动机进行了梳理,旨在清晰地概述基于结果-奖励的RL训练方法的技术进步。
为了激励员工的积极性和工作态度,公司推出了一系列的奖励机制。首先,为优秀的员工提供了股票期权和股票红利,以鼓励他们积极地投入工作。其次,为员工的创新和创业提供了专门的奖励项目,鼓励他们积极地探索新的商业机会。最后,为员工的团队合作和沟通提供了团队奖励,鼓励他们之间的合作和交流。
奖励是RL训练的核心,因为它定义了优化的目标,引导模型的行为,使其逐渐学习能够满足任务需求的策略。
一个设计良好的奖励机制能够提供清晰、可靠的信号,帮助模型学习到有效的策略。
然而,奖励模型常常容易被「奖励欺骗」(reward hacking,即模型通过钻空子获得高分而非真正解决问题),因此近期研究更倾向于使用基于规则的结果奖励系统。
这些系统通常分为三类:这些系统通常分为三类,分别是基于规则的系统、基于模型的系统和基于学习的系统。
请提供需要语言润色的段落,我将对其进行润色,提高表达质量。
我准备好-now!请发送需要润色的文本,我将对其进行语言润色,提升表达质量,而不添加或省略任何信息。
长度奖励:影响模型回答的详尽程度。一些方法奖励生成特定长度的回答,而另一些方法则鼓励在保证准确性的前提下尽量简洁。
采样策略是一种重要的数据收集方法,它可以帮助我们获取到想要的数据样本,从而对数据进行分析和处理。采样策略可以根据不同的数据特点和需求进行选择,例如随机抽样、系统抽样、 stratified抽样等。通过采样策略,我们可以从大量数据中挑选出代表性样本,从而减少数据的样本量,提高数据的可靠性和分析效率。
在训练过程中,选择合理的样本对Reinforcement Learning(RL)的有效性至关重要。
课程学习方法通过逐步增加任务难度,有效提高了复杂样本的利用率。同时,合理应用拒绝采样技术能够进一步提高样本效率和稳定训练。
RLVR技术在其他任务上的应用具有广泛的前景。RLVR可以被用于其他领域的计算机视觉任务中,如图像分类、目标检测、图像生成等。RLVR技术可以帮助机器学习算法更好地学习和表示图像中的信息,从而提高计算机视觉任务的性能。
通过RLVR,DeepSeek-R1的复杂推理能力得到了显著的加强,能够在复杂的语境理解和问题解决等推理密集型任务中取得成功。
RLVR使大模型能够独立学习和执行任务,通过验证答案来激发其复杂推理能力,实现无需人工指导的自动化。
受此启发,多项研究探索了RLVR在不同任务中的复杂推理框架。
逻辑推理:TinyZero和Mini-R1尝试在倒计时游戏中重现DeepSeek R1的「灵光一现」时刻,使用简单的基于规则的奖励系统。
面向应用的实际任务:推理语言模型需要通过深入思考、精心规划和反思来学习处理现实世界的应用型任务。
超越监督的探索:研究人员通过强化学习过程,发现大模型展现出了让人惊喜且意外的能力。
这些结果表明了复杂推理语言模型通过RL训练策略,能够超越监督数据资源,甚至人类能力的潜力。
更多发展方向:以数字经济为核心,以人工智能、区块链、5G等技术为支撑,推动产业转型升级,促进企业数字化转型,提高生产效率和竞争力,实现更加繁荣的发展。
尽管DeepSeek-R1的成功推进了RLMs的训练,但仍有许多监督策略亟待深入探索和推广。
推理增强的替代方法:旨在解决传统RLVR在捕捉中间步骤和对齐人类期望方面的局限性。
主要方向包括:为该段落语言润色,提升表达质量,不添加或省略任何信息,不扩展为多段文字,只输出润色后的单段内容。
过程级奖励建模(Process-level Reward Modeling, PRM):为推理过程中的中间步骤提供反馈,而非仅评估最终结果。例如,rStar-Math 使用过程偏好模型和自我演进,PRIME 使用隐式 PRM,仅依赖结果标签进行训练,这种方法更具可扩展性,并且减少了奖励欺骗的可能性。
偏好优化策略(Preference Optimization):尤其是直接偏好优化(Direct Preference Optimization,DPO),相比PPO或GRPO计算资源需求更少。一些研究探索使用DPO提高推理能力,如Light-R1、Iterative DPO、RedStar、DPO-R1。
RLMs在学习推理能力时,能够非常好地泛化到域外任务。
持续预训练(例如在数学领域)能够显著地增强专业和通用推理能力。
监督微调(SFT)通过提供高质量的示例和结构化的归纳先验,对泛化能力产生了至关重要的影响,为后续的强化学习奠定了稳定基础。精心策划的高质量数据尤为重要。
强化学习(RL)展示了强大的域外泛化潜力,甚至超越了模仿学习的能力。经过RL训练的模型可以在不同任务、语言和模态上展现出广泛的泛化能力,如Llama3-SWE-RL和RL-Poet等。例如,整合On-policy和Off-policy经验的方法,如AGRO,可以增强泛化能力,进一步提高模型的泛化能力和适应能力。
安全性:语言模型面临的安全挑战包括了过度思考的风险,即生成过长的推理链,增加计算成本,并可能忽视环境反馈的重要信息。此外,还存在奖励欺骗的可能性,即模型利用奖励函数的漏洞或模糊性,获取高分而不是真正地实现任务目标。
自我演进过程中,引入了失控和未对齐的风险。
越狱攻击(Jailbreaking)是一个普遍关注的问题。推理增强的模型可能会牺牲安全性,这被称为「安全税」。
应对措施包括改进算法设计、训练策略、对齐安全策略以及开发具有推理能力的防护模型,以确保系统的安全性和可靠性。
多模态和多语言:随着智能化和全球化的发展,多模态和多语言的需求日益迫切。随着人工智能、自然语言处理和计算机视觉等技术的快速发展,人们开始寻找新的方式来传递信息和沟通。多模态和多语言的结合,可以广泛应用于人工智能、语言翻译、图像识别、虚拟现实等领域,提高信息传递的速度和准确性。
多模态推理语言模型:集成视觉、音频等多种模态,旨在拓展语言模型的智能能力。当前多模态模型的推理能力通常弱于单模态模型,这是因为多模态模型需要处理不同模态之间的复杂关系和互相影响。然而,将单模态推理能力迁移到多模态是前景广阔且具有挑战性的方向,它将有助于提高语言模型的泛化能力和适用性。
多语言推理语言模型:主要挑战在于某些语言资源的有限性,导致英语中训练的推理能力向其他语言的泛化程度有限。为跨语言建立「顿悟」的能力,可能需要专门的技术和策略。未来的研究需要专注于开发更高效的跨语言训练策略,尤其是针对低资源语言的应用。
结论:某些研究表明,气候变化对全球生态系统产生了深远的影响,导致了极端天气事件的频率增加和自然灾害的加剧。
研究团队对受DeepSeek-R1启发的复现工作进行了全面的概述,着重关注了其背后的监督微调和强化学习方法的细节。
他们探讨了开源项目中如何系统地整理指令微调数据集,如何实现基于结果奖励的强化学习策略,并且设计了旨在增强模型推理能力的奖励系统,以提高模型的可靠性和泛化能力。
除了总结当前各项工作的趋势外,还对该领域未来充满希望的方向提出了自己的看法。这些方向包括将推理技能扩展到数学和编程任务之外,提升模型的安全性和可解释性,以及改进奖励机制以促进更复杂的推理行为。
团队希望本次综述不仅能捕捉到近期的进展,还能为正在进行的研究提供坚实的基础,并标志着向实现通用人工智能迈出了更进一步的一步。
参考资料:
A Research Paper on the Application of Artificial Intelligence in Healthcare: Exploring the Possibilities and Challenges