网校课程

移动资讯

扫一扫
关注网校头条
掌握一手资料
免费试听
  • 今天
    简单学习网小学语文

    今日 免费试听

    立即试听
  • 今天
    简单学习网小学数学

    今日 免费试听

    立即试听
  • 今天
    简单学习网小学英语

    今日 免费试听

    立即试听
  • 今天
    简单学习网小学全科

    今日 免费试听

    立即试听
  • 今天
    简单学习网小学试听课程送大礼

    今日 免费试听

    立即试听
  • 今天
    新东方在线小学语文

    今日 免费试听

    立即试听
  • 今天
    新东方在线小学数学

    今日 免费试听

    立即试听
  • 今天
    新东方在线小学英语

    今日 免费试听

    立即试听
  • 今天
    新东方在线小学实验班

    今日 免费试听

    立即试听
  • 今天
    新东方在线小学试听课程送大礼

    今日 免费试听

    立即试听
开课流程: 注册会员 → 免费试听 → 选课报名 → 支付学费 → 再登陆听课

您现在的位置:网校头条 > 小学 > 清华大学提出统一对齐算法 IFT,将 SFT 与 RLHF 合二为一

清华大学提出统一对齐算法 IFT,将 SFT 与 RLHF 合二为一

来源:网校头条网络整理 2024-06-02 20:12:53

作者 | 谢年年

有监督微调(Fine-SFT)和基于人类反馈的强化学习(来自Human,RLHF)是语言模型在预训练之后提升能力的两个基本过程,其目标都是让模型更加贴近人类的偏好和需求。

由于监督微调的效果有限,以及RLHF的高数据和计算成本,两种方法经常结合使用。但由于损失函数、数据格式以及对辅助模型的需求不同,两种方法之间存在范式鸿沟,只能通过串联的方式实现模型训练。

清华大学近期提出将 SFT 与 RLHF 合二为一,并引入了统一的对齐算法——直觉微调(IFT),该算法以类人的方式直观地构建策略偏好估计,让模型在看到问题后对完整答案有一个模糊的感知。与 SFT 相比,IFT 更贴近真实的策略偏好,因此性能与 SFT 与 RLHF 的组合相当甚至更好。

相比于SFT+RLHF,RLHF仅依赖正样本和单一策略,从预先训练的基础模型开始对齐,大大提高了计算效率,降低了训练成本。

IFT不需要额外的数据收集或处理,其效率仅次于SFT,并且表现出与其他对齐算法相当甚至更好的性能,这使得IFT在偏好数据难以获得或成本昂贵的领域极为实用。

论文标题:

精细:SFT 和 RLHF 合并成

论文链接:

先决条件

为了对 SFT 和 RLHF 有更深入和统一的理解,作者尝试通过在马尔可夫决策过程 (MDP) 框架下定义偏好估计和状态-动作对优化来解释 SFT 与 RLHF 之间的异同。

马尔可夫决策过程

马尔可夫决策过程(MDP)在语言建模中的应用可以简洁地描述为五元组。其中, 是词汇有序排列形成的状态空间, 是基于分词器定义的词汇动作空间。 是转换矩阵,描述从一个状态转换到另一个状态时生成特定词汇的概率。 表示在特定状态下执行动作后获得的奖励,基于给定指令的初始状态分布。

语言建模的核心目标是训练一种策略,其对应的转移矩阵就是模仿人类策略的转移矩阵,使得二者变得完全一致:

该过程也可以用状态到状态的转换矩阵来表示,其中等同于,但表示从一个状态到另一个状态的转换概率:

偏好估计

当给出初始指令时,您可以将策略偏好定义为地图:

在对齐阶段,模型偏好逐渐接近人类偏好:

由于真实偏好难以获取,通常通过模型与人为的偏好估计进行对齐。为了使得偏好可优化,各策略的偏好也可以表示为:

这里, 表示由初始状态定义的条件状态空间,因此可以通过转移矩阵来优化模型偏好。这种方法称为 。下面详细描述这个过程。

理想情况下,我们希望在受限状态空间中保持模型和人类的状态-动作转移矩阵一致:

这相当于状态-状态转换矩阵表示的以下格式:

但是,由于数据有限,只有表示数据集中包含的状态-动作/状态-状态对的矩阵元素才会对齐。给定一个具有指令和答案长度 N 的目标样本,目标是:

这也相当于:

其中,初始状态对应,最优变换矩阵与初始状态下的模型都有值1,因此可以通过对比模型与人类的变换矩阵的差异,推导出损失函数。

从 SFT 到 RLHF

根据上述框架,本文对SFT、PPO和DPO进行了重新表述,具体形式如下表所示:

更易于理解的版本如下所示:

图中的符号*和θ分别代表人类和模型。其中,。与PPO和DPO相比,SFT采用了偏离模型分布的先验,导致对模型偏好的估计有更大的偏差。IFT利用临时残差连接,在保持SFT的数据和计算效率的同时,实现了比SFT更接近的估计。

为了比较它们的区别,我们首先引入一个基本定理和推论:

定理:对于一组事件 Z,任何事件 z ∈ Z 的概率都在 0 和 1 之间。如果所有事件都是独立的,则它们的概率总和为 1,最可能发生事件的概率大于或等于任何其他事件的概率:

作为一种概率估计模型,可以推断语言模型倾向于将更高的概率分配给其自身的一致预测,而不是人类的偏好。也就是说,给定相同的初始指令,语言模型倾向于将更高的概率分配给其自己的生成内容,而不是目标答案。

虽然 SFT 提供了对人类偏好的无偏估计,但对模型来说,这是一个有偏估计。这是由于在预测每个后续 token 时使用了错误的先验状态造成的。SFT 的状态转换优化目标是:

但这会导致在对齐过程中高估模型的转移概率和偏好,从而影响SFT的优化过程,因此需要使用RLHF进行进一步的偏好校准。

PPO 对模型偏好进行了无偏估计,同时对人类偏好进行了逐步无偏估计:

最初,这种估计是有偏差的,但随着模型随着时间的推移越来越符合人类的偏好,它变得越来越无偏。因此,与 SFT 相比,PPO 在模型优化中提供了更现实的过渡:

DPO 理论上在所有情况下都能提供最佳估计,即使没有奖励建模也是如此。然而,获取在线成对偏好数据的成本很高,因为需要实时从模型中获取负样本并由人工标记。因此,主流实现通常依赖于优化模型之外非同分布的非负样本,这会导致偏好估计有偏差和过渡优化不足,从而导致结果不稳定且次优。

提出新方法

SFT虽然在数据和计算上都较为高效,但在偏好估计和转移优化上近似效果较差。而以PPO和DPO为代表的RLHF在近似效果上则更好,但这是以构建偏好数据为代价的。因此本文将结合两者的优势,提出——直观的偏好估计。

直观的偏好估计

SFT 和 RLHF 之间的关键区别在于是否针对每个初始指令对模型偏好分布进行采样。与 RLHF 不同清华大学最近事件,SFT 中用于先前目标答案的中间状态可能远离模型偏好,从而导致结果较差。

为了得到更加接近模型偏好的状态估计,作者引入了基于模型的分布式扰动函数来修正有偏差的状态:

这也可以理解为时间上的残差连接。这样,模型不仅可以根据目标答案的中间状态预测下一个 token,还可以仅根据初始指令就对整个答案生成形成直观的理解,从而得到更准确的偏好估计:

动态关系传播

通过改进的偏好估计,可以实现更接近原始目标的过渡优化过程:

这可以使用量化模型和人类之间差异的损失函数进行优化:

与SFT相同,对于目标的每一个中间状态网校哪个好,优化目标的概率为1。因此,损失函数可以重写为:

这使得并行实现更加容易,并且该损失函数优化后的目标在策略在线学习时隐式满足贝尔曼方程,保证了优化过程更接近RLHF,也保证了优化目标不仅能体现当前token的预测准确率,还能考虑当前选择对后续生成的影响,帮助模型对生成有直观的理解,以及更好的因果关系和事实遵从性。

实验实验设置

本文选取-200k作为单目标数据集,-60k作为配对数据集,在-7B-v0.1基础模型和在-200k上微调的-7B-sft-beta版本上进行实验。

考虑两种训练场景:一、仅使用 RLHF 进行训练;二、先使用 SFT 再使用 RLHF 进行顺序训练。第一种场景中,直接使用基础模型 -7B-v0.1 进行比对,并从中随机提取 60k 数据来补充 SFT 和 IFT,两者都仅使用目标数据。第二种场景更常见:-7B-sft-beta 先使用 SFT 进行微调,然后再使用已在 SFT 上进行微调的 RLHF 进行进一步微调。

所使用的评估基准是广泛使用的 Open-LLM 和基于语言模型的评估,包括 -Eval 和 -Eval-2。

实验结果与分析

实验结果如下:

在基于 LLM 的基准上。在顺序训练场景中,SFT+DPO 仍然获得最高分,而 IFT 表现略差。然而,当直接从基础模型改编时,IFT 不仅表现良好,而且与顺序方法相当。这表明 IFT 以最少的数据和计算资源取得了良好的结果。

在开放LLM排行榜的聊天模板评测中,使用相同的参数调优方法,IFT取得了所有方法中最高的平均分;直接使用IFT进行比对所需的数据和计算资源最少,但在所有方法中却表现出最好的性能。

IFT 更擅长生成任务

从以上实验结果中作者还发现,在Open-LLM基准中,IFT在生成任务上表现更佳,但在多项选择任务上表现相对较弱;相反清华大学最近事件,DPO在多项选择任务上表现更佳。

这种差异可能源于两个任务的评价指标不同,以及IFT与DPO的训练目标不同。选择任务通过评估模型对每个完整正确答案的可能性来衡量性能,而生成任务则要求模型根据token构建最终答案,更能体现因果关系和推理能力。

DPO 注重指令与完整答案之间的映射,而 IFT 则强调 token 之间的因果关系,因此在需要模型逐个 token 探索的生成任务中表现更佳。在多项选择题等分布映射任务中,DPO 表现更佳。

考虑到这一点,作者将其转换为 ARC- 中的生成任务,其中问题和候选答案会提前显示,然后从模型生成中提取答案。在不改变基准分布的情况下,IFT 在这种设置下显示出优势。总体而言,IFT 在不同任务之间保持了最佳平衡,并获得了最高平均分数。

SFT+RLHF 比单独使用 SFT 更糟糕

传统的RLHF方法在提升指令跟随能力方面表现良好,但采用SFT+RLHF的顺序训练方法需要更多的超参数权衡,因此该方法表现明显较差,甚至不如单独使用SFT。ORPO和IFT通过直接在基模型上对齐,避免了超参数权衡,从而取得了更好的性能。

IFT 的效率和扩展潜力

IFT 不仅在性能上超越其他方法,而且在很多方面都体现了它的高效性。与 SFT 和 ORPO 类似,IFT 不依赖于参考模型,从而大大节省了 GPU 内存和计算资源。

值得一提的是,IFT 和 SFT 是目前唯一两种不需要偏好数据进行对齐的方法。这一特点带来了诸多好处:减少了对偶数据同步存储和计算对 GPU 的压力,减少了内存消耗和训练时间;同时省去了生成负样本和标注偏好标签的繁琐过程,大大降低了对齐成本。此外,IFT 仅依赖目标答案进行对齐,为流程扩展提供了可能,也进一步凸显了预训练技术的核心优势。

Ice Lake 环境测试

-Lake 是一个经典的强化学习环境,通常用于演示和测试强化学习算法。在这个环境中,代理试图在几乎结冰的湖面上寻找礼物,当代理找到礼物或掉进洞里时,游戏就结束了。有限的状态和动作数量使得使用经典强化学习方法很容易得出最优策略。

为了模拟参数化策略的对齐,作者使用了两层全连接神经网络,并设计了一个具有最优和次优轨迹的环境。使用之前获得的最优状态动作概率训练最优参数化策略,然后比较语言模型中的各种微调方法。通过计算最优和训练后的策略参数之间的均方误差 (MSE) 距离来评估性能。

实验结果表明,IFT 在优化方面的表现明显优于 SFT 和 ORPO,但略逊于 DPO。这主要归因于探索网格与代理的偏好一致:DPO > IFT > ORPO > SFT。虽然 ORPO 考虑了从策略中采样的负轨迹,但将其直接集成到 SFT 损失中并使用融合系数在一定程度上削弱了其效果。相比之下,DPO、ORPO 和 IFT 探索的网格更宽,这有助于代理更深入地理解环境。

结论

本文首先将 SFT 和一些典型的 RLHF 方法解释为一个统一的框架,即偏好估计和过渡优化。然后,我们提出了一种高效且有效的方法 IFT,它直接从基础模型开始,使用没有偏好标签的数据实现对齐。

通过实验可以看出,IFT能够以更少的资源和成本取得与其他方法相当甚至更好的效果,为预训练技术的发展提供了一种新的思路。

名师辅导 环球网校 建工网校 会计网校 新东方 医学教育 中小学学历



星级网校推荐

排行推荐 频道最新