0%

ArmoRM:用“多目标奖励建模 + 混合专家门控”做可解释偏好学习——深度技术评审

1. 为什么这篇论文值得认真读

如果让我用一句很直白的话来描述本文:

它不是在“再造一个更大的奖励模型”,而是在尝试把奖励模型从黑箱打分器,改造成“可分解、可检查、可调权重”的偏好评审系统。

这件事在 RLHF 里非常关键。

因为在很多对齐流水线里,真正最有“隐形权力”的组件不是 PPO 也不是 DPO,而是奖励模型:

  • 它决定什么样的回答会被判定为“好”;
  • 它的偏差会被后续策略优化放大;
  • 一旦它错了,模型会“稳定地朝错误方向更努力”。

最典型的错误就是 冗长偏置(verbosity bias)

  • 奖励模型潜意识里更偏爱长回答;
  • 策略模型学到“越长越安全”;
  • 最终用户得到的不是更好答案,而是更啰嗦、更绕、甚至信息密度更低的答案。

所以本文真正的问题不是“奖励模型能不能做”。这个问题早就有答案。

它要回答的是更深一层的问题:

能不能把奖励模型做成“多维、可解释、可按场景动态调节”的结构,减少黑箱偏差和 reward hacking 风险?

我认为,这个问题抓得非常准。


2. 前置知识:理解这篇论文前需要知道什么

这部分我会尽量不用行话,把必要背景一步一步讲清楚。

2.1 RLHF 到底在做什么

RLHF(Reinforcement Learning from Human Feedback)可以理解成:

  • 让模型回答问题;
  • 人类对多个回答给出偏好;
  • 再把这种偏好喂给模型,让它以后更像人类喜欢的风格。

常见三步:

  1. 收集偏好数据(谁比谁好);
  2. 训练奖励模型(学会“像人类那样打分”);
  3. 用这个奖励去优化策略模型。

因此奖励模型就像“自动评委”。评委是否靠谱,直接决定后面训练方向是否靠谱。

2.2 奖励模型(Reward Model)到底是什么

输入通常是:

  • prompt(用户问题)
  • response(模型回答)

输出通常是:

  • 一个分数;或者
  • “A 比 B 好”的偏好概率。

看起来简单,但问题在于:

  • 这个分数往往是黑箱,
  • 你只看到结果,不知道它是因为“正确性高”还是“字数多”。

这就给调试和对齐埋雷。

2.3 传统 Bradley-Terry 偏好建模有什么盲区

Bradley-Terry(BT)范式在 RLHF 很常见:

  • 同一问题给两条回答 A/B;
  • 标注谁更好;
  • 训练模型让 A 分高于 B。

它很有效,但会丢失细节:

  • A 赢 B,是因为更真实?更安全?更简洁?
  • A 是“碾压式更好”还是“略微更好”?

这些信息在纯 pairwise 二值标签里很难保留。

2.4 相对评分 vs 绝对评分

相对评分:A 胜过 B。
绝对评分:A 在“helpfulness=4/5,truthfulness=2/5,verbosity=5/5”。

本文强调一个非常重要的事实:

  • 如果原始数据里有绝对评分,直接二值化会损失大量信息。

例如:

  • 一个样本是 1:5,
  • 另一个样本是 2:3,

二值化后都只是“左输右赢”,但显然前者差距更大。

2.5 为什么“可解释性”在对齐里是硬需求

如果 RM 是黑箱,你会遇到三个现实问题:

  1. 对齐失败难定位:不知道是哪个偏好维度出了问题;
  2. 偏差难修复:无法只修一个因素(例如长度偏见);
  3. 可信性不足:人类很难确认 RM 的内部判断是否接近人类价值观。

所以本文提出“可解释奖励维度 + 可调门控权重”是有实际价值的,不是学术装饰。

2.6 本文里的 MoE 不是大模型稀疏 MoE

很多人看到 MoE 会想到“很多专家网络 + router + 稀疏激活”。

本文不是这个方向。

这里的“专家”更接近“奖励目标维度”:

  • helpfulness、correctness、safety、verbosity 等。

门控网络做的是:

  • 根据 prompt 场景,动态决定这些目标各占多少权重。

所以这是“目标加权的 MoE 思想”,不是“超大参数稀疏专家模型”。

2.7 什么是 verbosity bias(冗长偏置)

就是“越长越容易得高分”。

这个偏置在实际系统里很常见,后果是:

  • 回答越来越长,
  • 但有效信息不一定增加,
  • 用户体验反而下降。

本文直接对这个偏置做了数学校正(Eq.2/3),这是亮点之一。

2.8 RewardBench 的分数在衡量什么

RewardBench 是用来评估奖励模型质量的基准。

本文报告的主要类别有:

  • Chat
  • Chat Hard
  • Safety
  • Reasoning
  • Prior Sets

总体分是加权平均(前四类权重 1.0,Prior Sets 权重 0.5)。

所以“总分提升”不是单点偶然,而是多维任务上的综合表现。


3. 论文要解决的核心问题(精确定义)

本文的问题可以正式表达为:

传统 RLHF 奖励模型常用单一黑箱标量分数,难解释、难调、易受偏置影响。能否利用多目标绝对评分构建可解释的奖励向量,再通过场景自适应门控将其标量化,获得更强、更可控的偏好评估能力?

拆成三个子问题:

子问题 A:信息损失

高质量数据集里有细粒度绝对评分,但传统流程常把它压缩成二值偏好。

子问题 B:聚合方式僵硬

固定线性权重无法适应不同 prompt 场景(安全场景 vs 数学场景)。

子问题 C:偏置传播

很多目标都与“长度”高度相关,不处理会把冗长偏置传播到最终奖励。

本文方案正好一一对应:

  • 阶段一:多目标回归保信息;
  • 阶段二:门控标量化做动态聚合;
  • 纠偏:去除与 verbosity 的相关性。

4. 一段话看懂本文方法

本文提出两阶段 Reward Model:

  • 阶段一(ArmoRM):基于 Llama-3 8B 骨干,对 prompt+response 预测多维奖励向量(helpfulness/correctness/safety/verbosity 等);
  • 阶段二(MoE gate):用一个小型门控 MLP 根据 prompt 生成各目标权重,对纠偏后的目标向量做加权求和,得到最终标量奖励;
  • 同时通过 Eq.(2)(3) 对 verbosity 相关性做显式校正,减轻“越长越高分”的偏置。

结果是:在 RewardBench 上,一个 8B 级模型达到 89.0,总体逼近 340B 的 89.3,并明显优于常规 8B BT 奖励模型。


5. Figure 1 全图拆解:架构是怎么工作的

Figure 1 是整篇论文的灵魂图,我建议初学者反复看。

它包含三个模块:

  1. LLM backbone
  2. 多目标回归层(ArmoRM)
  3. 门控层(MoE-style scalarization)

5.1 主干特征提取

输入是 prompt + response 拼接序列,通过 decoder layers,取最后一层最后 token 的 hidden state 作为特征。

这意味着:

  • 方法不依赖花哨新 backbone;
  • 重点在 reward head 设计与训练方式。

5.2 多目标回归输出

回归层输出 k 维目标分数,而不是单分数。

这一步给我们“可解释的中间语义层”:

  • 这个回答到底是因为有帮助、正确,还是只是话多?

5.3 门控输出权重

门控层根据 prompt 选择权重,例如:

  • safety 场景提高安全权重;
  • 数学求解提高正确性/有用性权重。

最后加权得到标量分数供排序/比较。

5.4 这张图的价值

我很喜欢这张图,因为它把方法逻辑说透了:

先“拆解偏好”,再“按场景重组偏好”。

这比“直接学一个黑箱分数”更符合人类评审流程。


6. 阶段一:ArmoRM 的多目标奖励回归

6.1 输入输出定义

每条样本:

  • x:prompt(可能包含多轮上下文)
  • y:response
  • r ∈ R^k:k 维目标评分向量

模型:

  • backbone 提取特征 f_theta(x ⊕ y)
  • 线性层 w 输出 k 维预测

目标函数(Eq.1)是标准 L2 回归:

  • 让预测目标向量尽量接近标注向量。

6.2 为什么先做回归而不是直接 BT

直觉上,BT 只回答“谁赢了”,而回归能学“赢多少、在哪些维度赢”。

对于有绝对评分的数据,回归能保留:

  • 目标细粒度信息,
  • 差距幅度信息,
  • 维度语义信息。

这在后续门控阶段非常有用。

6.3 绝对评分保留了什么信息

论文举的例子非常经典:

  • 1:5 与 2:3 在二值标签里都只是“后者更好”,
  • 但偏好强度明显不同。

我再补一层工程理解:

  • 如果训练信号强弱都被压平,模型会更难学到稳定的“偏好曲面”;
  • 回归保留强弱,有助于后续更细致地拟合人类偏好结构。

6.4 实现上为什么“线性探针 + 冻结 backbone”很聪明

论文没有在阶段一全量微调 8B backbone,而是:

  • 冻结主干,
  • 仅训练线性层(线性探针)。

优点:

  • 便宜、快、稳定;
  • 更容易隔离“多目标监督本身”的收益;
  • 降低过拟合和训练震荡风险。

这是一种很工程化、很务实的取舍。


7. 阶段二:MoE 门控做目标标量化

7.1 固定线性权重为什么不够

如果你永远固定:

  • helpfulness 0.4
  • safety 0.3
  • correctness 0.2
  • 其余 0.1

那你默认了“所有场景都该同样打分”。现实显然不是。

  • 高风险提示词下,安全权重要更高;
  • 数学/代码任务里,正确性和逻辑一致性更关键;
  • 某些场景下 verbosity 应该被强惩罚。

所以聚合必须“看场景”。

7.2 门控网络具体怎么做

论文定义门控函数:

  • 输入:f_theta(x)(prompt 特征)
  • 输出:k 维非负权重,且总和为 1(softmax)

然后与纠偏后的目标向量 r' 做内积得到最终分数 R(Eq.4)。

这一步可以看作“按任务语境动态配方”。

7.3 为什么阶段二又回到 pairwise 训练

阶段一用绝对评分回归,阶段二训练门控则用 BT 风格 pairwise loss(Eq.5)。

这是很漂亮的组合:

  • 阶段一学习“评估各维质量”;
  • 阶段二学习“怎样把多维质量变成人类偏好排序”。

它对应人类评审直觉:

  1. 先分别看几个维度;
  2. 再综合比较哪条更好。

8. 冗长偏置校正(Eq.2/3):一个小公式背后的大价值

这是本文最值得工程团队借鉴的细节之一。

论文观察到:

  • 许多目标分数与 verbosity 高相关;
  • 如果门控权重又被约束为非负,最终分数很容易继承“长即好”的倾向。

为此他们对每个目标做修正:

r_i' = r_i - lambda_i * r_verbose

并选择 lambda_i 使得在参考分布 D 上:

Corr_D(r_i', r_verbose) = 0

其中相关性度量采用 Spearman,参考分布用 UltraFeedback。

8.1 为什么这一步很实用

它把“偏置治理”从口号变成可执行步骤:

  • 明确 nuisance variable(verbosity);
  • 明确校正方式(减法残差);
  • 明确准则(相关性归零)。

8.2 这一步不是万能解

也要客观看待边界:

  • 去相关 ≠ 去因果;
  • 在一个数据分布上去相关,不代表所有分布都无偏;
  • 还可能存在其他偏置变量未建模。

但作为“第一层防线”,它非常有价值。


9. 数据与目标体系:19 个目标、8 个数据源、10 个 pairwise 数据集

很多论文的亮点最后会被数据细节拖垮。本文在数据说明上做得比较实。

9.1 阶段一多目标训练(8 数据集,19 目标)

来自附录 A,典型目标如下。

HelpSteer(35k)

  • helpsteer-helpfulness
  • helpsteer-correctness
  • helpsteer-coherence
  • helpsteer-complexity
  • helpsteer-verbosity(本文用于冗长偏置校正)

UltraFeedback(240k)

  • overall-score
  • instruction-following
  • truthfulness
  • honesty
  • helpfulness

BeaverTails-30k(30k)

  • is-safe

CodeUltraFeedback(50k)

  • code-complexity
  • code-style
  • code-explanation
  • code-instruction-following
  • code-readability

Prometheus(200k)

  • prometheus-score

Argilla-Capybara2(15k)

  • argilla-overall-quality

Argilla-OpenOrca(13k)

  • argilla-judge-lm

Argilla-Math-Preference(2.4k)

  • 与 UltraFeedback instruction-following 共享近似目标语义

9.2 阶段二门控训练(10 个 pairwise 数据集)

包括:

  • HelpSteer(37k pairs)
  • UltraFeedback(340k pairs)
  • SHP(93k pairs)
  • HH-RLHF(157k pairs)
  • PKU-SafeRLHF-30K
  • Argilla-Capybara(15k pairs)
  • Argilla-Math-Preferences(2.4k pairs)
  • CodeUltraFeedback(50k pairs)
  • PRM-Phase-2(80k pairs)
  • Prometheus2-Preference-Collection(200k pairs)

9.3 数据预处理关键点

附录里还有几个很实用的工程细节:

  1. 不同评分尺度统一到 [0,1](比如 HelpSteer 0-4,UltraFeedback 1-10);
  2. 布尔安全标签映射为 0/1
  3. 相似目标不强行合并(因为标注者和 rubric 可能不同);
  4. 缺失目标维度在回归时忽略(只对有标签维度计算损失)。

这些细节看似琐碎,但往往决定模型能否稳定训练。


10. 实现细节与工程成本

10.1 ArmoRM 实现

  • 架构:Llama-3 8B backbone
  • 初始化:来自 Dong et al. 2024 的 Llama-3 8B Bradley-Terry RM
  • 训练:冻结 backbone,仅训练新增线性回归层

10.2 MoE 门控实现

  • 门控网络:ReLU MLP
  • 深度:3 个隐藏层
  • 每层宽度:1024
  • 优化器:AdamW
  • 学习率:0.001
  • 步数:10,000
  • batch size:1024
  • 学习率策略:cosine decay
  • β 初值:100

10.3 软件栈与硬件

  • 软件:PyTorch + Transformers + Scikit-learn
  • 阶段一:线性探针可在 CPU(离线特征后)训练
  • 阶段二:单张 NVIDIA A6000 即可

10.4 工程视角下的意义

这说明本文的收益不是靠“疯狂堆算力”获得,而是通过更聪明的监督结构与目标聚合设计获得。

这在工业落地里非常加分。


11. 实验设置与对比基线

11.1 评测基准

RewardBench:

  • Chat
  • Chat Hard
  • Safety
  • Reasoning
  • Prior Sets(权重 0.5)

总体分为加权平均。

11.2 对比对象(Table 1)

  • HelpSteer2 RM(Nemotron-4 340B)
  • ArmoRM + MoE(Llama-3 8B)
  • HelpSteer2 RM(Llama-3 70B)
  • Preference Model(Llama-3 8B)
  • LLM-as-a-judge(GPT-4 Turbo)
  • LLM-as-a-judge(GPT-4o)
  • Bradley-Terry(Llama-3 8B)
  • Bradley-Terry(Yi-34B)

这个对比集合比较全面:

  • 有超大参数 RM,
  • 有同家族更大模型,
  • 有传统 BT,
  • 有 LLM 评委路线。

12. 结果解读(带具体数字)

12.1 总分:8B 逼近 340B

Table 1 总分:

  • ArmoRM + MoE(Llama-3 8B):89.0
  • HelpSteer2 RM(Nemotron-4 340B):89.3
  • HelpSteer2 RM(Llama-3 70B):86.3
  • Preference Model(Llama-3 8B):85.7
  • GPT-4 Turbo judge:84.2
  • GPT-4o judge:83.3
  • Bradley-Terry(Llama-3 8B):83.6

关键结论:

  • 相比同规模 BT 8B,提升 +5.4
  • 相比 GPT-4 Turbo judge,提升 +4.8
  • 相比 GPT-4o judge,提升 +5.7
  • 与 340B 超大 RM 仅差 0.3

这是非常有说服力的参数效率结果。

12.2 分项观察

Chat

  • ArmoRM + MoE:96.9
  • BT Llama-3 8B:99.4
  • Preference Model 8B:98.3

这里 ArmoRM 不是最优。

Chat Hard

  • ArmoRM + MoE:76.8
  • BT Llama-3 8B:65.1
  • Preference Model 8B:65.8
  • GPT-4 Turbo judge:74.3
  • Nemotron 340B:87.1

在更难聊天任务上,ArmoRM 相比 8B 传统模型提升明显,也超过 GPT-4 Turbo judge。

Safety

  • ArmoRM + MoE:92.2
  • BT Llama-3 8B:87.8
  • Preference Model 8B:89.7
  • GPT-4 Turbo judge:87.2

安全维度有稳定增益。

Reasoning

  • ArmoRM + MoE:97.3
  • BT Llama-3 8B:86.4
  • Preference Model 8B:94.7
  • GPT-4 Turbo judge:86.9
  • Nemotron 340B:93.7

Reasoning 是最大亮点之一:ArmoRM 甚至超过 340B 对比项。

Prior Sets

  • ArmoRM + MoE:74.3
  • BT Llama-3 8B:74.9
  • Preference Model 8B:74.6

这里基本持平略低。

12.3 如何客观看待结果

本文不是“所有子项全赢”的故事,而是:

  • 在关键难项(Chat Hard/Reasoning/Safety)优势显著,
  • 在易项/历史项并非全面压制。

这种结果反而更真实,也更可信。

12.4 为什么“超 GPT-4 judge”很关键

在很多生产链路里,“GPT-4 评审器”常被认为是默认强基线。

本文显示:

  • 一个专门设计的 8B RM 可以在 RewardBench 上系统性超过该路线。

这意味着:

  • 成本更低,
  • 部署更可控,
  • 可解释性更好,
  • 可能成为企业内部评测/偏好标注的更优替代。

13. 这篇论文真正强在哪里

强点 1:把“信息不浪费”落地

有绝对评分就先用绝对评分,不急着二值化。

强点 2:把“偏好评估”拆成两步

  • 第一步评各维质量;
  • 第二步按场景聚合。

这让模型结构更接近人类评审流程。

强点 3:直接处理常见偏差

冗长偏置不是泛泛而谈,而是写成可执行校正步骤。

强点 4:工程成本低、收益高

冻结主干 + 线性层 + 小门控网络,却拿到大幅性能提升。

强点 5:参数效率非常亮眼

8B 逼近 340B,这对工业界是极具吸引力的性价比信号。

强点 6:方法逻辑干净

读完 Figure 1 + Eq.(1)(2)(3)(4)(5) 就能把全流程讲清楚,这在 RLHF 论文中并不常见。


14. 局限性、边界条件与潜在风险

再好的论文也有边界,必须讲清楚。

14.1 可解释性依赖“目标词表”

如果目标集合没覆盖关键价值维度,模型仍会有盲区。

14.2 去相关不等于去因果

Eq.(3) 让相关性归零,但并不等价于“彻底消除长度偏见因果路径”。

14.3 门控只看 prompt,不看完整 response 特征

这是效率与表达能力的折中。某些情况下,最优权重可能需要看回答内容本身。

14.4 评测主要依赖 RewardBench

希望看到更多外部证据,比如:

  • 下游 RLHF policy 训练后真实人评变化;
  • anti-reward-hacking 对抗测试;
  • 对可解释性的用户研究。

14.5 主文中的消融还不够丰富

我希望进一步看到:

  • 去掉 verbosity 校正会怎样;
  • 固定权重 vs 动态门控差异有多大;
  • 不同 reference 分布对校正效果影响。

14.6 子项存在 trade-off

Chat 与 Prior Sets 并非全面领先,说明方法提升具有结构性,不是“无代价全能提升”。


15. 可复现性评估与复现实操建议

15.1 正面因素

本文提供了较完整的关键信息:

  • 模型架构来源;
  • 两阶段训练逻辑;
  • 公式定义;
  • 门控结构与训练超参;
  • 数据源与规模;
  • 硬件/软件栈;
  • 开源代码与模型地址。

15.2 复现建议(一步一步)

  1. 准备 8B BT RM 初始化权重;
  2. 合并多数据源目标并做尺度归一化;
  3. 提取特征并训练多目标线性回归头;
  4. 在 UltraFeedback 上估计各目标 verbosity 校正系数;
  5. 冻结 backbone+回归头,仅训练门控 MLP;
  6. 用 RewardBench 同协议评测;
  7. 记录分项变化与总分变化。

15.3 真正的复现难点

通常不在公式,而在数据工程:

  • 标签尺度统一、
  • 缺失目标处理、
  • 目标语义冲突处理、
  • 训练样本格式统一。

如果这些环节不严谨,结果会明显漂移。

15.4 代码发布信息

论文摘要给出代码和模型发布地址:

https://github.com/RLHFlow/RLHF-Reward-Modeling

这对复现非常友好。


16. 我会如何在 2026 年继续推进这条路线

如果让我接着做,我会优先做 5 件事。

16.1 增加下游策略优化闭环验证

不仅看 RewardBench,还要看:

  • 用该 RM 训练出的 policy 是否更少冗长、
  • 是否更抗 reward hacking、
  • 是否在真实用户偏好中更好。

16.2 扩展奖励目标词表

建议加入:

  • 证据忠实性(faithfulness)
  • 不确定性表达质量
  • 简洁充分性(concise sufficiency)
  • 拒答适配性(refusal appropriateness)
  • 非操控性表达

16.3 给门控加不确定性建模

目前门控是确定权重。可以扩展为权重分布/置信区间,让系统知道“自己不确定”。

16.4 比较 prompt-only 与 prompt+response 门控

研究不同门控输入粒度的收益与代价。

16.5 从去相关走向更强偏置治理

例如:

  • length-controlled 对比评测;
  • 对抗去偏;
  • 反事实评估;
  • 多 nuisance 变量联合控制。

17. 给工程实践者的 7 条可落地启发

  1. 不要浪费标注信息:有多维绝对分就不要急着全压成二值。
  2. 评估与聚合分离:先学各维质量,再学如何组合。
  3. 权重应场景化:同一套固定权重很难覆盖所有任务。
  4. 偏置要显式治理:知道 verbosity 有问题,就在模型层面处理。
  5. 小结构也能大收益:方法设计常比盲目堆参数更关键。
  6. 看分项不只看总分:总分好不代表每个场景都好。
  7. 可解释性是运维工具:当模型行为异常时,你需要可检查的内部指标。

18. 总结结论

我的总体评价:强烈正面,且具有实操价值

它不是那种“铺天盖地新理论”的论文,而是把奖励模型里三个真实痛点(信息丢失、聚合僵化、冗长偏置)用一个干净的两阶段方案连接起来,并且给出了足够有力的 benchmark 结果。

这篇论文确实证明了什么

  • 多目标绝对评分建模可以显著增强 8B 奖励模型;
  • 动态门控聚合比固定线性聚合更适合复杂偏好场景;
  • 显式 verbosity 校正在实践上有必要;
  • 8B 模型可以逼近甚至在部分维度超过大体量基线。

这篇论文还没有证明什么

  • 在所有分布和任务上都“彻底无偏”;
  • 仅凭 RewardBench 就能保证下游 RLHF policy 全面更好;
  • 当前目标词表已完整覆盖人类价值维度。

所以最准确的定位是:

这是一篇把“奖励模型从黑箱走向结构化可解释”的关键工程论文,不是终点,但非常值得作为新一代 RM 设计基线。


19. 参考文献

  1. Haoxiang Wang, Wei Xiong, Tengyang Xie, Han Zhao, Tong Zhang. Interpretable Preferences via Multi-Objective Reward Modeling and Mixture-of-Experts. arXiv:2406.12845, 2024.
  2. Long Ouyang et al. Training Language Models to Follow Instructions with Human Feedback. NeurIPS 2022.
  3. Bradley, R. A.; Terry, M. E. Rank Analysis of Incomplete Block Designs: Method of Paired Comparisons. 1952.
  4. Nathan Lambert et al. RewardBench: Evaluating Reward Models for Language Modeling. arXiv:2403.13787, 2024.
  5. Zhilin Wang et al. HelpSteer2: Open-source Dataset for Training Top-performing Reward Models. 2024.

20. 附录 A:5 个高频问答

Q1:为什么不用 GPT-4 一直当评委?
A:可以用,但专门训练的 RM 可能更便宜、更可控、在特定评测上甚至更强。

Q2:多目标打分比单分数好在哪里?
A:你能知道“高分是因为什么”,便于调试和纠偏。

Q3:为什么要特别处理“冗长偏置”?
A:因为这是最常见的偏差之一,会在策略优化后被放大,最终伤害用户体验。

Q4:这篇论文和 PPO/DPO 是什么关系?
A:它主要改进的是“奖励模型”这层,可服务于多种 RLHF 流程,不局限于某个优化算法。

Q5:最值得迁移的核心思想是什么?
A:先学“多维偏好”,再学“场景化聚合”,并且显式去除已知偏置变量。


21. 附录 B:证据清单(图表/公式/实验)

本评审显式引用并解读了:

  • Figure 1:总体架构(backbone + 多目标回归 + 门控聚合)
  • Equation (1):多目标回归损失
  • Equation (2)(3):verbosity 去相关校正
  • Equation (4):门控加权标量奖励
  • Equation (5):门控层的 BT 训练目标
  • Table 1:RewardBench 总分与各分项
  • 实验实现:Llama-3 8B、冻结主干、线性探针、门控 MLP(3 层 1024)
  • 附录 A 数据说明:8 数据源 19 目标 + 10 个 pairwise 数据集
  • 训练成本信息:阶段一 CPU 线性回归、阶段二单张 A6000

本稿结构遵循“前置知识 -> 方法细节 -> 证据结果 -> 局限边界 -> 工程启发”,帮助读者完整理解。