大阳城(SuncityGroup) 无需构造偏好对：TGO用标量反映对都视觉生成模子

发布日期：2026-05-19 03:48 来源：未知作者：admin 浏览次数：

生成模子的偏好对都，可能正在干预一个新的阶段。

夙昔几年，大模子 post-training 最主流的方法是让模子从"成对偏好"中学习。但岂论是 RLHF 还是 DPO，都存在合并个问题：反映必须成对出现。

但在的确场景中，反映大多都是单个样本的标量分数。

为此，新加坡国立大学团队提议了一个更为径直的解法：Threshold-Guided Optimization ( TGO ) ，一种不依赖成对偏好数据、径直愚弄寂然样本标量评分进行对都的新范式。

浅显来说，便是从分数散布中揣测一个阈值，高于阈值的样本被看作 pseudo-positive，低于阈值的样本被看作 pseudo-negative；覆按时，模子提高前者相对 reference model 的概率，镌汰后者的概率。

同期，样天职数离阈值越远，评释监督越确定，覆按权重也越大。

当今该征询已被ICML 2026继承，它让生成模子对都不再只依赖"哪个更好"，而是启动径直愚弄"这个有多好"。

DPO 的优雅，来自 pairwise data

DPO之是以能成为偏好优化里的代表方法，一个关节原因是它把正本复杂的 KL-regularized RL objective，改写成了一个可以径直覆按的分类观点。

在这个观点里，模子不需要显式覆按 reward model，也不需要像 PPO 那样作念在线 rollout，只消有离线的偏好对，就能完成 policy fitting。

它背后的数学结构也很澄莹：

在 KL 正则化的对都观点下，最优战术可以写成一个 closed-form solution。但这个解里有一个 partition function，也便是归一化项，需要对扫数可能输出乞降，往常不可蓄意。

DPO 能绕开这个问题，是因为在合并个 prompt 下比较 preferred output 和 rejected output 时，这个 partition function 会在 reward difference 里当然对消。

也便是说，DPO 的好像，很猛进度上来自成对偏好数据自己。两个输出一比较，难算的项就隐藏了，问题也就变成了一个相对概率的分类问题。

但这个上风也反过来截止了它的适用规模。

一朝监督信号不再是 pair，而是单个样本的 scalar score，原来靠"两两相减"对消 partition function 的观点就不再径直培育。

于是推论中常见的作念法，是把标量分数转成偏好对。举例在一个 batch 内排序，把高分样本手脚 winner，低分样本手脚 loser；或者对合并 prompt 下多个候选成果两两比较，再构造 chosen/rejected pair。

这种作念法诚然可以用，但它也会带来信息吃亏。

一个 9.5 分样本和一个 7.5 分样本，在 pairwise 覆按里可能都仅仅 winner；一个 4.9 分样本和一个 4.8 分样本，也可能被硬拆成一组 winner 和 loser。

刻下后两个样本差距很小、评分噪声又比较大时，这种东谈主为构造出来的偏好对随机可靠，致使可能放大颠倒监督。

关于视觉生成来说，这个问题更隆起。

图像和视频的质地很少是浅显的二元判断。图像可能审好意思可以但文本对都一般，也可能构图准确但作风不够好；视频还要接头剖释是否当然、主体是否领路、时辰是否连贯。

许多技巧，一个蚁合分数比一个 winner/loser 标签更接近的确反映。

三条阶梯，都在缩小 pairwise 拘谨

至于征询团队新提议的 TGO，也并非孤单出现。最近范畴内好几篇责任其实都在恢复合并个问题：偏好优化能不行不再强依赖成对偏好？

PMPO

领先是 Google DeepMind 最近发布的《Preference Optimization as Probabilistic Inference》一文。

它的起点是，模子并不一定需要看到严格配对的 preferred/dis-preferred samples，材干学习偏好。

只消有 preferred examples 或 dis-preferred examples，致使唯独其中一种反映，也可以进行优化。

方法上，它基于 EM-style policy improvement，把观点写成三个部分：提高 preferred samples 的 likelihood，镌汰 dis-preferred samples 的 likelihood，同期让新战术保握接近 reference policy。

这条阶梯的重心，是反映结构更天真。传统 DPO 需要一个 prompt 下的 chosen 和 rejected 配成一双，而PMPO允许正负样本不成对出现，也允许数据散布抗争衡。

这对许多实验任务是有道理的，因为的确数据里常常唯独"这个成果可以"或者"这个成果不行"，杏彩(XingCai)官网平台而不是完满的两两比较。

QRPO

论文《Quantile Reward Policy Optimization: Alignment with Pointwise Regression and Exact Partition Functions》则处理的是另一个地点的问题：

若是咱们手里有的不是正负标签，而是 pointwise absolute reward，能不行径直作念 policy fitting？

这背后仍然绕不开partition function。

QRPO的作念法是把原始 reward 转成 quantile reward。这么，在 reference policy 下，quantile reward 的散布会变成 uniform distribution，partition function 也就有了解析姿色。

于是模子可以用一个浅显的 pointwise regression objective，径直拟合 KL-regularized objective 的最优战术，而不需要依赖成对比较来对消归一化项。

TGO

而本文《Threshold-Guided Optimization for Visual Generative Models》回答的亦是合并个问题，只不外和 PMPO、QRPO 处理的是疏通问题的不同切面。

PMPO 关注 unpaired positive/negative feedback，QRPO 关注 pointwise absolute reward 的可解析 policy fitting，而 TGO 则面向视觉生成模子，选择了一个更轻量的 threshold 决策。

三者的共同点，是都在把偏好优化从"必须有 pair "这个前提里松开。

TGO 的中枢：用阈值类似 baseline

具体来说，TGO 的方法看似浅显，但并非单纯拍一个阈值出来作念二分类。它背后的推导来自KL-regularized alignment objective。

这就引出一个问题：关于一个给定样本，最优战术到底应该提高它的概率，还是镌汰它的概率？

在表面上，这取决于它的 reward 是否越过某个 instance-specific oracle baseline。若是 reward 高于这个 baseline，那么模子应该提高该样本相对 reference model 的概率；若是 reward 低于 baseline，就应该镌汰它的概率。

但这个 oracle baseline 和 partition function 联系，往常不可蓄意。

DPO 的作念法是用成对比较让它对消掉；QRPO 的作念法是通过 quantile transformation 让 partition function 变得可解析；TGO 则选择用一个driven global threshold来类似它。

TGO 先从 scored dataset 的分数散布中揣测一个阈值。

最常见的选择是 percentile threshold，比如中位数。之后，扫数分数高于阈值的样本被视为 pseudo-positive，低于阈值的样本被视为 pseudo-negative。

金佰利国际娱乐官网入口

覆按时，模子学习退换我方相关于 reference model 的 log-likelihood ratio：对 pseudo-positive 样本提高，对 pseudo-negative 样本镌汰。

更进一步，TGO 还引入了confidence weighting。分数离阈值越远，评释这个样本被判为正例或负例的置信度越高，大阳城app注册下载(SuncityGroup)它对覆按的孝敬也应该越大。分数接近阈值的样本则更暧昧，覆按时权重更低。

这么一来，TGO 并莫得完全丢掉标量分数的幅度信息，而是把分数大小转动成了监督强度。

是以，TGO 的端正可以综合为两层：阈值决定更新地点，距离决定更新力度。

这亦然它和普通二值化的分歧。普通二值化只保留正负标签，而 TGO 的 confidence weighting 陆续愚弄了分数离阈值的进度。

关于视觉生成这种评分噪声较大、质地散布蚁合的任务，这少许很关键。

需要庄重的是，TGO 并不摒除对反映质地的依赖。标量分数仍然需要与观点偏好有余磋议；若是打分器有偏或噪声较大，阈值产生的 pseudo-label 也会袭取这些偏差。

因此，TGO 处理的是怎样更径直地愚弄 scalar feedback，而不是替代反映建摹自己。

为什么视觉生成尤其得当 scalar feedback

说话模子里，成对偏好很当然。东谈主类比较两个回答哪个更好，许多技巧确乎比径直打分更领路。但在视觉生成里，情况并不完全通常。

一张图好不好，常常不是一个浅显的"胜过另一张图"就能评释。它可能在审好意思上很好，但 prompt alignment 稍弱；也可能语义准确，但构图普通；还有一些偏好更主不雅，比如作风、颜色、东谈主物姿态、布景复杂度。

这些身分叠在一齐，更得当被表罢了一个蚁合分数，或者多个维度的评分。

视频生成更是如斯。视频不仅要看单帧质地，还要看剖释合感性、时辰一致性、主体领路性、镜头变化以及文本对都。

把这些信号强行压成一个 pairwise preference，常常会吃亏许多细节。

的确家具里的反映也更接近 scalar 或 implicit feedback。用户可能点赞、保藏、点击、停留、打分，或者对生成成果作念二次剪辑。

这些信号并不自然成对，却是模子改良卓越关键的数据开头。若是对都方法只可处理 winner/loser，就很难充分愚弄这类反映。

TGO 针对的恰是这个缺口。它不条目每个 prompt 下都有多个候选成果，也不条目东谈主为构造偏好对。只消每个样本有一个分数，就可以干预覆按。

这让视觉生成模子的对都，更接近的确反映的荟萃模式。

从图像到视频：TGO 在多种视觉生成范式上考证

论文的实验遮掩了两类视觉生成范式：一类是diffusion-based models，另一类是masked generative models。

前者包括 Stable Diffusion v1.5、FLUX、Wan 1.3B 等常见模子，后者则包括 Meissonic 这么的 masked generative transformer。

这评释TGO 并不是只适配某一种模子结构。关于 diffusion model，它可以团结 MSE-style objective；关于 MaskGIT 作风的破裂生成模子，它也可以基于 token likelihood 作念覆按。

换句话说，TGO 更像是一种通用的 scalar-feedback alignment framework，而不是某个特定架构上的手段。

在图像生成实验中，TGO 在 Pick-a-Pic、PartiPrompts 和 HPSv2 等测试集上进行评估，并使用 HPSv2.1、PickScore、ImageReward、CLIPScore、LAION Aesthetic Score 等多个 reward model 作为评价观点。

成果显露，比拟 SFT、CSFT、AlignProp、Diffusion-DPO、Diffusion-KTO、DSPO 等方法，TGO 在多个缔造下都能赢得更高的 reward-model scores。

视觉生成对都里，一个常见担忧是 reward hacking：模子可能仅仅把某一个 reward model 刷高了，但生成质地并莫得着实改善。

TGO 在多个 reward model 上都有升迁，评释它并不是单纯拟合某个打分器，而是在更等闲的视觉偏好维度上带来了改良。

在视频生成上，TGO-LoRA 也被用于 Wan 1.3B+VideoReward 的实验缔造。成果显露，它不仅升迁了全体 VideoReward score，也改善了多个组件观点。

这评释 threshold-guided scalar feedback 不仅仅图像生成里的一个局部方法，也有后劲彭胀到视频生成。

不是替代 DPO，而是补上另一种反映接口

但TGO 并不是要含糊 DPO。

成对偏好仍然很关键，在许多任务里也仍然是最领路、最直不雅的反映姿色。尤其是当东谈主类很难给出实足分数，但能比较两个成果犀利时，pairwise preference 仍然有很强的实用价值。

但问题在于，pairwise preference 不应该是惟一接口。

生成模子正在干预更多的确应用场景，而的确场景里的反映并不会老是以 chosen/rejected pair 的姿色出现。

说话模子会有 reward model score、verifiable reward、数学考证成果、代码通过率；图像模子会有审好意思分数、图文对都分数、东谈主类评分；视频模子会有剖释质地、时辰一致性和视频文本对都；多模态系统还会有点击、保藏、停留、剪辑等用户步履信号。

这些反映大多是 pointwise 的。它们不告诉模子"这个比另一个更好"，而是告诉模子"这个成果自己有多好"。若是对都方法只可处理比较数据，就会错过大都当然存在的监督信号。

PMPO、QRPO 和 TGO 的共同道理，正在于把偏好优化从 pairwise supervision 彭胀到更一般的 feedback optimization。

PMPO 评释，未配对的正负反映可以被纳入概率推断式的 policy improvement；QRPO 评释，实足奖励也可以通过 quantile reward 干预可解析的 policy fitting；TGO 则评释，在视觉生成里，一个陶冶阈值加置信度权重，就足以把 scalar score 转成有用的对都信号。

那么为什么这件事如今值得被崇拜对待呢？

因为生成模子越往家具里走，反映形态就越复杂。

早期的对都征询可以假定有干净的偏好对，但的确用户不会老是合作系统作念 A/B comparison。

更多技巧，系统拿到的是一个分数、一次点击、一次保藏、一次停留，或者一次修改。这些信号看起来零碎，却可能组成下一阶段 post-training 的主要数据开头。

关于视觉生成尤其如斯。图像和视频的质地，本来就不瑕瑜黑即白的判断，而是审好意思、语义、结构、剖释、作风和个体偏好的综合成果。径直从 scalar feedback 中学习，可能比先构形成对偏好更当然，也更容易彭胀。

TGO 的价值就在这里。它莫得把问题复杂化，而是用一个很克制的模式，把标量反映接进了 KL-regularized alignment objective。

表面上，它用陶冶阈值类似不可蓄意的 oracle baseline；工程上，它只需要 scored samples 就能覆按；推论上，它能同期遮掩 diffusion 和 masked generative paradigms，并在图像和视频任务上带来领路升迁。

这可能是生成模子对都接下来很关键的一步：模子不行只会从"谁赢了"中学习，也要能从"这个成果有多好"中学习。

总的来说，夙昔，偏好优化的主流接口是 pairwise comparison。这个接口有余澄莹，也催生了 DPO/GRPO 这么浅显有用的方法。

但跟着生成模子干预更复杂的应用场景，反映自己正在变得愈加各样。评分、通过率、奖励模子输出、用户步履日记、剪辑操作，这些 pointwise signals 会越来越常见。

TGO 给出的谜底很径直：不一定要把它们都折叠成 winner 和 loser。关于视觉生成模子，只消找到一个合理的阈值，就可以把标量分数转成更新地点；再用分数离阈值的距离，预计这个监督信号有多着实。

这并不是一个复杂的系统，也不是一个重型 RL pipeline。它更像是把的确反映里本来就存在的信息，以更径直的模式交给模子。

若是说 DPO 让偏好优化解脱了复杂 RL，那么 TGO、QRPO 和 PMPO 这一类责任，正在让偏好优化进一步解脱对成对比较的强依赖。

生成模子对都的下一步，可能不仅仅陆续问"哪个更好"。而是要让模子着实学会贯通：这个成果到底有多好。

参考文件：

[ 1 ] Preference Optimization as Probabilistic Inference， https://arxiv.org/abs/2410.04166

[ 2 ] Quantile Reward Policy Optimization: Alignment with Pointwise Regression and Exact Partition Functions， https://arxiv.org/abs/2507.08068

[ 3 ] Threshold-Guided Optimization for Visual Generative Models， https://arxiv.org/abs/2605.04653

一键三连「点赞」「转发」「提神心」

接待在挑剔区留住你的思法！

— 完 —

咱们正在招聘又名眼疾手快、关注 AI 的学术剪辑实习生 � �

感兴味的小伙伴接待关注 � � 了解笃定

� � 点亮星标 � �

科技前沿发扬逐日见大阳城(SuncityGroup)

上一篇：上一篇：大阳城(SuncityGroup) 官宣！切尔西笃定新帅，曼联弃帅得不到的东西，阿隆索得到了

大阳城app注册下载(SuncityGroup)

百家乐

大阳城(SuncityGroup) 无需构造偏好对：TGO用标量反映对都视觉生成模子