每日论文 - 2025年08月29日
论文总数: 19
1. Pref-GRPO: Pairwise Preference Reward-based GRPO for Stable
Text-to-Image Reinforcement Learning
作者: Yibin Wang, Zhimin Li, Yuhang Zang, Yujie Zhou, Jiazi Bu, Chunyu Wang, Qinglin Lu, Cheng Jin, Jiaqi Wang
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-28 | 👍 点赞数: 56
摘要:
Pref-GRPO: 基于成对偏好奖励的GRPO方法用于稳定的文本到图像强化学习
近期进展凸显了基于GRPO的强化学习方法及基准测试在提升文本到图像(T2I)生成方面的重要性。然而,当前使用逐点奖励模型(pointwise reward models, RM)对生成图像进行评分的方法容易受到奖励黑客(reward hacking)的影响。我们发现,当图像之间的评分差异在归一化后被放大时,会产生虚假的优势,导致模型过度优化微小收益,最终破坏图像生成过程的稳定性。为解决这一问题,我们提出了Pref-GRPO,一种基于成对偏好奖励的GRPO方法,将优化目标从最大化评分转换为拟合偏好,从而确保更稳定的训练过程。在Pref-GRPO中,通过在每组内使用偏好RM对图像进行两两比较,并以胜率作为奖励信号。大量实验表明,Pref-GRPO能够区分图像质量的细微差异,提供更稳定的增益并缓解奖励黑客问题。此外,现有的T2I基准测试受限于粗粒度的评估标准,难以全面评估模型性能。为此,我们引入了UniGenBench,一个统一的T2I基准测试,涵盖5个主要主题和20个子主题,共计600个提示词。该基准通过10项主要标准和27项子标准评估语义一致性,并利用多模态大语言模型(MLLM)进行构建与评估。我们的基 准测试揭示了开源与闭源T2I模型的优劣势,并验证了Pref-GRPO的有效性。
2. rStar2-Agent: Agentic Reasoning Technical Report
作者: Ning Shang, Yifei Liu, Yi Zhu, Li Lyna Zhang, Weijiang Xu, Xinyu Guan, Buze Zhang, Bingcheng Dong, Xudong Zhou, Bowen Zhang, Ying Xin, Ziming Miao, Scarlett Li, Fan Yang, Mao Yang
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-28 | 👍 点赞数: 41
摘要:
我们推出了rStar2-Agent,这是一款拥有140亿参数的数学推理模型,通过基于智能体的强化学习训练,实现了前沿水平的性能。除了当前的长链思维链(CoT)能力外,该模型还展示了高级认知行为,例如在使用Python编程工具前进行深思熟虑,并根据代码执行反馈进行反思,以自主探索、验证和优化复杂问题解决过程中的中间步骤。这一能力得益于三项关键创新,使得基于智能体的强化学习在大规模训练中变得高效:(i) 一种高效的强化学习基础设施,配备可靠的Python代码环境,支持高吞吐量执行并降低高 rollout 成本,从而可在有限的GPU资源(64块MI300X GPU)上进行训练;(ii) GRPO-RoC,一种基于智能体的强化学习算法,采用“正确重采样”(Resample-on-Correct)rollout策略,有效应对编程工具中固有的环境 噪声,使模型能够在代码环境中更高效地推理;(iii) 一种高效的智能体训练方案,从非推理阶段的监督微调(SFT)开始,逐步过渡到多阶段强化学习,以极低的计算成本培养出高级认知能力。最终,rStar2-Agent仅在510个强化学习步骤内、一周时间内将一个预训练的140亿参数模型提升至当前最优水平,在AIME24和AIME25数据集上分别取得了平均80.6%和69.8%的pass@1得分,显著超越了DeepSeek-R1(6710亿参数),同时生成的响应更短。此外,rStar2-Agent-14B在对齐、科学推理以及智能体工具使用任务方面也展现出强大的泛化能力。代码和训练方案可在https://github.com/microsoft/rStar获取。
3. USO: Unified Style and Subject-Driven Generation via Disentangled and
Reward Learning
作者: Shaojin Wu, Mengqi Huang, Yufeng Cheng, Wenxu Wu, Jiahe Tian, Yiming Luo, Fei Ding, Qian He
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-26 | 👍 点赞数: 30
摘要:
现有研究通常将风格驱动生成和主体驱动生成视为两个相互独立的任务:前者强调风 格相似性,而后者注重主体一致性,从而导致明显的对立关系。我们认为这两个目标可以在一个统一的框架下实现,因为它们本质上都涉及内容与风格的解耦与重组,这一直是风格驱动研究中的核心问题。为此,我们提出了USO(Unified Style-Subject Optimized),一种统一风格与主体优化的定制化生成模型。首先,我们构建了一个包含内容图像、风格图像及其对应风格化内容图像的大规模三元组数据集。其次,我们引入了一种解耦学习机制,通过两种互补的目标——风格对齐训练与内容-风格解耦训练,同时实现风格特征对齐并分离内容与风格。第三,我们引入一种风格奖励学习范式(SRL, Style Reward Learning),以进一步提升模型性能。最后,我们发布了USO-Bench,这是首个能够跨多个指标联合评估风格相似性与主体保真度的基准测试集。大量实验表明,USO在主体一致性和风格相似性两个维度上均取得了当前开源模型中的最先进性能。代码与模型地址:https://github.com/bytedance/USO
4. AWorld: Orchestrating the Training Recipe for Agentic AI
作者: Chengyue Yu, Siyuan Lu, Chenyi Zhuang, Dong Wang, Qintong Wu, Zongyue Li, Runsheng Gan, Chunfeng Wang, Siqi Hou, Gaochi Huang, Wenlong Yan, Lifeng Hong, Aohui Xue, Yanfeng Wang, Jinjie Gu, David Tsai, Tao Lin
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-28 | 👍 点赞数: 23
摘要:
摘要:实践学习范式对于开发强大的Agentic AI系统至关重要,但其发展严重受限于低效的经验生成过程,这一瓶颈在GAIA等复杂基准测试中尤为明显。为解决该问题,我们提出了AWorld,一个专为大规模智能体-环境交互设计的开源系统。通过在集群中分布任务,AWorld的经验收集效率相较于标准的单节点顺序执行提升了14.6倍。这一关键性的加速使得大规模强化学习变得可行且可扩展。基于此能力,我们训练了一个基于Qwen3-32B的智能体,其性能显著优于基础模型,将整体GAIA准确率从21.59%提升至32.23%。在该基准测试最具挑战性的层级上,我们的智能体得分达到16.33%,超越了主流闭源模型的表现。我们的开源系统及所取得的智能体为构建完整的Agentic AI训练流程提供了实用蓝图,实现了从高效交互到模型性能显著提升的端到端实践。
5. TCIA: A Task-Centric Instruction Augmentation Method for Instruction
Finetuning
作者: Simin Ma, Shujian Liu, Jun Tan, Yebowen Hu, Song Wang, Sathish Reddy Indurthi, Sanqiang Zhao, Liwei Wu, Jianbing Han, Kaiqiang Song
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-28 | 👍 点赞数: 15
摘要:
TCIA:一种面向任务的指令增强方法用于指令微调
多样化的指令数据对于大型语言模型的有效指令微调至关重要,因为它使模型能够在不同类型的输入之间进行泛化。构建这种多样化的指令数据集是这一过程中的关键步骤。现有方法通常利用大型语言模型自动生成多样化的指令,以确保数据的多样性与质量。然而,这些方法往往忽视了实际应用中的一个重要因素:任务相关性。在实际场景中,只有少数应用需要真正通用的模型;而大多数应用则更受益于针对特定使用场景定制的任务相关知识。因此,开发既能保持多样性又能针对特定实际场景优化的指令增强方法至关重要。
为此,我们提出任务中心指令增强(Task-Centric Instruction Augmentation, TCIA)框架,该框架在保持指令多样性的同时系统性地扩展指令,并确保其与目标任务的一致性。TCIA通过在离散的查询-约束空间中表示指令,生成丰富的任务相关指令集合,使模型能够在不牺牲整体性能的前提下泛化到这些任务特定的指令。实验结果表明,在四个实际任务导向的应用场景中,TCIA平均提升了开源大语言模型性能8.7%,在某些情况下甚至优于领先的闭源模型。这些改进并未影响模型对通用指令的遵循能力,使得TCIA成为一种可扩展且高效的方案,适用于将大语言模型适配到任务导向的实际应用场景中。
6. Mixture of Contexts for Long Video Generation
作者: Shengqu Cai, Ceyuan Yang, Lvmin Zhang, Yuwei Guo, Junfei Xiao, Ziyan Yang, Yinghao Xu, Zhenheng Yang, Alan Yuille, Leonidas Guibas, Maneesh Agrawala, Lu Jiang, Gordon Wetzstein
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-28 | 👍 点赞数: 12
摘要:
长视频生成本质上是一个长时程记忆问题:模型必须在长时间范围内保持并检索显著事件,而不会崩溃或漂移。然而,将扩散变换器(diffusion transformers)扩展到长时程视频生成受到自注意力机制二次计算成本的限制,这使得内存和计算在长序列上变得难以处理和优化。我们将长时程视频生成重新定义为一种内部信息检索任务,并提出一种简单且可学习的稀疏注意力路由模块——上下文混合(Mixture of Contexts, MoC),作为有效的长时记忆检索引擎。在MoC中,每个查询动态选择若干信息丰富的片段以及必要的锚点(描述文本、局部窗口)进行关注,通过因果路由机制防止循环闭合。随着我们扩展数据并逐渐稀疏化路由,模型将计算资源分配给显著的历史信息,在数分钟的内容中保持身份、动作和场景的一致性。效率作为检索机制的副产品得以实现(近线性扩展),从而支持实际的训练与合成,并在分钟级尺度上展现出记忆与一致性的能力。
7. MCP-Bench: Benchmarking Tool-Using LLM Agents with Complex Real-World
Tasks via MCP Servers
作者: Zhenting Wang, Qi Chang, Hemani Patel, Shashank Biju, Cheng-En Wu, Quan Liu, Aolin Ding, Alireza Rezazadeh, Ankit Shah, Yujia Bao, Eugene Siow
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-28 | 👍 点赞数: 7
摘要:
我们推出了MCP-Bench,这是一个用于评估大语言模型(LLMs)在真实、多步骤任务中表现的基准测试工具,这些任务需要使用工具、跨工具协调、精确的参数控制以及解决任务所需的规划/推理能力。MCP-Bench基于Model Context Protocol (MCP)构建,通过28个具有代表性的实时MCP服务器将LLMs与涵盖金融、旅行、科学计算和学术搜索等领域的250个工具相连接。与以往基于API的基准测试不同,每个MCP服务器提供一组设计为协同工作的互补工具,从而能够构建具有丰富输入输出耦合的真实多步骤任务。MCP-Bench中的任务测试代理从模糊指令中检索相关工具(不显式提供工具名称)、为复杂目标规划多跳执行路径、基于中间工具输出生成响应以及协调跨领域工作流的能力,而这些能力是现有依赖显式工具规范、浅层少步骤流程和孤立领域操作的基准测试无法充分评估的。我们提出了一个涵盖工具级模式理解与使用、路径级规划和任务完成的多维度评估框架。对20种先进LLMs的实验表明,MCP-Bench中仍存在持续性的挑战。代码和数据:https://github.com/Accenture/mcp-bench。
8. CogVLA: Cognition-Aligned Vision-Language-Action Model via
Instruction-Driven Routing & Sparsification
作者: Wei Li, Renshan Zhang, Rui Shao, Jie He, Liqiang Nie
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-28 | 👍 点赞数: 6
摘要:
CogVLA:通过指令驱动的路由与稀疏化实现认知对齐的视觉-语言-动作模型
基于预训练视觉-语言模型(VLMs)的最新视觉-语言-动作(VLA)模型需要大量的后训练,导致计算开销高,限制了其可扩展性和部署。我们提出了CogVLA,这是一种认知对齐的视觉-语言-动作框架,通过指令驱动的路由与稀疏化策略,提升了效率和性能。CogVLA借鉴了人类多模态协调机制,引入了一个三阶段渐进式架构。1)基于编码器-FiLM的聚合路由(EFA-Routing)将指令信息注入视觉编码器,以选择性地聚合和压缩双流视觉token,形成具有指令感知能力的潜在表 征。2)在此紧凑的视觉编码基础上,基于LLM-FiLM的剪枝路由(LFP-Routing)通过剪除与指令无关的视觉相关token,将动作意图引入语言模型,从而实现token级别的稀疏性。3)为了确保压缩后的感知输入仍能支持准确且连贯的动作生成,我们引入了视觉-语言-动作耦合注意力机制(CAtten),该机制结合了因果视觉-语言注意力与双向动作并行解码。在LIBERO基准和真实机器人任务上的大量实验表明,CogVLA分别取得了97.4%和70.0%的成功率,达到当前最优性能,同时训练成本降低了2.5倍,推理延迟减少了2.8倍,相较于OpenVLA具有显著优势。CogVLA已开源,项目地址为https://github.com/JiuTian-VL/CogVLA。
9. OneReward: Unified Mask-Guided Image Generation via Multi-Task Human
Preference Learning
作者: Yuan Gong, Xionghui Wang, Jie Wu, Shiyin Wang, Yitong Wang, Xinglong Wu
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-28 | 👍 点赞数: 5
摘要:
本文中,我们提出OneReward,这是一种统一的强化学习框架,仅使用一个奖励模型即可在不同评估标准下的多个任务中增强模型的生成能力。通过采用单一的视觉-语言模型(vision-language model, VLM)作为生成奖励模型,该模型能够针对给定任务和评估标准区分优劣结果,从而有效地应用于多任务生成模型,尤其是在数据多样、任务目标各异的场景中。我们将OneReward应用于基于掩码引导的图像生成任务,该任务可进一步细分为图像填充、图像扩展、对象移除和文本渲染等子任务,均以二值掩码作为编辑区域。尽管这些特定领域的任务共享相同的条件生成范式,但它们在底层数据分布和评估指标上存在显著差异。现有方法通常依赖于任务特定的监督微调(supervised fine-tuning, SFT),限制了模型的泛化能力和训练效率。基于OneReward,我们开发了Seedream 3.0 Fill,这是一种通过多任务强化学习直接在预训练基础模型上训练的掩码引导生成模型,无需任务特定的SFT。实验结果表明,在多个评估维度上,我们的统一编辑模型始终优于包括Ideogram、Adobe Photoshop和FLUX Fill [Pro]在内的商业及开源竞品模型。代码和模型已公开,地址为:https://one-reward.github.io。
10. Turning the Spell Around: Lightweight Alignment Amplification via
Rank-One Safety Injection
作者: Harethah Abu Shairah, Hasan Abed Al Kader Hammoud, George Turkiyyah, Bernard Ghanem