每日论文 - 2025年08月30日
论文总数: 19
1. rStar2-Agent: Agentic Reasoning Technical Report
作者: Ning Shang, Yifei Liu, Yi Zhu, Li Lyna Zhang, Weijiang Xu, Xinyu Guan, Buze Zhang, Bingcheng Dong, Xudong Zhou, Bowen Zhang, Ying Xin, Ziming Miao, Scarlett Li, Fan Yang, Mao Yang
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-28 | 👍 点赞数: 95
摘要:
我们推出了rStar2-Agent,这是一款拥有14B参数的数学推理模型,通过基于智能体的强化学习训练,实现了前沿水平的性能。除了当前较长的思维链(CoT)能力外,该模型还展示了高级认知行为,例如在使用Python编程工具前进行深思熟虑,并能根据代码执行反馈进行反思,从而在复杂问题求解过程中自主探索、验证和优化中间步骤。这一能力得益于三项关键创新,使得基于智能体的强化学习在大规模训练中变得有效:(i) 一种高效的强化学习基础设施,配备可靠的Python代码执行环境,支持高吞吐量运行并降低了rollout成本,从而可在有限的GPU资源(64块MI300X GPU)上进行训练;(ii) GRPO-RoC,一种基于智能体的强化学习算法,采用Resample-on-Correct(按正确性重采样)的rollout策略,有效应对编程工具中固有的环境噪声,使模型能够在代码环境中更高效地推理;(iii) 一种高效的智能体训练方案,从非推理阶段的监督微调(SFT)开始,逐步过渡到多阶段的强化学习,以最小的计算成本培养出高级认知能力。最终,rStar2-Agent仅在510个强化学习步骤内(一周内完成),将预训练的14B参数模型提升至当前最优水平,在AIME24和AIME25数据集上分别取得了平均pass@1得分为80.6%和69.8%,显著超越了DeepSeek-R1(671B)模型,且生成的回答更简洁。此外,rStar2-Agent-14B在对齐、科学推理以及智能体工具使用任务方面也展现出强大的泛化能力。 代码和训练方案可在https://github.com/microsoft/rStar获取。
2. Pref-GRPO: Pairwise Preference Reward-based GRPO for Stable
Text-to-Image Reinforcement Learning
作者: Yibin Wang, Zhimin Li, Yuhang Zang, Yujie Zhou, Jiazi Bu, Chunyu Wang, Qinglin Lu, Cheng Jin, Jiaqi Wang
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-28 | 👍 点赞数: 85
摘要:
Pref-GRPO: 基于成对偏好奖励的GRPO方法用于稳定的文本到图像强化学习
近期进展凸显了基于GRPO的强化学习方法及基准测试在提升文本到图像(T2I)生成方面的重要性。然而,当前使用逐点奖励模型(pointwise reward models, RM)对生成图像进行评分的方法容易受到奖励黑客(reward hacking)的影响。我们发现,当图像之间的评分差异在归一化后被放大时,会形成虚假的优势,导致模型过度优化微小的收益,最终使图像生成过程不稳定。为解决这一问题,我们提出了Pref-GRPO,一种基于成对偏好奖励的GRPO方法,将优化目标从评分最大化转变为偏好拟合,从而实现更稳定的训练。在Pref-GRPO中,使用偏好RM在每组内对图像进行两两比较,并将胜率作为奖励信号。大量实验表明,Pref-GRPO能够区分图像质量的细微差异,提供更稳定的性能优势,并缓解奖励黑客问题。此外,现有的T2I基准测试受限于粗粒度的评估标准,难以全面评估模型性能。为此,我们引入了UniGenBench,一个统一的T2I基准测试工具,涵盖5个主要主题和20个子主题,共计600个提示词。该基准通过10项主要标准和27项子标准评估语义一致性,并利用多模态大语言模型(MLLM)进行基准构建与评估。我们的基准测试揭示了开源与闭源T2I模型的优劣,并验证了Pref-GRPO的有效性。
3. MCP-Bench: Benchmarking Tool-Using LLM Agents with Complex Real-World
Tasks via MCP Servers
作者: Zhenting Wang, Qi Chang, Hemani Patel, Shashank Biju, Cheng-En Wu, Quan Liu, Aolin Ding, Alireza Rezazadeh, Ankit Shah, Yujia Bao, Eugene Siow
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-28 | 👍 点赞数: 56
摘要:
我们推出了MCP-Bench,这是一个用于评估大语言模型(LLMs)在真实、多步骤任务中表现的基准测试工具,这些任务需要使用工具、跨工具协调、精确的参数控制以及任务求解所需的规划/推理能力。MCP-Bench基于Model Context Protocol(MCP)构建,通过28个具有代表性的实时MCP服务器将LLMs与涵盖金融、旅行、科学计算和学术搜索等领域的250个工具连接起来。与以往基于API的基准测试不同,每个MCP服务器提供一组设计为协同工作的互补工具,从而能够 构建具有丰富输入输出耦合的真实多步骤任务。MCP-Bench中的任务测试代理从模糊指令中检索相关工具(不包含明确工具名称)、为复杂目标规划多跳执行路径、基于中间工具输出生成响应,以及协调跨领域工作流的能力,而这些能力在现有基准测试中未能得到充分评估,因为它们依赖于显式工具规范、浅层少步骤流程和孤立的领域操作。我们提出了一个涵盖工具级模式理解与使用、路径级规划和任务完成的多维度评估框架。对20种先进LLMs的实验表明,MCP-Bench中仍存在持续性的挑战。 代码和数据:https://github.com/Accenture/mcp-bench。
4. USO: Unified Style and Subject-Driven Generation via Disentangled and
Reward Learning
作者: Shaojin Wu, Mengqi Huang, Yufeng Cheng, Wenxu Wu, Jiahe Tian, Yiming Luo, Fei Ding, Qian He
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-26 | 👍 点赞数: 54
摘要:
现有研究通常将风格驱动生成和主体驱动生成视为两个独立的任务:前者强调风格相似性,而后者注重主体一致性,导致两者之间存在明显的对立。我们认为这两个目标可以在一个统一的框架下实现,因为它们本质上都涉及内容与风格的解耦与重组,这是风格驱动生成研究中长期关注的主题。为此,我们提出了USO(Unified Style-Subject Optimized),一种统一风格与主体优化的定制化生成模型。首先,我们构建了一个包含内容图像、风格图像及其对应风格化内容图像的大规模三元组数据集。其次,我们引入了一种解耦学习方案,通过两种互补的目标——风格对齐训练与内容-风格解耦训练,同时对齐风格特征并实现内容与风格的分离。第三,我们引入了一种称为SRL(Style Reward Learning)的风格奖励学习范式,以进一步提升模型性能。最后,我们发布了USO-Bench,这是首个在多个指标上联合评估风格相似性与主体保真度的基准测试集。大量实验表明,USO在主体一致性和风格相似性两个维度上均取得了当前开源模型中的最先进性能。 代码与模型地址:https://github.com/bytedance/USO
5. AWorld: Orchestrating the Training Recipe for Agentic AI
作者: Chengyue Yu, Siyuan Lu, Chenyi Zhuang, Dong Wang, Qintong Wu, Zongyue Li, Runsheng Gan, Chunfeng Wang, Siqi Hou, Gaochi Huang, Wenlong Yan, Lifeng Hong, Aohui Xue, Yanfeng Wang, Jinjie Gu, David Tsai, Tao Lin
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-28 | 👍 点赞数: 37
摘要:
摘要:实践学习范式对于开发强大的Agentic AI系统至关重要,但低效的经验生成严重阻碍了其发展,这一瓶颈在如GAIA等复杂基准测试中尤为突出。为解决此问题,我们提出了AWorld,一个专为大规模智能体-环境交互设计的开源系统。通过在集群上分布任务,AWorld的经验收集效率相较于标准的单节点顺序执行提升了14.6倍。这一关键加速使得大规模强化学习变得切实可行。基于此能力,我们训练了一个以Qwen3-32B为基础的智能体,其表现显著优于基线模型,将整体GAIA准确率从21.59%提升至32.23%。在该基准测试最具挑战性的层级上,我们的智能体取得了16.33%的得分,超越了领先商业模型的表现。我们的开源系统及所构建的智能体提供了一套完整的Agentic AI训练流程蓝图,从高效交互到可验证的模型提升。
6. Mixture of Contexts for Long Video Generation
作者: Shengqu Cai, Ceyuan Yang, Lvmin Zhang, Yuwei Guo, Junfei Xiao, Ziyan Yang, Yinghao Xu, Zhenheng Yang, Alan Yuille, Leonidas Guibas, Maneesh Agrawala, Lu Jiang, Gordon Wetzstein
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-28 | 👍 点赞数: 27
摘要:
长视频生成本质上是一个长时程记忆问题:模型必须在长时间范围内保持并检索显著事件,而不会崩溃或漂移。然而,将扩散变换器(diffusion transformers)扩展到长时程视频生成受到自注意力机制二次计算成本的根本限制,这使得长序列的内存和计算变得难以处理且难以优化。我们将长时程视频生成重新定义为一种内部信息检索任务,并提出一种简单且可学习的稀疏注意力路由模块——上下文混合(Mixture of Contexts, MoC),作为有效的长时记忆检索引擎。在MoC中,每个查询动态选择若干信息丰富的片段以及必要的锚点(标题、局部窗口)进行关注,通过因果路由机制防止循环闭合。随着我们对数据的扩展和路由的逐步稀疏化,模型将计算资源分配给显著的历史信息,在数分钟的内容中保持身份、动作和场景的一致性。效率作为检索机制的副产品得以实现(近线性扩展),从而支持实际的训练与合成,并在分钟级尺度上展现出记忆与一致性的能力。
7. TCIA: A Task-Centric Instruction Augmentation Method for Instruction
Finetuning
作者: Simin Ma, Shujian Liu, Jun Tan, Yebowen Hu, Song Wang, Sathish Reddy Indurthi, Sanqiang Zhao, Liwei Wu, Jianbing Han, Kaiqiang Song
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-28 | 👍 点赞数: 21
摘要:
TCIA:一种面向指令微调的任务中心型指令增强方法
多样化的指令数据对于大型语言模型的有效指令微调至关重要,因为它使模型能够在不同类型的输入之间进行泛化。构建这种多样化的指令数据集是该过程中的关键步骤。现有方法通常利用大型语言模型来自动生成多样化的指令,以确保数据的多样性和质量。然而,这些方法往往忽视了实际应用中的一个重要因素:任务相关性。在实际场景中,只有少数应用需要真正通用的模型;大多数应用则受益于针对特定用例定制的任务相关知识。因此,开发既能保持多样性又能针对特定实际场景优化的指令增强方法至关重要。
为此,我们提出了任务中心型指令增强(Task-Centric Instruction Augmentation, TCIA)框架,该框架在系统扩展指令的同时,保持了指令的多样性和任务对齐性。通过在离散的查询-约束空间中表示指令,TCIA能够生成丰富的任务相关指令,并使模型在不牺牲整体性能的前提下泛化到这些任务特定的指令。实验表明,在四个实际任务特定的应用场景中,TCIA平均提升了开源大语言模型性能8.7%,在某些情况下甚至优于领先的闭源模型。这些改进并未损害模型的通用指令遵循能力,使得TCIA成为一种可扩展且高效的现实任务导向型大语言模型适配方案。
8. Multi-View 3D Point Tracking
作者: Frano Rajič, Haofei Xu, Marko Mihajlovic, Siyuan Li, Irem Demir, Emircan Gündoğdu, Lei Ke, Sergey Prokudin, Marc Pollefeys, Siyu Tang
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-28 | 👍 点赞数: 20
摘要:
我们提出了首个数据驱动的多视角3D点跟踪方法,旨在使用多个相机视角跟踪动态场景中的任意点。与现有的单目跟踪器不同,后者在深度模糊和遮挡情况下表现不佳,而先前的多相机方法则需要超过20个相机并依赖繁琐的序列优化,我们的前馈模型仅使用实用数量的相机(例如四个)即可直接预测3D对应点,从而实现鲁棒且精确的在线跟踪。在已知相机位姿以及多视角深度(来自传感器或估计)的前提下,我们的跟踪器将多视角特征融合为统一的点云,并结合k近邻相关性与基于Transformer的更新策略,可靠地估计长距离3D对应关系,即使在遮挡情况下也能保持良好性能。我们在5000条合成的多视角Kubric序列上进行训练,并在两个真实世界基准数据集Panoptic Studio和DexYCB上进行评估,分别取得了3.1厘米和2.0厘米的中位轨迹误差。我们的方法能够很好地泛化到1至8视角的多种相机配置,视角位置各异且视频长度在24至150帧之间。通过公开我们的跟踪器以及训练和评估数据集,我们希望为多视角3D跟踪研究设立新标准,并为实际应用提供一种实用工具。 项目页面详见 https://ethz-vlg.github.io/mvtracker