Skip to main content

每日论文 - 2025年09月11日

论文总数: 12

1. A Survey of Reinforcement Learning for Large Reasoning Models

作者: Kaiyan Zhang, Yuxin Zuo, Bingxiang He, Youbang Sun, Runze Liu, Che Jiang, Yuchen Fan, Kai Tian, Guoli Jia, Pengfei Li, Yu Fu, Xingtai Lv, Yuchen Zhang, Sihang Zeng, Shang Qu, Haozhan Li, Shijie Wang, Yuru Wang, Xinwei Long, Fangfu Liu, Xiang Xu, Jiaze Ma, Xuekai Zhu, Ermo Hua, Yihao Liu, Zonglin Li, Huayu Chen, Xiaoye Qu, Yafu Li, Weize Chen, Zhenzhao Yuan, Junqi Gao, Dong Li, Zhiyuan Ma, Ganqu Cui, Zhiyuan Liu, Biqing Qi, Ning Ding, Bowen Zhou

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-10 | 👍 点赞数: 125

摘要:

本文综述了强化学习(Reinforcement Learning, RL)在大型语言模型(Large Language Models, LLMs)推理能力方面的最新进展。RL在推动LLMs能力前沿方面取得了显著成功,特别是在解决数学和编程等复杂逻辑任务方面。因此,RL已成为将LLMs转化为推理模型(Large Reasoning Models, LRMs)的基础方法论。随着该领域快速发展,RL在LRMs中的进一步扩展不仅面临计算资源方面的挑战,也面临算法设计、训练数据和基础设施方面的基础性难题。因此,重新审视该领域的发展历程、评估其发展方向并探索提升RL可扩展性的策略以实现人工超级智能(Artificial SuperIntelligence, ASI)已成为当务之急。本文重点分析了自DeepSeek-R1发布以来,将RL应用于LLMs和LRMs以提升推理能力的相关研究,涵盖基础组件、核心问题、训练资源和下游应用等方面,旨在识别这一快速演进领域的未来机遇与研究方向。希望本综述能够促进RL在更广泛推理模型中的进一步研究。 Github: https://github.com/TsinghuaC3I/Awesome-RL-for-LRMs


2. RewardDance: Reward Scaling in Visual Generation

作者: Jie Wu, Yu Gao, Zilyu Ye, Ming Li, Liang Li, Hanzhong Guo, Jie Liu, Zeyue Xue, Xiaoxia Hou, Wei Liu, Yan Zeng, Weilin Huang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-10 | 👍 点赞数: 57

摘要:

摘要:
奖励模型(Reward Models, RMs)对于通过强化学习(Reinforcement Learning, RL)改进生成模型至关重要,然而视觉生成中的RM扩展范式仍未得到充分探索。这主要受限于现有方法的基本缺陷:基于CLIP的RMs存在架构和输入模态的限制,而广泛使用的Bradley-Terry损失与视觉-语言模型(Vision-Language Models, VLMs)的下一个token预测机制存在根本性的不匹配,阻碍了有效的扩展。更为关键的是,RLHF优化过程受到“奖励欺骗”(Reward Hacking)问题的困扰,模型会利用奖励信号中的漏洞,而并未真正提升生成质量。为了解决这些问题,我们提出了RewardDance,这是一种可扩展的奖励建模框架,通过一种新颖的生成式奖励范式克服上述障碍。通过将奖励分数重新定义为模型预测“yes”token的概率,表示生成图像在特定标准下优于参考图像,RewardDance内在地将奖励目标与VLM架构对齐。这种对齐实现了两个维度上的扩展:(1) 模型扩展:RMs系统性地扩展至高达260亿参数;(2) 上下文扩展:集成任务特定指令、参考示例和思维链(chain-of-thought, CoT)推理。大量实验表明,RewardDance在文本到图像、文本到视频以及图像到视频生成任务中显著优于当前最先进的方法。关键的是,我们解决了“奖励欺骗”的长期挑战:我们的大规模RMs在RL微调过程中展现出并保持高奖励方差,证明了其对欺骗的抵抗能力,能够生成多样化且高质量的输出。这大大缓解了小型模型普遍存在的模式崩溃问题。


3. 3D and 4D World Modeling: A Survey

作者: Lingdong Kong, Wesley Yang, Jianbiao Mei, Youquan Liu, Ao Liang, Dekai Zhu, Dongyue Lu, Wei Yin, Xiaotao Hu, Mingkai Jia, Junyuan Deng, Kaiwen Zhang, Yang Wu, Tianyi Yan, Shenyuan Gao, Song Wang, Linfeng Li, Liang Pan, Yong Liu, Jianke Zhu, Wei Tsang Ooi, Steven C. H. Hoi, Ziwei Liu

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-04 | 👍 点赞数: 47

摘要:

世界建模已成为人工智能研究的基石,使智能体能够理解、表示并预测其所在的动态环境。尽管先前的研究主要强调针对二维图像和视频数据的生成方法,但它们忽略了迅速增长的、利用原生三维和四维表示(如RGB-D图像、占据网格和激光雷达点云)进行大规模场景建模的研究成果。与此同时,由于“世界模型”缺乏统一的标准定义和分类体系,导致文献中存在碎片化甚至不一致的表述。本综述通过首次对三维和四维世界建模与生成进行全面回顾,填补了这一空白。我们提出了明确的定义,构建了一个结构化的分类体系,涵盖基于视频(VideoGen)、基于占据(OccGen)和基于激光雷达(LiDARGen)的方法,并系统总结了适用于三维/四维环境的数据集和评估指标。此外,我们还探讨了实际应用,指出了开放性挑战,并强调了有前景的研究方向,旨在为推动该领域发展提供一致性和基础性参考。 现有文献的系统性总结可在https://github.com/worldbench/survey 获取。


4. AgentGym-RL: Training LLM Agents for Long-Horizon Decision Making

through Multi-Turn Reinforcement Learning

作者: Zhiheng Xi, Jixuan Huang, Chenyang Liao, Baodai Huang, Honglin Guo, Jiaqi Liu, Rui Zheng, Junjie Ye, Jiazheng Zhang, Wenxiang Chen, Wei He, Yiwen Ding, Guanyu Li, Zehui Chen, Zhengyin Du, Xuesong Yao, Yufei Xu, Jiecao Chen, Tao Gui, Zuxuan Wu, Qi Zhang, Xuanjing Huang, Yu-Gang Jiang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-10 | 👍 点赞数: 30

摘要:

摘要:开发能够进行一系列智能决策以解决复杂现实任务的自主LLM代理是快速发展的前沿领域。类似于人类的认知发展,代理应通过探索和与环境互动来获取知识和技能。尽管已有进展,但社区仍然缺乏一个统一、交互式的强化学习(Reinforcement Learning, RL)框架,能够从零开始有效训练此类代理,而无需依赖监督微调(Supervised Fine-Tuning, SFT),并适用于多样且贴近现实的环境。为弥补这一差距,我们提出了AgentGym-RL,这是一个通过RL训练LLM代理进行多轮交互决策的新框架。该框架具有模块化和解耦的架构,确保了高度的灵活性和可扩展性。它涵盖广泛的真实场景,并支持主流RL算法。此外,我们提出了ScalingInter-RL,一种旨在平衡探索与利用并实现稳定RL优化的训练方法。在训练初期,该方法通过限制交互次数强调利用已有策略,随后逐步转向更大视野的探索,以鼓励多样化的解决问题策略。如此,代理能够发展出更多样化的行为,并在长视野任务中更不易出现性能崩溃。我们进行了大量实验,以验证AgentGym-RL框架和ScalingInter-RL方法的稳定性和有效性。我们的代理在多种环境下的27项任务中表现达到或超越了商业模型。我们提供了关键见解,并将开源完整的AgentGym-RL框架(包括代码和数据集),以推动研究社区开发下一代智能代理。


5. CDE: Curiosity-Driven Exploration for Efficient Reinforcement Learning

in Large Language Models

作者: Runpeng Dai, Linfeng Song, Haolin Liu, Zhenwen Liang, Dian Yu, Haitao Mi, Zhaopeng Tu, Rui Liu, Tong Zheng, Hongtu Zhu, Dong Yu

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-11 | 👍 点赞数: 24

摘要:

强化学习与可验证奖励(RLVR)是提升大语言模型(LLMs)推理能力的强大范式。然而,当前的RLVR方法通常探索效率低下,导致过早收敛和熵塌陷。为应对这一挑战,我们引入了好奇心驱动探索(CDE)框架,该框架利用模型自身内在的好奇心来引导探索。我们通过来自策略网络(actor)和价值网络(critic)的信号形式化好奇心:对于策略网络,我们使用其生成响应的困惑度(perplexity);对于价值网络,我们使用多头架构下价值估计的方差。这两个信号在RLVR框架中作为探索奖励来引导模型。我们的理论分析表明,策略网络层面的奖励本质上惩罚了过度自信的错误,并促进了正确响应的多样性;此外,我们将价值网络层面的奖励与强化学习中广泛研究的基于计数的探索奖励建立了联系。实验上,我们的方法在AIME基准测试中使用GRPO/PPO比标准RLVR取得了约+3分的提升。进一步的分析揭示了RLVR中存在的一种校准塌陷机制,为常见的LLM失效模式提供了新的解释。


6. P3-SAM: Native 3D Part Segmentation

作者: Changfeng Ma, Yang Li, Xinhao Yan, Jiachen Xu, Yunhan Yang, Chunshi Wang, Zibo Zhao, Yanwen Guo, Zhuo Chen, Chunchao Guo

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-08 | 👍 点赞数: 13

摘要:

P3-SAM: 原生3D部件分割

将3D资产分割为其组成部件对于增强3D理解、促进模型重用以及支持诸如部件生成等多种应用至关重要。然而,当前的方法在处理复杂物体时存在鲁棒性差等问题,且无法实现整个过程的完全自动化。本文中,我们提出了一种原生3D点提示部件分割模型,称为P3-SAM,旨在对任意3D物体进行完全自动的部件分割。受SAM的启发,P3-SAM包含一个特征提取器、多个分割头和一个IoU预测器,从而支持用户的交互式分割。我们还提出了一种算法,用于自动选择和合并模型预测的掩码,以实现部件实例分割。我们的模型在一个新构建的数据集上进行训练,该数据集包含近370万个具有合理分割标签的模型。对比结果显示,我们的方法在处理任意复杂物体时能够实现精确的分割结果并具有良好的鲁棒性,达到了最先进的性能。我们的代码将很快发布。


7. Hunyuan-MT Technical Report

作者: Mao Zheng, Zheng Li, Bingxin Qu, Mingyang Song, Yang Du, Mingrui Sun, Di Wang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-05 | 👍 点赞数: 10

摘要:

在本报告中,我们介绍了Hunyuan-MT-7B,这是我们首个开源的多语种翻译模型,支持33种主要语言之间的双向翻译,并特别强调普通话与若干少数民族语言及方言之间的翻译。此外,为了应对多样化的翻译场景并提升模型在推理阶段的性能,我们引入了Hunyuan-MT-Chimera-7B翻译模型,该模型受到慢思考模式启发,通过集成Hunyuan-MT-7B模型在不同参数设置下生成的多个输出,从而实现了优于基于思维链(Chain-of-Thought, CoT)的传统慢思考模型的性能。我们的模型开发遵循一种专为多语种翻译设计的整体训练流程,该流程从通用和翻译导向的预训练开始,以构建基础能力;随后进行监督微调(Supervised Fine-Tuning, SFT),实现任务特定的适配;最终通过强化学习(Reinforcement Learning, RL)和由弱到强的RL实现高级对齐。通过全面的实验验证,我们证明Hunyuan-MT-7B和Hunyuan-MT-Chimera-7B在参数规模相当的翻译专用模型中显著优于现有模型,并在大多数最先进的大模型中表现优异,特别是在普通话与少数民族语言及方言之间的翻译任务上。在WMT2025共享任务(通用机器翻译)中,我们的模型表现出当前最先进的性能,在31个语言对中有30个排名首位。这一结果突显了我们的模型在多种语言谱系中的稳健性,涵盖汉语、英语、日语等高资源语言,以及捷克语、马拉地语、爱沙尼亚语和冰岛语等低资源语言。


8. So let's replace this phrase with insult... Lessons

learned from generation of toxic texts with LLMs

作者: Sergey Pletenev, Daniil Moskovskiy, Alexander Panchenko

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-10 | 👍 点赞数: 8

摘要:

现代大型语言模型(Large Language Models, LLMs)在生成合成数据方面表现出色。然而,科学界对它们在文本去毒化等敏感领域中的表现尚未给予足够的关注。本文探讨了使用LLM生成的合成有毒数据作为人工生成数据的替代方案,用于训练文本去毒化模型的可行性。我们使用Llama 3和Qwen激活修补模型,为ParaDetox和SST-2数据集中的中性文本生成了合成有毒文本。实验结果表明,基于合成数据微调的模型表现始终不如基于人工数据训练的模型,在联合指标上性能下降最高达30%。根本原因在于词汇多样性存在显著差距:LLMs生成有毒内容时使用的是一组有限且重复的侮辱性词汇,无法捕捉人类毒性表达的细微差别和多样性。这些发现突显了当前LLMs在该领域的局限性,并强调了构建鲁棒的文本去毒化系统仍需依赖多样化的人工标注数据的重要性。


9. Statistical Methods in Generative AI

作者: Edgar Dobriban

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-08 | 👍 点赞数: 7

摘要:

生成式人工智能正成为一项重要技术,并有望在诸多领域带来变革。同时,生成式人工智能技术基于从概率模型中采样,通常默认情况下无法对正确性、安全性、公平性或其他属性提供任何保证。统计方法为提高生成式人工智能的可靠性提供了有前景的途径。此外,统计方法在提升人工智能评估的质量与效率,以及在设计人工智能的干预措施和实验方面也具有潜力。

本文综述了该领域已有的部分研究工作,介绍了所使用的通用统计技术及其在生成式人工智能中的应用。同时,我们还讨论了现有方法的局限性以及未来可能的研究方向。


10. The Majority is not always right: RL training for solution aggregation

作者: Wenting Zhao, Pranjal Aggarwal, Swarnadeep Saha, Asli Celikyilmaz, Jason Weston, Ilia Kulikov

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-08 | 👍 点赞数: 7

摘要:

多数并不总是正确的:用于解集聚合的强化学习训练

通过生成多个独立解并在其中选择或聚合解来扩展测试时计算,已成为提升大语言模型(LLMs)在复杂推理任务上表现的核心范式。尽管大多数先前工作依赖于简单的多数投票或奖励模型排序来进行解的聚合,但这些方法可能仅能带来有限的收益。本文中,我们将聚合过程视为一种明确的推理技能进行学习:给定一组候选解,我们使用来自可验证奖励的强化学习方法训练一个聚合模型,以审查、调和并最终综合出一个正确答案。实现这一目标的关键在于对简单和困难训练样本的精心平衡,使模型能够同时学习从多数正确答案中恢复出正确解,以及从少数正确答案中恢复出正确解。实验表明,我们的方法AggLM在多个基准测试中均优于基于规则和奖励模型的强基线方法。此外,该方法还能有效泛化到训练数据中未见的不同模型(包括更强的模型)所产生的解,同时相比多数投票方法,在使用大量解时显著减少了所需的token数量。


11. EnvX: Agentize Everything with Agentic AI

作者: Linyao Chen, Zimian Peng, Yingxuan Yang, Yikun Wang, Wenzheng Tom Tang, Hiroki H. Kobayashi, Weinan Zhang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-09 | 👍 点赞数: 2

摘要:

摘要:开源仓库的广泛可用性已经形成了大量可重用的软件组件,但这些组件的使用仍然依赖手动操作,容易出错且彼此孤立。开发者必须查阅文档、理解API并编写集成代码,导致软件复用效率面临显著障碍。为解决这一问题,我们提出EnvX,一个利用Agentic AI将GitHub仓库“代理化”的框架,将其转变为具备自然语言交互能力和代理间协作能力的智能自主代理。与现有将仓库视为静态代码资源的方法不同,EnvX通过三个阶段的流程将仓库重新构想为活跃代理:(1)TODO引导的环境初始化,配置必要的依赖项、数据和验证数据集;(2)与人类目标一致的代理自动化,使仓库专属代理能够自主执行现实任务;(3)代理到代理(Agent-to-Agent, A2A)协议,支持多个代理之间的协作。通过将大语言模型能力与结构化工具集成相结合,EnvX不仅实现代码生成自动化,还涵盖仓库功能的理解、初始化和实际操作全过程。我们在GitTaskBench基准测试集上对EnvX进行评估,测试涵盖图像处理、语音识别、文档分析和视频处理等领域的18个仓库。结果显示,EnvX的执行完成率达到74.07%,任务通过率达到51.85%,优于现有框架。案例研究进一步展示了EnvX通过A2A协议实现多仓库协作的能力。本研究标志着仓库从被动代码资源向智能交互代理的转变,为开源生态系统带来更高的可访问性和协作性。


12. HumanAgencyBench: Scalable Evaluation of Human Agency Support in AI

Assistants

作者: Benjamin Sturgeon, Daniel Samuelson, Jacob Haimes, Jacy Reese Anthis

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-10

摘要:

随着人类将越来越多的任务和决策委托给人工智能(AI),我们面临失去对个人和集体未来控制的风险。相对简单的算法系统已经能够引导人类的决策,例如社交媒体信息流算法会引导人们无意且心不在焉地浏览经过参与度优化的内容。本文通过整合关于能动性的哲学与科学理论以及AI辅助评估方法,提出了人类能动性(human agency)的概念:利用大语言模型(LLMs)来模拟和验证用户查询,并评估AI响应。我们开发了HumanAgencyBench(HAB),这是一个可扩展且适应性强的基准测试工具,基于典型AI使用案例,从六个维度衡量人类能动性。HAB用于评估AI助手或代理在以下六个维度上的表现倾向:提出澄清问题、避免价值操控、纠正错误信息、推迟重要决策、鼓励学习以及维护社交边界。我们发现,当前基于LLM的助手在支持人类能动性方面表现处于低至中等水平,且在不同系统开发者和维度之间存在显著差异。例如,尽管Anthropic公司的LLM在总体上对人类能动性的支持最强,但在“避免价值操控”维度上却是支持性最弱的LLM。能动性支持似乎并未随着LLM能力的增强或指令遵循行为(如RLHF)的提升而持续改善,我们建议应转向更稳健的安全性和对齐目标。