Skip to main content
目录

每日论文 - 2025年10月02日

论文总数: 36

1. DeepSearch: Overcome the Bottleneck of Reinforcement Learning with

Verifiable Rewards via Monte Carlo Tree Search

作者: Fang Wu, Weihao Xuan, Heli Qi, Ximing Lu, Aaron Tu, Li Erran Li, Yejin Choi

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-29 | 👍 点赞数: 117

摘要:

论文标题:DeepSearch:通过蒙特卡洛树搜索突破可验证奖励强化学习的瓶颈

中文摘要:
尽管基于可验证奖励的强化学习(RLVR)已成为提升大语言模型(LLM)推理能力的关键组成部分,但近期研究表明,在经历数千步优化后,训练过程常出现性能 plateau 现象——即便计算资源持续投入,性能提升却显著减弱。这一局限性源于当前 RLVR 方法中固有的稀疏探索模式:模型依赖有限的 rollout 过程,往往遗漏关键的推理路径,难以对解空间实现系统性的覆盖。为此,我们提出 DeepSearch,一种将蒙特卡洛树搜索(MCTS)直接集成到 RLVR 训练过程中的新框架。与现有仅在推理阶段使用树搜索的方法不同,DeepSearch 将结构化搜索嵌入训练循环之中,从而实现对推理步骤的系统性探索和细粒度的信用分配。通过在训练过程中进行主动探索,DeepSearch 有效缓解了因探索不足而导致的性能增长瓶颈,解决了长期训练后收益递减的根本问题。我们的主要贡献包括:(1)一种全局前沿节点选择策略,用于优先扩展搜索树中具有潜力的节点;(2)基于熵引导的选择机制,识别高置信度路径以指导监督学习;(3)结合解缓存的自适应经验回放训练机制,提升训练效率。在数学推理基准测试上的实验表明,DeepSearch 实现了 62.95% 的平均准确率,为 15 亿参数规模的推理模型树立了新的最先进水平,且所消耗的 GPU 小时数比延长训练时间的方法减少了 5.7 倍。这些结果凸显了战略性探索相较于暴力扩展的重要性,展示了算法创新在推进 RLVR 方法中的巨大潜力。DeepSearch 开辟了一条通过系统性搜索而非延长计算时间来扩展推理能力的新路径。


2. GEM: A Gym for Agentic LLMs

作者: Zichen Liu, Anya Sims, Keyu Duan, Changyu Chen, Simon Yu, Xiangxin Zhou, Haotian Xu, Shaopan Xiong, Bo Liu, Chenmien Tan, Chuen Yang Beh, Weixun Wang, Hao Zhu, Weiyan Shi, Diyi Yang, Michael Shieh, Yee Whye Teh, Wee Sun Lee, Min Lin

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-10-01 | 👍 点赞数: 71

摘要:

论文标题:GEM:面向具身智能体大语言模型的训练环境平台

中文摘要:
大型语言模型(LLMs)的训练范式正从静态数据集转向基于经验的学习,即智能体通过与复杂环境交互来获取技能。为了推动这一转变,我们推出了GEM(General Experience Maker,通用经验生成器),一个面向大语言模型时代的开源环境模拟器。类似于传统强化学习(RL)中的OpenAI Gym,GEM提供了一个标准化的环境-智能体接口框架,支持异步向量化执行以实现高吞吐量,并配备灵活的封装模块以方便扩展。GEM包含多样化的环境套件、强大的集成工具,以及五个主流强化学习训练框架下仅需单个文件即可运行的示例脚本。此外,我们还基于REINFORCE算法结合回报批归一化(Return Batch Normalization, ReBN)在24个环境中提供了统一的基线结果;ReBN与GRPO不同,能够兼容每轮密集奖励的完整强化学习设置,并实现更优的信用分配。我们进一步利用GEM对PPO、GRPO和REINFORCE算法在单轮和多轮任务中进行了公平的对比评估,以揭示不同算法设计的影响。最后,GEM不仅可作为训练环境,还可作为便捷的评估工具包使用。我们期望该框架能够加速未来面向具身智能体的大语言模型研究。


3. VLA-RFT: Vision-Language-Action Reinforcement Fine-tuning with Verified

Rewards in World Simulators

作者: Hengtao Li, Pengxiang Ding, Runze Suo, Yihao Wang, Zirui Ge, Dongyuan Zang, Kexian Yu, Mingyang Sun, Hongyin Zhang, Donglin Wang, Weihua Su

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-10-01 | 👍 点赞数: 57

摘要:

论文标题:VLA-RFT:基于世界模拟器中验证奖励的视觉-语言-动作强化微调

中文摘要:
视觉-语言-动作(Vision-Language-Action, VLA)模型能够实现具身决策,但其严重依赖模仿学习,导致误差累积,并在分布偏移下表现出较差的鲁棒性。强化学习(RL)有望缓解这些问题,但通常需要昂贵的真实环境交互,或受限于仿真到现实的差距。本文提出VLA-RFT,一种基于强化学习的微调框架,该框架利用数据驱动的世界模型作为可控的仿真器。该仿真器通过真实交互数据训练而成,能够根据动作预测未来的视觉观测,并支持基于目标达成参考生成的密集、轨迹级奖励进行策略 rollout。该设计提供了高效且与动作对齐的学习信号,显著降低了样本需求。在不到400步的微调过程中,VLA-RFT 即超越了强监督基线方法,且相比基于仿真的强化学习方法具有更高的效率。此外,该方法在扰动条件下展现出良好的鲁棒性,能够稳定地执行任务。实验结果表明,基于世界模型的RFT是一种实用的后训练范式,可有效提升VLA模型的泛化能力和鲁棒性。更多详情请访问 https://vla-rft.github.io/。


4. SINQ: Sinkhorn-Normalized Quantization for Calibration-Free

Low-Precision LLM Weights

作者: Lorenz K. Müller, Philippe Bich, Jiawei Zhuang, Ahmet Çelik, Luca Benfenati, Lukas Cavigelli

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-26 | 👍 点赞数: 53

摘要:

论文标题:SINQ:面向无需校准的低精度大语言模型权重的Sinkhorn归一化量化方法

中文摘要:
训练后量化(Post-training quantization)已成为在低精度下部署大语言模型最广泛采用的策略。然而,现有方法在位宽小于或等于4时普遍存在困惑度(perplexity)上升的问题,部分原因在于异常值的存在导致共享相同量化尺度的参数出现精度损失。这一问题在无需校准的均匀量化方法中尤为突出。本文提出SINQ方法,通过引入额外的第二轴缩放因子,并结合一种快速的类Sinkhorn-Knopp算法,为现有训练后量化器进行增强。该算法能够寻找适当的缩放因子,以归一化每行和每列的方差,从而最小化一种新颖的矩阵级量化代理目标——矩阵不平衡度(matrix imbalance)。我们的方法在不同网络层之间无相互依赖,可轻松扩展至新架构,适用于任意线性层的量化。我们在Qwen3系列模型和DeepSeek-V2.5上对本方法进行了评估。实验结果表明,相较于未校准的均匀量化基线,SINQ显著改善了WikiText2和C4数据集上的困惑度表现,并且可进一步与校准技术及非均匀量化层级相结合以获得更优性能。本文代码已开源,可用于复现实验结果并便捷地应用SINQ对模型进行量化,获取地址:https://github.com/huawei-csl/SINQ。


5. Knapsack RL: Unlocking Exploration of LLMs via Optimizing Budget

Allocation

作者: Ziniu Li, Congliang Chen, Tianyun Yang, Tian Ding, Ruoyu Sun, Ge Zhang, Wenhao Huang, Zhi-Quan Luo

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-30 | 👍 点赞数: 40

摘要:

论文标题:背包RL:通过优化预算分配解锁大语言模型的探索能力

摘要:
大语言模型(LLMs)可以通过强化学习实现自我提升,其中模型生成轨迹以进行探索并发现更优解。然而,这一探索过程计算成本高昂,导致现有方法通常只能为每个任务分配有限的探索预算。这种均匀的预算分配方式会引发问题性的边界情况:简单任务始终成功,困难任务始终失败,两者在广泛使用的组相对策略优化(Group Relative Policy Optimization, GRPO)训练更新中均产生零梯度。我们从探索预算分配的角度来解决这一问题。将每个任务的探索视为一个具有特定“价值”和“成本”的“物品”,我们建立了该问题与经典背包问题之间的联系。这一建模方式使我们能够推导出一种最优分配规则,根据模型当前的学习状态自适应地分配资源。当应用于GRPO时,我们的方法在训练过程中将非零策略梯度的有效比例提高了20%–40%。作为一种计算上的“免费午餐”,该方法能够将探索预算从学习已饱和的任务重新分配到最具影响的任务上。这使得对于特别困难的问题可以分配显著更大的预算(例如93次 rollout),而这种分配在均匀预算设置下是计算上不可行的。这些改进在数学推理基准测试中带来了实质性的性能提升,在不同任务上平均提高2–4分,个别任务最高提升达9分。值得注意的是,若采用传统的均匀预算分配方式要达到同等性能水平,则大约需要两倍的计算资源。


6. PIPer: On-Device Environment Setup via Online Reinforcement Learning

作者: Alexander Kovrigin, Aleksandra Eliseeva, Konstantin Grotov, Egor Bogomolov, Yaroslav Zharov

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-29 | 👍 点赞数: 28

摘要:

论文标题:PIPer:基于在线强化学习的设备端环境配置

中文摘要:
环境配置——即对系统进行设置以使其能够与特定软件项目协同工作的过程——在软件工程(SE)领域一直是一项持续存在的挑战。自动化的环境配置方法有望帮助开发者为任意代码仓库提供完全配置好的运行环境,而无需人工干预,同时也可协助软件工程研究人员扩展基于执行的基准测试规模。然而,近期研究表明,即便是最先进的大语言模型(LLMs)在自动化此类任务方面也表现有限。为克服这一局限,我们针对环境配置任务微调了一个专用模型。我们结合监督式微调以生成正确的 Bash 脚本,并采用具有可验证奖励的强化学习(Reinforcement Learning with Verifiable Rewards, RLVR)方法,使模型更好地适应环境配置任务。在 EnvBench-Python 基准上,我们的方法使得可在消费级硬件上运行的 Qwen3-8B 模型表现出与更大的 Qwen3-32B 和 GPT-4o 模型相当的性能。训练代码和模型检查点已公开发布:https://github.com/JetBrains-Research/PIPer。


7. It Takes Two: Your GRPO Is Secretly DPO

作者: Yihong Wu, Liheng Ma, Lei Ding, Muzhi Li, Xinyu Wang, Kejia Chen, Zhan Su, Zhanguang Zhang, Chenyang Huang, Yingxue Zhang, Mark Coates, Jian-Yun Nie

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-10-01 | 👍 点赞数: 25

摘要:

论文标题:需要两者兼顾:你的GRPO实际上隐含着DPO

中文摘要:
组相对策略优化(Group Relative Policy Optimization, GRPO)是一种用于大语言模型(LLMs)后训练的重要强化学习算法。人们普遍认为,GRPO需要较大的组规模,以通过精确的统计估计来保证训练的稳定性,但这带来了显著的计算开销。在本研究中,我们通过将GRPO重新建模为一种对比学习形式,挑战了这一观点,并揭示了其与直接偏好优化(Direct Preference Optimization, DPO)之间的本质联系。受DPO在实证中的成功启发,我们研究了最小化的双 rollout 情况(即2-GRPO),这一配置此前被认为不可行。我们提供了严格的理论分析以验证2-GRPO的有效性,并通过实验表明,尽管仅使用1/8的rollout样本且训练时间减少超过70%,2-GRPO仍能达到与16-GRPO相当的性能表现。


8. Code2Video: A Code-centric Paradigm for Educational Video Generation

作者: Yanzhe Chen, Kevin Qinghong Lin, Mike Zheng Shou

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-10-01 | 👍 点赞数: 24

摘要:

论文标题:Code2Video:一种以代码为中心的教育视频生成范式

中文摘要:
尽管近年来的生成模型在像素空间的视频合成方面取得了进展,但在生成专业教育视频方面仍存在局限性。这类视频需要具备领域专业知识、精确的视觉结构以及连贯的转场效果,限制了现有模型在教育场景中的实际应用。直观上,这些问题更适合通过操控一个可渲染环境来解决,而该环境可通过逻辑指令(例如代码)进行显式控制。为此,我们提出了 Code2Video——一种以代码为中心的智能体框架,通过可执行的 Python 代码生成教育视频。该框架包含三个协同工作的智能体:(i)规划器(Planner),负责将课程内容组织为时间上连贯的流程,并准备相应的视觉素材;(ii)编码器(Coder),将结构化指令转化为可执行的 Python 代码,并引入作用域引导的自动修正机制以提升生成效率;(iii)评论器(Critic),利用视觉-语言模型(VLM)结合视觉锚点提示(visual anchor prompts)优化空间布局并确保表达清晰。为了支持系统性评估,我们构建了 MMMC——一个由专业人士制作、面向特定学科的教育视频基准数据集。我们在多个维度对 MMMC 进行了评估,包括基于视觉-语言模型评分的美学质量、代码效率,特别是提出了一种新颖的端到端评估指标 TeachQuiz,用于量化视觉-语言模型在“遗忘”知识后,通过观看生成视频恢复知识的程度。实验结果表明,Code2Video 具备可扩展性、可解释性和可控性,在性能上比直接代码生成方法提升 40%,生成的视频质量接近人工制作的教学视频。代码与数据集已公开发布于 https://github.com/showlab/Code2Video。


9. ACON: Optimizing Context Compression for Long-horizon LLM Agents

作者: Minki Kang, Wei-Ning Chen, Dongge Han, Huseyin A. Inan, Lukas Wutschitz, Yanzhi Chen, Robert Sim, Saravan Rajmohan

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-10-01 | 👍 点赞数: 24

摘要:

论文标题:ACON:面向长视野LLM智能体的上下文压缩优化

中文摘要:
大型语言模型(LLMs)正越来越多地作为智能体部署于动态的真实世界环境中,其成功依赖于推理能力与有效使用工具的能力。在代理型任务中,一个核心挑战是不断增长的上下文长度,因为智能体必须累积长时间的动作与观测历史。这种扩展增加了成本并降低了长周期任务中的效率,然而以往关于上下文压缩的研究主要集中在单步任务或特定应用场景。本文提出Agent Context Optimization(ACON),一种统一框架,能够将环境观测和交互历史最优地压缩为简洁但信息丰富的摘要。ACON利用自然语言空间中的压缩准则优化机制:对于成对的轨迹数据——完整上下文下任务成功而压缩上下文下失败的情况——能力强的LLM分析失败原因,并据此更新压缩准则。此外,我们提出将优化后的LLM压缩器蒸馏到更小的模型中,以降低额外模块带来的开销。在AppWorld、OfficeBench和多目标问答任务上的实验表明,ACON在显著保持任务性能的同时,减少了26%–54%的内存使用(峰值token数);当蒸馏至小型压缩器时仍能保持超过95%的准确性;并可提升小型语言模型作为长视野智能体的表现,最高实现达46%的性能提升。


10. BiasFreeBench: a Benchmark for Mitigating Bias in Large Language Model

Responses

作者: Xin Xu, Xunzhi He, Churan Zhi, Ruizhe Chen, Julian McAuley, Zexue He

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-30 | 👍 点赞数: 15

摘要:

论文标题:BiasFreeBench:一种用于减轻大语言模型回应中偏见的基准测试

中文摘要:
目前针对大语言模型(LLM)偏见缓解方法的研究采用了多样的基线和评估指标,导致不同方法之间的比较缺乏一致性。此外,这些研究的评估大多基于LLM在有偏见和无偏见上下文中的生成概率对比,忽视了此类评估与实际应用场景之间的差距——在真实使用中,用户通过阅读模型的输出来与LLM交互,并期望获得公平且安全的结果,而非关注模型的概率输出。为了实现对各类去偏方法的一致性评估并弥合这一差距,我们提出了BiasFreeBench,这是一个实证型基准测试平台。该基准通过将现有数据集重新组织为统一的“查询-响应”格式,全面比较了八种主流的偏见缓解技术(涵盖四种基于提示的方法和四种基于训练的方法)在两类测试场景下的表现:多项选择问答和开放式多轮问答。我们进一步提出了一种响应级别的评估指标——无偏见分数(Bias-Free Score),用于衡量LLM输出在公平性、安全性以及反刻板印象方面的程度。本文系统地从多个关键维度对各类去偏方法进行了比较与分析,包括提示法与训练法的范式对比、模型规模的影响,以及不同训练策略在面对未见过的偏见类型时的泛化能力。我们将公开发布该基准,旨在为偏见缓解研究建立一个统一的评测平台。


11. EditReward: A Human-Aligned Reward Model for Instruction-Guided Image

Editing

作者: Keming Wu, Sicong Jiang, Max Ku, Ping Nie, Minghao Liu, Wenhu Chen

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-30 | 👍 点赞数: 15

摘要:

论文标题:EditReward:一种面向指令引导图像编辑的、与人类偏好对齐的奖励模型

中文摘要:
近年来,基于自然语言指令的图像编辑技术取得了显著进展。一些闭源模型(如 GPT-Image-1、Seedream 和 Google-Nano-Banana)已展现出极具前景的性能。然而,开源模型的发展仍相对滞后。其主要瓶颈在于缺乏可靠的奖励模型,以支持高质量合成训练数据的大规模生成。为解决这一关键瓶颈,我们构建了 \mname 模型,并基于一个全新构建的大规模人类偏好数据集对其进行训练。该数据集由经过专业训练的标注人员依据严格的协议精心标注,包含超过 20 万组偏好对比样本。\mname 在指令引导的图像编辑任务中表现出与人类偏好高度一致的判断能力。实验表明,\mname 在多个现有基准(如 GenAI-Bench、AURORA-Bench、ImagenHub)以及我们新提出的 \benchname 上,均实现了当前最优的人类偏好相关性,显著优于各类将视觉语言模型(VLM)作为评判器(judge)的基线方法。此外,我们利用 \mname 从现有的噪声较大的 ShareGPT-4o-Image 数据集中筛选出高质量子集,并基于该子集训练了 Step1X-Edit 模型,结果显著优于在完整数据集上训练的模型。这验证了 \mname 作为奖励模型在扩展高质量图像编辑训练数据方面的有效性。同时,其优异的人类对齐性能也表明其在强化学习驱动的后训练优化、测试时模型扩展等高级应用中的潜力。我们将公开发布 \mname 及其训练数据集,以助力社区构建更高品质的图像编辑训练数据。


12. BroRL: Scaling Reinforcement Learning via Broadened Exploration

作者: Jian Hu, Mingjie Liu, Ximing Lu, Fang Wu, Zaid Harchaoui, Shizhe Diao, Yejin Choi, Pavlo Molchanov, Jun Yang, Jan Kautz, Yi Dong

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-10-01 | 👍 点赞数: 13

摘要:

论文标题:BroRL:通过扩展探索实现强化学习的可扩展性

中文摘要:
基于可验证奖励的强化学习(Reinforcement Learning with Verifiable Rewards, RLVR)已成为释放大语言模型复杂推理能力的关键要素。近期工作ProRL通过增加训练步数展示了在扩展强化学习方面的潜力。然而,经过数千步训练后性能趋于饱和,继续投入计算资源进行更多训练已呈现明显的收益递减。在本研究中,我们探索了一种互补的强化学习扩展范式——BroRL:将每个样本的 rollout 数量从常规水平大幅增加至数百次,以更充分地扩展探索范围。该方法能够在ProRL因训练步数增加而达到性能饱和之后,持续带来性能提升。我们的方法受到质量平衡方程分析的启发,该分析使我们能够刻画强化过程中正确与错误token的概率质量变化速率。我们证明,在单步强化学习假设下,来自rollout采样得到的token始终有助于正确概率质量的扩展;而未被采样的、位于rollout之外的token则可能带来增益或损失,其影响取决于它们的分布情况以及净奖励的平衡状态。尤为重要的是,随着每个样本的rollout数量N的增加,未采样项的影响逐渐减弱,从而确保整体上正确概率质量的持续增长。为验证我们的理论分析,我们在更宽松的条件下进行了仿真实验,结果表明足够大的rollout规模N——即充分的探索——能够保证所有正确token的概率质量均得以提升。实验结果显示,BroRL成功使已在3000步ProRL训练后趋于饱和的模型恢复提升,并展现出稳定且持续的性能改进,在多个基准测试中实现了1.5B规模模型的最先进(state-of-the-art)表现。


13. Why Can't Transformers Learn Multiplication? Reverse-Engineering Reveals

Long-Range Dependency Pitfalls

作者: Xiaoyan Bai, Itamar Pres, Yuntian Deng, Chenhao Tan, Stuart Shieber, Fernanda Viégas, Martin Wattenberg, Andrew Lee

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-30 | 👍 点赞数: 13

摘要:

论文标题:为何Transformer难以学会乘法?逆向工程揭示长距离依赖的陷阱

中文摘要:
语言模型的能力日益增强,但在看似简单的多位数乘法任务上仍表现不佳。本文通过逆向工程一个能够通过隐式思维链(implicit chain-of-thought)成功学习乘法的模型,探究其背后原因,并报告了三项发现:(1)长距离结构的证据:通过对logit归因分析和线性探针(linear probes)的研究表明,该模型确实编码了实现多位数乘法所必需的长距离依赖关系;(2)工作机制:模型利用注意力机制构建有向无环图(directed acyclic graph),通过“缓存”和“检索”成对的部分积(partial products)来表达长距离依赖;(3)几何实现:模型中的注意力头通过在数字对之间形成闵可夫斯基和(Minkowski sums)来实现部分积运算,且数字采用傅里叶基(Fourier basis)进行表示——这两种表示方式均直观且高效,而标准微调模型却缺乏此类结构。基于这些洞察,我们重新审视了标准微调过程中的学习动态,发现模型收敛到了一个缺乏必要长距离依赖关系的局部最优解。为进一步验证这一理解,我们引入了一种辅助损失函数,通过线性回归探针预测“累加和”(running sum),从而提供一种归纳偏置(inductive bias),使模型能够成功学会多位数乘法。综上所述,通过对隐式思维链模型机制的逆向工程,我们揭示了Transformer在学习长距离依赖时存在的一种潜在缺陷,并展示了适当的归纳偏置如何有效解决这一问题。


14. Flash-Searcher: Fast and Effective Web Agents via DAG-Based Parallel

Execution

作者: Tianrui Qin, Qianben Chen, Sinuo Wang, He Xing, King Zhu, He Zhu, Dingfeng Shi, Xinxin Liu, Ge Zhang, Jiaheng Liu, Yuchen Eleanor Jiang, Xitong Gao, Wangchunshu Zhou

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-29 | 👍 点赞数: 13

摘要:

论文标题:Flash-Searcher:基于有向无环图并行执行的快速高效网络智能体

摘要:
大型语言模型(LLMs)在配备外部工具时,已在复杂推理任务中展现出卓越的能力。然而,当前的框架主要依赖于顺序执行,导致在需要大量工具交互的任务中效率低下。本文提出 Flash-Searcher,一种全新的并行智能体推理框架,从根本上将执行范式从顺序链式结构转变为有向无环图(DAG)结构。Flash-Searcher 将复杂任务分解为具有明确依赖关系的子任务,从而在保持逻辑约束的同时,实现独立推理路径的并发执行。通过动态工作流优化,该框架能够根据中间结果持续优化执行图,并有效集成摘要模块。在多个基准测试上的综合评估表明,Flash-Searcher 始终优于现有方法。具体而言,在 BrowseComp 上达到 67.7% 的准确率,在 xbench-DeepSearch 上达到 83% 的准确率,同时相比当前框架最多减少了 35% 的智能体执行步骤。此外,当将这一并行推理流程蒸馏到单个模型中时,我们在多种骨干架构上均观察到显著的性能提升,凸显了本方法的通用性。因此,本研究在智能体架构设计方面实现了重要进展,为复杂推理任务提供了一种更具可扩展性和效率的新范式。


15. QUASAR: Quantum Assembly Code Generation Using Tool-Augmented LLMs via

Agentic RL

作者: Cong Yu, Valter Uotila, Shilong Deng, Qingyuan Wu, Tuo Shi, Songlin Jiang, Lei You, Bo Zhao

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-10-01 | 👍 点赞数: 11

摘要:

论文标题:QUASAR:基于工具增强型大语言模型的智能体强化学习量子汇编代码生成方法

中文摘要:
设计并优化面向特定任务的量子电路对于发挥量子计算的优势至关重要。近年来,基于大语言模型(LLM)的量子电路生成技术作为一种有前景的自动化解决方案受到关注。然而,若干基础性挑战仍未得到有效解决:(i)参数化量子门需要精确的数值参数才能实现最优性能,而这些参数的确定涉及多个因素,包括量子门的数量、其参数设置以及电路的结构/深度;(ii)由于缺乏量子领域专业知识,大语言模型常常生成质量较低或存在错误的量子电路。为此,我们提出 QUASAR——一种基于工具增强型大语言模型的智能体式强化学习(agentic RL)框架,用于量子电路的生成与优化。为使大语言模型更好地融合量子领域知识并提升生成电路的质量,QUASAR 设计了(i)结合外部量子模拟器的量子电路验证机制,以及(ii)在强化学习训练中采用的多层次精细化奖励机制。大量实验评估表明,该方法在生成电路的语法和语义正确性方面均有显著提升。在增强一个40亿参数规模的LLM时,QUASAR 在 Pass@1 指标上达到了 99.31% 的有效率,在 Pass@10 上达到 100%,优于 GPT-4o、GPT-5 和 DeepSeek-V3 等工业级大模型,以及多种仅使用监督微调(SFT)或仅使用强化学习的基线方法。


16. Making, not Taking, the Best of N

作者: Ammar Khairi, Daniel D'souza, Marzieh Fadaee, Julia Kreutzer

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-10-01 | 👍 点赞数: 8

摘要:

论文标题:融合而非筛选:充分利用N个样本的优势

中文摘要:
在现代大语言模型(LLM)中,获得高质量生成结果通常被构建成一个选择问题:即从N个多样化的样本中挑选出一个最优生成结果,称为“N选一最优”(Best-of-N, BoN)。然而,这种方法本质上是零和的,会丢弃样本池中其他多样化且可能有用的信息。与此不同,我们探索了一种协作式框架,使得所有候选样本都有可能为最终的优质生成结果做出贡献。为此,我们提出了“N路融合”(Fusion-of-N, FusioN)方法:利用一个通用的大语言模型作为评判者(LLM judge),将每个样本中最富信息量的部分综合成一个最终答案。我们在两种场景下对FusioN与BoN进行了比较:(i)测试时扩展(test-time scaling),即在推理阶段从单个模型生成并聚合多个样本;(ii)合成数据生成,即将来自多个不同类型教师模型的样本进行融合,以提升学生模型的性能。我们在11种语言、3项差异显著的任务以及多种模型规模下进行了广泛的基准测试。实验结果表明,FusioN在各类设置中 consistently 优于BoN,无论是在测试时扩展还是通过合成数据带来的下游任务增益方面,均展现出良好的通用性与鲁棒性。我们还对FusioN进行了深入分析,发现其在多种挑战性条件下仍表现出令人惊讶的强大能力与稳定性。这些结果表明,我们应当转变对大语言模型生成结果的评估与使用方式——从单一、整体的质量衡量标准,转向承认其多元构成(polylithic nature)的本质。这一范式转变使我们能够整合多样化的优点,释放潜在能力,并实现仅靠筛选无法达到的性能提升。


17. On Predictability of Reinforcement Learning Dynamics for Large Language

Models

作者: Yuchen Cai, Ding Cao, Xin Xu, Zijun Yao, Yuqing Huang, Zhenyu Tan, Benyi Zhang, Guiquan Liu, Junfeng Fang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-10-01 | 👍 点赞数: 8

摘要:

论文标题:关于大语言模型强化学习动态的可预测性研究

中文摘要:
近年来,大语言模型(LLM)推理能力的进步在很大程度上得益于强化学习(RL)的应用,然而在RL训练过程中模型参数的演化动态仍缺乏深入理解。本文揭示了LLM中由强化学习引发的参数更新所具备的两个基本性质:(1)秩-1主导性(Rank-1 Dominance),即参数更新矩阵的最显著奇异子空间几乎完全决定了推理能力的提升,能够恢复超过99%的性能增益;(2)秩-1线性动态性(Rank-1 Linear Dynamics),即该主导子空间在整个训练过程中呈线性演化,使得从早期检查点即可准确预测其后续变化。我们在8种大语言模型和7种算法上进行了广泛实验,验证了这些性质的普适性。更重要的是,基于上述发现,我们提出了AlphaRL——一种即插即用的加速框架,仅通过早期短暂的训练窗口即可外推最终的参数更新,在无需额外模块或超参数调优的情况下,实现最高达2.5倍的训练加速,同时保留超过96%的推理性能。本研究为大规模强化学习提供了一种通用且实用的工具,推动大语言模型向更具原理性、可解释性和高效性的训练范式迈进。


18. Beyond Log Likelihood: Probability-Based Objectives for Supervised

Fine-Tuning across the Model Capability Continuum

作者: Gaotang Li, Ruizhong Qiu, Xiusi Chen, Heng Ji, Hanghang Tong

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-10-01 | 👍 点赞数: 8

摘要:

论文标题:超越对数似然:面向模型能力连续体的基于概率的监督微调目标

中文摘要:
监督微调(Supervised Fine-Tuning, SFT)是大型语言模型(LLM)训练后阶段的标准方法,但其泛化能力往往有限。我们将这一局限性归因于其默认的训练目标——负对数似然(Negative Log Likelihood, NLL)。尽管在从零开始训练时NLL在经典意义上是最优的,但训练后微调处于不同的范式之下,可能违背了NLL最优性所依赖的前提假设:此时模型已具备与任务相关的先验知识,而监督信号可能冗长且含有噪声。为此,我们研究了一类通用的基于概率的训练目标,并系统分析了它们在不同条件下的有效性。通过在7个模型架构、14个基准数据集和3个领域上进行的全面实验与广泛的消融研究,我们发现了一个关键维度,即“模型能力连续体”(model-capability continuum),它决定了不同目标函数的行为表现。在模型能力强的一端,倾向于利用模型先验的目标(例如 -p、-p^10 及带阈值的变体)持续优于NLL;在模型能力弱的一端,NLL占据主导地位;而在中间区域,则没有单一目标始终最优。我们的理论分析进一步阐明了不同目标函数在该连续体上的性能交替机制,为根据模型能力自适应选择训练目标提供了理论依据。代码地址:https://github.com/GaotangLi/Beyond-Log-Likelihood。


19. Pay-Per-Search Models are Abstention Models

作者: Mustafa Omer Gul, Claire Cardie, Tanya Goyal

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-10-01 | 👍 点赞数: 5

摘要:

论文标题:按次搜索模型即为 abstention 模型

中文摘要:
大语言模型(LLMs)无法可靠地识别其参数化知识的边界,面对超出边界的提问时常产生幻觉性回答。相比之下,人类能够意识到自身的认知局限,并选择寻求外部帮助或选择不作答(abstain)。本文提出 MASH(通过选择性求助建模 abstention),一种可有效从大语言模型中提取“不作答”行为的训练框架。我们的核心思想是:若对语言模型使用外部搜索工具的行为施加适当惩罚,同时奖励回答准确性,那么任何外部求助(即调用搜索工具)均可作为“不作答”的代理信号。MASH 通过引入“按次搜索”奖励机制的强化学习方法,将这一思想具体实现。

我们在三个知识密集型问答数据集上进行了实验。结果表明,MASH 显著优于以往高效的搜索方法在选择性求助方面的表现;在多跳推理数据集中,MASH 将答案准确率提升了 7.6%。此外,MASH 展现出强大的即插即用式 abstention 能力——它能够区分问题是否可回答,并仅对可回答的问题生成回应,表现出与专门设计的 abstention 方法相类似的行为。值得注意的是,与以往的 abstention 方法不同,MASH 无需预先确定知识边界来构建训练数据。相反,MASH 的 abstention 行为是训练过程中完成辅助性选择性求助任务的副产品。总体而言,我们证明了 MASH 训练能有效将搜索工具的使用与模型的参数化知识进行对齐,从而成功用于 abstention 决策。


20. GUI-KV: Efficient GUI Agents via KV Cache with Spatio-Temporal Awareness

作者: Kung-Hsiang Huang, Haoyi Qiu, Yutong Dai, Caiming Xiong, Chien-Sheng Wu

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-10-01 | 👍 点赞数: 5

摘要:

论文标题:GUI-KV:基于具有时空感知的KV缓存的高效GUI智能体

中文摘要:
基于视觉-语言模型的图形用户界面(GUI)智能体已成为自动化人机交互工作流的一种有前景的方法。然而,这类方法在处理长序列的高分辨率截图并解决长周期任务时面临效率瓶颈,导致推理速度慢、成本高且受内存限制。尽管键值(KV)缓存可在一定程度上缓解该问题,但在图像密集型上下文中存储完整的缓存代价过高。现有的缓存压缩方法由于未能充分考虑GUI中固有的空间和时间冗余性,表现不尽理想。在本研究中,我们首先分析了GUI智能体工作负载中的注意力模式,发现与自然图像不同,其在所有Transformer层中均表现出高度且均匀的注意力稀疏性。这一发现启发我们采用一种简单的统一预算分配策略,并通过实验验证其性能优于更复杂的分层差异化方案。在此基础上,我们提出了GUI-KV——一种即插即用、无需重新训练的GUI智能体KV缓存压缩方法。GUI-KV融合了两项创新技术:(i)空间显著性引导机制,通过引入隐藏状态的L2范数来增强注意力得分,从而更好地保留语义重要的视觉token;(ii)时间冗余评分机制,将前序帧的键向量投影到当前帧的键子空间,以优先剪枝冗余的历史信息。在多个标准GUI智能体基准和模型上的实验表明,GUI-KV显著优于现有的主流KV缓存压缩方法,在较低缓存预算下即可接近完整缓存的准确率。值得注意的是,在AgentNetBench基准的5张截图设置下,GUI-KV相较完整缓存基线减少了38.9%的解码浮点运算量(FLOPs),同时将步级准确率提升了4.1%。这些结果表明,利用GUI特有的时空冗余特性可实现高效且可靠的智能体性能。


21. MixtureVitae: Open Web-Scale Pretraining Dataset With High Quality

Instruction and Reasoning Data Built from Permissive-First Text Sources

作者: Huu Nguyen, Victor May, Harsh Raj, Marianna Nezhurina, Yishan Wang, Yanqi Luo, Minh Chien Vu, Taishi Nakamura, Ken Tsui, Van Khue Nguyen, David Salinas, Aleksandra Krasnodębska, Christoph Schuhmann, Mats Leon Richter, Xuan-Son, Vu, Jenia Jitsev

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-29 | 👍 点赞数: 5

摘要:

论文标题:MixtureVitae:基于宽松许可优先文本源构建的大规模开放预训练数据集,包含高质量的指令与推理数据

中文摘要:
我们提出 MixtureVitae,一种开源的预训练语料库,旨在在最小化法律风险的同时实现强大的模型性能。MixtureVitae 采用一种风险缓释的数据获取策略,将公共领域和宽松授权的文本(例如 CC-BY/Apache 许可)与经过审慎论证的低风险补充数据(如政府作品及符合欧盟文本与数据挖掘例外条款(EU TDM-eligible)的来源)相结合,并辅以来源明确记录的定向指令、推理和合成数据。我们详细描述了一个透明的多阶段处理流程,涵盖许可证感知过滤、安全性和质量筛选,以及领域感知的数据混合机制,并公开发布该数据集及相关整理方法,以支持可复现的研究。在使用 open-sci-ref 训练协议(固定模型架构为 1.3亿/4亿/13亿/17亿参数;训练预算分别为 500亿 和 3000亿 token)的受控实验中,基于 MixtureVitae 训练的模型在一系列标准基准测试中持续优于其他宽松授权的数据集;在 17亿参数、3000亿 token 的设置下,其性能超越 FineWeb-Edu,并在训练后期接近 DCLM 的表现。模型在数学与代码任务上表现尤为突出,在问答任务上也具备竞争力。这些结果表明,以宽松许可优先、风险可控的数据策略能够为训练高性能大语言模型提供一种切实可行且法律风险更低的基础,在不牺牲竞争力的前提下减少对无差别网络爬取的依赖。
代码地址:https://github.com/ontocord/mixturevitae


22. Training Vision-Language Process Reward Models for Test-Time Scaling in

Multimodal Reasoning: Key Insights and Lessons Learned

作者: Brandon Ong, Tej Deep Pala, Vernon Toh, William Chandra Tjhi, Soujanya Poria

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-27 | 👍 点赞数: 5

摘要:

论文标题:用于多模态推理中测试时扩展的视觉-语言过程奖励模型训练:关键洞见与经验总结

中文摘要:
过程奖励模型(Process Reward Models, PRMs)通过提供步骤级监督来提升大语言模型推理的可靠性。尽管PRMs已在纯文本领域得到广泛研究,但其向视觉语言模型(Vision Language Models, VLMs)的扩展仍较为有限。现有的视觉-语言过程奖励模型(VL-PRMs)依赖蒙特卡洛树搜索(Monte Carlo Tree Search, MCTS)进行数据构建,这种方法往往产生噪声较大的监督信号,并限制了跨任务的泛化能力。在本研究中,我们旨在通过探索多样化的数据集构建、训练方法以及测试时扩展策略,系统阐明VL-PRMs的设计空间。首先,我们提出一种混合数据合成框架,将MCTS与强视觉语言模型的判断相结合,以生成更准确的步骤级标签。其次,我们引入面向感知的监督机制,使PRM能够显式地检测推理过程中视觉 grounding 阶段的错误。第三,我们系统评估了多种测试时扩展策略,结果表明我们的VL-PRMs能够可靠地引导VLM生成更准确的答案。我们在五个具有代表性的多模态基准(MMMU、PuzzleVQA、AlgoPuzzleVQA、MathVista 和 MathVision)上开展了实验,得出若干关键发现:(i)在测试时扩展(Test-Time Scaling, TTS)中,将VL-PRMs用作结果奖励模型(Outcome Reward Models, ORMs)的表现优于基于VL-PRM引导的过程步骤选择;(ii)较小规模的VL-PRMs在检测推理过程错误方面可媲美甚至超越更大规模的模型;(iii)VL-PRMs能够揭示更强VLM主干模型中潜在的推理能力;(iv)引入感知层级的监督显著提升了测试时扩展的效果;(v)尽管未在高等数学推理数据集上训练VL-PRMs,不同策略在这些数据集上的TTS性能仍可获得提升。我们希望本研究能激发更多相关探索,推动视觉语言模型的发展。


23. Infusing Theory of Mind into Socially Intelligent LLM Agents

作者: EunJeong Hwang, Yuwei Yin, Giuseppe Carenini, Peter West, Vered Shwartz

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-26 | 👍 点赞数: 5

摘要:

论文标题:将心智理论注入社会智能型大语言模型代理

中文摘要:
心智理论(Theory of Mind, ToM)——即理解他人心理状态的能力——是人类社会智能的关键组成部分,然而当前的聊天机器人和基于大语言模型(LLM)的社会代理通常并未整合这一能力。在本研究中,我们证明了能够显式运用心智理论的大语言模型在对话任务中表现更优,能更有效地实现对话目标。我们首先发现,仅通过在对话轮次之间提示模型生成对他人心理状态的推断,即可带来显著性能提升;在此基础上,我们进一步提出ToMAgent(简称ToMA),一种专注于心智理论的对话代理。ToMA通过将心智理论与对话前瞻(dialogue lookahead)相结合进行训练,从而生成对实现对话目标最具实用性的心理状态表征。在Sotopia交互式社会评估基准上的实验结果表明,我们的方法相较于多种基线模型具有更优表现。全面的分析显示,ToMA展现出更强的战略性、目标导向的推理行为,能够在长时程对话中持续适应,同时更好地维护与对话伙伴的关系。我们的研究结果为构建具备社会智能的LLM代理提供了向心智理论融合迈进的重要一步。


24. Eliciting Secret Knowledge from Language Models

作者: Bartosz Cywiński, Emil Ryd, Rowan Wang, Senthooran Rajamanoharan, Neel Nanda, Arthur Conmy, Samuel Marks

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-10-01 | 👍 点赞数: 3

摘要:

论文标题:从语言模型中提取隐秘知识

中文摘要:
我们研究了隐秘知识提取问题,即发现人工智能系统所拥有但未明确表达出来的知识。作为实验平台,我们训练了三类大型语言模型(LLMs),使其具备某些特定知识,并能在下游任务中加以应用,但在被直接询问时却否认拥有该知识。例如,在一种设定下,我们训练一个LLM生成符合“知道用户为女性”这一信息的回复,但在被直接提问时则否认掌握此信息。随后,我们设计了多种黑盒和白盒的隐秘知识提取技术,并评估这些方法是否有助于模型审计者成功推断出模型所掌握的隐秘知识。许多技术相较于简单基线方法有所提升。其中最有效的技术(在三分之二的设定中表现最佳)基于“预填充攻击”(prefill attacks),这是一种黑盒方法,即语言模型在根据预定义前缀生成补全内容时会泄露其隐秘知识。在其余一种设定中,基于logit lens和稀疏自编码器(SAEs)的白盒技术最为有效。我们公开了所训练的模型和代码,建立了用于评估隐秘知识提取方法的公共基准。


25. JoyAgent-JDGenie: Technical Report on the GAIA

作者: Jiarun Liu, Shiyue Xu, Shangkun Liu, Yang Li, Wen Liu, Min Liu, Xiaoqing Zhou, Hanmin Wang, Shilin Jia, zhen Wang, Shaohua Tian, Hanhao Li, Junbo Zhang, Yongli Yu, Peng Cao, Haofen Wang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-10-01 | 👍 点赞数: 3

摘要:

论文标题:JoyAgent-JDGenie:关于GAIA的技术报告

中文摘要:
大型语言模型正越来越多地被用作执行复杂现实任务的自主智能体,然而现有系统往往侧重于孤立的改进,缺乏在鲁棒性和适应性方面的统一设计。我们提出了一种通用型智能体架构,该架构集成了三个核心组件:一个结合了规划智能体、执行智能体与基于评判模型投票机制的集体多智能体框架;一个涵盖工作记忆、语义记忆和程序性记忆的分层记忆系统;以及一套经过优化的工具集,支持搜索、代码执行和多模态解析。在综合性基准测试上的评估结果显示,我们的框架持续优于开源基线模型,并接近专有系统的性能表现。这些结果凸显了系统级集成的重要性,并为构建可扩展、具备韧性且适应性强的人工智能助手指明了方向,使其能够在多样化领域与任务中有效运行。


26. BatonVoice: An Operationalist Framework for Enhancing Controllable

Speech Synthesis with Linguistic Intelligence from LLMs

作者: Yue Wang, Ruotian Ma, Xingyu Chen, Zhengliang Shi, Wanshun Chen, Huang Liu, Jiadi Yao, Qu Yang, Qingxuan Jiang, Fanghua Ye, Juntao Li, Min Zhang, Zhaopeng Tu, Xiaolong Li, Linus

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-30 | 👍 点赞数: 3

摘要:

论文标题:BatonVoice:一种通过大语言模型的语言智能增强可控语音合成的操作主义框架

中文摘要:
随着大语言模型(Large Language Models, LLMs)的兴起,多模态模型正在经历深刻变革,其中语音合成是一个重要的应用方向。然而,现有方法往往未能充分利用LLMs所具备的语言智能,通常忽略了其强大的指令遵循能力。这一局限性制约了模型在可控文本转语音(Text-to-Speech, TTS)任务中对文本指令的理解与执行能力。为解决该问题,我们提出一种受“操作主义”启发的新范式,将指令理解与语音生成过程解耦。我们提出了BatonVoice框架:在此框架中,LLM扮演“指挥者”角色,负责理解用户指令并生成一段文本形式的“计划”——即明确的语音特征(如音高、能量等);而一个独立的TTS模型则作为“乐团”,依据这些特征生成语音。为此,我们专门设计并训练了适用于该任务的TTS模型BatonTTS。实验结果表明,BatonVoice在可控语音和情感化语音合成方面表现出色,显著优于多个强开源和闭源基线系统。值得注意的是,我们的方法展现出卓越的零样本跨语言泛化能力,能够在后训练阶段未见过的语言上准确应用特征控制能力。这证明了将语音对象化为文本化的声学特征,能够更有效地释放大语言模型中的语言智能潜力。


27. VLM-FO1: Bridging the Gap Between High-Level Reasoning and Fine-Grained

Perception in VLMs

作者: Peng Liu, Haozhan Shen, Chunxin Fang, Zhicheng Sun, Jiajia Liao, Tiancheng Zhao

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-30 | 👍 点赞数: 3

摘要:

论文标题:VLM-FO1:弥合视觉语言模型中高层推理与细粒度感知之间的鸿沟

中文摘要:
视觉语言模型(Vision-Language Models, VLMs)在高层场景理解方面表现出色,但在需要精确定位的细粒度感知任务上表现不佳。这一局限性的根本原因在于结构上的不匹配:对于以语言为中心的架构而言,生成精确的数值坐标是一项极具挑战性的任务。本文提出VLM-FO1,一种新颖的框架,通过将面向对象的感知任务从脆弱的坐标生成问题重构为鲁棒的特征检索任务,从而克服了这一限制。我们的方法作为一个即插即用模块,可集成到任意预训练的VLM中。该方法采用一种混合细粒度区域编码器(Hybrid Fine-grained Region Encoder, HFRE),其配备双视觉编码器,能够生成兼具丰富语义和空间细节的强大区域令牌(region tokens)。随后,基于令牌的引用机制使得大语言模型(LLM)能够无缝地对这些特定视觉区域进行推理,并实现语言与视觉内容的精准对齐。实验结果表明,VLM-FO1在多种基准测试任务中均达到了最先进的性能,在对象定位、区域级语义理解以及视觉区域推理方面展现出卓越能力。关键的是,我们提出的两阶段训练策略确保了在提升感知能力的同时,不会损害基础模型原有的通用视觉理解能力。VLM-FO1建立了一种高效且灵活的范式,用于构建具备感知意识的视觉语言模型,成功弥合了高层推理与细粒度视觉 grounding 之间的差距。


28. An Empirical Study of Testing Practices in Open Source AI Agent

Frameworks and Agentic Applications

作者: Mohammed Mehedi Hasan, Hao Li, Emad Fallahzadeh, Gopi Krishnan Rajbahadur, Bram Adams, Ahmed E. Hassan

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-23 | 👍 点赞数: 3

摘要:

论文标题:开源AI智能体框架与智能体应用中测试实践的实证研究

摘要:
基于基础模型(Foundation Model, FM)的人工智能智能体正在各个领域迅速普及,但其固有的非确定性和不可重现性给测试与质量保证带来了挑战。尽管近期的一些基准工作提供了任务层面的评估,但我们对开发者在开发过程中如何验证这些智能体内部正确性的理解仍然十分有限。
为填补这一空白,我们开展了针对AI智能体生态系统的首次大规模实证研究,分析了39个开源智能体框架和439个智能体应用。我们识别出十种不同的测试模式,发现诸如DeepEval等新颖的、专用于智能体的测试方法使用极少(约1%),而传统的测试模式(如负向测试和成员资格测试)则被广泛采用以应对基础模型的不确定性。通过将这些测试模式映射到智能体框架与智能体应用的标准架构组件上,我们揭示了一个根本性的测试投入倒置现象:确定性组件——如资源构件(工具)和协调构件(工作流)——消耗了超过70%的测试资源,而基于基础模型的“规划主体”(Plan Body)所获测试投入不足5%。尤为关键的是,这一现象暴露出一个严重的盲区:触发组件(即提示词,prompts)几乎未被关注,在所有测试中仅占约1%。
本研究为基于基础模型的智能体框架及智能体应用提供了首个实证意义上的测试基准,揭示了当前对非确定性问题虽有理性应对但尚不充分的现状。为此,框架开发者应加强对新型测试方法的支持,应用开发者需引入提示词回归测试,研究人员则应进一步探索相关采纳障碍。加强这些测试实践对于构建更稳健、更可靠的AI智能体至关重要。


29. ReSWD: ReSTIR'd, not shaken. Combining Reservoir Sampling and Sliced

Wasserstein Distance for Variance Reduction

作者: Mark Boss, Andreas Engelhardt, Simon Donné, Varun Jampani

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-10-01 | 👍 点赞数: 2

摘要:

论文标题:ReSWD:取其精华,非搅动之物——结合蓄水池采样与切片Wasserstein距离的方差缩减方法

中文摘要:
分布匹配在众多计算机视觉与图形学任务中至关重要,而常用的Wasserstein距离在高维分布下计算成本过高。切片Wasserstein距离(Sliced Wasserstein Distance, SWD)提供了一种可扩展的替代方案,但其蒙特卡洛估计量存在较高的方差,导致梯度噪声大且收敛速度慢。本文提出蓄水池SWD(Reservoir SWD, ReSWD),将加权蓄水池采样(Weighted Reservoir Sampling)引入SWD中,能够在优化过程中自适应地保留信息丰富的投影方向,在保持无偏性的同时实现稳定的梯度估计。在合成基准数据以及真实世界任务(如颜色校正和扩散模型引导)上的实验表明,ReSWD始终优于标准SWD及其他方差缩减基线方法。项目主页:https://reservoirswd.github.io/


30. CurES: From Gradient Analysis to Efficient Curriculum Learning for

Reasoning LLMs

作者: Yongcheng Zeng, Zexu Sun, Bokai Ji, Erxue Min, Hengyi Cai, Shuaiqiang Wang, Dawei Yin, Haifeng Zhang, Xu Chen, Jun Wang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-10-01 | 👍 点赞数: 2

摘要:

论文标题:CurES:从梯度分析到面向推理型大语言模型的高效课程学习

中文摘要:
课程学习在提升大语言模型(LLMs)在推理任务上的训练效率方面起着至关重要的作用。然而,现有方法往往未能充分考虑提示(prompt)难度的差异,或依赖于简单的过滤机制,在狭窄的标准范围内选择提示数据集,导致显著的计算资源浪费。本文从强化学习中梯度优化的角度出发,系统性地、理论化地探讨如何提升LLMs的训练效率。我们识别出影响训练效率的两个关键因素:训练提示的选择,以及在不同提示之间 rollout 数量的分配。理论分析表明,提示的采样分布决定了梯度下降的收敛速度,而 rollout 数量的分配则影响整体梯度更新的一致性与稳定性。基于这些发现,我们提出了 CurES——一种高效的训练方法,通过加速收敛并采用贝叶斯后验估计来最小化计算开销。实验结果表明,与组相对策略优化(GRPO)相比,CurES 在 1.5B 和 7B 规模的模型上分别取得了 +3.30 和 +4.82 的性能提升。此外,相较于包括 GRPO 在内的基线方法,CurES 展现出更快的收敛速度。


31. In-Place Feedback: A New Paradigm for Guiding LLMs in Multi-Turn

Reasoning

作者: Youngbin Choi, Minjong Lee, Saemi Moon, Seunghyuk Cho, Chaehyeon Chung, MoonJeong Park, Dongwoo Kim

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-10-01 | 👍 点赞数: 2

摘要:

论文标题:原位反馈:一种指导大语言模型进行多轮推理的新范式

中文摘要:
大语言模型(LLMs)在多轮推理场景中的应用正受到越来越多关注,其中模型根据用户提供的反馈逐步优化其输出。这类交互模式对于需要复杂推理的任务至关重要,但现有的反馈范式通常依赖于发送新的消息,而大语言模型难以稳定地整合此类信息,导致改进效果不一致。本文提出“原位反馈”(in-place feedback),这是一种全新的交互范式,允许用户直接编辑模型先前的回复,并让模型基于修改后的版本生成修订内容。在多个高难度推理基准任务上的实证评估表明,与传统的多轮反馈相比,原位反馈在性能更优的同时,减少了79.1%的token使用量。在受控环境下的补充分析进一步表明,原位反馈解决了传统多轮反馈的一个核心缺陷:模型往往无法将反馈精确应用于回答中的错误部分,导致原有错误未被修正,甚至可能将原本正确的内容引入新的错误。这些发现表明,原位反馈为指导大语言模型完成复杂推理任务提供了一种更自然且更有效的机制。


32. BindWeave: Subject-Consistent Video Generation via Cross-Modal

Integration

作者: Zhaoyang Li, Dongjun Qian, Kai Su, Qishuai Diao, Xiangyang Xia, Chang Liu, Wenfei Yang, Tianzhu Zhang, Zehuan Yuan

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-10-01 | 👍 点赞数: 2

摘要:

论文标题:BindWeave:通过跨模态融合实现主体一致的视频生成

中文摘要:
扩散变换器(Diffusion Transformer)在生成高保真视频方面已展现出卓越能力,能够生成视觉上连贯、细节丰富的长时序视频帧。然而,现有的视频生成模型在主体一致性视频生成方面仍存在不足,主要原因在于难以准确解析包含复杂空间关系、时间逻辑以及多个主体间交互的文本提示。为解决这一问题,我们提出了BindWeave——一种统一框架,能够处理从单个主体到包含异构实体的复杂多主体场景在内的广泛主体到视频生成任务。为了将复杂的文本语义与具体的视觉主体绑定,我们引入了一种MLLM-DiT框架:该框架利用预训练的多模态大语言模型(Multimodal Large Language Model, MLLM)进行深入的跨模态推理,以定位实体并解耦其角色、属性及相互关系,从而生成主体感知的隐状态,用于条件化扩散变换器,实现高保真的主体一致性视频生成。在OpenS2V基准上的实验表明,我们的方法在生成视频的主体一致性、自然度和文本相关性方面均优于现有的开源及商业模型,表现出更优的整体性能。


33. TGPO: Temporal Grounded Policy Optimization for Signal Temporal Logic

Tasks

作者: Yue Meng, Fei Chen, Chuchu Fan

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-30 | 👍 点赞数: 2

摘要:

论文标题:TGPO:面向信号时序逻辑任务的时间接地策略优化

中文摘要:
在机器人与自主系统领域,学习复杂且长周期任务的控制策略是一项核心挑战。信号时序逻辑(Signal Temporal Logic, STL)为描述此类任务提供了一种强大而富有表达力的语言,但其非马尔可夫特性以及固有的稀疏奖励问题,使得标准强化学习(Reinforcement Learning, RL)算法难以有效求解。以往的强化学习方法通常仅限于特定的STL片段,或直接将STL的鲁棒性评分作为稀疏的终端奖励。本文提出TGPO(Temporal Grounded Policy Optimization,时间接地策略优化),用于求解通用的STL任务。TGPO将STL任务分解为带时间约束的子目标和不变式约束,并构建了一个分层框架来解决该问题。TGPO的高层模块为各个子目标生成具体的时间分配方案,底层的时间条件策略则利用密集的、阶段性的奖励信号来学习完成有序子目标。在推理过程中,我们对多种时间分配方案进行采样,并选择最具潜力的方案交由策略网络执行以生成解轨迹。为了提升在包含多个子目标的复杂STL任务中的策略学习效率,我们利用所学习到的评论器(critic)通过Metropolis-Hastings采样引导高层的时间搜索过程,使探索聚焦于时间上可行的解空间。我们在五个不同环境中进行了实验,涵盖低维导航、机械臂操作、无人机飞行以及四足机器人行走等任务。在多种STL任务下,TGPO显著优于当前最先进的基线方法(尤其在高维状态空间和长周期任务中),相较于最优基线平均提升了31.6%的任务成功率。代码将在 https://github.com/mengyuest/TGPO 公开。


34. Boolean Satisfiability via Imitation Learning

作者: Zewei Zhang, Huan Liu, Yuanhao Yu, Jun Chen, Xiangyu Xu

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-29 | 👍 点赞数: 2

摘要:

论文标题:基于模仿学习的布尔可满足性求解

中文摘要:
本文提出 ImitSAT,一种基于模仿学习的冲突驱动子句学习(CDCL)求解器分支策略,用于解决布尔可满足性问题(SAT)。与以往通过预测实例级信号间接改进 CDCL 分支,或依赖强化学习及不充分的 CDCL 信息来增强分支的方法不同,ImitSAT 从专家策略 KeyTrace 中进行学习,该策略将完整的求解过程压缩为一系列“幸存决策”序列。在相同实例上重放 KeyTrace 几乎不会产生冲突,从而提供密集的决策级监督信号,并直接减少传播(propagation)次数——而传播是实际运行时间的主要开销。这种基于前缀条件的监督方式使 ImitSAT 能够在无需探索的情况下复现高质量的分支选择,实现更快的收敛、稳定的训练,并无缝集成到 CDCL 框架中。大量实验表明,ImitSAT 在降低传播次数和运行时间方面优于当前最先进的基于学习的方法。我们已在 https://github.com/zewei-Zhang/ImitSAT 公开发布源代码和训练模型。


35. Aligning Visual Foundation Encoders to Tokenizers for Diffusion Models

作者: Bowei Chen, Sai Bi, Hao Tan, He Zhang, Tianyuan Zhang, Zhengqi Li, Yuanjun Xiong, Jianming Zhang, Kai Zhang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-29 | 👍 点赞数: 2

摘要:

论文标题:将视觉基础编码器对齐至扩散模型的分词器

中文摘要:
本文提出一种方法,通过将预训练的视觉编码器进行对齐,使其作为潜在扩散模型在图像生成任务中的分词器。与从零开始训练变分自编码器(VAE)主要关注低层次细节不同,我们的方法利用了基础编码器中丰富的语义结构。我们提出了一种三阶段对齐策略:(1)冻结编码器,训练一个适配器(adapter)和一个解码器,以构建一个语义化的潜在空间;(2)联合优化所有组件,并引入额外的语义保持损失,使编码器能够捕捉感知细节的同时保留高层语义信息;(3)进一步优化解码器以提升重建质量。这种对齐方式产生了语义丰富的图像分词器,显著提升了扩散模型的性能。在 ImageNet 256×256 上,使用我们的分词器,扩散模型在仅 64 个训练周期内即达到 1.90 的 gFID 分数,且无论是否使用无分类器引导,生成效果均得到改善。扩展至 LAION 数据集时,一个包含 20 亿参数的文本到图像生成模型在相同训练步数下,始终优于基于 FLUX VAE 的结果。总体而言,我们的方法简洁、可扩展,并为连续型分词器的设计建立了一个语义 grounded 的新范式。


36. Hyperdimensional Probe: Decoding LLM Representations via Vector Symbolic

Architectures

作者: Marco Bronzini, Carlo Nicolini, Bruno Lepri, Jacopo Staiano, Andrea Passerini

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-29 | 👍 点赞数: 2

摘要:

论文标题:高维探针:通过向量符号架构解码大语言模型表征

中文摘要:
尽管大语言模型(LLMs)具备强大的能力,其内部机制仍然不透明,人们对它们的内部表征理解有限。现有的可解释性方法,如直接logit归因(DLA)和稀疏自编码器(SAEs),由于受限于模型输出词汇表或特征名称不明确等因素,所提供的洞察较为有限。本文提出“高维探针”(Hyperdimensional Probe),一种从大语言模型向量空间中解码信息的新范式。该方法结合符号表征与神经探针的思想,利用向量符号架构(Vector Symbolic Architectures, VSAs)将模型残差流投影到可解释的概念空间中。该探针融合了SAE与传统探针的优势,同时克服了二者的关键局限。我们在受控的输入-补全任务中验证了这一解码范式,探测模型在预测下一个词之前最终状态的表现,测试输入涵盖句法模式识别、键值关联以及抽象推理等任务。我们进一步在问答场景中评估该方法,分析模型在文本生成前后状态的变化。实验结果表明,我们的探针能够跨不同大语言模型、嵌入维度和输入领域稳定地提取有意义的概念,并有助于识别大语言模型的失效模式。本研究推进了对大语言模型向量空间中的信息解码能力,使得从神经表征中提取更丰富、更可解释且结构化的特征成为可能。