每日论文 - 2025年09月03日
论文总数: 39
1. The Landscape of Agentic Reinforcement Learning for LLMs: A Survey
作者: Guibin Zhang, Hejia Geng, Xiaohang Yu, Zhenfei Yin, Zaibin Zhang, Zelin Tan, Heng Zhou, Zhongzhi Li, Xiangyuan Xue, Yijiang Li, Yifan Zhou, Yang Chen, Chen Zhang, Yutao Fan, Zihu Wang, Songtao Huang, Yue Liao, Hongru Wang, Mengyue Yang, Heng Ji, Michael Littman, Jun Wang, Shuicheng Yan, Philip Torr, Lei Bai
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-02 | 👍 点赞数: 126
摘要:
代理式强化学习(Agentic RL)的兴起标志着大型语言模型(LLM RL)中传统强化学习的一次范式转变,将大型语言模型从被动的序列生成器重新定义为嵌入于复杂、动态世界中的自主决策代理。本综述通过对比LLM-RL中退化的单步马尔可夫决策过程(MDPs)与定义代理式强化学习的时序扩展、部分可观测马尔可夫决策过程(POMDPs),正式阐述了这一概念上的转变。在此基础上,我们提出了一个全面的双重分类体系:一方面围绕代理式核心能力,包括规划、工具使用、记忆、推理、自我改进和感知;另一方面围绕其在多种任务领域的应用。我们观点的核心在于强化学习是将这些能力从静态、启发式的模块转化为适应性强、稳健的代理行为的关键机制。为了支持并加速未来的研究,我们汇总了开源环境、基准测试和框架,形成一份实用指南。通过综合分析五百余篇近期研究成果, 本综述描绘了这一快速发展的领域的发展轮廓,并指出了未来构建可扩展通用人工智能代理所面临的机遇与挑战。
2. UI-TARS-2 Technical Report: Advancing GUI Agent with Multi-Turn
Reinforcement Learning
作者: Haoming Wang, Haoyang Zou, Huatong Song, Jiazhan Feng, Junjie Fang, Junting Lu, Longxiang Liu, Qinyu Luo, Shihao Liang, Shijue Huang, Wanjun Zhong, Yining Ye, Yujia Qin, Yuwen Xiong, Yuxin Song, Zhiyong Wu, Bo Li, Chen Dun, Chong Liu, Fuxing Leng, Hanbin Wang, Hao Yu, Haobin Chen, Hongyi Guo, Jing Su, Jingjia Huang, Kai Shen, Kaiyu Shi, Lin Yan, Peiyao Zhao, Pengfei Liu, Qinghao Ye, Renjie Zheng, Wayne Xin Zhao, Wen Heng, Wenhao Huang, Wenqian Wang, Xiaobo Qin, Yi Lin, Youbin Wu, Zehui Chen, Zihao Wang, Baoquan Zhong, Xinchun Zhang, Xujing Li, Yuanfan Li, Zhongkai Zhao, Chengquan Jiang, Faming Wu, Haotian Zhou, Jinlin Pang, Li Han, Qianli Ma, Siyao Liu, Songhua Cai, Wenqi Fu, Xin Liu, Zhi Zhang, Bo Zhou, Guoliang Li, Jiajun Shi, Jiale Yang, Jie Tang, Li Li, Taoran Lu, Woyu Lin, Xiaokang Tong, Xinyao Li, Yichi Zhang, Yu Miao, Zhengxuan Jiang, Zili Li, Ziyuan Zhao, Chenxin Li, Dehua Ma, Feng Lin, Ge Zhang, Haihua Yang, Hangyu Guo, Hongda Zhu, Jiaheng Liu, Junda Du, Kai Cai, Kuanye Li, Lichen Yuan, Meilan Han, Minchao Wang, Shuyue Guo, Tianhao Cheng, Xiaobo Ma, Xiaojun Xiao, Xiaolong Huang, Xinjie Chen, Yidi Du, Yilin Chen, Yiwen Wang, Zhaojian Li, Zhenzhu Yang, Zhiyuan Zeng, Chaolin Jin, Chen Li, Hao Chen, Haoli Chen, Jian Chen, Qinghao Zhao, Guang Shi
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-02 | 👍 点赞数: 95
摘要:
UI-TARS-2技术报告:通过多轮强化学习推进图形用户界面代理
为图形用户界面(GUI)开发自主代理在人工智能领域提出了重大挑战。尽管近期原生代理模型的进展通过端到端学习将感知、推理、行动和记忆统一起来,但数据可扩展性、多轮强化学习(RL)、仅限GUI操作的局限性以及环境稳定性方面仍存在未解决的问题。在本技术报告中,我们提出了UI-TARS-2,这是一种以GUI为中心的原生代理模型,通过系统化的训练方法解决了上述挑战:用于可扩展数据生成的数据飞轮机制、稳定的多轮RL框架、整合文件系统和终端的混合GUI环境,以及用于大规模部署的统一沙箱平台。实证评估表明,UI-TARS-2相比其前身UI-TARS-1.5实现了显著提升。在GUI基准测试中,其在Online-Mind2Web上达到88.2分,在OSWorld上达到47.5分,在WindowsAgentArena上达到50.6分,在AndroidWorld上达到73.3分,超越了如Claude和OpenAI代理等强大的基线模型。在游戏环境中,其在15个游戏组成的测试套件上达到了59.8的平均归一化得分——约为人类水平表现的60%——并在LMGame-Bench上与前沿的专有模型(例如OpenAI o3)保持竞争力。此外,该模型能够泛化到长视野的信息检索任务和软件工程基准测试,突显了其在多样化代理任务中的鲁棒性。对训练动态的详细分析进一步提供了在大规模代理RL中实现稳定性和效率的见解。这些结果强调了UI-TARS-2在推进GUI代理方面的潜力,并展示了其在真实世界交互场景中的强大泛化能力 。
3. SimpleTIR: End-to-End Reinforcement Learning for Multi-Turn
Tool-Integrated Reasoning
作者: Zhenghai Xue, Longtao Zheng, Qian Liu, Yingru Li, Xiaosen Zheng, Zejun Ma, Bo An
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-02 | 👍 点赞数: 74
摘要:
摘要:通过与外部工具交互,大语言模型(Large Language Models, LLMs)可以显著提升其推理能力,这一范式被称为工具集成推理(Tool-Integrated Reasoning, TIR)。然而,将TIR扩展到多轮场景时,使用强化学习(Reinforcement Learning, RL)的方法通常受到训练不稳定和性能崩溃的限制。我们发现,这种不稳定性主要源于外部工具反馈带来的分布漂移,从而导致低概率token的生成。该问题在连续的对话轮次中不断累积,最终引发灾难性的梯度范数爆炸,破坏训练过程。为应对这一挑战,我们提出了SimpleTIR,一种即插即用的算法,用于稳定多轮TIR训练。其核心策略是识别并过滤包含无效回合的轨迹,即那些既未生成代码块也未给出最终答案的回合。通过在策略更新中去除这些有问题的轨迹,SimpleTIR有效地阻断了有害的高强度梯度,从而稳定了学习动态。大量实验表明,SimpleTIR在具有挑战 性的数学推理基准测试中达到了最先进的性能,特别是当基于Qwen2.5-7B基础模型时,其AIME24得分从纯文本基线的22.1显著提升至50.5。此外,通过避免监督微调的限制,SimpleTIR鼓励模型探索多样化且复杂的推理模式,例如自我修正和交叉验证。
4. LLaVA-Critic-R1: Your Critic Model is Secretly a Strong Policy Model
作者: Xiyao Wang, Chunyuan Li, Jianwei Yang, Kai Zhang, Bo Liu, Tianyi Xiong, Furong Huang
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-31 | 👍 点赞数: 71
摘要:
LLaVA-Critic-R1:你的评判模型实际上是一个强大的策略模型
在视觉-语言建模中,评判模型(critic models)通常被训练用于评估输出结果——即分配标量评分或进行成对偏好比较——而非用于生成响应。这种与负责生成响应的策略模型(policy models)的分离已根深蒂固,以至于评判模型很少被考虑直接用于策略任务。在本研究中,我们挑战了这一传统观念。我们提出将带有偏好标注的评判数据集重新组织为可验证的训练信号,并直接在基础生成模型上进行强化学习,从而训练出LLaVA-Critic-R1,这是一种多模态评判模型,既能 优化偏好判断能力,又保留完整的生成能力。令人意外的是,LLaVA-Critic-R1不仅表现出色作为评判模型,还成为具有竞争力的策略模型,在26个视觉推理与理解基准测试中,其表现与使用领域内数据训练的专用推理视觉语言模型(VLM)相当甚至更优,平均较其基础模型(Qwen-2.5-VL-7B)提升了+5.7%。将该方法扩展至现有强大的推理VLM模型上,我们进一步训练出LLaVA-Critic-R1+,在不牺牲评判质量的前提下进一步提升了策略性能,在7B参数规模下于MMMU任务上达到了71.9的SOTA性能。最后,我们展示了增强的评判能力对推理的益处:在测试阶段应用自我评判(self-critique)策略,在无需额外训练的情况下,五个代表性推理任务上平均提升了+13.8%。我们的研究结果表明,基于评判数据的强化学习能够训练出一个在评估与生成方面均表现出色的统一模型,为构建可扩展、自我改进的多模态系统提供了一条简单有效的路径。
5. VerlTool: Towards Holistic Agentic Reinforcement Learning with Tool Use
作者: Dongfu Jiang, Yi Lu, Zhuofeng Li, Zhiheng Lyu, Ping Nie, Haozhe Wang, Alex Su, Hui Chen, Kai Zou, Chao Du, Tianyu Pang, Wenhu Chen
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-01 | 👍 点赞数: 54
摘要:
摘要:
基于可验证奖励的强化学习(Reinforcement Learning with Verifiable Rewards, RLVR)在提升大语言模型(LLM)推理能力方面已展现出成效,但其应用仍局限于单轮交互且缺乏工具集成。尽管近期出现了用于解决多轮工具交互的基于工具使用的智能体强化学习(Agentic Reinforcement Learning with Tool use, ARLT)方法,但现有工作开发了任务特定的代码库,存在系统碎片化、同步执行瓶颈以及跨领域扩展性有限等问题。这些不足限制了更广泛社区的采纳以及算法层面的创新。为此,我们提出了VerlTool,一个统一且模块化的框架,通过系统化的设计原则有效解决了上述局限性。VerlTool具有四个核心贡献:(1)与VeRL保持上游对齐,确保兼容性并简化维护;(2)通过标准化API实现统一的工具管理,支持代码执行、搜索、SQL数据库和视觉处理等多种模态;(3)采用异步rollout执行机制,消除了同步瓶颈,实现了接近2倍的加速效果;(4)全面的评估表明其在6个ARLT领域中均展现出具有竞争力的性能。我们的框架将ARLT形式化为包含多模态观测标记(文本/图像/视频)的多轮轨迹问题,突破了传统单轮RLVR范式的限制。我们在数学推理、知识问答、SQL生成、视觉推理、网页搜索和软件工程任务上对模型进行了训练与评估,取得了与专用系统相当的性能表现,同时提供了统一的训练基础设施。模块化的插件架构支持快速集成新工具,仅需轻量级Python定义即可显著降低开发成本,为工具增强型强化学习研究提供了可扩展的基础。
我们的代码已开源,地址为https://github.com/TIGER-AI-Lab/verl-tool。
6. ELV-Halluc: Benchmarking Semantic Aggregation Hallucinations in Long
Video Understanding
作者: Hao Lu, Jiahao Wang, Yaolun Zhang, Ruohui Wang, Xuanyu Zheng, Yepeng Tang, Dahua Lin, Lewei Lu
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-29 | 👍 点赞数: 52
摘要:
ELV-Halluc:长视频理解中语义聚合幻觉的基准评测
视频多模态大语言模型(Video-MLLMs)在视频理解方面取得了显著进展。然而,这些模型仍然容易产生与视频输入不一致或无关的幻觉内容。先前的视频幻觉基准主要关注短视频场景,将幻觉归因于强语言先验、帧缺失或视觉编码器引入的视觉-语言偏差等因素。虽然这些原因确实可以解释大部分短视频中的幻觉现象,但它们对幻觉成因的解释仍过于简化。有时,模型生成的输出虽不正确,但其基于帧级别的语义是正确的。我们将此类幻觉定义为语义聚合幻觉(Semantic Aggregation Hallucination, SAH),该幻觉产生于将帧级别语义聚合成事件级别语义组的过程中。鉴于在长视频中, 由于多个事件之间的语义复杂性增加,SAH变得尤为关键,因此有必要将此类幻觉单独分离并深入研究其成因。为解决上述问题,我们提出了ELV-Halluc,这是首个专注于长视频幻觉的基准评测,用于系统性地研究SAH。实验验证了SAH的存在,并表明其随着语义复杂性的增加而加剧。此外,我们发现模型在语义快速变化的情况下更容易产生SAH。我们还探讨了缓解SAH的潜在方法,展示位置编码策略有助于减轻SAH,并进一步采用DPO策略增强模型对事件内部与跨事件语义的区分能力。为此,我们构建了一个包含8K对抗样本对的数据集,在ELV-Halluc和Video-MME评测中均取得了性能提升,其中SAH比例显著降低了27.7%。
7. POINTS-Reader: Distillation-Free Adaptation of Vision-Language Models
for Document Conversion
作者: Yuan Liu, Zhongyin Zhao, Le Tian, Haicheng Wang, Xubing Ye, Yangxiu You, Zilin Yu, Chuhan Wu, Xiao Zhou, Yang Yu, Jie Zhou
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-01 | 👍 点赞数: 42
摘要:
高质量的标注数据对于训练准确的文档转换模型至关重要,尤其是在表格、公式和多列文本等复杂格式的领域 。然而,手动标注成本高昂且耗时,而使用现有模型进行自动标注往往在处理此类具有挑战性的场景时准确性不足。因此,通过蒸馏教师模型输出来训练学生模型的方法在实际应用中会显著限制其性能。本文提出了一种完全自动化的、无需蒸馏的框架,包含两个阶段,用于构建能够处理多样化文档格式和布局的高质量文档提取数据集和模型。在第一阶段,我们提出了一种生成大规模、多样化合成数据的方法,使模型能够在统一格式下提取关键元素并具备较强的初始性能。在第二阶段,我们提出了一种自我改进方法,进一步将基于合成数据训练的模型适配到真实文档上。具体而言,我们首先使用微调后的模型标注真实文档,然后应用一系列过滤策略验证标注质量,最后在验证后的数据集上重新训练模型。通过迭代重复这一过程,我们逐步提升模型的转换能力和生成数据的质量。我们基于公开的 POINTS-1.5 模型训练得到 POINTS-Reader,其性能优于许多现有开源和商业模型,且模型规模相当甚至更大。 我们的模型可在以下链接获取:https://github.com/Tencent/POINTS-Reader。
8. Baichuan-M2: Scaling Medical Capability with Large Verifier System
作者: Baichuan-M2 Team, Chengfeng Dou, Chong Liu, Fan Yang, Fei Li, Jiyuan Jia, Mingyang Chen, Qiang Ju, Shuai Wang, Shunya Dang, Tianpeng Li, Xiangrong Zeng, Yijie Zhou, Chenzheng Zhu, Da Pan, Fei Deng, Guangwei Ai, Guosheng Dong, Hongda Zhang, Jinyang Tai, Jixiang Hong, Kai Lu, Linzhuang Sun, Peidong Guo, Qian Ma, Rihui Xin, Shihui Yang, Shusen Zhang, Yichuan Mo, Zheng Liang, Zhishou Zhang, Hengfu Cui, Zuyi Zhu, Xiaochuan Wang
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-02 | 👍 点赞数: 32
摘要:
随着大语言模型(LLMs)在对话和推理能力方面的进步,其在医疗领域的实际应用已成为关键的研究焦点。然而,医学LLMs在静态基准测试(如USMLE)中的表现与其在真实世界临床决策中的实用性之间仍存在显著差距。这一差距的产生是因为传统考试无法体现医疗咨询动态、互动的本质。为应对这一挑战,我们提出了一种新的动态验证框架,超越了静态答案验证器,建立了一个大规模、高保真的交互式强化学习系统。我们的框架包含两个核心组件:利用去标识医疗记录创建真实临床环境的患者模拟器(Patient Simulator),以及动态生成多维评估指标的临床评分生成器(Clinical Rubrics Generator)。在此基础上,我们开发了Baichuan-M2,这是一个通过多阶段强化学习策略训练的320亿参数医学增强推理模型,采用了改进的组相对策略优化(Group Relative Policy Optimization, GRPO)算法。在HealthBench评估中,Baichuan-M2优于所有其他开源模型及大多数先进的闭源模型,在具有挑战性的HealthBench Hard基准上得分超过32,此前只有GPT-5达到过这一水平。我们的研究表明,强大的动态验证系统对于将LLM能力与实际临床应用对齐至关重要,为医疗AI部署 建立了性能与参数之间权衡的新帕累托前沿。
9. Gated Associative Memory: A Parallel O(N) Architecture for Efficient
Sequence Modeling
作者: Rishiraj Acharya
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-30 | 👍 点赞数: 32
摘要:
Transformer架构依托自注意力机制,已成为序列建模任务的实际标准。然而,其核心计算原语的复杂度随序列长度呈平方级增长(O(N^2)),在处理长上下文时形成了显著瓶颈。本文提出了一种新颖的全并行序列建模架构——门控关联记忆(Gated Associative Memory, GAM)网络,该架构具有线性复杂度(O(N))。GAM模块通过两个并行路径取代自注意力层:一条因果卷积路径用于高效捕获局部的、位置相关的上下文,一条并行关联记忆检索机制用于建模全局的、内容驱动的模式。这两条路径通过一个门控机制进行动态融合,使模型能够灵活结合每个token的局部与全局信息。我们从零开始实现了GAM,并在WikiText-2基准数据集上与标准Transformer模型以及现代线性时间复杂度基线模型(Mamba)进行了严格的对比分析,在TinyStories数据集上也与Transformer进行了比较。实验表明 ,GAM在训练速度上始终更快,并且在所有数据集上取得了优于或具有竞争力的最终验证困惑度,确立了其作为序列建模的一种高效且有前景的替代方案。
10. Kwai Keye-VL 1.5 Technical Report
作者: Biao Yang, Bin Wen, Boyang Ding, Changyi Liu, Chenglong Chu, Chengru Song, Chongling Rao, Chuan Yi, Da Li, Dunju Zang, Fan Yang, Guorui Zhou, Guowang Zhang, Han Shen, Hao Peng, Haojie Ding, Hao Wang, Hengrui Ju, Jiaming Huang, Jiangxia Cao, Jiankang Chen, Jingyun Hua, Kaibing Chen, Kaiyu Jiang, Kaiyu Tang, Kun Gai, Muhao Wei, Qiang Wang, Ruitao Wang, Sen Na, Shengnan Zhang, Siyang Mao, Sui Huang, Tianke Zhang, Tingting Gao, Wei Chen, Wei Yuan, Xiangyu Wu, Xiao Hu, Xingyu Lu, Yi-Fan Zhang, Yiping Yang, Yulong Chen, Zeyi Lu, Zhenhua Wu, Zhixin Ling, Zhuoran Yang, Ziming Li, Di Xu, Haixuan Gao, Hang Li, Jing Wang, Lejian Ren, Qigen Hu, Qianqian Wang, Shiyao Wang, Xinchen Luo, Yan Li, Yuhang Hu, Zixing Zhang
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-01 | 👍 点赞数: 29
摘要:
近年来,大语言模型(Large Language Models, LLMs)的发展取得了显著进展,并通过多模态大语言模型(Multimodal Large Language Models, MLLMs)将其能力扩展到多模态任务。然而,由于视频具有动态性和信息密度高的特点,视频理解仍然是一个具有挑战性的领域。现有模型在处理视频内容时难以在空间分辨率和时间覆盖范围之间取得良好的平衡。我们提出了Keye-VL-1.5,通过三项关键技术解决了视频理解中的基础性挑战。首先,我们引入了一种新的Slow-Fast视频编码策略,该策略根据帧间相似性动态分配计算资源,对具有显著视觉变化的关键帧以较高分辨率进行处理(Slow路径),而对相对静态的帧在较低分辨率下以更大的时间覆盖范围进行处理(Fast路径)。其次,我们实施了一种渐进的四阶段预训练方法,系统地将模型的上下文长度从8K扩展到128K个token,从而能够处理更长的视频和更复杂的视觉内容。第三,我们开发了一套全面的后训练流程,专注于推理能力增强和与人类偏好的对齐,包括一个五步思维链数据构建过程、基于GSPO的迭代强化学习结合渐进式提示策略以应对困难案例,以及对齐训练。通过在公开基准测试中的广泛评估和严格的内部人工评估,Keye-VL-1.5相较于现有模型表现出显著的性能提升,尤其在视频理解任务中表现优异,同时在通用多模态基准测试中也保持了竞争力。
11. Reasoning Vectors: Transferring Chain-of-Thought Capabilities via Task
Arithmetic
作者: Mohammad Zbeeb, Hasan Abed Al Kader Hammoud, Bernard Ghanem
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-01 | 👍 点赞数: 27
摘要:
摘要:
大型语言模型通常需要高昂的优化成本(例如强化学习)才能掌握复杂的推理任务。本文表明,推理能力一旦习得,便可以被提取并在模型之间以紧凑的任务向量形式进行迁移。我们使用两个公开可用且初始化相同的Qwen2.5模型:一个通过监督微调(supervised fine-tuning, SFT)进行训练,另一个则在同一数据集上采用组相对策略优化(group relative policy optimization, GRPO)进行训练。
我们从中提取了一个推理向量:v_{reason} = theta_{GRPO} - theta_{SFT}
。我们假设该向量捕捉了由强化学习引入的推理能力,同时排除了SFT过程中共享的知识。通过简单的算术操作将该向量添加到兼容的指令调优模型中后,其在多种推理基准任务上均表现出一致的性能提升:GSM8K(+4.9%)、HumanEval(+4.3%)、SciQ(+1.7%)以及BigBenchHard(对于1.5B模型提升+12.3%)。即使在对抗条件下,这些性能提升依然保持稳定。相反,从模型中减去该向量会导致显著的 性能下降(在GSM8K任务上下降-11.8%),进一步表明该向量对模型推理能力具有显著贡献。本研究展示了如何从现有的开源模型中提取通常需要昂贵训练过程才能获得的推理能力,并通过简单的张量算术实现再利用,为通过复用已有计算资源来增强模型性能提供了实用路径。
12. Jointly Reinforcing Diversity and Quality in Language Model Generations
作者: Tianjian Li, Yiming Zhang, Ping Yu, Swarnadeep Saha, Daniel Khashabi, Jason Weston, Jack Lanchantin, Tianlu Wang
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-02 | 👍 点赞数: 22
摘要:
摘要:
大型语言模型(Large Language Models, LMs)的后训练(post-training)通常以牺牲多样性为代价来优先提升准确性与有用性。这种做法引发了一种矛盾:尽管后训练能够改善回复质量,但它同时使输出分布更加集中,限制了思想的广度,从而削弱了LMs在需要创造性和探索性的任务(如头脑风暴、故事创作或问题求解)中的实用性。为应对这一挑战,我们提出了多样性感知强化学习框架(Diversity-Aware Reinforcement Learning, DARLING),该框架能够同时优 化回复质量和语义多样性。DARLING的核心在于引入了一个可学习的配分函数,用于衡量超越表层词汇变化的多样性。该多样性信号随后在在线强化学习过程中与质量奖励相结合,鼓励模型生成既高质量又具有差异性的输出。在多个模型族和不同规模模型上的实验表明,DARLING能够推广到两种任务类型:不可验证任务(如指令跟随和创意写作)和可验证任务(如竞赛数学问题求解)。在前类任务的五个基准测试中,DARLING始终优于仅优化质量的强化学习基线方法,生成的输出在质量和新颖性上均更优。在后类任务中,DARLING实现了更高的pass@1(解题质量)和pass@k(解题多样性)。尤为值得注意的是,显式地优化多样性促进了在线强化学习中的探索行为,从而带来了更高质量的回复。
13. OpenVision 2: A Family of Generative Pretrained Visual Encoders for
Multimodal Learning
作者: Yanqing Liu, Xianhang Li, Letian Zhang, Zirui Wang, Zeyu Zheng, Yuyin Zhou, Cihang Xie
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-01 | 👍 点赞数: 22
摘要:
本文对OpenVision的架构和损失函数设计进行了简化,以提升其训练效率。受到先前的视觉-语言预训练工作CapPa和AIMv2,以及LLaVA等现代多模态设计的启发,我们的改进方式直接明了:移除了文本编码器(因此也去除了对比损失),仅保留描述生成损失作为纯粹的生成式训练信号。我们将这一新版本命名为OpenVision 2。初步结果令人鼓舞:尽管进行了简化,OpenVision 2在广泛的多模态基准测试中仍能与原始模型的性能相媲美,同时显著减少了训练时间和内存消耗。例如,使用ViT-L/14时,训练时间减少了约1.5倍(从83小时降至57小时),内存使用量减少了约1.8倍(从24.5GB降至13.8GB,相当于最大批量大小可以从2k增加到8k)。这种卓越的训练效率也使我们能够构建远超OpenVision中所使用最大视觉编码器规模的模型,参数量超过10亿。我们坚信,这种轻量级、仅基于生成的范式,对于未来多模态基础模型中的视觉编码器发展具有重要意义。
14. Implicit Actor Critic Coupling via a Supervised Learning Framework for
RLVR
作者: Jiaming Li, Longze Chen, Ze Gong, Yukun Chen, Lu Wang, Wanwei He, Run Luo, Min Yang
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-02 | 👍 点赞数: 21
摘要:
近期在可验证奖励强化学习(Reinforcement Learning with Verifiable Rewards, RLVR)方面的进展使大语言模型(Large Language Models, LLMs)能够解决诸如数学和编程等具有挑战性的推理任务。RLVR利用可验证的结果奖励来指导策略优化,使LLMs能够以一种有依据且可靠的方式逐步提升输出质量。尽管前景广阔,但现有的RLVR范式仍面临显著挑战,尤其是基于强化学习的方法通常受到稀疏奖励信号和不稳定的策略梯度更新的困扰。为应对这些问题,我们提出了PACS,一种新颖的RLVR框架,通过监督学习实现隐式的策略评估器(Actor)与价值评估器(Critic)耦合。我们将结果奖励视为可预测的标签,将RLVR问题重新表述为一个监督学习任务,对由策略模型参数化的得分函数使用交叉熵损失进行优化。详细的梯度分析表明,这种监督学习形式本质上恢复了经典的策略梯度更新,同时隐式地耦合了Actor与Critic角色,从而实现了更稳定和高效的训练。在具有挑战性的数学推理任务上的基准测试表明,PACS优于诸如PPO和GRPO等强RLVR基线方法,取得了更优的推理性能。例如,在AIME 2025数据集上,PACS在pass@256指标上达到了59.78%,相比PPO和GRPO分别提升了13.32和14.36个百分点。这一简单而强大的框架为基于可验证奖励的大语言模型后训练提供了一条有前景的路径。 我们的代码和数据已开源,地址为https://github.com/ritzz-ai/PACS。
15. GenCompositor: Generative Video Compositing with Diffusion Transformer
作者: Shuzhou Yang, Xiaoyu Li, Xiaodong Cun, Guangzhi Wang, Lingen Li, Ying Shan, Jian Zhang
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-02 | 👍 点赞数: 20
摘要:
GenCompositor:基于扩散变换器的生成式视频合成
视频合成技术通过将实拍镜头进行融合处理,以生成视频内容,在视频制作和电影生产中具有重要作用。传统的工作流程需要大量人工操作和专家协作,导致制作周期长且人力成本高。为了解决这一问题,我们采用生成模型实现该过程的自动化,称为生成式视频合成。这一新任务旨在以交互方式将前景视频的身份和运动信息自适应地注入目标视频中,使用户能够自定义最终视频中动态元素的大小、运动轨迹及其他属性。具体而言,我们基于扩散变换器(Diffusion Transformer, DiT)的内在特性,设计了一种新颖的DiT架构。为确保目标视频在编辑前后的一致性,我们基于轻量级DiT设计了一个背景保留分支,并引入了掩码标记注入机制。为了从其他来源继承动态元素,我们提出了一种基于全自注意力机制的DiT融合模块,并设计了一种简单而有效的前景增强策略用于训练。此外,为了根据用户控制信息融合具有不同布局的背景和前景视频,我们开发了一种新的位置嵌入方法,称为扩展旋转位置嵌入(Extended Rotary Position Embedding, ERoPE)。最后,我们构建了一个包含61,000组视 频的数据集,命名为VideoComp,用于支持我们的新任务研究,该数据集包含完整的动态元素和高质量的目标视频。实验结果表明,我们的方法能够有效实现生成式视频合成,在保真度和一致性方面优于现有可行方案。
16. Benchmarking Optimizers for Large Language Model Pretraining
作者: Andrei Semenov, Matteo Pagliardini, Martin Jaggi
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-01 | 👍 点赞数: 19
摘要:
摘要:
近年来,大语言模型(Large Language Models, LLMs)的发展伴随着大量新优化方法的涌现,旨在更好地优化深度学习模型的损失函数。这些方法声称具有诸多优势,从加快收敛速度到减少对特定超参数的依赖。然而,由于验证这些方法所采用的实验协议差异较大,导致方法之间的直接比较十分困难。本研究在标准化的大语言模型预训练场景下,对近期的优化技术进行了全面评估,并系统地变化模型规模、批量大小和训练时长。通过对每种方法进行细致调优,我们为实践者提供了在不同场景下选择最优优化器的指导建议。对于研究者而言,我们的工作指出了未来优化研究的有前景方向。最 后,我们公开了代码并确保所有实验完全可复现,希望为未来方法的发展和严格基准测试提供帮助。
17. DCPO: Dynamic Clipping Policy Optimization
作者: Shihui Yang, Chengfeng Dou, Peidong Guo, Kai Lu, Qiang Ju, Fei Deng, Rihui Xin
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-02 | 👍 点赞数: 18
摘要:
摘要:
基于可验证奖励的强化学习(RLVR)已成为提升大语言模型推理能力的有前景框架。然而,现有方法如GRPO常面临梯度为零的问题。该问题主要源于对token级别概率比的固定裁剪边界以及相同奖励的标准化,可能导致无效的梯度更新和生成响应的利用不足。本研究提出动态裁剪策略优化(Dynamic Clipping Policy Optimization, DCPO),引入一种动态裁剪策略,根据token特定的先验概率自适应调整裁剪边界以增强token级别的探索能力,同时提出一种平滑优势标准化技术,通过在累积训练步骤上标准化奖励以提升响应级别的生成响应有效利用率。DCPO在基于四个不同模型的四个基准测试中均达到了最先进的性能。具体而言,在AIME24基准测试中,DCPO在贪婪解码下实现了46.7的Avg@1性能,在32次采样下实现了38.8的Avg@32性能,均超越了DAPO(36.7/31.6)和GRPO(36.7/32.1)在Qwen2.5-Math-7B模型上的表现。在基于Qwen2.5-14B的AIME25基准测试中,DCPO取得了23.3/19.0的性能,同样超越了GRPO(13.3/10.5)和DAPO(20.0/15.3)。此外,DCPO在四个模型上相较GRPO平均提升了28%的非零优势,在训练效率上较DAPO提升了一倍,并且相较GRPO和DAPO,token裁剪比例显著降低了数量级,同时仍实现了更优性能。这些结果突出了DCPO在大语言模型强化学习中更高效利用生成数据的有效性。
18. FlashAdventure: A Benchmark for GUI Agents Solving Full Story Arcs in
Diverse Adventure Games
作者: Jaewoo Ahn, Junseo Kim, Heeseung Yun, Jaehyeon Son, Dongmin Park, Jaewoong Cho, Gunhee Kim
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-01 | 👍 点赞数: 18
摘要:
FlashAdventure:一个用于测试GUI智能体解决多样化冒险游戏完整故事主线的基准
基于大语言模型(LLM)的图形用户界面(GUI)智能体在与多样化的数字环境交互方面展现出潜力。在这些环境中,视频游戏由于其界面的多样性,成为有价值的测试平台,而冒险类游戏则通过复杂且以叙事为导向的交互带来了额外挑战。然而,现有的游戏基准缺乏多样性 ,且很少评估智能体完成完整故事主线的能力。为解决这一问题,我们提出了FlashAdventure,该基准包含34款基于Flash的冒险游戏,旨在测试智能体完成完整故事主线的能力,并应对“观察-行为”鸿沟(observation-behavior gap)这一挑战,即记住并基于早期游戏信息采取行动的难题。此外,我们提出了CUA-as-a-Judge,一种自动化游戏评估工具,以及COAST,一种利用长期线索记忆的智能体框架,以更好地规划和解决顺序任务。实验表明,当前的GUI智能体在完整故事主线任务中表现欠佳,而COAST通过弥合“观察-行为”鸿沟,提升了关键节点任务的完成能力。尽管如此,人类与表现最佳的智能体之间仍存在显著差距,这表明需要进一步研究以缩小这一差距。
19. DynaGuard: A Dynamic Guardrail Model With User-Defined Policies
作者: Monte Hoover, Vatsal Baherwani, Neel Jain, Khalid Saifullah, Joseph Vincent, Chirag Jain, Melissa Kazemi Rad, C. Bayan Bruss, Ashwinee Panda, Tom Goldstein
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-02 | 👍 点赞数: 17
摘要:
摘要:守护模型用于监督和规范面向用户的聊天机器人的输出,执行防护规则并 检测不良行为。像LlamaGuard这样的标准守护模型可检测预定义的静态类别危害。我们提出了一种动态守护模型,可根据用户定义的策略评估文本,使其适用于标准守护模型无法覆盖的不同应用领域。我们的动态守护模型既可用于快速检测策略违规,也可结合推理链(chain-of-thought)进行推理,清晰地阐述并证明模型输出的合理性。我们的动态守护模型在静态危害类别的检测准确率上与静态模型相当,同时在识别自由形式策略违规方面的准确率可与前沿推理模型相媲美,且仅需其一小部分时间。
20. Attributes as Textual Genes: Leveraging LLMs as Genetic Algorithm
Simulators for Conditional Synthetic Data Generation
作者: Guangzeng Han, Weisi Liu, Xiaolei Huang
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-02 | 👍 点赞数: 13
摘要:
摘要:大语言模型(LLMs)在生成合成数据方面表现出色,但确保其质量和多样性仍然具有挑战性。我们提出了一种新的框架Genetic Prompt,该框架将遗传算法与LLMs相结合,以增强合成数据的生成。我们的方法将语义文本属性视为基因序列,并利用LLM模拟交叉和变异操作 。这一遗传过程通过生成新的属性组合,提高了数据质量和多样性,使合成数据分布更接近真实世界数据。为了优化父代选择,我们还引入了一种主动学习机制,以扩展后代的搜索空间。在多个自然语言处理(NLP)任务上的实验表明:Genetic Prompt不仅显著优于当前最先进的基线方法,而且在不同规模的生成模型上均表现出稳健的性能。此外,我们展示了将生成的合成数据与原始训练集融合后,能够显著提升下游模型的性能,特别是在类别不平衡的场景下。我们的研究结果验证了Genetic Prompt作为生成高质量合成数据的有效方法,适用于广泛的NLP应用。
21. On the Theoretical Limitations of Embedding-Based Retrieval
作者: Orion Weller, Michael Boratko, Iftekhar Naim, Jinhyuk Lee
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-28 | 👍 点赞数: 13
摘要:
向量嵌入多年来被用于日益广泛的检索任务,近期更被尝试应用于推理、指令执行、代码生成等领域。这些新基准要求嵌入模型能够应对任意查询和任意可能的相关性定义。尽管已有研究指出向量嵌入在理论上存在局限性,但人们普遍假设这些困难仅源于不现实 的查询,而对那些并非不现实的查询,可以通过更优的训练数据和更大的模型来克服。本文中,我们证明在使用极其简单的查询的实际场景中也可能遇到这些理论限制。我们结合了学习理论中的已有结果,表明能够通过某个查询返回的文档 top-k 子集的数量受限于嵌入空间的维度。我们通过实验验证,即使将 k 限制为 2,并使用自由参数化嵌入直接在测试集上进行优化,这一结论依然成立。随后,我们基于这些理论结果构建了一个名为 LIMIT 的真实数据集,用于对模型进行压力测试,并观察到即使是最先进的模型在该数据集上也表现不佳,尽管任务本身非常简单。我们的工作揭示了现有单一向量范式下嵌入模型的根本性局限,并呼吁未来研究探索能够克服这一限制的新方法。
22. M3Ret: Unleashing Zero-shot Multimodal Medical Image Retrieval via
Self-Supervision
作者: Che Liu, Zheng Jiang, Chengyu Fang, Heng Guo, Yan-Jie Zhou, Jiaqi Qu, Le Lu, Minfeng Xu
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-01 | 👍 点赞数: 11
摘要:
医学图像检索对于临床决策和转化研究至关重要,其依赖于具有判别 能力的视觉表征。然而,当前的方法仍较为分散,针对2D、3D和基于视频的医学数据分别采用不同的架构和训练策略。这种模态特定的设计限制了可扩展性,并阻碍了统一表征的发展。为了实现统一的学习,我们构建了一个包含867,653个医学图像样本的大规模多模态混合数据集,涵盖2D X光片和超声图像、RGB内窥镜视频以及3D CT扫描图像。基于该数据集,我们训练了M3Ret,这是一种无需模态特定定制的统一视觉编码器。该模型成功地利用生成式(MAE)和对比式(SimDINO)两种自监督学习(SSL)范式学习可迁移的表征。我们的方法在所有单一模态的零样本图像到图像检索任务中均达到了新的SOTA性能,超越了DINOv3和文本监督的BMC-CLIP等强基线模型。更值得注意的是,在没有配对数据的情况下,模型展现出强大的跨模态对齐能力,并且即使在预训练过程中从未见过MRI数据,也能泛化到未见过的MRI任务,这证明了纯视觉自监督学习对未见模态的泛化潜力。全面的分析进一步验证了我们框架在模型和数据规模上的可扩展性。这些发现向医学成像领域传递了一个积极信号,表明M3Ret为多模态医学图像理解中视觉自监督学习的基础模型发展迈出了重要一步。
23. The Gold Medals in an Empty Room: Diagnosing Metalinguistic Reasoning in
LLMs with Camlang
作者: Fenghua Liu, Yulong Chen, Yixuan Liu, Zhujun Jin, Solomon Tsai, Ming Zhong
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-30 | 👍 点赞数: 10
摘要:
论文标题:空房间里的金牌:使用 Camlang 诊断大语言模型中的元语言推理能力
英文摘要的中文翻译:
大语言模型(Large Language Models, LLMs)在许多基准测试中取得了金牌级别的表现,但目前尚不清楚这种成功是否反映了真正的推理能力,还是仅仅是模式匹配的结果。从认知科学的角度来看,一个具有启发性的测试是模型是否能够通过显性的元语言演绎学习掌握一种陌生语言,这种范式使人类学习者能够通过元语言推理可靠地内化语法系统。我们使用 Camlang(一种展现自然语言特征但现实中未见的语言特征组合的新构造语言)来探讨这一问题。Camlang 包括两份明确的学习资源:一本语法书和一本双语词典,它们模仿了成人通过显性语法规则和词汇查找进行第二语言习得的过程,并使我们能够区分形态句法、词汇语义以及句子层面推理中的错误。人类实验表明,这些资源足以让参与者掌握 Camlang 并成功完成 Camlang 的任务。为了具体化评估方式,我们将 CommonsenseQA 转换为 Camlang,创建了 Camlang-CSQA-v0,这是未来更广泛任务套件中的首个任务集,其中解答问题需要应用语法规则和词汇映射。实验结果显示,GPT-5 在英文任务中达到了 98% 的 EM 准确率,但在 Camlang 中仅达到 47%,远低于人类的 87% 表现,而其他最先进的推理型 LLM 表现甚至更差。人工验证进一步表明,模型的成功大多源于浅层的词汇对齐,而 GPT-5 在有限程度 上表现出初步的元语言意识,但并未展现出如人类一般的系统性语法掌握能力。Camlang 建立了一个基于认知科学的评估范式,揭示了当前模型与人类元语言能力之间的根本差距。
24. Fantastic Pretraining Optimizers and Where to Find Them
作者: Kaiyue Wen, David Hall, Tengyu Ma, Percy Liang
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-02 | 👍 点赞数: 9
摘要:
AdamW长期以来一直是语言模型预训练中占主导地位的优化器,尽管已有大量研究表明替代优化器可带来1.4到2倍的加速效果。我们认为,两个方法论上的不足掩盖了公平比较并阻碍了实际应用:(i) 超参数调优不均衡;(ii) 评估设置有限或具有误导性。为了解决这两个问题,我们在四种模型规模(0.1B至1.2B参数)和数据与模型比例(Chinchilla最优值的1到8倍)下,对十种深度学习优化器进行了系统研究。我们发现,要实现公平且具有信息量的比较,需要在训练结束时对超参数进行严格的调优,并在多种模型规模和数据与模型比例下进行评估。首先,一种优化器的最优超参数可能对另一种优化器而言并非最优,因此盲目地转移超参数是不公平的。其次,许多提出优 化器相对于经过良好调优的基线方法的实际加速效果低于宣称值,并且随着模型规模的增加而下降,在1.2B参数模型中仅为1.1倍。第三,在达到目标训练预算之前比较中间检查点可能会产生误导,因为在训练过程中由于学习率衰减,两种优化器之间的排名可能会发生反转。通过我们的深入研究,我们发现所有速度最快的优化器,如Muon和Soap,均使用矩阵作为预处理矩阵,即梯度与矩阵相乘而非逐元素标量相乘。然而,基于矩阵的优化器的加速效果与模型规模成反比,对于0.1B参数模型其速度比AdamW快1.4倍,而对于1.2B参数模型仅快1.1倍。
25. Universal Deep Research: Bring Your Own Model and Strategy
作者: Peter Belcak, Pavlo Molchanov
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-29 | 👍 点赞数: 8
摘要:
深度研究工具是当今最具影响力且最常见的智能体系统之一。然而,我们发现迄今为止介绍的每个深度研究智能体都是通过固定的工具选择,以特定的研究策略进行硬编码实现的。为此,我们提出了通用深度研究(Universal Deep Research, UDR)——一个通用型智能体系统,该系统可封装任何语言模型,并使用户 能够创建、编辑和优化完全自定义的深度研究策略,而无需进行额外训练或微调。为了展示该系统的通用性,我们为UDR配备了示例性的最小化、扩展性和深入型研究策略,并提供了用户界面以方便对系统进行实验探索。
26. ViSTA-SLAM: Visual SLAM with Symmetric Two-view Association
作者: Ganlin Zhang, Shenhan Qian, Xi Wang, Daniel Cremers
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-01 | 👍 点赞数: 5
摘要:
我们提出ViSTA-SLAM,这是一种实时的单目视觉SLAM系统,其运行不依赖相机内参,从而适用于多种相机设置。系统核心采用了一种轻量级的对称双视角关联(symmetric two-view association, STA)模型作为前端,仅通过两幅RGB图像即可同时估计相机相对位姿并回归局部点云地图。该设计显著降低了模型复杂度,前端体积仅为现有最先进方法的35%,同时提升了整个流程中双视角约束的质量。在后端,我们构建了一个专门设计的Sim(3)位姿图,并引入回环检测以解决累积漂移问题。大量实验表明,与现有方法相比,我们的方法在相机跟踪和稠密三维重建质量方面均表现出更优的性能。 Github代码库:https://github.com/zhangganlin/vista-slam
27. MobiAgent: A Systematic Framework for Customizable Mobile Agents
作者: Cheng Zhang, Erhu Feng, Xi Zhao, Yisheng Zhao, Wangbo Gong, Jiahui Sun, Dong Du, Zhichao Hua, Yubin Xia, Haibo Chen
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-30 | 👍 点赞数: 5
摘要:
摘要:随着视觉-语言模型(Vision-Language Models, VLMs)的快速进步,基于图形用户界面(GUI)的移动智能体已成为智能移动系统的重要发展方向。然而,现有智能体模型在实际任务执行中仍面临显著挑战,特别是在准确性和效率方面。为解决这些局限性,我们提出了MobiAgent,一个包含三个核心组件的综合性移动智能体系统:MobiMind系列智能体模型、AgentRR加速框架以及MobiFlow基准测试套件。此外,考虑到当前移动智能体的能力仍受限于高质量数据的可用性,我们开发了一条人工智能辅助的敏捷数据采集流水线,显著降低了人工标注的成本。与通用大语言模型(LLMs)和专用GUI智能体模型相比,MobiAgent在真实移动场景中实现了最先进的性能。
28. Discrete Noise Inversion for Next-scale Autoregressive Text-based Image
Editing
作者: Quan Dao, Xiaoxiao He, Ligong Han, Ngan Hoai Nguyen, Amin Heyrani Nobar, Faez Ahmed, Han Zhang, Viet Anh Nguyen, Dimitris Metaxas
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-02 | 👍 点赞数: 4
摘要:
视觉自回归模型(VAR)最近作为一种有前景的生成模型出现,在文本到图像生成任务中取得了与扩散模型相当的性能。虽然条件生成已被广泛研究,但无需额外训练即可执行提示引导的图像编辑能力同样关键,因为它支持许多实际应用场景。本文通过引入视觉自回归逆噪声(VARIN)——一种专为VAR模型设计的基于噪声反演的编辑技术——来研究VAR的文本到图像编辑能力。VARIN利用一种用于argmax采样的新伪逆函数,名为位置感知argmax反演(LAI),以生成逆Gumbel噪声。这些逆噪声能够精确重建源图像,并实现与文本提示一致的定向、可控编辑。大量实验表明,VARIN能够根据指定提示有效修改源图像,同时显著保留原始背景和结构细节,从而验证了其作为实用编辑方法的有效性。
29. SQL-of-Thought: Multi-agentic Text-to-SQL with Guided Error Correction
作者: Saumya Chaturvedi, Aman Chadha, Laurent Bindschaedler
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-30 | 👍 点赞数: 3
摘要:
SQL-of-Thought: 基于引导式错误修正的多智能体文本到SQL生成方法
将自然语言查询转换为SQL查询在工业界和学术界均是一项重要挑战,旨在提升对数据库和大规模应用的访问能力。本研究探讨了如何利用上下文学习和思维链技术开发出一种鲁棒的文本到SQL系统解决方案。我们提出SQL-of-Thought:一种多智能体框架,将Text2SQL任务分解为模式链接、子问题识别、查询计划生成、SQL生成以及引导式修正循环。与以往仅依赖基于执行结果的静态修正方法不同,我们引入了基于上下文学习的分类引导式动态错误修正机制。SQL-of-Thought在Spider数据集及其变体上取得了最先进的结果,结合了引导式错误分类与基于推理的查询规划方法。
30. Metis: Training Large Language Models with Advanced Low-Bit Quantization
作者: Hengjie Cao, Mengyi Chen, Yifeng Yang, Ruijun Huang, Fang Dong, Jixian Zhou, Anrui Chen, Mingzhi Dong, Yujiang Wang, Jinlong Hou, Yuan Cheng, Fan Wu, Fan Yang, Tun Lu, Ning Gu, Li Shang
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-30 | 👍 点赞数: 3
摘要:
本文发现参数分布的各向异性是采用低比特量化训练大语言模型(LLMs)的一个根本性障碍:少数主导的奇异值产生较宽的数值范围,与分块量化固有的偏差相冲突。这种偏差过度保留了高幅值参数而丢弃了较小的参数,导致训练不稳定和模型性能下降。为此,本文提出了Metis,一种结合以下三种关键技术的训练框架:(i) 利用谱分解与随机嵌入高效地将主导成分与长尾成分解耦,将宽泛的分布压缩为适合量化的窄范围;(ii) 在谱域中采用自适应学习率以增强被低估的方向,更好地捕捉对性能至关重要的多样化特征;(iii) 引入双范围正则化器联合约束数值精度与参数范围分布,确保稳定且无偏的低比特训练。通过Metis,FP8训练效果超越FP32基线,FP4训练准确率与FP32相当,为在先进低比特量化条件下实现鲁棒且可扩展的LLM训练提供了新路径。 Metis的代码实现可在以下链接获取:https://github.com/typename-yyf/Metis-quantization。
31. Flavors of Moonshine: Tiny Specialized ASR Models for Edge Devices
作者: Evan King, Adam Sabra, Manjunath Kudlur, James Wang, Pete Warden
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-02 | 👍 点赞数: 2
摘要:
我们提出了“Flavors of Moonshine”,这是一套专为一些代表性不足的语言设计的微型自动语音识别(ASR)模型。传统观点认为,通过利用跨语言的语音相似性,多语言ASR模型的表现优于单语言模型。我们对此提出了质疑,证明对于足够小的模型(27M参数),在高质量人工标注、伪标注和合成数据的精心平衡混合数据上训练单语言系统,能够显著提升性能。平均而言,我们的模型相比同尺寸的Whisper Tiny模型错误率降低了48%,优于9倍大的Whisper Small模型,并且在大多数情况下达到或超过了28倍大的Whisper Medium模型的表现。这些结果推进了此类尺寸模型的技术水平,使得此前支持有限的语言能够实现高精度的设备端ASR。我们以宽松的开源许可协议发布了阿拉伯语、中文、日语、韩语、乌克兰语和越南语的Moonshine模型。
32. MedDINOv3: How to adapt vision foundation models for medical image
segmentation?
作者: Yuheng Li, Yizhou Wu, Yuxiang Lai, Mingzhe Hu, Xiaofeng Yang
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-02 | 👍 点赞数: 2
摘要:
准确分割CT和MRI扫描中的器官和肿瘤对于诊断、治疗规划和疾病监测至关重要。尽管深度学习推动了分割的自动化发展,但大多数模型仍局限于特定任务,在不同模态和机构间缺乏泛化能力。基于数十亿自然图像预训练的视觉基础模型(vision foundation models, FMs)提供了强大且可迁移的表征能力。然而,将其应用于医学影像仍面临两个关键挑战:(1)多数基础模型采用的ViT主干网络在医学图像分割任务上仍逊色于专用的卷积神经网络(CNNs);(2)自然图像与医学图像之间存在显著的领域差异,限制了模型的可迁移性。为此,我们提出了MedDINOv3,一种简单而有效的医学图像分割适配框架。我们首先重新审视了标准ViT结构,并设计了一种多尺度token聚合的简单有效架构。随后,在CT-3M数据集(包含387万张轴位CT切片)上,采用多阶段DINOv3训练策略进行领域适配预训练,以学习鲁棒的密集特征表达。MedDINOv3在四个分割基 准测试中达到或超过了当前最先进的性能,展示了视觉基础模型作为医学图像分割统一主干网络的潜力。 代码已公开于https://github.com/ricklisz/MedDINOv3。
33. AMBEDKAR-A Multi-level Bias Elimination through a Decoding Approach with
Knowledge Augmentation for Robust Constitutional Alignment of Language Models
作者: Snehasis Mukhopadhyay, Aryan Kasat, Shivam Dubey, Rahul Karthikeyan, Dhruv Sood, Vinija Jain, Aman Chadha, Amitava Das
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-02 | 👍 点赞数: 2
摘要:
大型语言模型(Large Language Models, LLMs)可能会无意中反映其训练数据中存在的社会偏见,从而产生有害或带有偏见的输出。在印度语境下,我们对一系列模型进行的实证评估表明,围绕种姓和宗教的偏见尤为显著。然而,现有的大多数缓解策略以西方为中心,未能充分应对这些本地化的细微差别。我们提出了AMBEDKAR框架,该框架受到印度宪法设计者B. R. Ambedkar博士平等主义愿景的启发,旨在引导LLMs的输出符合印度宪法第14至17条所体现的公平、中立与包容原则。我们的方法引入了一个宪法感知解码层(Constitution-Aware Decoding Layer),该层基于印度人工智能宪法(AI Constitution of India)构建,仅在推理阶段应用,无需对基础模型的参数进行更新。我们采用了一种推测性解码(speculative decoding)算法,在生成过程中主动减少种姓主义和社群主义偏见。该缓解层直接嵌入解码过程之中,避免了对模型内部结构的修改,从而降低了与重新训练相关的计算和基础设施成本。我们将推测性解码重新诠释为一种公平性机制,而不仅仅是一个提升效率的工具。在该框架中,小型语言模型(Small Language Model, SLM)作为可能带有偏见的生成器,而受宪法引导的大型语言模型(LLM)则作为验证者。LLM并非用于加速生成过程,而是对SLM的输出施加抗偏见的约束路径。这种角色的转换形成了“推测性公平”(fairness-by-speculation)的新范式。与基线方法相比,我们的方法实现了高达26.41%的绝对偏见减少。我们的源代码、数据集和结果可在以下网址获取:https://anonymous.4open.science/r/AMBEDKAR-983B/
34. Flaw or Artifact? Rethinking Prompt Sensitivity in Evaluating LLMs
作者: Andong Hua, Kenan Tang, Chenhe Gu, Jindong Gu, Eric Wong, Yao Qin
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-01 | 👍 点赞数: 2
摘要:
提示敏感性是指改写(即使用不同词语重复已写或已说内容)会导致大语言模型(LLM)性能发生显著变化的现象,该现象被广泛认为是LLM的核心局限之一。在本研究中,我们重新审视了这一问题,并提出问题:广泛报道的高度提示敏感性究竟是LLM的固有缺陷,还是评估过程的产物?为回答此问题,我们在6个基准测试中系统评估了7个LLM(例如GPT和Gemini系列),涵盖12种多样化提示模板下的多项选择和开放式任务。我们发现,许多提示敏感性源于启发式评估方法,包括对数似然评分和严格答案匹配,这些方法常常忽略通过其他表达方式(如同义词或改写)呈现的语义正确回答。当我们采用LLM作为评估裁判(LLM-as-a-Judge)的方法时,观察到性能差异显著减少,并且在 不同提示模板下模型排名的相关性也保持较高。我们的研究结果表明,现代LLM对提示模板的鲁棒性比此前认为的更强,提示敏感性可能更多是评估过程的产物,而非模型本身的缺陷。
35. Improving Large Vision and Language Models by Learning from a Panel of
Peers
作者: Jefferson Hernandez, Jing Shi, Simon Jenni, Vicente Ordonez, Kushal Kafle
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-01 | 👍 点赞数: 2
摘要:
传统的大型视觉与语言模型(Large Vision and Language Models, LVLMs)对齐方法主要依赖于人工整理的偏好数据。然而,人工生成的偏好数据成本高昂,机器生成的偏好数据质量有限,而自监督生成的偏好数据则容易引入幻觉。为克服这些限制,我们提出了一种新颖的“同伴小组”(Panel-of-Peers)学习框架,其灵感来源于人类之间的协作学习。该方法利用一组LVLM模型,通过迭代的自我改进过程,对彼此生成的输出进行评估与学习。通过模拟同行评审机制,我们的模型针对一组精选提示生成、评估并优化输出,从而模拟课堂学习环境。我们证明了该方法在无需大量人工标注数 据的情况下能够提升模型性能。实验结果表明,该方法在多个基准测试中实现了显著提升,展示了同行评估作为自监督对齐可扩展替代方案的潜力。特别地,我们展示了“同伴小组”方法将十五个基准测试的平均得分从48%提高到了57%。
36. Stairway to Fairness: Connecting Group and Individual Fairness
作者: Theresia Veronika Rampisela, Maria Maistro, Tuukka Ruotsalo, Falk Scholer, Christina Lioma
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-29 | 👍 点赞数: 2
摘要:
摘要:推荐系统(Recommender Systems, RSs)中的公平性通常分为群体公平性和个体公平性。然而,目前尚无明确的科学认识来阐明这两种公平性类型之间的关系,因为以往对这两种类型的研究分别采用了不同的评估指标或评估目标,从而无法对两者进行有效的比较。因此,目前尚不清楚提高一种公平性类型会对另一种公平性类型产生何种影响。为填补这一空白,我们通过全面比较适用于两种公平性类型的评估指标,研究了群体公平性与个体公平性之间的关系。在3个数据集上进行的8次实验表明,对于群体高度公平的推荐可能在个体层面表现出严重 的不公平。这一发现新颖且对致力于提升系统公平性的RS实践者具有重要参考价值。 我们的代码可在以下地址获取:https://github.com/theresiavr/stairway-to-fairness。
37. FastFit: Accelerating Multi-Reference Virtual Try-On via Cacheable
Diffusion Models
作者: Zheng Chong, Yanwei Lei, Shiyue Zhang, Zhuandi He, Zhen Wang, Xujie Zhang, Xiao Dong, Yiling Wu, Dongmei Jiang, Xiaodan Liang
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-28 | 👍 点赞数: 2
摘要:
FastFit: 通过可缓存扩散模型加速多参考虚拟试穿
尽管虚拟试穿技术具有巨大的潜力,但其在实际应用中受到两个主要挑战的阻碍:当前方法无法支持多参考服饰组合(包括服装和配饰),以及在每个去噪步骤中重复计算参考特征所导致的显著低效率。为了解决这些挑战,我们提出了FastFit,一种基于新颖可缓存扩散架构的高速多参考虚拟试穿框架。通过采用半注意力(Semi-Attention)机制,并使用参考项目的类别嵌入(class embeddings)替代传统的时步嵌入(timestep embeddings),我们的模型以极低的参数开销将参考特征编码完全解耦于去噪过程。这使得参考特征只需计算一次,并可在所有步骤中无损复用,从根本上突破了效率瓶颈,实现了相比同类方法平均3.5倍的加速。此外,为了推动复杂多参考虚拟试穿的研究,我们引入了DressCode-MR,这是一个新的大规模数据集。该数据集包含28,179组高质量配对图像,涵盖五个关键类别(上衣、下装、连衣裙、鞋子和包),通过专家模型与人工反馈优化的流程构建而成。在VITON-HD、DressCode以及我们提出的DressCode-MR数据集上的大量实验表明,FastFit在关键保真度指标上超越了最先进的方法,同时在推理效率方面具有显著优势。
38. Towards More Diverse and Challenging Pre-training for Point Cloud
Learning: Self-Supervised Cross Reconstruction with Decoupled Views
作者: Xiangdong Zhang, Shaofeng Zhang, Junchi Yan
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-01 | 👍 点赞数: 1
摘要:
点云学习,尤其是无需人工标注的自监督学习方法,在视觉和机器学习领域因其在广泛应用场景中的潜在价值而受到越来越多的关注。现有的大多数点云自监督生成方法主要集中在通过单视角中可见点来恢复被遮蔽的点。我们认识到,双视角预训练范式本质上能够引入更大的多样性与方差,因此可能实现更具挑战性和信息量的预训练。受此启发,我们探索了双视角学习在该领域的潜力。本文中,我们提出了Point-PQAE,这是一种跨视角重建的生成范式,首先生成两个解耦的点云/视角,然后通过其中一个重建另一个。为实现这一目标,我们首次开发了一种用于点云视角生成的裁剪机制,并进一步提出了一种新颖的位置编码方法,以表示两个解耦视角之间的三维相对位置关系。与自重建方法相比,跨视角重建显著提高了预训练的难度,从而使我们的方法在三维自监督学习任务中超越了先前的单模态自重建方法。具体而言,在ScanObjectNN数据集的三种变体上,使用Mlp-Linear评估协议,我们的方法相比自重建基线方法(Point-MAE)分别提升了6.5%、7.0%和6.7%。代码已公开, 地址为https://github.com/aHapBean/Point-PQAE。
39. C-DiffDet+: Fusing Global Scene Context with Generative Denoising for
High-Fidelity Object Detection
作者: Abdellah Zakaria Sellam, Ilyes Benaissa, Salah Eddine Bekhouche, Abdenour Hadid, Vito Renó, Cosimo Distante
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-30 | 👍 点赞数: 1
摘要:
C-DiffDet+: 融合全局场景上下文与生成式去噪的高保真目标检测
在具有挑战性的视觉领域(如车辆损伤评估)中进行细粒度目标检测,即使是人类专家也难以可靠地完成。尽管DiffusionDet通过条件去噪扩散在该领域取得了先进水平,但其在依赖上下文的场景中受限于局部特征条件化,性能仍然有限。为解决这一根本性限制,我们引入上下文感知融合(Context-Aware Fusion, CAF),该方法利用交叉注意力机制,将全局场景上下文与局部候选区域特征直接融合。全局上下文由一个独立的专用编码器生成,该编码器捕获全面的环境信息,使每个目标候选区域能够关注场景级的理解。我们的框架通过使每个目标候选区域能够访问全面的环境信息,显著增强了生成式检测范式。实验结果表明,在CarDD基准数据集上,我们的方法优于当前最先进的模型,为细粒度领域中上下文感知的目标检测建立了新的性能基准。