跳到主要内容
目录

每日论文 - 2025年10月01日

论文总数: 61

Models of the Brain

作者: Adrian Kosowski, Przemysław Uznański, Jan Chorowski, Zuzanna Stamirowska, Michał Bartoszkiewicz

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-30 | 👍 点赞数: 361

摘要:

论文标题:龙之幼崽:Transformer与脑模型之间的缺失环节

中文摘要:

自约翰·冯·诺依曼和艾伦·图灵以来,计算系统与大脑之间的关系一直是推动理论先驱研究的重要动力。像大脑这样的均匀、无标度的生物网络具有强大的特性,其中包括随时间泛化的能力,而这正是机器学习迈向通用推理模型的主要障碍。

我们提出“龙之幼崽”(BDH),一种基于无标度、受生物启发的局部相互作用神经元粒子网络的新型大语言模型架构。BDH在不牺牲类似Transformer性能的前提下,兼具坚实的理论基础和内在的可解释性。

BDH是一种实用、高效且先进的基于注意力机制的状态空间序列学习架构。除了作为图模型之外,BDH还具备对GPU友好的实现形式。它展现出类似Transformer的缩放规律:在相同训练数据和参数量(从1000万到10亿)条件下,BDH在语言和翻译任务上的表现可与GPT-2相媲美。

BDH可以被表示为一种脑模型。其在推理过程中的工作记忆完全依赖于使用脉冲神经元的赫布学习(Hebbian learning)所驱动的突触可塑性。我们通过实验验证,在处理语言输入时,每当BDH听到或推理某个特定概念,其对应的特定单个突触连接会增强。BDH的神经元交互网络具有高度模块化的图结构,并呈现重尾的度分布特征。该模型在生物学上具有合理性,揭示了人类神经元可能用于实现言语功能的一种潜在机制。

BDH的设计强调可解释性。其激活向量是稀疏且非负的。我们在语言任务中展示了BDH的单语义性(monosemanticity)。更重要的是,BDH架构本身具备对模型状态的可解释性,这种可解释性超越了传统意义上对神经元和模型参数的理解,成为其固有特性。


2. MCPMark: A Benchmark for Stress-Testing Realistic and Comprehensive MCP

Use

作者: Zijian Wu, Xiangyan Liu, Xinyuan Zhang, Lingjun Chen, Fanqing Meng, Lingxiao Du, Yiran Zhao, Fanshi Zhang, Yaoqi Ye, Jiawei Wang, Zirui Wang, Jinjie Ni, Yufan Yang, Arvin Xu, Michael Qizhe Shieh

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-28 | 👍 点赞数: 151

摘要:

论文标题:MCPMark:一个用于压力测试真实且全面的MCP使用的基准

中文摘要:
MCP 标准化了大语言模型(LLMs)与外部系统交互的方式,为通用智能体的发展奠定了基础。然而,现有的 MCP 基准测试在范围上仍较为局限:它们主要聚焦于读取密集型任务或交互深度有限的任务,未能充分反映现实世界工作流的复杂性和真实性。为弥补这一不足,我们提出了 MCPMark——一个旨在更真实、更全面地评估 MCP 使用情况的基准测试。该基准包含由领域专家与AI代理协作构建的127个高质量任务,每个任务均从精心设计的初始状态开始,并配备程序化脚本以实现自动验证。这些任务要求模型与环境进行更丰富、更多样化的交互,涵盖广泛的创建、读取、更新和删除(CRUD)操作。我们采用一个极简的智能体框架,在工具调用循环中对当前最先进的大语言模型进行了全面评估。实验结果表明,表现最佳的模型 gpt-5-medium 在 pass@1 指标上仅为 52.56%,pass^4 指标为 33.86%;而其他广泛认为性能较强的模型(如 claude-sonnet-4 和 o3)则更低,pass@1 不足 30%,pass^4 不到 15%。平均而言,每个任务中 LLM 需要执行 16.2 轮交互和 17.4 次工具调用,显著超过以往 MCP 基准中的水平,凸显了 MCPMark 的压力测试特性。


3. Vision-Zero: Scalable VLM Self-Improvement via Strategic Gamified

Self-Play

作者: Qinsi Wang, Bo Liu, Tianyi Zhou, Jing Shi, Yueqian Lin, Yiran Chen, Hai Helen Li, Kun Wan, Wentian Zhao

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-29 | 👍 点赞数: 122

摘要:

论文标题:Vision-Zero:通过策略性游戏化自对弈实现可扩展的视觉语言模型自我提升

中文摘要:
尽管强化学习(Reinforcement Learning, RL)能有效增强视觉语言模型(Vision-Language Models, VLMs)的推理能力,但现有方法仍严重依赖于劳动密集型数据集,这些数据集需要大量人工构建与验证,导致训练成本极高,从而限制了VLM在实际中的广泛应用。为应对这一挑战,我们提出了Vision-Zero——一种领域无关的框架,通过从任意图像对生成的竞争性视觉游戏,实现VLM的自我提升。具体而言,Vision-Zero具有三个核心特性:(1)策略性自对弈框架:该框架在类似“谁是卧底”(Who Is the Spy)的游戏中训练VLM,使模型在多个角色间进行策略性推理与行为决策。通过交互式游戏过程,模型能够自主生成训练数据,无需人工标注;(2)基于任意图像的游戏生成:与现有的游戏化训练框架不同,Vision-Zero可从任意图像生成游戏任务,从而提升模型在多样化领域的推理能力,并在不同类型的任务上展现出强大的泛化性能。我们在三类差异显著的图像数据集上验证了该框架的通用性:基于CLEVR的合成场景、图表图像以及真实世界图像;(3)可持续的性能提升:我们提出了一种新的训练算法——迭代式自对弈策略优化(Iterative Self-Play Policy Optimization, Iterative-SPO),该算法交替执行自对弈与具备可验证奖励的强化学习(RLVR),有效缓解了纯自对弈训练中常见的性能瓶颈问题,实现了长期持续的性能增长。尽管完全使用无标签数据,Vision-Zero在推理任务、图表问答以及以视觉为核心的理解任务上均达到了当前最优性能,超越了多种依赖人工标注的方法。模型与代码已公开发布于 https://github.com/wangqinsi1/Vision-Zero。


4. Winning the Pruning Gamble: A Unified Approach to Joint Sample and Token

Pruning for Efficient Supervised Fine-Tuning

作者: Shaobo Wang, Jiaming Wang, Jiajun Zhang, Cong Wang, Yue Min, Zichen Wen, Fei Huang, Huiqiang Jiang, Junyang Lin, Dayiheng Liu, Linfeng Zhang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-28 | 👍 点赞数: 64

摘要:

论文标题:赢得剪枝的博弈:一种联合样本与令牌剪枝的统一方法,用于高效监督微调

中文摘要:
随着监督微调(Supervised Fine-Tuning, SFT)从轻量级的后训练步骤演变为在计算规模上可与中期训练相媲美的密集阶段,在有限资源预算下提升数据效率已成为对齐大语言模型(LLMs)的关键挑战。现有的数据剪枝方法存在设计碎片化的问题:它们仅孤立地在样本级别或令牌(token)级别进行操作,无法同时优化这两个维度。这种割裂导致了显著的低效性——高价值样本中可能仍包含冗余令牌,而令牌级剪枝则常常会丢弃嵌入在个别样本中的关键指令或纠错信号。为解决这一瓶颈,我们提出了“误差-不确定性”(Error-Uncertainty, EU)平面,这是一种诊断框架,能够联合刻画训练数据在样本和令牌两个层面的异质性效用。基于这一洞察,我们提出了一种名为象限调优(Quadrant-based Tuning, Q-Tuning)的统一框架,可策略性地协同样本剪枝与令牌剪枝。Q-Tuning 采用两阶段策略:首先进行样本级别的分诊筛选,保留富含信息性误解或校准信号的样本;其次实施非对称的令牌剪枝策略,通过上下文感知的评分机制,仅对包含误解的样本中不显著的令牌进行裁剪,同时完整保留所有校准类样本。我们的方法在五个不同类型的基准任务上均达到了新的最先进水平。尤其值得注意的是,在 SmolLM2-1.7B 模型上,Q-Tuning 仅使用原始训练数据的 12.5%,就在平均性能上相较全数据 SFT 基线提升了 +38%。作为首个能持续超越全数据训练效果的动态剪枝方法,Q-Tuning 为资源受限场景下的大模型监督微调提供了一个实用且可扩展的数据高效利用蓝图。


5. More Thought, Less Accuracy? On the Dual Nature of Reasoning in

Vision-Language Models

作者: Xinyu Tian, Shu Zou, Zhaoyuan Yang, Mengqi He, Fabian Waschkowski, Lukas Wesemann, Peter Tu, Jing Zhang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-30 | 👍 点赞数: 56

摘要:

论文标题:更多思考,更低准确率?论视觉-语言模型中推理的双重性质

中文摘要:
推理能力已成为大型语言模型(Large Language Models, LLMs)的一项关键能力。通过强化学习(Reinforcement Learning, RL),尤其是组相对策略优化(Group Relative Policy Optimization, GRPO),这些模型能够解决数学推理和代码生成等复杂任务。基于这些进展,近期研究尝试将推理能力扩展到视觉-语言模型(Vision-Language Models, VLMs),并在多种视觉任务上取得了令人鼓舞的成果。然而,本研究揭示了多模态推理所具有的双重性质:尽管它显著增强了逻辑推断能力,并有助于提升在复杂问题上的表现,却可能逐渐削弱模型对视觉信息的感知基础,导致其在原本简单的视觉问题上出现识别失败。进一步分析表明,这一现象源于“视觉遗忘”(visual forgetting)——即持续的推理过程使模型越来越忽视视觉输入。为应对这一问题,我们提出了视觉锚定策略优化(Vision-Anchored Policy Optimization, VAPO),一种简单而有效的方法,能够显式引导推理过程朝向基于视觉证据的路径发展。我们训练得到的模型VAPO-Thinker-7B显著增强了模型对视觉信息的依赖,在多个主流基准测试上实现了新的最先进性能。项目主页:https://xytian1008.github.io/VAPO/


6. TruthRL: Incentivizing Truthful LLMs via Reinforcement Learning

作者: Zhepei Wei, Xiao Yang, Kai Sun, Jiaqi Wang, Rulin Shao, Sean Chen, Mohammad Kachuee, Teja Gollapudi, Tony Liao, Nicolas Scheffer, Rakesh Wanga, Anuj Kumar, Yu Meng, Wen-tau Yih, Xin Luna Dong

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-30 | 👍 点赞数: 47

摘要:

论文标题:TruthRL:通过强化学习激励真实可信的大型语言模型

中文摘要:
尽管大型语言模型(LLMs)在事实类问题回答任务中表现出色,但它们仍容易产生幻觉和不真实的回应,尤其是在任务所需信息超出其参数化知识范围时。事实上,真实性不仅仅意味着准确性——模型还必须能够识别不确定性,并在不确定时选择 abstain(拒绝回答),以避免产生幻觉。这对现有方法提出了根本性挑战:以准确性为目标的优化方法往往会加剧幻觉现象,而鼓励拒答的方法又可能过于保守,牺牲了本可正确的回答。这两种极端情况最终都会损害模型的整体真实性。本文提出 TruthRL,一种通用的强化学习(RL)框架,直接优化 LLM 的真实性。具体而言,我们基于 GRPO 实现 TruthRL,并设计了一种简洁而有效的三元奖励机制,用以区分正确回答、幻觉和拒答行为。该框架不仅激励模型通过给出正确答案来减少幻觉,更允许其在不确定时主动拒答,从而提升整体真实性。在四个知识密集型基准上的大量实验表明,与标准的强化学习方法相比,TruthRL 将幻觉率显著降低了 28.9%,真实性提升了 21.1%,且在不同主干模型(如 Qwen、Llama)以及检索与非检索设置下均保持稳定的性能增益。深入的消融研究显示,传统的以准确性为导向的方法(如监督微调或使用二元奖励的强化学习)难以在事实正确性与不确定性处理之间取得平衡。相比之下,我们提出的以真实性为导向的 TruthRL 在准确性和真实性方面均表现优异,凸显了学习目标设计在构建真实可信的大型语言模型中的关键作用。


7. Learning to See Before Seeing: Demystifying LLM Visual Priors from

Language Pre-training

作者: Junlin Han, Shengbang Tong, David Fan, Yufan Ren, Koustuv Sinha, Philip Torr, Filippos Kokkinos

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-30 | 👍 点赞数: 41

摘要:

论文标题:在“看见”之前学会“看见”:从语言预训练中揭示大语言模型的视觉先验知识

中文摘要:
尽管仅通过文本数据进行训练,大语言模型(LLMs)却出人意料地发展出了丰富的视觉先验知识。这些先验知识使得模型在引入少量多模态数据后即可激发出潜在的视觉能力,甚至在某些情况下无需接触任何图像即可执行视觉任务。通过系统性分析,我们发现:所谓的“视觉先验”——即语言预训练过程中隐式获得、并涌现出的关于视觉世界的知识——可分解为可分离的感知先验与推理先验,二者具有不同的扩展规律和来源。我们发现,大语言模型潜在的视觉推理能力主要来源于以推理为核心的预训练数据(例如代码、数学、学术文本),且该能力随训练数据量逐步提升。这种从纯语言预训练中获得的推理先验具备良好的迁移性,可广泛适用于各类视觉推理任务。相比之下,感知先验则更广泛地源自多样化的语料库,其表现对视觉编码器和视觉指令微调数据更为敏感。同时,描述视觉世界的文本内容被证明至关重要,但其性能增益会迅速趋于饱和。基于上述发现,我们提出了一种以数据为中心的视觉感知型大语言模型预训练方案,并在高达1万亿token的预训练规模上验证了其有效性。本研究建立在超过100组受控实验的基础之上,累计消耗50万GPU小时,覆盖从大语言模型预训练、视觉对齐到监督式多模态微调的完整MLLM构建流程,涉及五种模型规模、多种数据类别与混合方式,以及多种适配设置。除主要发现外,本文还提出并验证了若干假设,并引入了一个新的评测基准——多层次存在性评测集(MLE-Bench)。综上所述,本工作为从语言预训练中主动培育视觉先验提供了全新视角,为下一代多模态大语言模型的发展奠定了基础。


8. OceanGym: A Benchmark Environment for Underwater Embodied Agents

作者: Yida Xue, Mingjun Mao, Xiangyuan Ru, Yuqi Zhu, Baochang Ren, Shuofei Qiao, Mengru Wang, Shumin Deng, Xinyu An, Ningyu Zhang, Ying Chen, Huajun Chen

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-30 | 👍 点赞数: 33

摘要:

论文标题:OceanGym:一种面向水下具身智能体的基准环境

中文摘要:
本文提出OceanGym,这是首个面向海洋水下具身智能体的综合性基准环境,旨在推动人工智能在最具挑战性的现实世界环境之一中的发展。与陆地或空中环境不同,水下环境带来了极端的感知与决策难题,例如低能见度、动态变化的洋流等,使得智能体的有效部署极为困难。OceanGym 包含八个贴近现实的任务领域,并构建了一个统一的智能体框架,该框架由多模态大语言模型(MLLMs)驱动,融合了感知、记忆和序列化决策能力。智能体需在严苛条件下理解光学与声呐数据,自主探索复杂环境,并完成长周期任务目标。大量实验表明,当前最先进的 MLLM 驱动智能体与人类专家之间仍存在显著差距,凸显出在海洋水下环境中实现有效感知、规划与适应能力的持续挑战。通过提供一个高保真、严谨设计的平台,OceanGym 为开发鲁棒的具身人工智能提供了测试环境,并有助于将这些能力迁移至实际应用中的自主水下航行器,标志着迈向能够在地球最后未充分探索的前沿领域之一运行的智能体的重要一步。代码与数据已公开于 https://github.com/OceanGPT/OceanGym。


9. DC-VideoGen: Efficient Video Generation with Deep Compression Video

Autoencoder

作者: Junyu Chen, Wenkun He, Yuchao Gu, Yuyang Zhao, Jincheng Yu, Junsong Chen, Dongyun Zou, Yujun Lin, Zhekai Zhang, Muyang Li, Haocheng Xi, Ligeng Zhu, Enze Xie, Song Han, Han Cai

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-29 | 👍 点赞数: 31

摘要:

论文标题:DC-VideoGen:基于深度压缩视频自编码器的高效视频生成

中文摘要:
本文提出 DC-VideoGen,一种用于高效视频生成的训练后加速框架。DC-VideoGen 可应用于任意预训练的视频扩散模型,通过轻量级微调将其适配到深度压缩的潜在空间,从而提升生成效率。该框架包含两项关键技术:(i)深度压缩视频自编码器(Deep Compression Video Autoencoder),采用新颖的分块因果时序设计,在实现 32倍/64倍空间压缩和 4倍时间压缩的同时,保持良好的重构质量,并能泛化至更长时长的视频;(ii)AE-Adapt-V,一种鲁棒的适应策略,可实现预训练模型向新潜在空间的快速且稳定迁移。使用 DC-VideoGen 对预训练 Wan-2.1-14B 模型进行适配仅需在 NVIDIA H100 GPU 上耗费 10 个 GPU 日。加速后的模型在不牺牲生成质量的前提下,推理延迟最高降低达 14.8 倍,并可在单张 GPU 上实现 2160×3840 分辨率的视频生成。代码地址:https://github.com/dc-ai-projects/DC-VideoGen。


10. Thinking-Free Policy Initialization Makes Distilled Reasoning Models

More Effective and Efficient Reasoners

作者: Xin Xu, Cliveb AI, Kai Yang, Tianhao Chen, Yang Wang, Saiyong Yang, Can Yang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-30 | 👍 点赞数: 29

摘要:

论文标题:无需思考的策略初始化使蒸馏后的推理模型成为更高效、更有效的推理者

中文摘要:
基于可验证奖励的强化学习(Reinforcement Learning with Verifiable Reward, RLVR)能够有效解决复杂任务,但在训练过程中需要极长的上下文长度,导致计算成本高昂。尽管多阶段训练可在一定程度上缓解这一问题,但若初始阶段使用的上下文过短,往往会导致不可逆的性能下降,最终难以显著降低整体训练计算量。本文提出无需思考的策略初始化Thinking-Free Policy Initialization, TFPI),这是一种简单而有效的RLVR改进方法,弥合了长链式思维(Chain-of-Thought, CoT)蒸馏与标准RLVR之间的差距。TFPI采用一种简单的ThinkFree操作,通过直接追加</think>标签显式丢弃"思考"内容,从而减少推理过程中的token使用量。使用经ThinkFree调整的输入进行训练,不仅能在原始的慢速思考模式下提升性能,还能降低token消耗。在多个基准任务上的大量实验表明,TFPI能够加速强化学习的收敛过程,达到更高的性能上限,并生成更加节省token的推理模型,且无需依赖专门设计的奖励机制或复杂的训练流程。仅通过TFPI,我们就在不到4000 H20小时的计算资源下,成功训练出一个40亿参数模型,在AIME24上达到89.0%的准确率,在LiveCodeBench上达到65.5%的准确率。


11. Who's Your Judge? On the Detectability of LLM-Generated Judgments

作者: Dawei Li, Zhen Tan, Chengshuai Zhao, Bohan Jiang, Baixiang Huang, Pingchuan Ma, Abdullah Alnaibari, Kai Shu, Huan Liu

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-29 | 👍 点赞数: 25

摘要:

论文标题:你是谁的法官?论大语言模型生成评判的可检测性

中文摘要:
基于大语言模型(Large Language Model, LLM)的评判利用强大的LLM对候选内容进行高效评估,并提供评分结果。然而,LLM生成评判所固有的偏见和脆弱性引发了广泛关注,尤其在学术同行评审等敏感场景中,亟需能够有效区分此类自动评判。本文提出并形式化了“评判检测”这一新任务,系统地研究了LLM生成评判的可检测性。与传统的LLM生成文本检测不同,评判检测仅依赖于评分结果和候选内容本身,这更贴近现实场景——在检测过程中往往无法获取文字反馈。我们的初步分析表明,现有的LLM生成文本检测方法在此任务上表现不佳,因其难以捕捉评分与候选内容之间的交互关系,而这种交互对于有效的评判检测至关重要。受此启发,我们提出了J-Detector,一种轻量级且透明的神经检测模型,通过显式提取语言学特征和LLM增强特征,将LLM评判者的偏见与候选内容的属性关联起来,从而实现高精度检测。在多个多样化数据集上的实验验证了J-Detector的有效性,并展示了其可解释性如何帮助量化LLM评判者中的潜在偏见。最后,我们分析了影响LLM生成评判可检测性的关键因素,并验证了评判检测在真实场景中的实际应用价值。


12. Rethinking Reward Models for Multi-Domain Test-Time Scaling

作者: Dong Bok Lee, Seanie Lee, Sangwoo Park, Minki Kang, Jinheon Baek, Dongki Kim, Dominik Wagner, Jiongdao Jin, Heejun Lee, Tobias Bocklet, Jinyu Wang, Jingjing Fu, Sung Ju Hwang, Jiang Bia, Lei Song

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-10-01 | 👍 点赞数: 24

摘要:

论文标题:重新思考多领域测试时扩展的奖励模型

中文摘要: 在测试时扩展过程中,大语言模型(LLMs)的可靠性通常依赖外部验证器或奖励模型来评估,以区分正确的推理与有缺陷的逻辑。以往研究普遍认为,过程奖励模型(PRMs)——即对每一个中间推理步骤进行评分的方法——优于仅评估最终答案的结果奖励模型(ORMs)。这一观点主要基于狭窄的、与数学相关的领域的证据。本文首次在14个不同领域中对四种奖励模型变体进行了统一评估,包括判别式ORM和PRM(\DisORM, \DisPRM)以及生成式ORM和PRM(\GenORM, \GenPRM)。与传统认知相反,我们发现:(i)\DisORM 的表现与 \DisPRM 相当;(ii)\GenPRM 并不具备竞争力;(iii)总体而言,\GenORM 最为稳健,在所有测试领域中均带来显著且一致的性能提升。我们认为其原因在于PRM式的逐步评分机制:该机制继承了大语言模型自动标注带来的标签噪声,并难以有效评估长链条的推理过程,尤其是包含自我修正的推理路径。我们的理论分析表明,随着推理链长度增加,逐 步评分的误差累积效应会加剧,实证结果也证实了这一现象。这些发现挑战了“细粒度监督总是更优”的主流假设,支持在多领域部署中采用生成式结果验证方法。为促进未来在多领域场景下的研究,我们已公开发布代码、数据集和模型检查点,地址为 https://github.com/db-Lee/Multi-RM。


13. Thinking Sparks!: Emergent Attention Heads in Reasoning Models During

Post Training

作者: Yein Park, Minbyul Jeong, Jaewoo Kang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-30 | 👍 点赞数: 21

摘要:

论文标题:思维火花!后训练过程中推理模型中涌现的注意力头

中文摘要:
现代大型推理模型的卓越能力在很大程度上依赖于后训练技术(如监督微调和强化学习)来释放。然而,这些性能提升背后的架构级机制仍不清晰。在本研究中,我们采用电路分析方法表明,针对复杂推理任务的后训练会激发新型、功能特化的注意力头的涌现。这些注意力头共同支持结构化的推理与计算过程。我们在Qwen系列模型及DeepSeek蒸馏模型上的对比分析发现,不同训练范式下这些涌现的注意力头演化路径存在差异:知识蒸馏与监督微调(SFT)倾向于逐步累积稳定且持久的推理相关注意力头;相比之下,群体相对策略优化(Group Relative Policy Optimization)则表现为一种动态搜索模式——仅有相对较少的注意力头被迭代地激活、评估并剪枝,其存续情况与任务奖励信号的波动高度相关。此外,我们发现具有可控“思考开关”功能的模型并未配备专用的“思考头”;相反,当显式推理被关闭时,系统会触发一组更广泛但效率较低的补偿性注意力头。通过消融实验与定性分析,我们将这些电路层级的动态特性与关键性能权衡联系起来:增强的注意力头虽能为困难问题提供复杂的求解策略,但也可能在简单任务上引发“过度思考”的失效模式,例如计算错误或逻辑循环。这些发现将电路层级的机制与宏观性能表现关联起来,揭示了一种内在张力:复杂推理能力的获得往往以牺牲基础计算的可靠性为代价。更广泛而言,本研究指出了未来策略训练设计的方向,强调必须在发展高效推理策略的同时,确保基础运算的稳健与无误执行。


14. dParallel: Learnable Parallel Decoding for dLLMs

作者: Zigeng Chen, Gongfan Fang, Xinyin Ma, Ruonan Yu, Xinchao Wang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-30 | 👍 点赞数: 18

摘要:

论文标题:dParallel:面向扩散式大语言模型的可学习并行解码

中文摘要:
扩散式大语言模型(dLLMs)近期在学术界受到广泛关注,被视为一种有前景的自回归生成替代方案,能够实现并行化 token 预测并显著降低推理延迟。然而,其并行解码潜力仍远未被充分挖掘,因为现有的开源模型仍需接近 token 序列长度的解码步数才能保证性能。为解决这一问题,我们提出了 dParallel,一种简单而有效的方法,旨在充分释放 dLLMs 的内在并行性以实现快速采样。我们发现,并行解码的主要瓶颈在于被掩码 token 的确定性(certainty)在解码过程中呈现出顺序收敛特性。基于这一洞察,我们提出方法的核心组件:确定性强制蒸馏(certainty-forcing distillation),这是一种新颖的训练策略,能够在保持模型原有采样轨迹的基础上,迫使模型更快速、更并行地对被掩码 token 达成高置信度预测。在多个基准任务上的大量实验表明,该方法可在保持模型性能的同时,显著减少解码步数。在 LLaDA-8B-Instruct 模型上应用 dParallel 后,在 GSM8K 任务中将解码步数从 256 步减少至 30 步,实现了 8.5 倍的加速且无性能下降;在 MBPP 基准上,解码步数由 256 步降至 24 步,获得 10.5 倍加速的同时保持了原有的准确率。我们的代码已公开发布于 https://github.com/czg1225/dParallel


15. VitaBench: Benchmarking LLM Agents with Versatile Interactive Tasks in

Real-world Applications

作者: Wei He, Yueqing Sun, Hongyan Hao, Xueyuan Hao, Zhikang Xia, Qi Gu, Chengcheng Han, Dengchang Zhao, Hui Su, Kefeng Zhang, Man Gao, Xi Su, Xiaodong Cai, Xunliang Cai, Yu Yang, Yunke Zhao

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-30 | 👍 点赞数: 17

摘要:

论文标题:VitaBench:面向现实应用中多样化交互任务的大型语言模型智能体评测基准

中文摘要:
随着基于大语言模型(LLM)的智能体在现实场景中的广泛应用,现有评测基准难以充分反映其在处理海量信息、调用多样化资源以及应对动态用户交互等方面的复杂能力。为填补这一空白,我们提出了VitaBench——一个具有挑战性的基准评测平台,旨在评估智能体在贴近真实世界环境下的多样化交互任务中的表现。VitaBench源自外卖配送、店内消费和在线旅游服务等日常应用场景,构建了迄今为止最复杂的面向生活服务的模拟环境,包含66种工具。通过一个去除领域特定策略的框架,我们实现了这些场景与工具的灵活组合,生成了100项跨场景任务(主要结果)和300项单场景任务。每项任务均源于多个真实用户请求,要求智能体在时空维度上进行推理,使用复杂的工具集,主动澄清模糊指令,并在多轮对话中持续追踪用户意图的变化。此外,我们提出了一种基于评分标准的滑动窗口评估方法,能够在复杂环境和随机交互条件下对多样化的解决方案路径进行鲁棒性评估。我们的全面评估结果显示,即便是最先进的模型,在跨场景任务上的成功率也仅为30%,在其他任务上的成功率不足50%。总体而言,我们认为VitaBench将成为推动人工智能智能体在实际现实应用中发展的宝贵资源。代码、数据集及排行榜详见 https://vitabench.github.io/


16. MotionRAG: Motion Retrieval-Augmented Image-to-Video Generation

作者: Chenhui Zhu, Yilu Wu, Shuai Wang, Gangshan Wu, Limin Wang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-30 | 👍 点赞数: 17

摘要:

论文标题:MotionRAG:基于运动检索增强的图像到视频生成

中文摘要:
随着扩散模型的发展,图像到视频生成取得了显著进展,然而生成具有真实感运动的视频仍然极具挑战性。这一难题源于准确建模运动的复杂性,包括捕捉物理约束、物体交互以及特定领域的动态特性,这些因素在不同场景之间难以泛化。为解决该问题,我们提出了MotionRAG——一种基于检索增强的框架,通过上下文感知的运动适应(Context-Aware Motion Adaptation, CAMA)机制,从相关参考视频中迁移运动先验,从而提升生成视频的运动真实感。本方法的核心技术贡献包括:(i)基于检索的流程,利用视频编码器和专用重采样模块提取高层运动特征,以提炼语义级运动表征;(ii)通过因果Transformer架构实现的上下文内学习方法,用于运动适应;(iii)基于注意力机制的运动注入适配器,能够将迁移的运动特征无缝集成到预训练的视频扩散模型中。大量实验表明,我们的方法在多个领域和多种基础模型上均实现了显著性能提升,且推理过程中的计算开销几乎可以忽略。此外,模块化设计使得仅通过更新检索数据库即可实现对新领域的零样本泛化,无需重新训练任何组件。本研究通过有效检索与迁移运动先验,增强了视频生成系统的核心能力,推动了真实感运动动态的合成。


17. Muon Outperforms Adam in Tail-End Associative Memory Learning

作者: Shuche Wang, Fengzhuo Zhang, Jiaxiang Li, Cunxiao Du, Chao Du, Tianyu Pang, Zhuoran Yang, Mingyi Hong, Vincent Y. F. Tan

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-30 | 👍 点赞数: 17

摘要:

论文标题:Muon在长尾关联记忆学习中优于Adam

中文摘要: Muon优化器在训练大型语言模型(LLMs)时始终快于Adam,但其成功背后的机制尚不明确。本文通过关联记忆的视角揭示了这一机制。通过对Muon所优化的Transformer组件进行消融分析,我们发现LLM中负责关联记忆的参数——即注意力机制中的值(Value)和输出(Output)权重(VO)以及前馈网络(FFNs)——是Muon优势的主要来源。受此关联记忆视角的启发,我们进一步解释了Muon在真实语料库上的优越性,这些语料库本质上具有重尾分布特性:少数类别(尾部类别)出现频率远低于其他类别。这种优势可通过两个关键性质加以解释:(i)Muon的更新规则相较于Adam能持续产生更接近各向同性的奇异值谱;因此,(ii)在重尾数据上,Muon对尾部类别的优化效果显著优于Adam。除了实证证据外,我们还通过在类别不平衡数据下分析一个单层关联记忆模型,从理论上验证了上述发现。我们证明,无论特征嵌入如何,Muon始终能在各类别间实现均衡学习;而Adam则可能因嵌入特性不同而导致各类别的学习误差出现显著差异。综上所述,我们的实验观察与理论分析共同揭示了Muon的核心优势:其更新规则与线性关联记忆的外积结构相匹配,从而在重尾分布下实现了比Adam更均衡且更有效的尾部类别学习。


18. DA^2: Depth Anything in Any Direction

作者: Haodong Li, Wangguangdong Zheng, Jing He, Yuhao Liu, Xin Lin, Xin Yang, Ying-Cong Chen, Chunchao Guo

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-30 | 👍 点赞数: 16

摘要: 论文标题:DA²: 任意方向的深度无处不在

中文摘要:
全景图像具有完整的视场(FoV,360°×180°),相较于透视图像能够提供更完整的视觉描述。得益于这一特性,全景深度估计在3D视觉领域正受到越来越多的关注。然而,由于全景数据的稀缺性,以往方法通常局限于特定域内的设置,导致零样本泛化能力较差。此外,由于全景图像固有的球面畸变,许多现有方法依赖于透视分割策略(例如立方体映射),从而影响了整体效率。为应对上述挑战,我们提出了DA²(Depth Anything in Any Direction)——一种高精度、具备零样本泛化能力且完全端到端的全景深度估计方法。具体而言,在扩大全景数据规模方面,我们设计了一种数据整理引擎,可从透视图像生成高质量的全景RGB-深度数据对,并构建了包含约54.3万张图像的仿真数据集,使总数据量达到约60.7万对。为进一步缓解球面畸变问题,我们提出了SphereViT网络结构,该方法显式利用球面坐标信息,在全景图像特征中引入球面几何一致性约束,从而提升性能表现。在多个数据集上的综合实验表明,DA²在各项指标上均达到了当前最先进(SoTA)水平,相较于最强的零样本基线方法,其AbsRel误差平均降低了38%。令人惊讶的是,DA²甚至优于此前的域内训练方法,充分体现了其卓越的零样本泛化能力。此外,作为一种端到端的解决方案,DA²在效率上显著优于基于融合的多视角拼接方法。我们将公开发布代码和整理后的全景数据集。项目主页:https://depth-any-in-any-dir.github.io/。


19. IMG: Calibrating Diffusion Models via Implicit Multimodal Guidance

作者: Jiayi Guo, Chuanhao Yan, Xingqian Xu, Yulin Wang, Kai Wang, Gao Huang, Humphrey Shi

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-30 | 👍 点赞数: 16

摘要:

论文标题:IMG:通过隐式多模态引导校准扩散模型

中文摘要:
确保扩散模型生成的图像与输入提示之间精确的多模态对齐一直是一个长期存在的挑战。早期的研究通过使用高质量偏好数据对扩散模型权重进行微调来实现对齐,但这类数据通常有限且难以大规模扩展。近期基于编辑的方法虽可进一步优化生成图像的局部区域,但可能损害整体图像质量。在本研究中,我们提出了隐式多模态引导(Implicit Multimodal Guidance, IMG),这是一种新颖的基于重生成的多模态对齐框架,无需额外数据或编辑操作。具体而言,给定一张生成图像及其对应的提示语,IMG首先利用多模态大语言模型(MLLM)识别其中的对齐偏差;其次引入一个隐式对齐器(Implicit Aligner),通过调节扩散模型的条件特征以减少偏差并实现图像重生成;最后,将重新对齐的目标建模为一个可训练的目标函数,即迭代更新的偏好目标(Iteratively Updated Preference Objective)。在SDXL、SDXL-DPO和FLUX等多个模型上的大量定性与定量实验表明,IMG优于现有的对齐方法。此外,IMG可作为一个灵活的即插即用适配器,无缝增强先前基于微调的对齐方法。我们的代码将在以下地址公开:https://github.com/SHI-Labs/IMG-Multimodal-Diffusion-Alignment。


20. Learning Human-Perceived Fakeness in AI-Generated Videos via Multimodal

LLMs

作者: Xingyu Fu, Siyi Liu, Yinuo Xu, Pan Lu, Guangqiuse Hu, Tianbo Yang, Taran Anantasagar, Christopher Shen, Yikai Mao, Yuanzhe Liu, Keyush Shah, Chung Un Lee, Yejin Choi, James Zou, Dan Roth, Chris Callison-Burch

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-26 | 👍 点赞数: 15

摘要:

论文标题:通过多模态大语言模型学习人类对AI生成视频中“虚假感”的感知

中文摘要:
人类能否识别由人工智能生成的(虚假)视频,并提供有依据的判断理由?尽管视频生成模型已迅速发展,但一个关键维度却长期被忽视:人类是否能够察觉生成视频中的深度伪造痕迹,即揭示视频为机器生成的、具有时空定位的视觉伪影。为此,我们提出了DeeptraceReward——首个细粒度、兼具空间与时间感知能力的基准数据集,用于标注人类所感知到的“虚假痕迹”,以支持视频生成质量的奖励建模。该数据集包含在3.3千个高质量AI生成视频上的4.3千条详细标注。每条标注均提供一段自然语言解释,框选出包含可疑痕迹的边界区域(bounding box),并精确标记该痕迹出现(onset)和消失(offset)的时间戳。我们将这些标注归纳为9类主要的深度伪造痕迹类型,这些类型是人类判断视频为AI生成的关键依据,并基于此训练多模态语言模型(LMs)作为奖励模型,以模拟人类的判断与定位能力。在DeeptraceReward上的实验表明,我们的7B参数奖励模型在识别虚假线索、定位其时空位置以及生成解释方面,平均性能超越GPT-5达34.7%。有趣的是,我们观察到一种一致的难度梯度:二分类的“真假”判别明显容易于细粒度的深度伪造痕迹检测;而在后者内部,从最易的自然语言解释,到空间定位,再到时间标记(最难),模型性能逐步下降。通过聚焦人类所感知的深度伪造痕迹,DeeptraceReward为具备社会意识且可信的视频生成技术提供了严格的测试平台和有效的训练信号。


21. DeepScientist: Advancing Frontier-Pushing Scientific Findings

Progressively

作者: Yixuan Weng, Minjun Zhu, Qiujie Xie, Qiyao Sun, Zhen Lin, Sifan Liu, Yue Zhang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-30 | 👍 点赞数: 14

摘要:

论文标题:DeepScientist:持续推进前沿科学发现

中文摘要:
尽管先前的“AI科学家”系统能够生成新颖的科学发现,但它们往往缺乏聚焦性,难以产生针对人类定义的重要挑战的具有科学价值的成果。本文提出了DeepScientist系统,旨在通过在长达数月的时间尺度上进行目标导向、完全自主的科学探索来克服这一局限。该系统将科学发现形式化为一个贝叶斯优化问题,并通过“提出假设、验证假设、分析结果”的分层评估流程加以实现。借助一个累积性的“发现记忆”(Findings Memory)机制,该系统智能地在探索新颖假设与利用已有成果之间取得平衡,并有选择性地将最具前景的发现推进到更高保真度的验证层级。在耗用了超过20,000 GPU小时的计算资源后,该系统共生成约5,000个独特的科学构想,并对其中约1,100个进行了实验验证,最终在三个前沿人工智能任务上分别以183.7%、1.9%和7.9%的表现超越了人类设计的最先进(SOTA)方法。本研究首次提供了大规模证据,表明人工智能能够在科学任务中持续产出超越人类SOTA水平的发现,真正推动科学前沿的进步。为促进对该过程的进一步研究,我们将开源全部实验日志与系统代码,发布地址为 https://github.com/ResearAI/DeepScientist/。


22. Regression Language Models for Code

作者: Yash Akhauri, Xingyou Song, Arissa Wongpanich, Bryan Lewandowski, Mohamed S. Abdelfattah

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-30 | 👍 点赞数: 12

摘要:

论文标题:用于代码的回归语言模型

中文摘要: 我们研究代码到数值的回归问题:即预测代码执行后的数值结果,这一任务由于编程语言的开放性而具有挑战性。以往的方法依赖于复杂且领域特定的特征工程,而我们证明了一种统一的回归语言模型(Regression Language Model, RLM)能够直接从文本出发,同时实现以下预测:(i)跨多种高级编程语言(如 Python 和 C++)的代码内存占用;(ii)Triton GPU 内核的延迟;(iii)以 ONNX 格式表示的神经网络模型的精度和推理速度。特别地,一个从 T5Gemma 初始化的相对较小的 3 亿参数规模的 RLM,在 APPS 竞赛编程提交数据集上取得了超过 0.9 的斯皮尔曼等级相关系数(Spearman-rank);而同一个统一模型在包含 17 种不同语言的 CodeNet 数据集上,平均斯皮尔曼等级相关系数超过 0.5。此外,该 RLM 在五个经典的神经架构搜索(NAS)设计空间上的平均肯德尔等级相关系数(Kendall-Tau)达到 0.46,为目前最高水平,此前这些任务主要由图神经网络主导;同时,该模型还能在多种硬件平台上联合预测架构的延迟表现。


23. Mem-α: Learning Memory Construction via Reinforcement Learning

作者: Yu Wang, Ryuichi Takanobu, Zhiqi Liang, Yuzhen Mao, Yuanzhe Hu, Julian McAuley, Xiaojian Wu

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-30 | 👍 点赞数: 12

摘要:

论文标题:Mem-α:通过强化学习实现记忆构建

中文摘要:
大型语言模型(LLM)智能体受限于有限的上下文窗口,因而需要外部记忆系统以支持长期信息理解。当前的记忆增强型智能体通常依赖预定义的指令和工具进行记忆更新。然而,语言模型可能难以判断应存储哪些信息、如何组织这些信息以及何时进行更新,尤其是在记忆系统变得更为复杂的情况下。这导致记忆构建效果不佳并造成信息丢失。为此,我们提出 Mem-α,一种基于强化学习的框架,通过交互与反馈训练智能体有效管理复杂的记忆系统。我们还构建了一个专门的训练数据集,涵盖多种多轮交互模式,并配备综合性评估问题,旨在教授高效的记忆管理策略。在训练过程中,智能体处理连续的信息片段,学习提取并存储相关内容,进而更新记忆系统。奖励信号来源于基于完整交互历史的下游问答准确率,从而直接优化记忆构建过程。为展示本训练框架的有效性,我们设计了一种包含核心记忆、情景记忆和语义记忆三个组件的记忆架构,并配备了多种记忆操作工具。实验评估表明,Mem-α 在现有记忆增强型智能体基线方法上实现了显著性能提升。尽管训练仅使用最长 30k token 的实例,我们的智能体仍展现出对超过 400k token 序列的卓越泛化能力,超出训练长度 13 倍以上,凸显了 Mem-α 的强健性与可扩展性。


24. Efficient Audio-Visual Speech Separation with Discrete Lip Semantics and

Multi-Scale Global-Local Attention

作者: Kai Li, Kejun Gao, Xiaolin Hu

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-28 | 👍 点赞数: 12

摘要:

论文标题:基于离散唇部语义与多尺度全局-局部注意力的高效视听语音分离

中文摘要:
视听语音分离(AVSS)方法利用视觉线索来提取目标语音,在噪声声学环境中表现出优异的分离性能。然而,现有方法通常包含大量参数且计算成本高昂,这在许多实际应用中难以接受——在这些场景中,语音分离仅作为后续语音处理的预处理步骤。为解决这一问题,本文提出了一种高效的AVSS方法,命名为Dolphin。在视觉特征提取方面,我们设计了DP-LipCoder,一种双路径轻量级视频编码器,可将唇部运动转换为离散的、与音频对齐的语义标记(semantic tokens)。在音频分离方面,我们构建了一个轻量级的编码器-解码器分离网络,其中每一层均引入全局-局部注意力(GLA)模块,以高效捕捉多尺度依赖关系。在三个基准数据集上的实验结果表明,Dolphin不仅在分离质量上超越了当前最先进的(SOTA)模型,而且在效率方面实现了显著提升:参数量减少50%以上,MACs降低2.4倍以上,GPU推理速度提升6倍以上。这些结果表明,Dolphin为现实场景中的高性能视听语音分离提供了一种实用且可部署的解决方案。我们的代码和演示页面已公开发布于 http://cslikai.cn/Dolphin/。


25. TTT3R: 3D Reconstruction as Test-Time Training

作者: Xingyu Chen, Yue Chen, Yuliang Xiu, Andreas Geiger, Anpei Chen

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-30 | 👍 点赞数: 10

摘要:

论文标题:TTT3R:将三维重建作为测试时训练

中文摘要: 现代循环神经网络由于其线性时间复杂度,已成为具有竞争力的三维重建架构。然而,当应用于超出训练时上下文长度的场景时,其性能显著下降,暴露出在长度泛化能力上的局限性。在本研究中,我们从“测试时训练”(Test-Time Training)的视角重新审视三维重建基础模型的设计,将其建模为一个在线学习问题。基于这一视角,我们利用记忆状态与新观测数据之间的对齐置信度,推导出记忆更新的闭式学习率,以平衡历史信息的保留与对新观测的适应能力。这种无需额外训练的干预方法被称为TTT3R,在长度泛化方面显著提升性能,在全局位姿估计任务上相较基线方法提升达2倍,同时以仅6GB GPU内存实现20 FPS的运行速度,可高效处理数千张图像。代码见:https://rover-xingyu.github.io/TTT3R


26. Attention as a Compass: Efficient Exploration for Process-Supervised RL

in Reasoning Models

作者: Runze Liu, Jiakang Wang, Yuling Shi, Zhihui Xie, Chenxin An, Kaiyan Zhang, Jian Zhao, Xiaodong Gu, Lei Lin, Wenping Hu, Xiu Li, Fuzheng Zhang, Guorui Zhou, Kun Gai

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-30 | 👍 点赞数: 10

摘要:

论文标题:注意力作为指南针:面向推理模型的过程监督强化学习中的高效探索

中文摘要:
强化学习(Reinforcement Learning, RL)在提升大语言模型(Large Language Models, LLMs)的推理能力方面已展现出显著成效。相比基于结果监督的强化学习,过程监督强化学习(Process-Supervised RL, PSRL)已成为一种更为有效的范式。然而,现有的PSRL方法在分支位置选择和采样效率方面仍存在探索效率不足的问题。本文提出一种全新的PSRL框架——AttnRL,旨在实现对推理模型的高效探索。受初步观察启发,我们发现注意力分数较高的推理步骤与关键推理行为密切相关,因此提出从高注意力值的位置进行分支。此外,我们设计了一种自适应采样策略,该策略综合考虑问题难度和历史批次大小,确保整个训练批次中的优势值(advantage values)非零。为进一步提升采样效率,我们构建了一个一步式离策略(one-step off-policy)的PSRL训练流程。在多个具有挑战性的数学推理基准上的大量实验表明,我们的方法在性能以及采样和训练效率方面均持续优于先前的方法。


27. OffTopicEval: When Large Language Models Enter the Wrong Chat, Almost

Always!

作者: Jingdi Lei, Varun Gumma, Rishabh Bhardwaj, Seok Min Lim, Chuan Li, Amir Zadeh, Soujanya Poria

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-30 | 👍 点赞数: 10

摘要:

论文标题:OffTopicEval:当大语言模型误入歧途时,几乎总是如此!

中文摘要:
大语言模型(Large Language Model, LLM)的安全性是实现大规模部署面临的最紧迫挑战之一。尽管大多数研究和全球讨论集中在通用性危害上,例如模型协助用户伤害自己或他人,但企业在实际应用中面临一个更基本的问题:基于LLM的智能体是否在特定使用场景下是安全的。为此,我们提出了“操作安全性”(operational safety)的概念,定义为LLM在承担特定任务时,能够恰当地接受或拒绝用户查询的能力。进一步地,我们提出OffTopicEval——一个用于评估一般情境及特定智能体应用场景下操作安全性的评测套件与基准。我们在包含20个开源权重LLM、涵盖六个模型家族的实验表明,尽管不同模型表现存在差异,但所有模型在操作安全性方面仍严重不足。即使是表现最佳的模型,Qwen-3(235B)和Mistral(24B)也仅分别达到77.77%和79.96%,远未达到可靠的操作安全水平;GPT系列模型稳定在62%–73%区间,Phi系列得分居中(48%–70%),而Gemma和Llama-3则分别骤降至39.53%和23.84%。虽然操作安全性本质上是一个模型对齐(alignment)的核心问题,但为了抑制此类失效,我们提出了基于提示词的引导方法:查询锚定(query grounding, Q-ground)和系统提示锚定(system-prompt grounding, P-ground),显著提升了对分布外(OOD)查询的拒绝能力。Q-ground带来了最高达23%的一致性提升,而P-ground效果更为显著,使Llama-3.3(70B)提升41%,Qwen-3(30B)提升27%。这些结果凸显了提升操作安全性的迫切需求,同时也表明基于提示的引导方法是迈向更可靠LLM智能体的第一步,具有重要潜力。


28. Humanline: Online Alignment as Perceptual Loss

作者: Sijia Liu, Niklas Muennighoff, Kawin Ethayarajh

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-29 | 👍 点赞数: 9

摘要:

论文标题:Humanline:将在线对齐视为感知损失

中文摘要:
在线对齐方法(例如 GRPO)通常比离线对齐方法(例如 DPO)具有更好的性能——但原因何在?借鉴行为经济学中的前景理论(prospect theory),我们提出了一种以人类为中心的解释。我们证明,在线的策略内采样(on-policy sampling)能更准确地逼近人类所感知到的模型输出分布,而PPO/GRPO风格的裁剪机制——最初仅为稳定训练而引入——恰好还原了人类在概率感知上的某种认知偏差。从这个角度看,PPO/GRPO本质上已经起到了“感知损失”(perceptual loss)的作用。我们的理论进一步指出,在线与离线的二分法本身并非最大化人类效用的关键:只要我们以模拟人类感知方式的选择性训练策略处理任意数据,即可达到相同效果,而不必局限于在线策略内的数据。这种方法使得我们能够在不牺牲性能的前提下,更快速、低成本且灵活地进行后训练。基于此,我们提出一种设计范式,将人类对概率的感知扭曲显式地融入DPO、KTO、GRPO等目标函数中,从而构建其“humanline”变体。令人惊讶的是,我们发现这些humanline变体即使使用离线非策略数据(offline off-policy data)进行训练,也能在可验证与不可验证任务上均达到与其在线版本相当的性能表现。


29. Voice Evaluation of Reasoning Ability: Diagnosing the Modality-Induced

Performance Gap

作者: Yueqian Lin, Zhengmian Hu, Qinsi Wang, Yudong Liu, Hengfan Zhang, Jayakumar Subramanian, Nikos Vlassis, Hai Helen Li, Yiran Chen

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-30 | 👍 点赞数: 8

摘要:

论文标题:语音模态下的推理能力评估:诊断模态引发的性能差距

中文摘要:
本文提出“语音推理能力评估”(Voice Evaluation of Reasoning Ability, VERA),这是一个在实时对话约束下评估语音交互系统推理能力的基准测试。VERA 包含 2,931 个源自现有文本基准的原生语音任务,分为五个赛道:数学、网页交互、科学、长上下文和事实推理。每个题目均针对语音交互进行了适配,同时保持原有的推理难度不变。VERA 支持在同一模型家族内进行直接的文本与语音对比,并可用于分析不同架构选择对系统可靠性的影响。我们评估了 12 个当前主流的语音系统,并与强大的文本基线模型进行比较,发现存在显著且一致的模态差距:在竞赛级数学任务中,领先的文本模型准确率达到 74.8%,而其对应的语音系统仅为 6.1%;在所有赛道上的宏平均准确率方面,最佳文本模型为 54.0%,而语音系统仅为 11.3%。延迟-准确率分析揭示了一个低延迟性能平台期:快速响应的语音系统准确率普遍集中在约 10% 左右,而要接近文本模型的表现,则必须牺牲实时交互性。诊断性实验表明,常见的缓解策略效果有限:增加“思考时间”带来的性能提升微乎其微;采用将推理与叙述过程解耦的级联架构虽能提升准确率,但仍远低于文本模型表现,并引入了特有的 grounding(指代表征)与一致性错误。失败案例分析进一步揭示了原生流式处理、端到端模型以及级联架构之间不同的错误模式。VERA 提供了一个可复现的测试平台和面向“思考与说话分离”架构的针对性诊断工具,为衡量迈向兼具流畅性与可靠推理能力的实时语音助手的发展进展提供了系统化的方法。


30. A Cartography of Open Collaboration in Open Source AI: Mapping

Practices, Motivations, and Governance in 14 Open Large Language Model Projects

作者: Johan Linåker, Cailean Osborne, Jennifer Ding, Ben Burtenshaw

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-29 | 👍 点赞数: 8

摘要:

论文标题:开源人工智能中的开放协作图谱:14个开源大语言模型项目的实践、动机与治理映射

中文摘要:
开源大语言模型(LLMs)的迅速发展正在推动人工智能(AI)领域形成一个充满活力的研究与创新生态系统。然而,目前尚缺乏对开源LLM在公开发布前后所采用协作方式的系统性研究,这限制了我们对开源LLM项目如何发起、组织和治理的理解,也影响了进一步促进该生态系统发展的机会把握。本文通过探索性分析14个开源大语言模型从开发到再利用全生命周期中的开放协作实践,填补了这一研究空白。研究数据来源于对来自北美、欧洲、非洲和亚洲的草根项目、研究机构、初创企业及大型科技公司等14个开源LLM开发者进行的半结构化访谈。本研究为学术界和实践界提供了三项主要贡献:第一,开源LLM项目中的协作远不止于模型本身,还包括数据集、基准测试、开源框架、排行榜、知识共享与讨论平台以及算力合作等多种形式;第二,开源LLM开发者具有多样化的社会、经济和技术动机,包括推动人工智能的普惠化、促进开放科学、构建区域性技术生态以及扩展语言多样性表征等;第三,样本中的开源LLM项目呈现出五种不同的组织模式,从单一公司主导的项目到非营利组织支持的草根项目不等,这些模式在控制权集中程度以及在整个LLM生命周期中所采取的社区参与策略方面存在显著差异。最后,本文为希望支持全球社区共建更加开放的人工智能未来的各类利益相关方提出了具体的实践建议。


31. InfoAgent: Advancing Autonomous Information-Seeking Agents

作者: Gongrui Zhang, Jialiang Zhu, Ruiqi Yang, Kai Qiu, Miaosen Zhang, Zhirong Wu, Qi Dai, Bei Liu, Chong Luo, Zhengyuan Yang, Linjie Li, Lijuan Wang, Weizhu Chen, Yuan Zhang, Xin Li, Zhaoyi Liu, Xin Geng, Baining Guo

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-29 | 👍 点赞数: 8

摘要:

论文标题:InfoAgent:推进自主信息检索智能体

中文摘要:
构建能够通过与外部工具交互来扩展自身能力的大语言模型智能体,是人工智能研究与应用的新前沿。本文提出了InfoAgent,一种由创新的数据合成流程驱动并结合协同调度的网络搜索工具的深度研究型智能体。为了构造具有挑战性且难以查找答案的查询问题,我们构建了实体树,并采用子树采样结合实体模糊化的方法,系统性地提升问题难度。与以往主要依赖商业搜索工具的研究不同,我们开发了一套专用的自托管搜索基础设施,从而增强了智能体环境的透明度,并有助于进一步推动智能体能力的发展。我们通过测量正确回答一个问题所需的平均工具调用次数,来评估所提出数据流水线的有效性,同时验证了使用我们自研工具时智能体性能更优。InfoAgent基于Qwen3-14B模型,采用两阶段训练策略进行后训练:首先进行冷启动监督微调,以培养长视野的搜索行为;随后引入强化学习,显著提升了基于推理的工具使用能力。实验结果表明,我们的方法在多个基准上取得了优异表现,在BrowseComp上达到15.3%的准确率,在BrowseComp-ZH上为29.2%,在Xbench-DS上达到40.4%,优于WebSailor-72B和DeepDive-32B等先前的开源深度研究智能体。


32. Ferret-UI Lite: Lessons from Building Small On-Device GUI Agents

作者: Zhen Yang, Zi-Yi Dou, Di Feng, Forrest Huang, Anh Nguyen, Keen You, Omar Attia, Yuhao Yang, Michael Feng, Haotian Zhang, Ram Ramrakhya, Chao Jia, Jeffrey Nichols, Alexander Toshev, Yinfei Yang, Zhe Gan

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-30 | 👍 点赞数: 7

摘要:

论文标题:Ferret-UI Lite:构建小型设备端GUI智能体的经验

中文摘要:
开发能够有效与图形用户界面(GUI)交互的自主智能体仍是一个具有挑战性的开放问题,尤其是对于小型设备端模型而言。本文提出了Ferret-UI Lite,一种紧凑型、端到端的GUI智能体,可在多种平台(包括移动端、网页端和桌面端)上运行。通过采用针对小型模型优化的技术,我们利用来自真实场景与合成数据的多样化GUI数据混合集,构建了参数量为30亿(3B)的Ferret-UI Lite智能体;并通过思维链推理、视觉工具使用以及基于设计奖励的强化学习方法,提升了其在推理阶段的表现。Ferret-UI Lite在与其他小型GUI智能体的对比中展现出具有竞争力的性能。在GUI元素定位任务中,Ferret-UI Lite在ScreenSpot-V2、ScreenSpot-Pro和OSWorld-G基准测试上的得分分别为91.6%、53.3%和61.2%;在GUI导航任务中,在AndroidWorld和OSWorld上的成功率分别达到28.0%和19.8%。本文还分享了我们在开发紧凑型设备端GUI智能体过程中的方法与经验总结。


33. VisualOverload: Probing Visual Understanding of VLMs in Really Dense

Scenes

作者: Paul Gavrikov, Wei Lin, M. Jehanzeb Mirza, Soumya Jahagirdar, Muhammad Huzaifa, Sivan Doveh, Serena Yeung-Levy, James Glass, Hilde Kuehne

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-29 | 👍 点赞数: 7

摘要:

论文标题:VisualOverload:探究视觉语言模型在极度密集场景中的视觉理解能力

中文摘要:
当前最先进的视觉语言模型(VLMs)是否真正解决了基础视觉理解问题?我们提出了VisualOverload,这是一个略有不同的视觉问答(VQA)基准数据集,包含2,720个问答对,并配有不公开的真实答案。与以往主要关注整体图像理解的VQA数据集不同,VisualOverload要求模型在高度密集(即“过载”)的场景中完成简单且无需外部知识的视觉任务。本数据集由公共领域绘画作品的高分辨率扫描图像构成,画面中包含多个角色、动作以及交织的情节线索,并置于细节极为丰富的背景之上。我们针对这些图像手工标注了涵盖六个任务类别的问题,以检验模型对场景的深入理解能力。我们假设,现有基准可能高估了VLMs的实际性能,而对复杂细节的编码与推理对当前模型而言仍是重大挑战,尤其是在面对高度密集的视觉场景时。实验结果证实,在测试的37个模型中表现最佳的模型(o3)在最具挑战性的测试子集上准确率仅为19.6%,在全部问题上的平均准确率为69.5%。除了全面的评估外,我们还进行了错误分析,揭示了多种典型的失败模式,包括计数能力不足、OCR识别失败,以及在复杂任务中出现明显的逻辑不一致。综上所述,VisualOverload暴露了当前视觉模型中存在的关键缺陷,为学术界提供了一个重要的资源,以推动更强大视觉模型的发展。
基准网站:http://paulgavrikov.github.io/visualoverload


34. Benefits and Pitfalls of Reinforcement Learning for Language Model

Planning: A Theoretical Perspective

作者: Siwei Wang, Yifei Shen, Haoran Sun, Shi Feng, Shang-Hua Teng, Li Dong, Yaru Hao, Wei Chen

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-26 | 👍 点赞数: 7

摘要:

论文标题:强化学习用于语言模型规划的益处与陷阱:一种理论视角

中文摘要: 近期的强化学习(Reinforcement Learning, RL)方法显著提升了大语言模型(Large Language Models, LLMs)的规划能力,但其有效性的理论基础仍不清晰。在本研究中,我们通过一个可处理的基于图的抽象模型,从理论上探讨了RL在规划中的优势与局限,重点关注策略梯度(Policy Gradient, PG)和Q学习(Q-learning)方法。我们的理论分析表明,监督微调(Supervised Fine-Tuning, SFT)可能引入基于共现关系的虚假解,而强化学习主要通过探索机制实现正确的规划行为,凸显了探索在提升泛化能力方面的重要作用。然而,我们也发现PG方法存在多样性崩溃问题,即在训练过程中输出多样性逐渐下降,甚至在达到完美准确率后仍无法恢复。相比之下,Q学习具有两个关键优势:支持离策略学习(off-policy learning),并在收敛时保持输出多样性。我们进一步证明,必须谨慎设计奖励函数,以防止Q学习中出现奖励博弈(reward hacking)现象。最后,我们将该框架应用于真实世界的规划基准任务Blocksworld,验证了上述理论现象在实践中的确存在。


35. Learning to Reason as Action Abstractions with Scalable Mid-Training RL

作者: Shenao Zhang, Donghan Yu, Yihao Feng, Bowen Jin, Zhaoran Wang, John Peebles, Zirui Wang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-30 | 👍 点赞数: 5

摘要:

论文标题:将推理学习作为可扩展中段训练强化学习中的动作抽象

中文摘要:
大型语言模型在结合强化学习(RL)时表现出色,但要充分释放其潜力,需要引入一个中段训练(mid-training)阶段。一个有效的中段训练阶段应当识别出一组紧凑且有用的动作,并通过在线强化学习实现对这些动作的快速选择。我们通过提出首个关于中段训练如何影响后续后训练(post-training)性能的理论结果,形式化了这一直觉:该结果刻画了一个动作子空间,该子空间同时最小化剪枝带来的值函数近似误差以及后续规划过程中的强化学习误差。我们的分析揭示了中段训练有效性的两个关键因素:剪枝效率,它决定了初始强化学习策略的先验分布;以及其对强化学习收敛性的影响,这决定了该策略能通过在线交互得到多大程度的改进。这些结果表明,当中决策空间紧凑且有效决策 horizon 较短时,中段训练最为有效,突显了在动作抽象空间而非原始动作空间中进行操作的重要性。基于上述洞察,我们提出了“将推理视为动作抽象”(Reasoning as Action Abstractions, RA3),一种可扩展的中段训练算法。具体而言,我们推导出一个序列变分下界,并通过迭代方式利用强化学习发现时间上一致的潜在结构,随后在自举生成的数据上进行微调来优化该下界。在代码生成任务上的实验验证了我们方法的有效性。在多个基础模型上,RA3 在 HumanEval 和 MBPP 基准上相比基础模型和下一词预测基线平均提升了 8 和 4 个百分点。此外,在 HumanEval+、MBPP+、LiveCodeBench 和 Codeforces 上的 RLVR 评估中,RA3 实现了更快的收敛速度和更高的渐近性能。


36. jina-reranker-v3: Last but Not Late Interaction for Document Reranking

作者: Feng Wang, Yuqing Li, Han Xiao

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-29 | 👍 点赞数: 5

摘要:

论文标题:jina-reranker-v3:用于文档重排序的“最后但非滞后”交互机制

中文摘要:
jina-reranker-v3 是一个拥有 6 亿参数的多语言文档重排序模型,提出了一种新颖的“最后但非滞后”(last but not late)交互机制。与 ColBERT 等采用分离编码再进行多向量匹配的滞后交互(late interaction)模型不同,我们的方法在相同的上下文窗口内对查询和文档之间进行因果自注意力(causal self-attention)交互,使得在从每个文档的最后一个标记提取上下文化嵌入之前,能够实现丰富的跨文档交互。该紧凑架构在 BEIR 基准测试中达到了 61.94 的 nDCG@10 成绩,性能达到当前最优水平,同时模型规模比生成式列表式(generative listwise)重排序器小十倍。


37. Test-Time Policy Adaptation for Enhanced Multi-Turn Interactions with

LLMs

作者: Chenxing Wei, Hong Wang, Ying He, Fei Yu, Yao Shu

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-27 | 👍 点赞数: 5

摘要:

论文标题:面向增强多轮交互的LLM测试时策略自适应

中文摘要:
大语言模型(LLMs)采用多轮交互作为完成复杂任务的基本范式。然而,在较长的对话过程中,其性能往往下降,原因在于这些模型通常在静态的单轮数据上进行训练,难以适应实时的用户反馈。为解决这一局限,我们首先提出一种新范式——面向多轮交互的测试时策略自适应(Test-Time Policy Adaptation for Multi-Turn Interactions, T2PAM)。该方法将当前交互过程中的用户反馈作为奖励信号,用于估计一个与用户偏好一致的潜在最优策略,并仅更新模型的一小部分参数,以引导模型向该策略靠拢,从而实现对话过程中的高效自我修正。接着,我们提出了“基于最优参考的单步自适应”(Optimum-Referenced One-Step Adaptation, ROSA)算法,作为T2PAM的具体实现方案。ROSA通过一次高效更新步骤,将模型参数导向理论上的最优策略,避免了高成本的迭代梯度优化过程,显著降低了计算开销。我们提供了严格的理论分析,证明随着交互次数的增加,ROSA的策略将收敛至用户的偏好。在多个具有挑战性的基准任务上的大量实验表明,ROSA在任务有效性与执行效率方面均实现了显著提升。


38. The Pitfalls of KV Cache Compression

作者: Alex Chen, Renato Geh, Aditya Grover, Guy Van den Broeck, Daniel Israel

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-30 | 👍 点赞数: 4

摘要:

论文标题:KV缓存压缩的陷阱

中文摘要: KV缓存压缩技术承诺在几乎不损失性能的前提下显著提升吞吐量和运行效率。尽管其在吞吐量方面的增益无可争议,且近期文献确实表明在某些特定基准测试中性能下降极小,但在多指令提示等更贴近实际应用的场景下,压缩带来的影响尚未得到充分研究。本文指出了在部署经过KV缓存压缩的大型语言模型(LLM)时,实践者应注意的若干潜在问题。尤为重要的是,我们发现某些指令在压缩条件下性能下降尤为显著,甚至导致模型完全忽略这些指令。作为具体实例,本文以系统提示泄露(system prompt leakage)为案例展开研究,通过实验揭示了压缩对提示泄露及通用指令遵循能力的影响。我们分析了影响提示泄露的多个关键因素,包括压缩方法、指令顺序以及KV项淘汰偏差(KV eviction bias)。在此基础上,我们提出了对KV缓存淘汰策略的若干简单改进方案,可有效减轻上述因素的负面影响,从而提升模型在多指令任务中的整体表现。


39. Context Is What You Need: The Maximum Effective Context Window for Real

World Limits of LLMs

作者: Norman Paulsen

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-21 | 👍 点赞数: 4

摘要:

论文标题:上下文才是关键:大语言模型实际应用中最大有效上下文窗口研究

中文摘要:
大型语言模型(LLM)提供商普遍宣传其模型具有极大的最大上下文窗口容量。为了检验上下文窗口在现实场景中的实际效用,我们:1)提出了“最大有效上下文窗口”(maximum effective context window)的概念;2)设计了一种评估不同上下文窗口尺寸及不同类型任务下上下文有效性的测试方法;3)建立了一套标准化的评估流程,用于比较模型在不断增大的上下文窗口下的表现,以确定其性能失效的临界点。我们在多个模型上收集了数十万个数据点,发现厂商宣称的“最大上下文窗口”(MCW)与我们测得的“最大有效上下文窗口”(MECW)之间存在显著差异。研究结果表明,MECW不仅远小于MCW,而且随任务类型的不同而变化。在我们的测试中,一些顶级模型在仅包含100个token的上下文时即出现失败;大多数模型在上下文达到1000个token时准确率已严重下降。所有模型的实际有效窗口均远未达到其宣称的最大上下文长度,差距最高达99%。我们的数据揭示了最大有效上下文窗口会因任务类型而异,这一发现为提升模型准确性、降低幻觉率提供了明确且可操作的洞见。


40. DeepCodeSeek: Real-Time API Retrieval for Context-Aware Code Generation

作者: Esakkivel Esakkiraja, Denis Akhiyarov, Aditya Shanmugham, Chitra Ganapathy

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-30 | 👍 点赞数: 3

摘要:

论文标题:DeepCodeSeek:面向上下文感知代码生成的实时API检索

中文摘要:
当前的搜索技术主要局限于标准的RAG(检索增强生成)查询-文档应用场景。本文提出一种新颖的技术,通过扩展代码索引以预测所需API,直接支持高质量、端到端的代码生成,适用于代码自动补全和智能体式AI应用。针对现有代码到代码基准数据集中存在的API泄露问题,我们构建了一个全新的数据集,该数据集源自真实世界的ServiceNow Script Includes,能够更好地反映代码中API使用意图不明确的实际挑战。评估结果表明,该方法在前40个检索结果中的准确率达到87.86%,有效提供了下游代码生成所必需的关键API上下文信息。为了实现高效的实时预测,我们设计了一套完整的后训练流程,通过合成数据集生成、有监督微调以及强化学习,优化了一个紧凑的0.6B重排序模型。该方法使我们的小型重排序器在性能上超越了更大的8B模型,同时将延迟降低了2.5倍,能够在无需大型模型计算开销的前提下,有效应对企业特定代码的复杂性。


41. Nudging the Boundaries of LLM Reasoning

作者: Justin Chih-Yao Chen, Becky Xiangyu Peng, Prafulla Kumar Choubey, Kung-Hsiang Huang, Jiaxin Zhang, Mohit Bansal, Chien-Sheng Wu

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-30 | 👍 点赞数: 3

摘要:

论文标题:推动大语言模型推理能力边界的“ nudging”方法

中文摘要:
当前的在线强化学习(RL)算法(如GRPO)在提升大语言模型(LLM)推理能力方面存在一个关键局限:它们无法从对模型而言“不可解”的问题中进行学习。换句话说,这些方法只能在模型有能力探索出正确答案的问题上提升性能。因此,即使在强化学习训练后,模型的“上限”依然保持不变,尽管解决较简单、可解问题的概率可能有所提高。对于这些困难样本,由于所有生成路径(rollouts)均无法获得奖励,因而无法产生梯度,导致其无法参与训练过程。为了使模型能够从这类困难样本中学习,我们提出了NuRL——一种通过自生成提示(hints)来“ nudging”(推动)大语言模型推理能力上限的方法。这些提示是指帮助模型降低问题难度的抽象线索。给定一个问题及其标准答案,模型首先生成思维链(CoT),然后提炼出包含解决问题所需核心知识的提示。在训练过程中,我们从基础策略生成G条 rollout 路径,并依据通过率决定是否注入提示:对于通过率为0%的困难样本,我们注入提示并重新生成一批新的轨迹。这一机制带来两个优势:(1)提示提升了通过率(从0%变为非零),从而为原先不可解的样本引入了有效的训练信号;(2)提示由模型自身生成,避免了分布偏移问题,且不依赖外部模型。NuRL在6个基准任务和3种不同模型上均实现了持续稳定的性能提升,同时与测试时扩展(test-time scaling)方法相辅相成。值得注意的是,NuRL能够真正提升模型的能力上限,而GRPO则无法改变原始模型的pass@1024指标。此外,我们系统地研究了有效提示的关键特征及其最适用的场景。有趣的是,最有效的提示往往是抽象且高层次的,并且在GRPO训练收敛之后、仅在必要时应用效果最佳。


42. TAU: A Benchmark for Cultural Sound Understanding Beyond Semantics

作者: Yi-Cheng Lin, Yu-Hua Chen, Jia-Kai Dong, Yueh-Hsuan Huang, Szu-Chi Chen, Yu-Chen Chen, Chih-Yao Chen, Yu-Jung Lin, Yu-Ling Chen, Zih-Yu Chen, I-Ning Tsai, Hsiu-Hsuan Wang, Ho-Lam Chung, Ke-Han Lu, Hung-yi Lee

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-30 | 👍 点赞数: 2

摘要:

论文标题:TAU:一种超越语义的文化声音理解基准

中文摘要:
大型音频-语言模型正迅速发展,但现有评估大多侧重于语音或全球范围采集的声音,忽视了具有文化独特性的听觉线索。这一空白引发了一个关键问题:当前的模型是否能够泛化到那些特定地区人群能立即识别、而局外人却难以理解的本地化、非语义音频?为解决这一问题,我们提出了TAU(台湾音频理解,Taiwan Audio Understanding),这是一个涵盖日常台湾“声音标识”(soundmarks)的基准数据集。TAU通过整合精选音源、人工编辑和大语言模型辅助的问题生成流程构建而成,共包含702段音频片段和1,794道多项选择题,且这些问题无法仅凭文本转录内容解答。实验表明,包括Gemini 2.5和Qwen2-Audio在内的最先进的音频-语言模型表现远低于本地人类受试者。TAU凸显了建立本地化评估基准的重要性,以揭示模型在文化理解上的盲区,推动更公平的多模态评估体系,并确保模型能够服务于全球主流之外的多元社区。


43. EntroPE: Entropy-Guided Dynamic Patch Encoder for Time Series

Forecasting

作者: Sachith Abeywickrama, Emadeldeen Eldele, Min Wu, Xiaoli Li, Chau Yuen

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-30 | 👍 点赞数: 2

摘要:

论文标题:EntroPE:面向时间序列预测的熵引导动态 Patch 编码器

中文摘要:
基于Transformer的模型在时间序列预测中取得了显著进展,其中基于patch的输入策略在提升效率和长期预测建模方面表现出优势。然而,现有方法通常采用时间无关的patch构建方式,其任意的起始位置和固定的长度容易在边界处分割自然的时间过渡,破坏时间连续性。这种简单的分割方式常常扰乱短期依赖关系,削弱表征学习能力。为此,我们提出EntroPE(Entropy-Guided Dynamic Patch Encoder,熵引导动态Patch编码器)——一种新颖的、具有时间感知能力的框架,该框架通过条件熵动态检测时间序列中的状态转移点,并据此自适应地划分patch边界。该方法在保留patching计算效率的同时,有效保持了时间结构的完整性。EntroPE包含两个核心模块:一是基于熵的动态分块模块(Entropy-based Dynamic Patcher, EDP),利用信息论准则识别自然的时间变化点并确定最优patch边界;二是自适应Patch编码器(Adaptive Patch Encoder, APE),通过池化操作和交叉注意力机制捕捉patch内部的依赖关系,并生成固定维度的潜在表征。这些表征随后由全局Transformer模型处理,以建模patch间的动态关系。在多个长期预测基准任务上的实验结果表明,EntroPE在预测精度和计算效率方面均优于现有方法,验证了熵引导的动态patching作为时间序列建模的一种新范式的潜力。代码已公开发布于:https://github.com/Sachithx/EntroPE。


44. Who invented deep residual learning?

作者: Juergen Schmidhuber

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-29 | 👍 点赞数: 2

摘要:

论文标题:谁发明了深度残差学习?

中文摘要: 现代人工智能基于深度人工神经网络(NN)。截至2025年,21世纪被引用次数最多的科学论文是一篇关于具有残差连接的深度残差学习的神经网络论文。那么,这项技术究竟是由谁发明的?本文呈现了深度残差学习发展历程的时间线。


45. Specialization after Generalization: Towards Understanding Test-Time

Training in Foundation Models

作者: Jonas Hübotter, Patrik Wolf, Alexander Shevchenko, Dennis Jüni, Andreas Krause, Gil Kur

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-29 | 👍 点赞数: 2

摘要:

论文标题:先泛化后专业化:深入理解基础模型中的测试时训练

中文摘要:
近期的实证研究探索了在测试阶段继续对特定任务进行模型训练的方法,即测试时训练(test-time training, TTT),并发现其能显著提升模型性能。然而,目前对于TTT为何以及在何种情况下有效仍缺乏充分理解。早期的解释主要集中在TTT在分布外适应或使用特权数据时可能带来益处这一观察上。然而,随着基础模型规模的不断扩大,大多数测试数据实际上处于分布内,这使得上述解释面临挑战。本文提出,基础模型在全局范围内仍然存在欠参数化问题,而TTT提供了一种“先泛化后专业化”的机制,使模型能够将表示能力集中于与当前测试任务相关的概念上。具体而言,在线性表征假设下,我们提出了一个理论模型,表明TTT相较于全局训练可在分布内测试误差上实现显著降低。我们通过在ImageNet上训练稀疏自编码器,实证验证了该模型的关键假设,结果表明语义相关数据点仅由少数共享概念即可解释。最后,我们在图像和语言任务上开展了扩展性研究,验证了理论模型的实际意义,并识别出专业化的有效性最为显著的作用区间。


46. Knowledge Homophily in Large Language Models

作者: Utkarsh Sahu, Zhisheng Qi, Mahantesh Halappanavar, Nedim Lipka, Ryan A. Rossi, Franck Dernoncourt, Yu Zhang, Yao Ma, Yu Wang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-28 | 👍 点赞数: 2

摘要:

论文标题:大语言模型中的知识同质性

中文摘要:
大语言模型(Large Language Models, LLMs) increasingly 被作为神经知识库用于支持知识密集型应用,如问答和事实核查。然而,其内部知识的结构化组织方式仍缺乏探索。受认知神经科学中语义聚类和启动效应等发现的启发——即知晓某一事实会提高回忆相关事实的可能性——我们探究了LLMs中类似的“知识同质性”模式。为此,我们通过在三元组和实体层面进行知识检测,将LLM中的知识映射为图结构表示。随后,我们分析实体与其邻近实体之间的知识可及性(knowledgeability)关系,发现LLM倾向于对图中位置相近的实体表现出相似程度的知识掌握水平。基于这一同质性原则,我们提出一种图神经网络(Graph Neural Network, GNN)回归模型,利用邻域实体的知识可及性得分来预测三元组的实体级知识可及性分数。所预测的知识可及性使我们能够优先检查那些知识掌握较弱的三元组,从而在相同的标注预算下最大化知识覆盖范围。这不仅提升了针对知识注入的微调任务中主动标注的效率,也增强了在复杂推理问答中的多跳路径检索能力。


47. d^2Cache: Accelerating Diffusion-Based LLMs via Dual Adaptive Caching

作者: Yuchu Jiang, Yue Cai, Xiangzhong Luo, Jiale Fu, Jiarui Wang, Chonghan Liu, Xu Yang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-27 | 👍 点赞数: 2

摘要:

论文标题:d²Cache:基于双重自适应缓存加速扩散式大语言模型

中文摘要:
尽管基于扩散的大语言模型(dLLMs)表现出良好的性能,但其推理效率仍然较低。这是因为dLLMs依赖双向注意力机制,无法像自回归模型(ARMs)那样直接利用标准的键值(KV)缓存。为解决这一问题,我们提出了双重自适应缓存(d²Cache),这是一种无需训练的近似KV缓存框架,旨在加速dLLM的推理过程。d²Cache采用两阶段细粒度选择策略,在每一步解码过程中识别关键token,并自适应地更新它们的KV状态,同时将其余token的KV状态进行缓存以供后续复用。此外,d²Cache自然提供了一种更可靠的解码方式,能够实现准从左到右的生成过程,并缓解序列末尾token过早出现过度置信的问题。在两个具有代表性的dLLM(即LLaDA和Dream)上的大量实验结果表明,d²Cache不仅能显著提升推理速度,还在生成质量方面带来持续的改进。代码已公开发布于 https://github.com/Kamichanw/d2Cache。


48. BuildBench: Benchmarking LLM Agents on Compiling Real-World Open-Source

Software

作者: Zehua Zhang, Ati Priya Bajaj, Divij Handa, Siyu Liu, Arvind S Raj, Hongkai Chen, Hulin Wang, Yibo Liu, Zion Leonahenahe Basque, Souradip Nath, Vishal Juneja, Nikhil Chapre, Yan Shoshitaishvili, Adam Doupé, Chitta Baral, Ruoyu Wang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-27 | 👍 点赞数: 2

摘要:

论文标题:BuildBench:在真实世界开源软件编译任务上对大语言模型代理进行基准测试

中文摘要:
自动编译开源软件(OSS)项目是一项关键但劳动密集且复杂的任务,因此为大语言模型代理(LLM Agents)提供了一个良好的挑战场景。现有方法依赖于人工整理的规则和工作流程,难以适应需要定制化配置或环境搭建的开源项目。近期一些基于大语言模型(LLM)的研究仅在一小部分评分较高的开源项目上进行选择性评估,这种做法低估了实际中开源软件编译所面临的挑战。在实践中,编译说明常常缺失,依赖关系未被记录,甚至成功构建还可能需要修补源文件或修改构建脚本。为此,我们提出一个更具挑战性和现实性的基准测试集 BUILD-BENCH,涵盖质量、规模和特征更加多样化的开源项目。此外,我们设计了一个强大的基于大语言模型的基线代理系统 OSS-BUILD-AGENT,该系统具备增强的构建指令检索模块,在 BUILD-BENCH 上实现了当前最优的性能,并能适应异构的开源项目特性。我们还对不同编译方法的设计选择及其对整体任务的影响进行了详细分析,为未来研究提供了有价值的见解。我们认为,BUILD-BENCH 上的表现能够真实反映智能代理应对复杂软件工程任务(如编译)的能力,因此该基准有望推动软件开发与软件安全等领域下游应用的技术创新。


49. Video Object Segmentation-Aware Audio Generation

作者: Ilpo Viertola, Vladimir Iashin, Esa Rahtu

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-30 | 👍 点赞数: 1

摘要:

论文标题:面向视频对象分割的音频生成

中文摘要:
现有的多模态音频生成模型通常缺乏精确的用户控制能力,这限制了其在专业拟音(Foley)工作流程中的应用。特别是,这些模型通常针对整个视频进行处理,无法提供有效机制来突出场景中的特定对象,容易产生不必要的背景声音,或错误地聚焦于非目标物体。为解决这一问题,我们提出了“视频对象分割感知的音频生成”这一新任务,该任务将声音合成显式地建立在对象级分割图的基础上。我们提出了SAGANet——一种新的多模态生成模型,通过结合视觉分割掩码、视频信息和文本提示,实现可控的音频生成。该模型为用户提供了细粒度且视觉定位精准的音频生成控制。为了支持该任务以及推动面向分割的拟音研究,我们构建了“分段乐器独奏”(Segmented Music Solos)数据集,这是一个包含乐器演奏视频及其对应分割信息的基准数据集。实验结果表明,我们的方法在当前最先进的技术基础上实现了显著提升,为可控、高保真的拟音合成树立了新标准。代码、生成样本及Segmented Music Solos数据集详见 https://saganet.notion.site


50. Probing the Critical Point (CritPt) of AI Reasoning: a Frontier Physics

Research Benchmark

作者: Minhui Zhu, Minyang Tian, Xiaocheng Yang, Tianci Zhou, Penghao Zhu, Eli Chertkov, Shengyan Liu, Yufeng Du, Lifan Yuan, Ziming Ji, Indranil Das, Junyi Cao, Yufeng Du, Jinchen He, Yifan Su, Jiabin Yu, Yikun Jiang, Yujie Zhang, Chang Liu, Ze-Min Huang, Weizhen Jia, Xinan Chen, Peixue Wu, Yunkai Wang, Juntai Zhou, Yong Zhao, Farshid Jafarpour, Jessie Shelton, Aaron Young, John Bartolotta, Wenchao Xu, Yue Sun, Anjun Chu, Victor Colussi, Chris Akers, Nathan Brooks, Wenbo Fu, Christopher Wilson, Jinchao Zhao, Marvin Qi, Anqi Mu, Yubo Yang, Allen Zang, Yang Lyu, Peizhi Mai, Xuefei Guo, Luyu Gao, Ze Yang, Chi Xue, Dmytro Bandak, Yaïr Hein, Yonatan Kahn, Kevin Zhou, John Drew Wilson Jarrod T. Reilly, Di Luo, Daniel Inafuku, Hao Tong, Liang Yang, Ruixing Zhang, Xueying Wang, Ofir Press, Nicolas Chia, Eliu Huerta, Hao Peng

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-30 | 👍 点赞数: 1

摘要:

论文标题:探究AI推理的临界点(CritPt):一个前沿物理研究基准

中文摘要:
尽管具备推理能力的大语言模型(LLMs)在高中数学竞赛和编程任务上进展迅速,它们是否能够有效应对前沿物理研究中常见的复杂且开放性的问题?更重要的是,物理学家真正希望LLMs在哪些类型的推理任务中提供帮助?为回答这些问题,我们提出了CritPt(Complex Research using Integrated Thinking - Physics Test,即“集成思维下的复杂研究——物理测试”,发音为“critical point”),这是首个专门针对未发表、研究级别推理任务设计的基准测试,广泛覆盖现代物理学的研究领域,包括凝聚态物理、量子物理、原子分子与光物理、天体物理、高能物理、数学物理、统计物理、核物理、非线性动力学、流体力学以及生物物理等。

CritPt包含71个复合型研究挑战,旨在模拟入门级别的完整科研项目,并进一步分解为190个较简单的检查点任务,以提供更细粒度的评估洞察。所有题目均由50多位活跃在一线的物理研究人员基于自身研究原创设计。每个问题均经过人工精心策划,确保答案具有抗猜测性且可由机器自动验证,并通过高度定制化的自动化评分流程进行评估,该流程能处理高级物理特有的复杂输出格式。

我们发现,尽管当前最先进的大语言模型在个别检查点任务上初现潜力,但在可靠解决完整规模的研究挑战方面仍有显著差距:基础模型中的最高平均准确率仅为4.0%,由GPT-5(high)取得;当配备编程工具后,性能适度提升至约10%。通过CritPt所提供的真实而又标准化的评估环境,我们揭示了当前模型能力与实际物理研究需求之间的巨大鸿沟,并为发展面向科学应用的AI工具提供了明确的方向和基础。


51. Swift: An Autoregressive Consistency Model for Efficient Weather

Forecasting

作者: Jason Stock, Troy Arcomano, Rao Kotamarthi

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-30 | 👍 点赞数: 1

摘要:

论文标题:Swift:一种用于高效天气预报的自回归一致性模型

中文摘要:
扩散模型为概率性天气预报提供了一个具有物理基础的框架,但其在推理过程中通常依赖缓慢的迭代求解器,这使得它们在次季节至季节尺度(S2S)预报中的应用不切实际,而此类应用恰恰对长预测时效和基于领域的校准至关重要。为解决这一问题,我们提出了Swift——一种单步一致性模型,首次实现了以连续排序概率评分(CRPS)为目标函数对概率流模型进行自回归微调。该方法无需多模型集成或参数扰动。实验结果表明,Swift能够生成高技巧性的每6小时预报,且在长达75天的预测中保持稳定性,运行速度比当前最先进的扩散模型基线快39倍,同时预报技巧与基于数值模式的业务化IFS ENS系统相当。这项工作标志着向实现从中期到季节尺度上高效且可靠的集合预报迈出了重要一步。


52. LayerD: Decomposing Raster Graphic Designs into Layers

作者: Tomoyuki Suzuki, Kang-Jun Liu, Naoto Inoue, Kota Yamaguchi

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-29 | 👍 点赞数: 1

摘要:

论文标题:LayerD:将光栅图形设计分解为图层

中文摘要:
设计师通常以图层形式创建和编辑图形设计,但一旦合成为光栅图像后,基于图层的编辑便无法进行。在本研究中,我们提出了LayerD,一种将光栅图形设计分解为图层的方法,以支持可重新编辑的创作流程。LayerD通过迭代提取未被遮挡的前景图层来完成分解任务。我们提出了一种简单而有效的优化方法,利用了图形设计中图层通常具有均匀外观这一假设。由于分解问题本身是病态的(ill-posed),且真实图层结构可能不可靠,我们专门设计了一种质量度量指标来应对这一挑战。实验结果表明,LayerD能够实现高质量的分解效果,并优于各类基线方法。我们还展示了LayerD与最先进的图像生成模型以及基于图层的编辑工具结合使用的实际应用。


53. MANI-Pure: Magnitude-Adaptive Noise Injection for Adversarial

Purification

作者: Xiaoyi Huang, Junwei Wu, Kejia Zhang, Carl Yang, Zhiming Luo

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-29 | 👍 点赞数: 1

摘要:

论文标题:MANI-Pure:用于对抗性净化的幅度自适应噪声注入

中文摘要:
基于扩散模型的对抗性净化已成为一种颇具前景的防御策略,但现有方法通常依赖于均匀噪声注入,这种做法 indiscriminately 扰动所有频率成分,导致语义结构受损并削弱模型鲁棒性。我们的实证研究发现,对抗性扰动并非均匀分布:它们主要集中在高频区域,且在不同频率和攻击类型下表现出异质性的幅度强度模式。受此启发,我们提出了 MANI-Pure——一种基于输入信号幅度谱来引导净化过程的幅度自适应净化框架。与注入同质噪声的传统方法不同,MANI-Pure 自适应地施加异质化、频段定向的噪声,有效抑制脆弱的高频低幅度区域中的对抗扰动,同时保留语义上关键的低频内容。在 CIFAR-10 和 ImageNet-1K 上的大量实验验证了 MANI-Pure 的有效性。该方法将干净样本准确率与原始分类器的差距缩小至 0.59 以内,同时将鲁棒准确率提升了 2.15 个百分点,并在 RobustBench 榜单上取得了最高的 top-1 鲁棒准确率,超越了此前最先进的方法。


54. CORRECT: COndensed eRror RECognition via knowledge Transfer in

multi-agent systems

作者: Yifan Yu, Moyan Li, Shaoyuan Xu, Jinmiao Fu, Xinhai Hou, Fan Lai, Bryan Wang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-28 | 👍 点赞数: 1

摘要:

论文标题:CORRECT:基于知识迁移的多智能体系统轻量级错误识别

中文摘要:
多智能体系统(MAS)在应对复杂现实任务方面正变得日益强大,然而其对智能体间协调、工具使用以及长时程推理的依赖,使得错误识别尤为困难。微小的错误可能在多个智能体之间传播,最终演变为任务失败,同时产生冗长且相互交织的执行轨迹,给开发者人工调试和自动化系统分析带来高昂成本。本文的核心观点是:尽管不同失败轨迹(如日志)在表层表现上存在差异,MAS中的错误往往以相似的结构模式反复出现。为此,我们提出了CORRECT——首个轻量级、无需训练的框架,该框架利用一个在线缓存的精炼错误模式库,在新请求中实现对失败结构的知识识别与迁移。这种基于缓存的复用机制使大语言模型(LLM)能够在推理阶段进行有针对性的错误定位,无需昂贵的重新训练,同时可在亚秒级时间内适应动态变化的MAS部署环境。为了支持对该领域的严谨研究,我们还推出了CORRECT-Error数据集,这是一个规模超过2000条标注轨迹的大规模数据集,通过一种新颖的、基于真实世界分布引导的错误注入流程收集,并经过人工评估验证,确保其与自然错误模式保持一致。在七个不同MAS应用上的实验表明,CORRECT相较于现有先进方法,在几乎零开销的前提下,将步骤级别的错误定位准确率最高提升了19.8%,显著缩小了自动化与人类水平错误识别之间的差距。


55. Estimating Time Series Foundation Model Transferability via In-Context

Learning

作者: Qingren Yao, Ming Jin, Chengqi Zhang, Chao-Han Huck Yang, Jun Qi, Shirui Pan

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-28 | 👍 点赞数: 1

摘要:

论文标题:通过上下文学习估计时间序列基础模型的可迁移性

中文摘要:
时间序列基础模型(TSFMs)通过大规模预训练实现了强大的零样本预测能力,然而在公开数据有限的领域中,微调仍然是提升性能的关键。随着TSFM数量的不断增加,如何高效地识别最适合下游任务微调的模型变得愈发具有挑战性。本文提出TimeTic,一种将模型选择问题重新构建为上下文学习(in-context learning)任务的可迁移性估计框架:给定在已知(源)数据集上的观测结果,TimeTic能够预测某一TSFM在特定下游(目标)数据集上微调后的表现。TimeTic能够灵活地将已观察到的模型与数据之间的关系组织为上下文信息,从而无缝适应多种测试时场景。我们利用数据集元特征、模型特性与微调后性能所形成的自然表格结构,采用表格基础模型作为上下文学习器。进一步地,我们提出一种基于模型各层熵演化的新颖模型表征方法,该方法能够捕捉嵌入空间中的差异,使TimeTic可在任意模型集合之间实现良好泛化。我们构建了一个包含10个数据集、10个基础模型和3种预测任务的综合性可迁移性评估基准。在此基准上的实验表明,TimeTic对先前未见数据集的微调性能估计与真实结果高度一致,平均秩相关系数约为0.6,相较于使用零样本性能作为可迁移性评分的方法,性能提升了30%。


56. Convolutional Set Transformer

作者: Federico Chinello, Giacomo Boracchi

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-26 | 👍 点赞数: 1

摘要:

论文标题:卷积集合变换器(Convolutional Set Transformer)

中文摘要: 我们提出了卷积集合变换器(Convolutional Set Transformer, CST),这是一种新型神经网络架构,旨在处理具有任意数量、视觉上异构但共享高层语义(例如共同类别、场景或概念)的图像集合。现有的集合输入网络(如 Deep Sets 和 Set Transformer)仅限于向量输入,无法直接处理三维图像张量。因此,这些方法必须与特征提取器(通常是卷积神经网络 CNN)级联,先将图像编码为嵌入表示,再由集合输入网络建模图像间的相互关系。相比之下,CST 能够直接在三维图像张量上操作,同时进行特征提取和上下文建模,从而实现两个过程之间的协同效应。该设计在集合分类(Set Classification)和集合异常检测(Set Anomaly Detection)等任务中表现出更优性能,并且与传统的 CNN 可解释性方法(如 Grad-CAM)天然兼容,而现有竞争方法则难以提供此类可解释性。最后,我们展示了 CST 可以在大规模数据集上进行预训练,并通过标准的迁移学习方案迁移到新的领域和任务中。为支持后续研究,我们发布了在 ImageNet 上预训练的 CST-15 模型作为基础骨干网络(https://github.com/chinefed/convolutional-set-transformer)。


57. Catching the Details: Self-Distilled RoI Predictors for Fine-Grained

MLLM Perception

作者: Yuheng Shi, Xiaohuan Pei, Minjing Dong, Chang Xu

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-21 | 👍 点赞数: 1

摘要:

论文标题:捕捉细节:用于细粒度MLLM感知的自蒸馏RoI预测器

中文摘要:
多模态大语言模型(Multimodal Large Language Models, MLLMs)在执行细粒度感知任务时需要高分辨率的视觉信息,但直接处理整张高分辨率图像在计算上代价过高。尽管近期方法采用感兴趣区域(Region-of-Interest, RoI)机制来聚焦显著区域,但仍面临一个严峻的权衡问题:基于训练的方法依赖大规模标注数据集,而无需训练的方法则通常利用模型内部注意力机制,存在计算效率低、精度不足的问题,往往需要多次预填充阶段或依赖缓慢的自回归解码过程。本文提出一种高效且无需标注的自蒸馏区域建议网络(Self-Distilled Region Proposal Network, SD-RPN),有效解决了这一权衡。SD-RPN的核心是一个处理流程,能够通过对MLLM中间层产生的噪声注意力图进行显式去噪和歧义消解,生成高质量的伪RoI标签。我们利用这些伪标签训练一个轻量级的区域建议网络(RPN),使其学习更精确的定位能力。该RPN具有极高效率,仅需一次前向传播,利用MLLM中间层特征即可完成RoI预测,从而将RoI识别与自回归生成过程解耦,避免了昂贵的多轮次操作。为验证所提方法的有效性,我们将该框架集成到LLaVA-1.5架构中。尽管仅使用少量(例如10K)问答对进行训练,我们的方法仍展现出卓越的数据效率和泛化能力,在TextVQA、DocVQA和V-Star等多个未见基准测试上实现了超过10%的绝对准确率提升。本研究为增强MLLM的细粒度感知能力提供了一种实用且可扩展的解决方案,无需昂贵的监督信号或全模型微调。代码已公开发布于 https://github.com/YuHengsss/SD-RPN。


58. Stable Cinemetrics : Structured Taxonomy and Evaluation for Professional

Video Generation

作者: Agneet Chatterjee, Rahim Entezari, Maksym Zhuravinskyi, Maksim Lapin, Reshinth Adithyan, Amit Raj, Chitta Baral, Yezhou Yang, Varun Jampani

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-30

摘要:

论文标题:Stable Cinemetrics:面向专业视频生成的结构化分类体系与评估框架

中文摘要:
近年来,视频生成技术的进步使得模型能够根据用户提供的提示生成高保真度的视频。然而,现有的模型和基准测试未能充分反映专业视频制作的复杂性与实际需求。为此,我们提出了 Stable Cinemetrics(SCINE),一种结构化的评估框架,将电影制作中的控制要素形式化为四个解耦的、层次化的分类体系:场景设置(Setup)、事件(Event)、光照(Lighting)和摄像机(Camera)。这四个分类体系共定义了76个细粒度的控制节点,均基于影视行业的实践标准。基于这些分类体系,我们构建了一个与专业应用场景对齐的提示语基准,并开发了一套自动化的提示分类与问题生成流程,从而实现对各个控制维度的独立评估。我们开展了大规模的人类评估研究,涵盖10余种模型及2万段视频,由80多名影视专业人士进行标注。我们的分析(包括粗粒度与细粒度)表明,即便是当前最先进的模型,在事件和摄像机相关控制方面仍存在显著不足。为了实现可扩展的自动化评估,我们训练了一个与专家标注对齐的视觉-语言自动评估模型,其性能优于现有的零样本基线方法。Stable Cinemetrics 是首个将专业级视频生成任务系统性地纳入视频生成模型研究版图的工作,提出了以电影化控制为核心的分类体系,并通过结构化的评估流程与深入分析为未来研究提供了明确方向。


59. ProfVLM: A Lightweight Video-Language Model for Multi-View Proficiency

Estimation

作者: Edoardo Bianchi, Jacopo Staiano, Antonio Liotta

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-30

摘要:

论文标题:ProfVLM:一种用于多视角熟练度估计的轻量级视频-语言模型

中文摘要:
现有的技能熟练度估计方法通常依赖于黑箱视频分类器,忽视了多视角上下文信息,且缺乏可解释性。本文提出ProfVLM,一种紧凑的视觉-语言模型,将该任务重新定义为生成式推理:它能够联合预测技能水平,并从第一人称(egocentric)和第三人称(exocentric)视频中生成类似专家的反馈。本方法的核心是一种注意力门控投影模块(AttentiveGatedProjector),该模块将来自固定TimeSformer主干网络的多视角特征进行动态融合,并将其投影到一个专用于反馈生成的语言模型中。ProfVLM在包含专家评注的EgoExo4D数据集上进行训练,性能超越现有最先进方法,同时参数量最多减少20倍,训练时间最多缩短60%。我们的方法不仅在多种不同活动中实现了更高的准确率,还能输出与表现相匹配的自然语言评语,提供透明、可理解的推理过程。实验结果表明,生成式视觉-语言建模为技能评估开辟了一条强有力的新路径。


60. LLM Watermark Evasion via Bias Inversion

作者: Jeongyeon Hwang, Sangdon Park, Jungseul Ok

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-27

摘要:

论文标题:基于偏置反转的大型语言模型水印规避方法

中文摘要:
针对大型语言模型(Large Language Models, LLMs)的水印技术通过在生成过程中嵌入统计信号,以实现对模型生成文本的检测。尽管水印技术在良性环境下已被证明有效,但其在对抗性逃避攻击下的鲁棒性仍存在争议。为了深入理解并严格评估此类漏洞,本文提出了“偏置反转重写攻击”(Bias-Inversion Rewriting Attack, BIRA),该方法具有理论依据且不依赖于具体模型。BIRA 在利用LLM进行文本重写的过程中,通过抑制可能携带水印标记的token的logits值来削弱水印信号,且无需知晓底层水印机制的具体细节。在多种近期提出的水印方法上,BIRA 实现了超过99%的逃避成功率,同时保持了原文语义内容的完整性。本研究不仅展示了一种新型攻击方式,更揭示了当前水印技术存在的系统性脆弱性,凸显了对水印方案进行压力测试和构建鲁棒防御机制的迫切需求。


61. GeoRemover: Removing Objects and Their Causal Visual Artifacts

作者: Zixin Zhu, Haoxiang Li, Xuelu Feng, He Wu, Chunming Qiao, Junsong Yuan

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-23

摘要:

论文标题:GeoRemover:去除物体及其因果视觉痕迹

中文摘要:
在实现智能图像编辑的过程中,物体移除不仅应消除目标物体本身,还需同时去除其引发的因果视觉痕迹,例如阴影和反射。然而,现有的基于图像外观的方法要么严格遵循掩码对齐的训练方式,因而无法删除那些未被明确标注在掩码中的因果效应;要么采用松散的掩码对齐策略,导致控制性差,可能意外过度擦除其他物体。我们发现这些局限性的根源在于忽略了物体几何存在与其视觉效应之间的因果关系。为解决这一问题,我们提出一种具有几何感知能力的两阶段框架,将物体移除解耦为两个步骤:(1)几何结构去除 和 (2)外观渲染。在第一阶段,我们在几何信息(如深度图)中直接去除目标物体,并采用严格的掩码对齐监督,从而在强几何约束下实现结构感知的编辑。在第二阶段,我们基于更新后的几何信息渲染出逼真的RGB图像,此时由三维几何变化所导致的因果视觉效应被隐式地建模与消除。为了指导几何去除阶段的学习,我们引入了一种基于偏好学习的目标函数,利用正负样本对来促使模型在去除物体及其因果视觉痕迹的同时,避免引入新的结构内容。大量实验表明,我们的方法在两个主流基准数据集上均实现了最先进的性能,能够有效去除物体及其相关视觉伪影。代码已公开发布于 https://github.com/buxiangzhiren/GeoRemover。