跳到主要内容
目录

每日论文 - 2025年10月03日

论文总数: 52

1. LongCodeZip: Compress Long Context for Code Language Models

作者: Yuling Shi, Yichun Qian, Hongyu Zhang, Beijun Shen, Xiaodong Gu

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-10-01 | 👍 点赞数: 91

摘要:

论文标题:LongCodeZip:面向代码语言模型的长上下文压缩方法

中文摘要:
随着大语言模型(LLMs)需要在大规模代码库中进行复杂推理,长上下文下的代码生成正变得愈发关键。尽管近期研究已使代码大模型能够处理长输入,高昂的API成本和生成延迟仍是显著瓶颈。现有的上下文剪枝技术(如LLMLingua)在通用文本上表现良好,却忽视了代码特有的结构与依赖关系,导致在编程任务中性能欠佳。本文提出LongCodeZip,一种专为代码大模型设计的新型即插即用式压缩框架。LongCodeZip采用两阶段压缩策略:(1)粗粒度压缩,通过基于指令条件困惑度(conditional perplexity)对函数级代码块进行识别与排序,仅保留最相关的函数;(2)细粒度压缩,将保留的函数依据困惑度划分为语句块,并在自适应的token预算下选择最优子集,以最大化相关性。在代码补全、代码摘要和代码问答等多个任务上的实验表明,LongCodeZip始终优于基线方法,在不损害任务性能的前提下实现了最高达5.6倍的压缩比。通过有效减小上下文规模同时保留关键信息,LongCodeZip有助于大模型更好地适应真实世界中的大规模代码场景,推动代码智能应用的效率与能力发展。


2. Self-Forcing++: Towards Minute-Scale High-Quality Video Generation

作者: Justin Cui, Jie Wu, Ming Li, Tao Yang, Xiaojie Li, Rui Wang, Andrew Bai, Yuanhao Ban, Cho-Jui Hsieh

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-10-02 | 👍 点赞数: 70

摘要:

论文标题:Self-Forcing++:迈向分钟级高质量视频生成

中文摘要:
扩散模型在图像与视频生成领域取得了革命性进展,实现了前所未有的视觉质量。然而,其依赖的Transformer架构带来了极高的计算成本,尤其是在生成长视频时问题尤为突出。近期研究探索了基于自回归框架的长视频生成方法,通常通过从短时双向教师模型中进行知识蒸馏来实现。但由于教师模型本身无法生成长视频,学生模型在超出训练时间范围的外推过程中往往会出现显著的质量退化,这是由于连续潜在空间中的误差不断累积所致。本文提出了一种简单而有效的方法,在无需长视频教师模型监督或在长视频数据集上重新训练的情况下,缓解长时视频生成中的质量退化问题。我们的方法核心在于充分利用教师模型所蕴含的丰富知识,通过对模型自身生成的长视频中采样的片段来为学生模型提供指导。该方法在将视频长度扩展至教师模型能力20倍的同时,仍保持了良好的时间一致性,并避免了过曝、误差累积等常见问题,且无需像以往方法那样重新计算重叠帧。在进一步扩大计算规模后,我们的方法能够生成最长达4分15秒的视频,相当于基础模型位置编码所支持最大时长的99.9%,比基线模型的生成长度超过50倍以上。在标准基准数据集以及我们新构建的改进型评测基准上的实验结果表明,我们的方法在生成保真度和时序一致性方面均显著优于现有基线方法。我们的长视频生成演示可访问:https://self-forcing-plus-plus.github.io/


3. ExGRPO: Learning to Reason from Experience

作者: Runzhe Zhan, Yafu Li, Zhi Wang, Xiaoye Qu, Dongrui Liu, Jing Shao, Derek F. Wong, Yu Cheng

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-10-02 | 👍 点赞数: 63

摘要:

论文标题:ExGRPO:从经验中学习推理

中文摘要:
基于可验证奖励的强化学习(RLVR)是一种新兴范式,旨在提升大语言模型的推理能力。然而,标准的策略内训练方法在单次更新后即丢弃 rollout 产生的经验,导致计算效率低下和训练不稳定。尽管先前关于强化学习的研究已指出重用历史经验的优势,但经验特征如何影响大模型推理学习动态的问题仍缺乏深入探索。本文首次研究了何种因素使推理经验具有价值,并发现 rollout 的正确性与熵值是衡量经验价值的有效指标。基于这些发现,我们提出了 ExGRPO(经验式分组相对策略优化),该框架能够组织并优先利用高价值经验,并采用混合策略目标来平衡探索与经验利用。在五个不同骨干模型(参数量15亿至80亿)上的实验表明,ExGRPO 在数学和通用推理基准任务上持续提升推理性能,相比标准策略内 RLVR 方法平均提升 +3.5 和 +7.6 分。此外,ExGRPO 能在强模型和弱模型上均实现稳定训练,而策略内方法在此类情况下往往失败。这些结果表明,系统化的经验管理是实现高效且可扩展的 RLVR 的关键要素。


4. StealthAttack: Robust 3D Gaussian Splatting Poisoning via Density-Guided

Illusions

作者: Bo-Hsu Ke, You-Zhe Xie, Yu-Lun Liu, Wei-Chen Chiu

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-10-02 | 👍 点赞数: 53

摘要:

论文标题:StealthAttack:基于密度引导幻象的鲁棒3D高斯点阵投毒攻击

中文摘要:
近年来,神经辐射场(Neural Radiance Fields, NeRF)和3D高斯点阵(3D Gaussian Splatting, 3DGS)等三维场景表示方法在新视角合成方面取得了显著进展。随着这些方法的广泛应用,其安全性与脆弱性问题日益凸显。本文针对3DGS在图像级投毒攻击下的鲁棒性进行分析,并提出一种新颖的密度引导型投毒方法。该方法通过核密度估计(Kernel Density Estimation, KDE)识别出点云中的低密度区域,并策略性地向这些区域注入高斯点,在中毒视角下生成清晰可见的、依赖视角的幻象物体,同时对正常视角的影响最小。此外,我们引入一种自适应噪声策略,以破坏多视角之间的一致性,进一步提升攻击效果。为系统评估攻击难度,我们提出基于KDE的评测协议,为未来相关研究提供客观的基准测试手段。大量实验结果表明,所提方法在性能上显著优于当前最先进的技术。项目主页:https://hentci.github.io/stealthattack/


5. StockBench: Can LLM Agents Trade Stocks Profitably In Real-world

Markets?

作者: Yanxu Chen, Zijun Yao, Yantao Liu, Jin Ye, Jianing Yu, Lei Hou, Juanzi Li

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-10-02 | 👍 点赞数: 38

摘要:

论文标题:StockBench:大语言模型代理能否在真实市场中盈利性地进行股票交易?

中文摘要:
近年来,大语言模型(LLMs)展现出作为自主代理的强大能力,在推理、工具使用和序列化决策方面表现出巨大潜力。尽管已有基准测试在软件工程和科学发现等领域对LLM代理进行了评估,但金融领域仍相对缺乏探索,而该领域与经济价值和高风险决策密切相关。现有的金融基准主要通过问答形式测试静态知识,难以反映交易过程中动态且迭代的本质。为填补这一空白,我们提出了StockBench——一个无污染的基准测试框架,旨在评估LLM代理在真实、持续数月的股票交易环境中的表现。代理每天接收包括价格、基本面数据和新闻在内的市场信号,并需依次做出买入、卖出或持有的决策。其性能通过累计收益、最大回撤和索提诺比率(Sortino ratio)等金融指标进行评估。我们对当前最先进的闭源模型(如GPT-5、Claude-4)和开源权重模型(如Qwen3、Kimi-K2、GLM-4.5)的评估结果显示,尽管大多数LLM代理难以超越简单的“买入并持有”基准策略,但部分模型已展现出实现更高收益并更有效管理风险的潜力。这些发现凸显了构建基于LLM的金融代理所面临的挑战与机遇,表明在静态金融知识任务上的优异表现并不必然转化为成功的交易策略。我们已将StockBench作为开源资源公开发布,以支持研究的可重复性,并推动该领域的后续发展。


6. Interactive Training: Feedback-Driven Neural Network Optimization

作者: Wentao Zhang, Yang Young Lu, Yuntian Deng

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-10-02 | 👍 点赞数: 37

摘要:

论文标题:交互式训练:由反馈驱动的神经网络优化

中文摘要:
传统的神经网络训练通常遵循固定的、预定义的优化方案,缺乏对训练过程中出现的不稳定性或新问题进行动态响应的灵活性。本文提出“交互式训练”(Interactive Training),这是一个开源框架,允许人类专家或自动化的人工智能代理在神经网络训练过程中进行实时的、基于反馈的干预。该框架的核心是一个控制服务器,用于协调用户或智能代理与正在进行的训练过程之间的通信,使用户能够动态调整优化器超参数、训练数据和模型检查点。通过三个案例研究,我们证明了交互式训练能够显著提升训练稳定性,降低对初始超参数的敏感性,并更好地适应不断变化的用户需求。该工作为未来的训练范式奠定了基础:人工智能代理将能够自主监控训练日志,主动识别并解决训练中的不稳定性,进而优化整个训练动态过程。


7. RLP: Reinforcement as a Pretraining Objective

作者: Ali Hatamizadeh, Syeda Nahida Akter, Shrimai Prabhumoye, Jan Kautz, Mostofa Patwary, Mohammad Shoeybi, Bryan Catanzaro, Yejin Choi

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-26 | 👍 点赞数: 28

摘要:

论文标题:RLP:将强化学习作为预训练目标

中文摘要:
当前训练大型推理模型的主流范式首先在海量数据上使用下一词预测损失进行预训练。尽管强化学习在扩展推理能力方面表现出色,但它仅被引入到训练流程的最后阶段——即监督微调之后的后训练阶段。虽然这一流程占据主导地位,但它是否是最优的训练方式?本文提出了RLP(Reinforcement as a Pretraining Objective),一种基于信息驱动的强化预训练目标,将强化学习的核心精神——探索——引入预训练的最后阶段。其核心思想是将思维链(chain-of-thought)视为一种探索性动作,并根据该思维链在预测后续token时所提供的信息增益来计算奖励。这一训练目标本质上鼓励模型在预测下一个token之前先进行自主思考,从而在预训练阶段更早地培养独立思考的行为。具体而言,奖励信号衡量的是:在同时以上下文和采样的推理链为条件时,下一个token的对数似然相较于仅以上下文为条件时的提升程度。该方法产生了一种无需验证器的密集奖励信号,使得在整个预训练文档流上的高效训练成为可能。具体来说,RLP将面向推理的强化学习重新定义为普通文本上的预训练目标,弥合了下一词预测与有效思维链推理涌现之间的鸿沟。在Qwen3-1.7B-Base模型上使用RLP进行预训练,使其在八个数学与科学基准构成的评测套件上的平均性能提升了19%。在后续训练过程完全相同的情况下,性能增益进一步累积,尤其在AIME25和MMLU-Pro等推理密集型任务上提升最为显著。将RLP应用于混合架构的Nemotron-Nano-12B-v2模型时,整体平均得分从42.81%提升至61.32%,科学推理类任务的平均得分提高了23%,展现出该方法在不同模型架构和规模下的良好可扩展性。


8. ModernVBERT: Towards Smaller Visual Document Retrievers

作者: Paul Teiletche, Quentin Macé, Max Conti, Antonio Loison, Gautier Viaud, Pierre Colombo, Manuel Faysse

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-10-01 | 👍 点赞数: 26

摘要:

论文标题:ModernVBERT:迈向更小的视觉文档检索模型

中文摘要:
多模态嵌入模型正日益普及,尤其在文档检索任务中,成为比纯文本流程更高效的替代方案。这些模型通常通过对大规模视觉-语言解码器(VLMs)在图文对数据上使用对比损失进行微调而构建。在本研究中,我们发现尽管这种再利用方法成本较低、效率较高,但往往会限制检索性能的提升。通过受控实验,我们提出了一套改进视觉文档检索模型的原则性方法。我们特别评估了注意力掩码、图像分辨率、模态对齐的数据策略,以及以晚期交互为核心的对比学习目标,这些因素被证实对性能具有关键影响。基于上述发现,我们推出了ModernVBERT——一个紧凑的、参数量为2.5亿的视觉-语言编码器,在文档检索任务的微调下,其性能优于大至十倍规模的模型。模型和代码已在 https://huggingface.co/ModernVBERT 公开提供。


9. Tree-based Dialogue Reinforced Policy Optimization for Red-Teaming

Attacks

作者: Ruohao Guo, Afshin Oroojlooy, Roshan Sridhar, Miguel Ballesteros, Alan Ritter, Dan Roth

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-10-02 | 👍 点赞数: 21

摘要:

论文标题:基于树搜索的对话强化策略优化用于红队攻击

中文摘要:
尽管人工智能安全领域近年来取得了快速进展,当前的大语言模型在多轮交互场景中仍易受到对抗性攻击。在此类攻击中,攻击者在多轮对话中有策略地调整其提示语,构成了更具挑战性且更贴近现实的威胁。现有的发现安全漏洞的方法,要么依赖人类专家进行人工红队测试,要么采用基于预定义模板和人工整理攻击数据的自动化方法,且大多数研究集中于单轮攻击。然而,这些方法未能探索可能存在的大规模多轮攻击空间,忽视了由复杂对话动态和战略性会话规划所产生的新型攻击路径。这一局限尤为关键,因为近期研究表明,大语言模型对多轮攻击的脆弱性显著高于单轮攻击。为此,我们提出了DialTree-RPO——一种结合树搜索的在线策略强化学习框架,将对话建模为序列化决策问题,通过自主学习最优对话策略,在无需人工整理数据的前提下系统性地发现多样化的多轮攻击策略。大量实验表明,与现有最先进方法相比,我们的方法在10个目标模型上的攻击成功率(ASR)平均提升了25.9%以上,并能有效识别出新的攻击策略,通过学习跨多轮对话最大化攻击成功率的最优策略,显著增强了漏洞探测能力。


10. Ovi: Twin Backbone Cross-Modal Fusion for Audio-Video Generation

作者: Chetwin Low, Weimin Wang, Calder Katyal

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-30 | 👍 点赞数: 21

摘要:

论文标题:Ovi:双骨干跨模态融合用于音视频生成

中文摘要:
音视频生成通常依赖复杂的多阶段架构,或对声音与视觉内容进行顺序合成。本文提出Ovi,一种统一的音视频生成范式,将音频和视频两种模态建模为单一生成过程。Ovi采用双DiT(twin-DiT)模块的分块式跨模态融合机制,实现了自然的音画同步,无需依赖独立的生成流水线或事后的对齐处理。为了实现细粒度的多模态融合建模,我们将音频主干网络初始化为与强大的预训练视频模型相同的架构。该音频主干在数十万小时原始音频数据上从零开始训练,能够生成逼真的音效以及富含说话人身份特征和情感表达的语音。通过在大规模视频语料库上联合训练结构相同的音频与视频主干网络,Ovi实现了跨模态融合——具体通过分块交换时间信息(利用缩放的RoPE嵌入)和语义信息(通过双向交叉注意力)完成。我们的模型能够生成具有自然语音、精确且上下文匹配音效的电影级视频片段,支持高质量的影视化叙事。所有演示案例、代码及模型权重均已发布于 https://aaxwaz.github.io/Ovi


11. CLUE: Non-parametric Verification from Experience via Hidden-State

Clustering

作者: Zhenwen Liang, Ruosen Li, Yujun Zhou, Linfeng Song, Dian Yu, Xinya Du, Haitao Mi, Dong Yu

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-10-02 | 👍 点赞数: 20

摘要:

论文标题:CLUE:基于隐状态聚类的非参数化经验验证方法

中文摘要:
评估大语言模型(Large Language Model, LLM)输出的质量是一项关键挑战。以往的方法要么依赖于文本层面的信息(例如奖励模型、多数投票),这类方法容易过拟合到表面线索;要么依赖于从token概率中校准而得的置信度,但这类方法在未良好校准的模型上表现不佳。然而,这两类信号实际上都只是更丰富信息源——即模型内部隐状态——的部分投影。靠近token嵌入的早期层保留了支撑文本判断的语义和词汇特征,而后期层则逐渐与输出logits对齐,蕴含了与置信度相关的信息。本文提出直接利用隐状态作为验证任务的统一基础。我们发现,解法的正确性在隐层激活轨迹中表现为一种几何上可分离的模式。为验证这一观点,我们提出了CLUE(基于聚类与经验的验证,Clustering and Experience-based Verification)——一种刻意设计为极简的非参数化验证器。CLUE不含任何可训练参数,仅通过隐状态的变化量(delta)来总结每条推理轨迹,并依据其到过往经验中形成的“成功”与“失败”聚类中心的最近距离进行正确性分类。该方法的简洁性凸显了底层信号本身的强区分能力。实验表明,CLUE在候选结果重排序任务中持续优于“以LLM作为裁判”的基线方法,并在AIME 24/25和GPQA等多个基准上达到或超越现代基于置信度的方法,显著提升top-1准确率和多数投票准确率。特别地,在使用1.5B规模模型处理AIME 24数据集时,CLUE将准确率从56.7%(64次采样下的多数投票)提升至70.0%(16次采样下的最优多数投票)。


12. The Rogue Scalpel: Activation Steering Compromises LLM Safety

作者: Anton Korznikov, Andrey Galichin, Alexey Dontsov, Oleg Y. Rogov, Ivan Oseledets, Elena Tutubalina

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-26 | 👍 点赞数: 20

摘要:

论文标题:失控的手术刀:激活 steering 技术对大语言模型安全性的破坏

中文摘要:
激活 steering(activation steering)是一种通过在推理过程中直接向模型的隐藏状态添加具有语义意义的向量来控制大语言模型(LLM)行为的前沿技术。该方法常被视为一种精确、可解释且可能更安全的微调替代方案。然而,我们揭示了相反的结果:steering 技术会系统性地破坏模型的对齐保护机制,导致模型服从有害请求。通过对多个模型家族进行大量实验,我们发现即使是在随机方向上进行 steering,也会使模型产生有害回应的概率从 0% 显著上升至 2–27%。更令人担忧的是,使用稀疏自编码器(SAE)提取的良性特征进行 steering——这类方向常被认为是可解释的典型来源——会进一步将有害回应率提高 2–4%。最后,我们展示,将针对单个提示词成功实现越狱(jailbreak)的 20 个随机采样向量组合起来,可形成一种通用攻击,在未见过的请求上也显著提升模型的有害服从率。这些结果挑战了“通过可解释性保障安全性”的主流范式,表明对模型内部机制的精确控制并不意味着对模型行为的精确掌控。


13. VOGUE: Guiding Exploration with Visual Uncertainty Improves Multimodal

Reasoning

作者: Rui Liu, Dian Yu, Tong Zheng, Runpeng Dai, Zongxia Li, Wenhao Yu, Zhenwen Liang, Linfeng Song, Haitao Mi, Pratap Tokekar, Dong Yu

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-10-01 | 👍 点赞数: 19

摘要:

论文标题:VOGUE:利用视觉不确定性引导探索提升多模态推理能力

中文摘要:
基于可验证奖励的强化学习(RLVR)能够提升大语言模型(LLMs)的推理能力,但在探索性方面仍存在挑战,这一问题在多模态大语言模型(MLLMs)中尤为突出。现有方法通常将视觉输入视为固定的确定性条件,忽视了视觉信息中固有的模糊性来源,难以构建对合理视觉变化具有鲁棒性的策略。本文提出VOGUE(Visual Uncertainty Guided Exploration,视觉不确定性引导探索),一种新颖的方法,将探索从输出空间(文本)转移到输入空间(视觉)。通过将图像视为随机上下文,VOGUE利用“原始”分支与“加噪”分支之间的对称KL散度来量化策略对视觉扰动的敏感性,从而生成一种用于不确定性感知探索的直接信号。该信号通过与不确定性成正比的奖励项融入学习目标,并结合词元熵奖励(token-entropy bonus)以及退火采样策略(annealed sampling schedule),有效平衡了探索与利用。我们将VOGUE集成于GRPO框架中,在两个规模的模型上进行了实现(Qwen2.5-VL-3B/7B)。实验结果表明,VOGUE在三个视觉数学基准任务上平均提升了2.6%的pass@1准确率,在三个通用推理基准任务上提升了3.7%,同时显著提高了pass@4性能,并缓解了强化学习微调过程中常见的探索衰减问题。本研究证明,将探索过程建立在视觉输入的内在不确定性基础上,是提升多模态推理能力的有效策略。


14. The Unreasonable Effectiveness of Scaling Agents for Computer Use

作者: Gonzalo Gonzalez-Pumariega, Vincent Tu, Chih-Lun Lee, Jiachen Yang, Ang Li, Xin Eric Wang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-10-02 | 👍 点赞数: 18

摘要:

论文标题:用于计算机操作的智能体在扩展应用中的非同寻常的有效性

中文摘要:
计算机使用智能体(Computer-use Agents, CUAs)在自动化日常数字任务方面展现出巨大潜力,但其不可靠性和高方差问题限制了其在长周期、复杂任务中的实际应用。本文提出行为最优N选法(Behavior Best-of-N, bBoN),该方法通过生成多个执行轨迹(rollouts),并利用描述智能体行为过程的行为叙事(behavior narratives)进行筛选,从而实现跨智能体的扩展。该方法兼顾广泛的探索能力与基于原则的轨迹选择,显著提升了系统的鲁棒性和任务成功率。在OSWorld基准上,我们提出的bBoN扩展方法取得了69.9%的新颖最先进水平(SoTA),明显优于先前方法,并接近人类表现水平(72%),并通过全面的消融实验验证了关键设计选择的有效性。此外,我们在WindowsAgentArena和AndroidWorld上进一步展示了该方法在不同操作系统间的强泛化能力。尤为重要的是,我们的研究结果揭示了在正确实施的前提下,扩展计算机使用智能体所展现出的“非同寻常的有效性”:有效的扩展依赖于对执行轨迹的结构化理解与合理选择,而bBoN为此提供了一个切实可行的框架。


15. RewardMap: Tackling Sparse Rewards in Fine-grained Visual Reasoning via

Multi-Stage Reinforcement Learning

作者: Sicheng Feng, Kaiwen Tuo, Song Wang, Lingdong Kong, Jianke Zhu, Huan Wang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-10-02 | 👍 点赞数: 16

摘要:

论文标题:RewardMap:通过多阶段强化学习应对细粒度视觉推理中的稀疏奖励问题

中文摘要:
细粒度视觉推理对多模态大语言模型(MLLMs)而言仍是一项核心挑战。近期提出的ReasonMap数据集揭示了这一差距,表明即使是最先进的MLLMs在结构复杂且信息密集的场景(如交通地图)中进行空间推理时仍表现不佳,而此类任务具有显著的实际应用和科学研究价值。然而,传统的强化学习(RL)方法在处理此类任务时面临奖励稀疏和优化不稳定的问题。为解决这一难题,我们首先构建了ReasonMap-Plus,一个扩展的数据集,通过引入视觉问答(VQA)任务提供密集的奖励信号,从而有效支持细粒度视觉理解能力的冷启动训练。在此基础上,我们提出了RewardMap——一种多阶段强化学习框架,旨在提升MLLMs的视觉理解与推理能力。RewardMap包含两项关键设计:第一,我们提出一种难度感知的奖励机制,引入细节奖励信号,在直接应对稀疏奖励问题的同时提供更丰富的监督信息;第二,我们设计了一种多阶段强化学习方案,从简单的感知任务逐步过渡到复杂的推理任务,相比传统的监督微调(SFT)提供了更有效的冷启动策略。在ReasonMap和ReasonMap-Plus上的实验结果表明,RewardMap的每个组件均带来持续的性能提升,而各组件联合使用时效果最佳。此外,采用RewardMap训练的模型在涵盖空间推理、细粒度视觉推理以及非交通地图领域的六项基准测试中平均提升了3.47%,充分证明了其在增强视觉理解与推理能力方面的有效性。


16. F2LLM Technical Report: Matching SOTA Embedding Performance with 6

Million Open-Source Data

作者: Ziyin Zhang, Zihan Liao, Hang Yu, Peng Di, Rui Wang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-10-02 | 👍 点赞数: 14

摘要:

论文标题:F2LLM 技术报告:使用600万开源数据匹配最先进的嵌入性能

中文摘要:
我们提出 F2LLM(Foundation to Feature Large Language Models),这是一系列包含三种规模(0.6B、1.7B 和 4B)的最先进嵌入模型。与以往依赖大规模对比预训练、复杂训练流程以及高成本合成数据的顶尖嵌入模型不同,F2LLM 直接基于基础模型进行微调,所用数据为从开源、非合成数据集中整理出的600万组查询-文档-负样本三元组,在训练成本、模型规模和嵌入性能之间实现了良好的平衡。在 MTEB 英文排行榜上,F2LLM-4B 在参数量约为40亿的模型中排名第二,总体排名第七;F2LLM-1.7B 则在参数量为10亿至20亿范围内的模型中排名第一。为了推动该领域的后续研究,我们公开了模型、训练数据集及代码,使 F2LLM 成为未来研究中一个强大、可复现且低成本的基准模型。


17. TOUCAN: Synthesizing 1.5M Tool-Agentic Data from Real-World MCP

Environments

作者: Zhangchen Xu, Adriana Meza Soria, Shawn Tan, Anurag Roy, Ashish Sunil Agrawal, Radha Poovendran, Rameswar Panda

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-10-01 | 👍 点赞数: 14

摘要:

论文标题:TOUCAN:从真实世界MCP环境合成150万条工具智能体数据

中文摘要:
大型语言模型(Large Language Model, LLM)智能体正迅速发展为跨领域任务自动化的重要系统。然而,开源社区的发展受到高质量、可自由授权的工具类智能体训练数据匮乏的制约。现有数据集在多样性、真实性和复杂性方面往往存在局限,尤其是在涉及多工具协同和多轮交互的场景中更为明显。为填补这一空白,我们推出了Toucan——迄今为止最大规模的公开可用的工具智能体数据集,包含约500个真实世界模型上下文协议(Model Context Protocols, MCPs)所生成的150万条智能体行为轨迹。与以往工作不同,Toucan利用真实的MCP环境生成多样化、逼真且具有挑战性的任务,并包含实际工具调用的执行轨迹。我们的数据构建流程首先使用五种不同的模型生成广泛的工具使用查询,接着通过基于模型的质量过滤机制进行筛选,然后借助两个智能体框架和三个“教师”模型生成智能体行为轨迹。通过严格的基于规则和基于模型的验证机制,确保输出数据的高质量。此外,我们还引入了三种扩展机制,以进一步增加任务多样性并模拟多轮对话场景。在Toucan上微调的模型在BFCL V3基准测试中表现优于更大规模的闭源模型,并在MCP-Universe Bench上推动了帕累托前沿的提升。


18. A Rigorous Benchmark with Multidimensional Evaluation for Deep Research

Agents: From Answers to Reports

作者: Yang Yao, Yixu Wang, Yuxuan Zhang, Yi Lu, Tianle Gu, Lingyu Li, Dingyi Zhao, Keming Wu, Haozhe Wang, Ping Nie, Yan Teng, Yingchun Wang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-10-02 | 👍 点赞数: 13

摘要:

论文标题:面向深度研究代理的多维度评估严格基准:从答案到报告

中文摘要:
人工智能正经历从封闭式语言模型向具备外部感知与信息整合能力的互联代理系统转变。作为这一范式的典型体现,深度研究代理(Deep Research Agents, DRAs)系统性地展现出任务分解、跨源检索、多阶段推理以及结构化输出等能力,显著提升了在复杂且开放性任务上的表现。然而,现有评测基准在评估维度、响应格式和评分机制方面仍存在不足,限制了对这类系统的有效评估。本文提出了一种针对DRAs及报告式输出的严格基准和多维度评估框架。该基准包含由专家精心策划的214个高难度查询问题,涵盖10个广泛的主题领域,每个问题均配有手工构建的参考资源包,以支持复合型评估。所提出的框架能够对DRAs生成的长篇报告进行全方位评估,并引入集成化的评分指标,用于衡量语义质量、主题聚焦度以及检索结果的可信度。大量实验验证了主流DRAs相较于结合网络搜索工具的推理模型具有更优性能,同时也揭示出进一步提升的巨大空间。本研究为DRAs系统的能力评估、架构优化和范式演进提供了坚实的基础。


19. Learning to Reason for Hallucination Span Detection

作者: Hsuan Su, Ting-Yao Hu, Hema Swetha Koppula, Kundan Krishna, Hadi Pouransari, Cheng-Yu Hsieh, Cem Koc, Joseph Yitan Cheng, Oncel Tuzel, Raviteja Vemulapalli

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-10-02 | 👍 点赞数: 13

摘要:

论文标题:用于幻觉片段检测的推理学习

中文摘要:
大型语言模型(LLMs)常常生成“幻觉”内容——即缺乏依据的信息,这会损害其可靠性。尽管以往大多数研究将幻觉检测视为二分类任务,但许多实际应用需要识别出具体的幻觉文本片段,这一过程涉及多步骤的决策判断。这自然引出一个问题:显式推理是否有助于提升幻觉片段检测这一复杂任务的效果?为回答该问题,我们首先评估了具备与不具备思维链(Chain-of-Thought, CoT)推理能力的预训练模型,结果表明,在多次采样时,CoT推理有可能至少生成一个正确答案。受此启发,我们提出了RL4HS——一种基于强化学习的框架,通过引入面向片段级别的奖励函数来激励模型进行推理。RL4HS建立在组相对策略优化(Group Relative Policy Optimization)基础之上,并提出类别感知策略优化(Class-Aware Policy Optimization),以缓解奖励不平衡问题。在RAGTruth基准数据集(涵盖摘要生成、问答和数据到文本生成任务)上的实验表明,RL4HS优于预训练推理模型及监督微调方法,验证了采用片段级奖励的强化学习在幻觉片段检测中的必要性。


20. Sparse Query Attention (SQA): A Computationally Efficient Attention

Mechanism with Query Heads Reduction

作者: Adam Filipek

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-10-02 | 👍 点赞数: 11

摘要:

论文标题:稀疏查询注意力(SQA):一种通过减少查询头实现高效计算的注意力机制

中文摘要:
基于多头注意力(Multi-Head Attention, MHA)机制的Transformer架构已成为人工智能领域最先进模型的事实标准。然而,MHA在序列长度上的二次计算复杂度严重制约了其可扩展性,尤其在处理长上下文的应用中构成显著瓶颈。现有的主流解决方案,如多查询注意力(MQA)和分组查询注意力(GQA),通过共享键(Key)和值(Value)投影,有效缓解了主导自回归推理延迟的内存带宽瓶颈。尽管这些方法取得了巨大成功,但它们并未减少注意力分数计算所需的基本浮点运算量(FLOPs),而这一问题在模型训练和全序列处理中仍是一个关键瓶颈。

本文提出稀疏查询注意力(Sparse Query Attention, SQA),一种新颖的注意力架构,探索了一条替代且互补的优化路径。与减少键/值头数不同,SQA通过减少查询(Query)头的数量来实现效率提升。这种架构调整直接按查询头减少的比例降低了注意力机制的计算复杂度,从而显著减少整体FLOPs。本文阐述了SQA的理论基础、数学表达式,并提出了一系列架构变体。在长序列(32k–200k个token)上的实证基准测试表明,在计算密集型场景(如模型预训练、微调以及基于编码器的任务)中,SQA可将吞吐量提升最高达3倍,而在初步的小规模实验中对模型性能的影响极小。SQA是在开发下一代反应式Transformer(Reactive Transformer)架构过程中偶然发现的,显示出其作为构建更高效、更可扩展模型的强大工具的潜力。


21. DragFlow: Unleashing DiT Priors with Region Based Supervision for Drag

Editing

作者: Zihan Zhou, Shilin Lu, Shuli Leng, Shaocong Zhang, Zhuming Lian, Xinlei Yu, Adams Wai-Kin Kong

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-10-02 | 👍 点赞数: 10

摘要:

论文标题:DragFlow:通过基于区域的监督释放DiT先验用于拖拽式图像编辑

摘要:
基于拖拽的图像编辑长期以来一直面临目标区域出现形变的问题,主要原因在于早期基础模型(如Stable Diffusion)的先验能力不足,难以将优化后的潜在表示准确映射回自然图像流形。随着生成模型从基于UNet的扩散模型(DDPMs)转向更具可扩展性的基于流匹配的DiT架构(例如SD3.5、FLUX),生成先验显著增强,推动了多种图像编辑任务的发展。然而,拖拽式编辑尚未充分受益于这些更强的先验能力。本文提出了首个能够有效利用FLUX丰富先验进行拖拽式编辑的框架——DragFlow,在多个基准上实现了显著性能提升。我们首先发现,直接将基于点的拖拽编辑方法应用于DiT效果不佳:与UNet高度压缩的特征相比,DiT的特征结构化程度较低,无法为逐点运动监督提供可靠的指导。为克服这一限制,DragFlow引入了一种基于区域的编辑范式,通过仿射变换实现更丰富且一致的特征监督。此外,我们集成预训练的开放域个性化适配器(如IP-Adapter)以增强主体一致性,并通过基于梯度掩码的硬约束保持背景保真度。为进一步解决任务中的语义歧义,我们还引入多模态大语言模型(MLLMs)进行指令解析与引导。在评估方面,我们构建了一个全新的基于区域的拖拽编辑基准数据集(ReD Bench),包含区域级别的拖拽操作指令。在DragBench-DR和ReD Bench上的大量实验表明,DragFlow在点级和区域级基线方法中均表现优越,树立了拖拽式图像编辑的新标杆。代码与数据集将在论文发表后公开。


22. Aristotle: IMO-level Automated Theorem Proving

作者: Tudor Achim, Alex Best, Kevin Der, Mathïs Fédérico, Sergei Gukov, Daniel Halpern-Leister, Kirsten Henningsgard, Yury Kudryashov, Alexander Meiburg, Martin Michelsen, Riley Patterson, Eric Rodriguez, Laura Scharff, Vikram Shanker, Vladmir Sicca, Hari Sowrirajan, Aidan Swope, Matyas Tamas, Vlad Tenev, Jonathan Thomm, Harold Williams, Lawrence Wu

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-10-01 | 👍 点赞数: 9

摘要:

论文标题:亚里士多德:达到国际数学奥林匹克水平的自动定理证明系统

中文摘要: 我们提出亚里士多德(Aristotle),一种结合形式化验证与非形式化推理的人工智能系统,在2025年国际数学奥林匹克竞赛(IMO)问题上达到了金牌选手水平的表现。亚里士多德系统集成了三个核心组件:Lean证明搜索系统、生成并形式化引理的非形式化推理系统,以及专用的几何求解器。该系统在自动定理证明领域展现出最先进的性能,并具备优良的可扩展性。


23. Fine-Grained Detection of Context-Grounded Hallucinations Using LLMs

作者: Yehonatan Peisakhovsky, Zorik Gekhman, Yosi Mass, Liat Ein-Dor, Roi Reichart

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-26 | 👍 点赞数: 9

摘要:

论文标题:基于大语言模型的上下文相关幻觉细粒度检测

中文摘要:
上下文相关幻觉是指模型输出中包含无法根据源文本验证的信息。本文研究了大语言模型(LLMs)在定位此类幻觉方面的适用性,作为现有复杂评估流程的一种更实用的替代方案。由于目前尚无成熟的基准用于对幻觉定位能力进行元评估,我们构建了一个专门针对大语言模型的基准数据集,其中包括超过1000个样例的人工标注,具有较高挑战性。我们还设计了一套基于大语言模型的评估协议,并通过人工评估验证了该协议的有效性。鉴于现有的幻觉表示方式限制了可表达错误类型的范围,我们提出一种基于自由文本描述的新表示方法,能够全面捕捉各类可能的错误。我们开展了全面的研究,评估了四个大规模大语言模型的表现,结果凸显了该基准的难度——表现最佳的模型F1分数仅为0.67。通过深入分析,我们总结了完成该任务的最佳提示策略,并识别出导致大语言模型表现困难的主要因素:(1)尽管指令明确要求仅检查输出中的事实一致性,模型仍倾向于将源文本中未提及但非矛盾的缺失细节误判为不一致;(2)当输出包含事实上正确但源文本中未出现的信息时(因而无法验证),模型难以准确判断,因其内容与其自身参数化知识相吻合。


24. VideoNSA: Native Sparse Attention Scales Video Understanding

作者: Enxin Song, Wenhao Chai, Shusheng Yang, Ethan Armand, Xiaojun Shan, Haiyang Xu, Jianwen Xie, Zhuowen Tu

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-10-02 | 👍 点赞数: 8

摘要:

论文标题:VideoNSA:原生稀疏注意力机制扩展视频理解能力

中文摘要:
多模态语言模型中的视频理解仍受限于上下文长度:模型常常遗漏关键的过渡帧,难以在长时间跨度上保持连贯性。为解决这一问题,我们将原生稀疏注意力(Native Sparse Attention, NSA)机制引入视频-语言模型中。我们提出的方法 VideoNSA,通过对包含21.6万视频指令样本的数据集进行端到端训练,对 Qwen2.5-VL 模型进行了适配优化。我们采用一种面向硬件的混合注意力架构:对文本部分保留密集注意力,而在视频处理中应用NSA机制。与基于token压缩和无需训练的稀疏化基线方法相比,VideoNSA 在长视频理解、时序推理以及空间感知等基准任务上均表现出更优性能。进一步的消融实验分析揭示了四个关键发现:(1)可稳定扩展至128K token的处理规模;(2)在固定计算预算下存在最优的全局-局部注意力分配策略;(3)不同任务呈现出差异化的分支使用模式;(4)可学习的组合式稀疏注意力有助于形成动态的注意力汇聚点(attention sinks)。


25. Go with Your Gut: Scaling Confidence for Autoregressive Image Generation

作者: Harold Haodong Chen, Xianfeng Wu, Wen-Jie Shu, Rongjin Guo, Disen Lan, Harry Yang, Ying-Cong Chen

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-30 | 👍 点赞数: 8

摘要:

论文标题:跟随直觉:面向自回归图像生成的置信度扩展方法

中文摘要:
测试时扩展(Test-time scaling, TTS)在提升大语言模型性能方面已展现出显著成效,但其在基于下一个词预测(NTP)的自回归(AR)图像生成中的应用仍 largely 未被探索。现有的针对视觉自回归模型(VAR)的TTS方法通常依赖频繁的部分解码和外部奖励模型,但由于中间解码结果 inherently 不完整,这类方法难以适用于基于NTP的图像生成任务。为填补这一空白,我们提出了ScalingAR——首个专为基于NTP的自回归图像生成设计的TTS框架,该框架无需早期解码或辅助奖励机制。ScalingAR引入token熵作为视觉token生成过程中的新信号,并在两个互补的扩展层级上运行:(i)配置文件层(Profile Level),通过融合内在信号与条件信号,流式输出校准后的置信度状态;(ii)策略层(Policy Level),利用该状态自适应地中止低置信度的生成路径,并动态调度引导机制以实现与生成阶段相匹配的条件控制强度。在通用与组合性图像生成基准上的实验表明,ScalingAR(1)在GenEval和TIIF-Bench上分别将基础模型性能提升了12.5%和15.2%;(2)在超越基线方法的同时,有效减少了62.0%的视觉token消耗;(3)成功增强了生成鲁棒性,在挑战性场景下将性能下降幅度降低了26.0%。


26. Agentic Jigsaw Interaction Learning for Enhancing Visual Perception and

Reasoning in Vision-Language Models

作者: Yu Zeng, Wenxuan Huang, Shiting Huang, Xikun Bao, Yukun Qi, Yiming Zhao, Qiuchen Wang, Lin Chen, Zehui Chen, Huaian Chen, Wanli Ouyang, Feng Zhao

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-10-01 | 👍 点赞数: 7

摘要:

论文标题:面向增强视觉感知与推理的智能体拼图交互学习(Agentic Jigsaw Interaction Learning for Enhancing Visual Perception and Reasoning in Vision-Language Models)

中文摘要:
尽管当前的大规模视觉-语言模型(Vision-Language Models, VLMs)在多模态理解和推理方面取得了进展,但其基本的感知与推理能力仍然有限。具体而言,即使在简单的拼图任务上,现有VLMs的表现也接近随机水平,暴露出其在核心感知和推理能力上的不足。虽然高质量的视觉-语言数据能够提升这些能力,但此类数据的稀缺性和可扩展性受限带来了显著瓶颈。为解决这一问题,我们提出了AGILE(Agentic jiGsaw Interaction Learning for Enhancing visual perception and reasoning),即一种基于智能体的拼图交互学习框架,用于增强视觉-语言模型的感知与推理能力。AGILE将拼图求解建模为一个交互式过程,使模型能够逐步与环境进行交互。在每一步中,模型根据当前状态生成可执行代码以采取动作,而环境则提供细粒度的视觉反馈,指导任务完成。通过这种观察与交互的迭代循环,模型能够在探索与反馈中不断提升其感知与推理能力。实验结果表明,AGILE不仅在不同复杂度的拼图任务上显著提升了性能(例如,在2×2设置下准确率从9.5%提升至82.8%),还在9项通用视觉任务中展现出强大的泛化能力,平均性能提升达3.1%。这些结果验证了模型在感知与推理能力上的显著增强。本研究为推进多模态模型的推理与泛化能力开辟了新路径,并为多模态强化学习数据稀缺问题提供了高效且可扩展的解决方案。代码与数据集已公开发布于 https://github.com/yuzeng0-0/AGILE


27. Visual Multi-Agent System: Mitigating Hallucination Snowballing via

Visual Flow

作者: Xinlei Yu, Chengming Xu, Guibin Zhang, Yongbo He, Zhangquan Chen, Zhucun Xue, Jiangning Zhang, Yue Liao, Xiaobin Hu, Yu-Gang Jiang, Shuicheng Yan

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-26 | 👍 点赞数: 7

摘要:

论文标题:视觉多智能体系统:通过视觉流缓解幻觉雪球效应

中文摘要:
由视觉语言模型(Visual Language Models, VLMs)驱动的多智能体系统(Multi-Agent System, MAS)能够执行复杂的任务,但存在一种新型的失效机制——多智能体视觉幻觉雪球效应(multi-agent visual hallucination snowballing)。该现象表现为:某一智能体中产生的视觉幻觉会因后续智能体过度依赖文本信息流来传递视觉内容而被不断放大。通过逐轮、逐层及逐词元的注意力分析,我们深入揭示了幻觉雪球效应的本质,即视觉注意力分配逐渐减弱。在此基础上,我们发现一组在中间层具有单模态注意力峰值的视觉词元子集,最能保留原始视觉证据,但在多智能体交互的深层轮次中其响应逐渐衰减,从而导致幻觉的累积与扩散。为此,我们提出ViF——一种轻量级、即插即用的缓解范式,通过选取关键视觉中继词元构建“视觉流”(Visual Flow)来传递智能体间的信息,并引入注意力重分配机制以增强该模式。实验结果表明,该方法显著抑制了幻觉雪球效应,在基于四种常见MAS结构和十个基础模型的八个基准任务上均实现了性能的持续提升。源代码将公开于:https://github.com/YU-deep/ViF.git。


28. VIRTUE: Visual-Interactive Text-Image Universal Embedder

作者: Wei-Yao Wang, Kazuya Tateishi, Qiyu Wu, Shusuke Takahashi, Yuki Mitsufuji

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-10-01 | 👍 点赞数: 6

摘要:

论文标题:VIRTUE:视觉-交互式文本-图像通用嵌入器

中文摘要:
多模态表征学习模型已在多种复杂任务中展现出优异性能,而视觉-语言模型(VLMs)的引入进一步赋予了嵌入模型遵循指令的能力。然而,现有的嵌入模型缺乏支持用户指定感兴趣区域(如点、边界框、掩码)的视觉交互能力,而这类功能在生成式模型中已被广泛探索,以增强其与人类交互的应用潜力。为嵌入模型引入视觉交互能力,不仅能开拓基于局部语义对齐用户意图的新应用场景(目前尚未被充分研究),还可使模型学习图像中的实体级信息,从而补充其在传统嵌入任务中的全局表征。本文提出一种全新的视觉-交互式文本-图像通用嵌入器(Visual-InteRactive Text-Image Universal Embedder, VIRTUE),将分割模型与视觉-语言模型的能力拓展至表征学习领域。在VIRTUE中,分割模型能够处理用于精确定位图像中特定区域的视觉提示,从而使嵌入器能更精确地应对复杂和模糊的场景。为了评估VIRTUE的视觉交互能力,我们构建了一个大规模“分割-场景描述检索”基准数据集SCaR(Segmentation-and-Scene Caption Retrieval),包含100万样本,旨在通过联合考虑特定物体及其所在图像场景来检索对应的文本描述。实验结果表明,VIRTUE在36项通用MMEB任务上持续取得最先进的性能,提升幅度为3.1%–8.5%,并在五个视觉交互式SCaR任务上实现15.2%–20.3%的显著性能提升。


29. Automated Structured Radiology Report Generation with Rich Clinical

Context

作者: Seongjae Kang, Dong Bok Lee, Juho Jung, Dongseop Kim, Won Hwa Kim, Sunghoon Joo

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-10-01 | 👍 点赞数: 6

摘要:

论文标题:基于丰富临床背景的自动化结构化放射学报告生成

中文摘要:
从胸部X光图像中自动生成结构化放射学报告(SRRG)具有显著减轻放射科医生工作负担的潜力,该技术能够以结构化的格式生成报告,确保内容清晰、一致,并符合临床报告标准。尽管放射科医生在诊断推理过程中能有效利用现有的临床背景信息,但现有的SRRG系统却忽略了这些关键要素。这一根本性缺陷导致了诸多严重问题,例如在引用不存在的临床背景时出现时间上的幻觉现象。为解决上述局限,我们提出了上下文化SRRG(C-SRRG)方法,全面整合丰富的临床背景信息用于结构化报告生成。我们构建了C-SRRG数据集,涵盖四类全面的临床背景信息:1)多视角X光图像;2)临床检查目的(clinical indication);3)成像技术参数;4)基于患者病史的既往检查及其对比分析。通过与当前最先进的多模态大语言模型进行广泛基准测试,我们验证了引入临床背景信息后,所提出的C-SRRG方法在报告生成质量方面显著提升。我们已公开发布数据集、代码和模型检查点,以促进未来在临床对齐的自动化放射学报告生成领域的研究,相关资源详见:https://github.com/vuno/contextualized-srrg。


30. Optimal Control Meets Flow Matching: A Principled Route to Multi-Subject

Fidelity

作者: Eric Tillmann Bill, Enis Simsar, Thomas Hofmann

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-10-02 | 👍 点赞数: 5

摘要:

论文标题:最优控制与流匹配的结合:实现多主体保真度的一条原则性路径

中文摘要:
文本到图像(T2I)模型在单实体提示上表现优异,但在处理多主体描述时仍面临挑战,常出现属性泄露、身份纠缠以及主体遗漏等问题。本文提出了首个具有原则性且可优化目标的理论框架,用于指导采样动态过程以提升多主体保真度。通过将流匹配(Flow Matching, FM)方法置于随机最优控制(Stochastic Optimal Control, SOC)的视角下进行分析,我们将主体解耦问题建模为对已训练FM采样器的控制问题。由此推导出两种与模型架构无关的算法:(i)一种无需训练的测试时控制器,通过一次前向更新对基础速度场施加扰动;(ii)伴随匹配(Adjoint Matching),一种轻量级微调策略,通过回归控制网络至反向伴随信号来学习控制器,同时保留原始模型的能力。该统一框架不仅涵盖了先前基于注意力的经验性方法,还可通过流-扩散对应关系推广至扩散模型,并首次提供了一条专为多主体保真度设计的微调路径。实验表明,在Stable Diffusion 3.5、FLUX 和 Stable Diffusion XL 等模型上,这两种算法均能持续提升多主体对齐效果,同时保持基础模型的风格特性。测试时控制方法可在普通GPU上高效运行,而基于有限提示训练的微调控制器也能良好泛化至未见提示。我们进一步提出FOCUS(Flow Optimal Control for Unentangled Subjects,面向解耦主体的流最优控制),其在多种模型上实现了当前最先进的多主体保真度表现。


31. RLAD: Training LLMs to Discover Abstractions for Solving Reasoning

Problems

作者: Yuxiao Qu, Anikait Singh, Yoonho Lee, Amrith Setlur, Ruslan Salakhutdinov, Chelsea Finn, Aviral Kumar

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-10-02 | 👍 点赞数: 5

摘要:

论文标题:RLAD:训练大语言模型发现用于解决推理问题的抽象

中文摘要:
推理要求超越模式匹配或对解决方案的记忆,识别并实施可用于推导难题答案的“算法化过程”。实现这一点的关键在于识别出最关键的原始要素、中间结果或共通程序,并在此基础上进行构建。尽管针对长思维链的强化学习(RL)后训练最终旨在揭示此类算法化行为,但大型模型所学到的大多数推理轨迹未能持续地捕捉或复用有效程序,反而趋向于冗长且退化的探索。为了实现更有效的推理,我们引入了“推理抽象”(reasoning abstractions)——即对程序性知识和事实性知识的简洁自然语言描述,用以引导模型学习成功的推理路径。我们训练模型在给定问题时能够提出多个抽象,随后通过强化学习机制鼓励模型在利用这些抽象所提供的信息的基础上构建解决方案。该方法形成了一种双角色强化学习训练范式,简称为 RLAD,可联合训练一个抽象生成器和一个解决方案生成器。这种架构有效实现了结构化探索,解耦了抽象提出与解题生成的学习信号,并提升了模型向更复杂问题的泛化能力。我们还发现,在测试阶段将更多计算资源用于生成抽象,相较于在大规模测试预算下生成更多解法,能带来更大的性能提升,这凸显了抽象在引导有意义探索中的关键作用。


32. Transformers Discover Molecular Structure Without Graph Priors

作者: Tobias Kreiman, Yutong Bai, Fadi Atieh, Elizabeth Weaver, Eric Qu, Aditi S. Krishnapriyan

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-10-02 | 👍 点赞数: 5

摘要:

论文标题:Transformer无需图结构先验即可发现分子结构

中文摘要:
图神经网络(GNN)是分子机器学习领域的主流架构,尤其广泛应用于分子性质预测和机器学习原子间势能(MLIPs)任务中。GNN通常在预定义的图结构上进行消息传递,这些图结构多由固定的截断半径或k近邻方案生成。尽管这种设计符合许多分子任务中的局部性特征,但硬编码的图结构会因固定的感受野而限制模型表达能力,并且稀疏图操作也拖慢了推理速度。在本研究中,我们探讨了纯粹的、未经修改的Transformer模型——仅基于笛卡尔坐标进行训练,无需预定义图结构或物理先验知识——是否能够有效逼近分子能量与受力。作为分析的起点,我们在与最先进等变GNN模型相当的训练计算预算下,展示了如何将一个Transformer模型训练至在OMol25数据集上达到具有竞争力的能量和力的平均绝对误差水平。我们发现,该Transformer模型学习到了符合物理规律的模式——例如注意力权重随原子间距离增大而呈反比衰减——并且由于不存在硬编码偏差,模型能够灵活地适应不同分子环境。此外,使用标准Transformer架构还带来了训练资源扩展带来的可预测性能提升,这与其他领域中观察到的经验性缩放定律一致。我们的结果表明,GNN所具备的诸多优势特性可以在Transformer中自适应地涌现,从而挑战了必须引入硬编码图结构归纳偏置的传统观念,并为分子建模指明了一条标准化、可扩展的架构路径。


33. Just Do It!? Computer-Use Agents Exhibit Blind Goal-Directedness

作者: Erfan Shayegani, Keegan Hines, Yue Dong, Nael Abu-Ghazaleh, Roman Lutz, Spencer Whitehead, Vidhisha Balachandran, Besmira Nushi, Vibhav Vineet

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-10-02 | 👍 点赞数: 5

摘要:

论文标题:动手就行?计算机使用代理表现出盲目的目标导向性

中文摘要:
计算机使用代理(Computer-Use Agents, CUAs)是一类日益广泛部署的智能体,能够通过在图形用户界面(GUI)上执行操作来实现用户目标。本文揭示,CUAs 普遍存在“盲目目标导向性”(Blind Goal-Directedness, BGD)现象:即无论目标是否可行、安全、可靠或符合上下文情境,代理均倾向于一味追求目标。我们归纳出 BGD 的三种典型表现模式:(i)缺乏上下文推理能力,(ii)在模糊情境下做出假设与决策,以及(iii)面对矛盾或不可行的目标时仍强行推进。基于此,我们构建了包含90项任务的基准测试 BLIND-ACT,用以捕捉上述三类行为模式。BLIND-ACT 基于 OSWorld 构建,提供逼真的操作系统环境,并采用基于大语言模型(LLM)的评判机制评估代理行为,其判断结果与人工标注的一致性高达 93.75%。我们利用 BLIND-ACT 对包括 Claude Sonnet、Claude Opus 4、Computer-Use-Preview 和 GPT-5 在内的九个前沿模型进行了评估,发现这些模型普遍存在较高的 BGD 现象(平均率达 80.8%)。研究进一步表明,BGD 会在即使输入请求本身不具明显危害的情况下引发潜在风险。尽管基于提示工程(prompting-based)的干预措施能在一定程度上降低 BGD 水平,但风险依然显著,凸显出在训练阶段或推理阶段引入更强有力干预机制的必要性。定性分析揭示了若干典型的失败模式:执行优先偏差(更关注“如何做”而非“该不该做”)、思维与行动脱节(执行过程偏离原有推理)、以及请求优先原则(仅因用户提出请求便为其行为辩护)。识别 BGD 现象并提出 BLIND-ACT 基准,为未来研究此类根本性风险提供了基础,有助于推动对 CUA 安全性的深入探索与有效缓解,确保其安全部署。


34. VLA-R1: Enhancing Reasoning in Vision-Language-Action Models

作者: Angen Ye, Zeyu Zhang, Boyuan Wang, Xiaofeng Wang, Dapeng Zhang, Zheng Zhu

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-10-02 | 👍 点赞数: 5

摘要:

论文标题:VLA-R1:增强视觉-语言-动作模型的推理能力

中文摘要:
视觉-语言-动作(Vision-Language-Action, VLA)模型旨在统一感知、语言理解与动作生成,具备强大的跨任务与跨场景泛化能力,对具身人工智能(embodied AI)具有广泛影响。然而,当前的VLA模型通常缺乏显式的逐步推理机制,往往直接输出最终动作,而未充分考虑可操作性约束(affordance constraints)或几何空间关系。此外,其后训练流程也极少强化推理质量,主要依赖监督微调,且奖励机制设计较弱。为应对上述挑战,我们提出了VLA-R1,一种增强推理能力的VLA模型,通过结合“基于可验证奖励的强化学习”(Reinforcement Learning from Verifiable Rewards, RLVR)与“组相对策略优化”(Group Relative Policy Optimization, GRPO),系统性地优化推理过程与执行效果。具体而言,我们设计了一种基于RLVR的后训练策略,引入针对区域对齐、轨迹一致性以及输出格式的可验证奖励,从而提升推理的鲁棒性与执行的准确性。此外,我们构建了VLA-CoT-13K——一个高质量的数据集,提供明确与可操作性及轨迹标注对齐的思维链(chain-of-thought)监督信号。在领域内、领域外、仿真环境以及真实机器人平台上的大量实验表明,VLA-R1相较于先前的VLA方法展现出更优的泛化能力与实际表现。我们计划在本文发表后公开模型、代码与数据集。代码地址:https://github.com/GigaAI-research/VLA-R1。项目网站:https://gigaai-research.github.io/VLA-R1。


35. TimeSeriesScientist: A General-Purpose AI Agent for Time Series Analysis

作者: Haokun Zhao, Xiang Zhang, Jiaqi Wei, Yiwei Xu, Yuting He, Siqi Sun, Chenyu You

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-10-02 | 👍 点赞数: 4

摘要:

论文标题:TimeSeriesScientist:一种用于时间序列分析的通用人工智能代理

中文摘要:
时间序列预测在能源、金融、气候和公共卫生等多个领域中对决策至关重要。在实际应用中,预测人员面临成千上万条短小、含噪声的时间序列,这些序列在频率、质量和预测周期上各不相同,其中主要成本并不在于模型拟合,而在于获得可靠预测所需的人工密集型预处理、验证和模型集成过程。现有的统计方法和深度学习模型通常针对特定数据集或领域设计,泛化能力较差。因此,亟需一种通用的、与领域无关的框架,以最大限度减少人工干预。本文提出 TimeSeriesScientist(TSci),这是首个由大语言模型(LLM)驱动的、面向通用时间序列预测的智能代理框架。该框架包含四个专业化代理:Curator(数据管理者)结合外部工具进行LLM引导的诊断,通过推理数据统计特征来选择针对性的预处理方法;Planner(规划者)利用多模态诊断结果和对输入的自我规划,缩小模型选择的假设空间;Forecaster(预测者)执行模型拟合与验证,并根据结果自适应地选择最优模型配置及集成策略以生成最终预测;Reporter(报告生成者)则将整个流程整合为一份全面且透明的报告。通过清晰的自然语言推理过程和详尽的分析报告,TSci 将预测工作流转化为一个可解释、可扩展的白箱系统。在八个主流基准数据集上的实验结果表明,TSci 分别比传统统计方法和基于LLM的基线方法平均降低预测误差10.4%和38.2%。此外,TSci 能够生成清晰严谨的分析报告,显著提升了预测流程的透明度与可解释性。


36. Group-Relative REINFORCE Is Secretly an Off-Policy Algorithm:

Demystifying Some Myths About GRPO and Its Friends

作者: Chaorui Yao, Yanxi Chen, Yuchang Sun, Yushuo Chen, Wenhao Zhang, Xuchen Pan, Yaliang Li, Bolin Ding

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-29 | 👍 点赞数: 4

摘要:

论文标题:Group-Relative REINFORCE 实为一种隐式的离策略算法:
—— 揭示 GRPO 及其相关方法的一些误解

中文摘要:
针对大语言模型(Large Language Models, LLMs)的离策略强化学习(off-policy reinforcement learning, RL)正受到越来越多的关注,这主要源于实际应用中的工程限制、LLM-RL 系统架构的复杂性,以及对强化学习方法进一步创新的需求。尽管经典的 REINFORCE 算法及其现代变体(如组相对策略优化 Group Relative Policy Optimization, GRPO)通常被视为仅适用于策略内(on-policy)学习、对离策略数据容忍度较低的算法,本文通过第一性原理推导,在不假设特定训练数据分布的前提下,重新审视了组相对 REINFORCE 方法,揭示其本质上具备天然的离策略解释。这一新视角引出了将 REINFORCE 适配至离策略场景的两个通用原则:一是对策略更新进行正则化,二是主动塑造数据分布。我们的分析澄清了关于 GRPO 中重要性采样(importance sampling)与裁剪(clipping)作用的一些常见误解,统一并重新诠释了两种近期提出的算法——在线策略镜像下降(Online Policy Mirror Descent, OPMD)和非对称 REINFORCE(Asymmetric REINFORCE, AsymRE)——它们均可视为对 REINFORCE 损失函数的正则化形式。同时,本文为一些看似启发式的数据加权策略提供了理论依据。研究结果带来了可操作的设计洞见,并通过大量实证研究加以验证,为面向大语言模型的离策略强化学习提供了新的、基于原理的算法设计方向。本工作的源代码发布于 https://github.com/modelscope/Trinity-RFT/tree/main/examples/rec_gsm8k。


37. Drawing Conclusions from Draws: Rethinking Preference Semantics in

Arena-Style LLM Evaluation

作者: Raphael Tang, Crystina Zhang, Wenyan Li, Carmen Lai, Pontus Stenetorp, Yao Lu

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-10-02 | 👍 点赞数: 3

摘要:

论文标题:从平局中得出结论:重新思考竞技场式大语言模型评估中的偏好语义

中文摘要:
在大语言模型(LLMs)的竞技场式评估中,两个模型对同一用户查询生成回复,用户选择更优回复或判定“对战”为平局,进而触发对两个模型评分的调整。目前建模此类评分动态的主流方法是将对战视为类似国际象棋的双人对弈比赛,并采用Elo评分系统及其衍生方法。本文对此范式提出批判性审视。具体而言,我们质疑平局是否真正意味着两个模型能力相等,因而其评分是否应被拉平。相反,我们推测平局更多反映的是查询本身的难度:若查询过于简单,则两个模型均更可能表现相当。在三个真实世界的竞技场数据集上,我们发现,忽略平局带来的评分更新,可使所研究的四种评分系统在对战结果预测准确率(包含平局)上相对提升1%–3%。进一步分析表明,平局更常出现在被评定为非常简单或高度客观的查询上,其风险比分别为1.37和1.35。我们建议未来的评分系统应重新审视当前对平局的语义设定,并在评分更新中纳入查询属性的影响。


38. Parallel Scaling Law: Unveiling Reasoning Generalization through A

Cross-Linguistic Perspective

作者: Wen Yang, Junhong Wu, Chong Li, Chengqing Zong, Jiajun Zhang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-10-02 | 👍 点赞数: 3

摘要:

论文标题:平行扩展定律:通过跨语言视角揭示推理泛化机制

中文摘要:
近年来,强化后训练(Reinforcement Post-Training, RPT)的进展显著提升了大型推理模型(Large Reasoning Models, LRMs)的能力,引发了人们对基于强化学习的推理泛化能力的广泛关注。尽管现有研究主要聚焦于跨任务或跨模态的泛化性能,本研究提出了一种全新的跨语言视角来探究推理泛化问题。这引出一个关键问题:通过英文RPT获得的推理能力能否有效迁移到其他语言?为回答这一问题,我们系统地在多语言推理基准上评估了以英语为中心的LRMs,并引入了一项新指标来量化跨语言可迁移性。研究发现,跨语言可迁移性在初始模型、目标语言和训练范式之间存在显著差异。通过干预实验,我们发现初始英文能力更强的模型往往过度依赖英语特有的模式,从而导致跨语言泛化能力下降。为此,我们开展了一项全面的并行训练研究。实验结果揭示了三个关键发现:第一,“并行跃迁”现象——从单语训练转向仅加入一种并行语言时,性能出现显著跃升;第二,“平行扩展定律”——跨语言推理迁移能力随训练中使用的并行语言数量呈幂律增长;第三,我们定义了“单语泛化差距”(Monolingual Generalization Gap),即实际单语性能与幂律预测值之间的差距,表明以英语为中心的LRMs未能充分实现跨语言的完全泛化。本研究挑战了“LRM推理能力模拟人类认知”的普遍假设,为构建更具语言无关性的大型推理模型提供了重要启示。


39. Rethinking the shape convention of an MLP

作者: Meng-Hsi Chen, Yu-Ang Lee, Feng-Ting Liao, Da-shan Shiu

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-10-02 | 👍 点赞数: 3

摘要:

论文标题:重新思考MLP的结构设计惯例

中文摘要: 多层感知机(MLP)传统上遵循“窄-宽-窄”的设计模式,其中跳跃连接(skip connections)在输入/输出维度上操作,而信息处理则在扩展后的隐藏空间中进行。本文挑战这一惯例,提出一种“宽-窄-宽”(沙漏型,Hourglass)的MLP模块结构,其中跳跃连接在扩展后的高维空间中运行,而残差计算则通过狭窄的瓶颈路径流动。这种结构反转利用高维空间实现渐进式精细化表征,同时通过参数量匹配的设计保持计算效率。实现沙漏型MLP需要一个初始投影,将输入信号提升至扩展维度;我们提出该投影可在整个训练过程中保持固定且随机初始化,从而实现高效的训练与推理实现。我们在主流图像数据集上的生成任务中评估了两种架构,并通过系统的结构搜索刻画其性能-参数之间的帕累托前沿。结果表明,沙漏型架构在各种参数配置下均持续优于传统设计。随着参数预算增加,最优沙漏结构倾向于更深的网络、更宽的跳跃连接和更窄的瓶颈——这一扩展模式明显不同于传统的MLP。我们的研究结果提示,应在现代神经网络架构中重新审视跳跃连接的位置设计,该思路可望推广应用于Transformer及其他残差网络结构中。


40. Generalized Parallel Scaling with Interdependent Generations

作者: Harry Dong, David Brandfonbrener, Eryk Helenowski, Yun He, Mrinal Kumar, Han Fang, Yuejie Chi, Karthik Abinav Sankararaman

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-10-01 | 👍 点赞数: 3

摘要:

论文标题:具有相互依赖生成过程的广义并行扩展

中文摘要:
大语言模型(LLM)的并行推理扩展涉及对单个输入提示同时生成 N>1 个响应。然而,这 N 个并行响应通常是彼此独立生成的,导致计算资源被分割,且一个生成结果中潜在有用的信息无法被其他生成过程利用。这与响应长度扩展形成对比——在后者中,先前的计算结果会被后续所有步骤所使用。为了获得更高质量的响应及响应集合,我们提出“Bridge”方法,通过将批量处理的LLM隐藏状态重新视为整体张量而非独立切片,从而在并行生成过程中构建相互依赖的响应关系。Bridge仅引入少量新增参数(2.8%–5.1%),即可使基于可验证奖励的强化学习相对平均准确率提升高达50%,并显著增强正确响应之间的一致性。一旦训练完成,Bridge可扩展至任意生成宽度,且在各种设置下性能均优于独立生成,从而开启了一种更通用的并行扩展模式,能够有效利用序列之间的信息交互,并兼容任何生成后的聚合技术。


41. Rethinking Thinking Tokens: LLMs as Improvement Operators

作者: Lovish Madaan, Aniket Didolkar, Suchin Gururangan, John Quan, Ruan Silva, Ruslan Salakhutdinov, Manzil Zaheer, Sanjeev Arora, Anirudh Goyal

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-10-01 | 👍 点赞数: 3

摘要:

论文标题:重新思考思维令牌:将大语言模型视为改进算子

摘要:
推理训练促使大语言模型(LLMs)生成长链的思维过程(long CoT),这使得模型能够通过自我检验来探索多种解题策略。虽然这种方法提高了准确性,但也导致上下文长度增加、令牌/计算成本上升以及回答延迟加剧。我们提出一个问题:当前的模型是否可以利用其元认知能力,在这一帕累托前沿上实现其他更优组合,例如在更短的上下文长度和/或更低延迟的情况下获得更高的准确性?从抽象角度看,我们将模型视为对其自身“思维”的改进算子,具备一系列可能的策略选择。我们发现了一类有趣的推理方法——并行-提炼-精炼(Parallel-Distill-Refine, PDR),其执行步骤如下:(i)并行生成多样化的初稿;(ii)将这些初稿提炼为一个有界、文本化的共享工作区;(iii)基于该工作区进行条件化精炼,生成输出,并作为下一轮迭代的输入。重要的是,上下文长度(从而计算成本)可通过并行度进行控制,不再与生成令牌总数直接绑定。我们展示了当前模型在采用PDR实例化后的表现,不仅准确率超过传统的长链思维(long CoT),且延迟更低。当并行度设为1时,得到一个有趣的特例——顺序精炼(Sequential Refinement, SR),即对单个候选答案进行迭代优化,其性能同样优于长链思维。这类模型编排的成功引发了一个问题:是否可以通过进一步训练来移动帕累托前沿?为此,我们使用强化学习(RL)训练了一个80亿参数的“思考模型”,使其推理方式与PDR框架保持一致。在具有可验证答案的数学任务上,迭代式推理流程在相同的顺序计算预算下超越了单次前向推理基线,其中PDR带来了最显著的提升(例如,在AIME 2024上提升+11%,在AIME 2025上提升+9%)。


42. One-Token Rollout: Guiding Supervised Fine-Tuning of LLMs with Policy

Gradient

作者: Rui Ming, Haoyuan Wu, Shoubo Hu, Zhuolun He, Bei Yu

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-30 | 👍 点赞数: 3

摘要:

论文标题:单令牌 rollout:基于策略梯度的大型语言模型监督微调引导方法

中文摘要:
监督微调(Supervised Fine-Tuning, SFT)是当前调整大型语言模型(LLMs)的主要方法,但其在泛化能力方面通常不如强化学习(Reinforcement Learning, RL)。本文提出,这种性能差距的根源不仅在于损失函数的不同,更在于一个更为根本的差异:SFT 依赖于固定且预先收集的数据集进行学习,而 RL 则使用从当前策略中采样得到的“on-policy”数据。基于这一假设,我们提出了“单令牌 rollout”(One-Token Rollout, OTR),一种新颖的微调算法,通过策略梯度方法来引导监督微调过程。OTR 对自回归学习过程进行了重构,将每个令牌的生成视为一个单步的强化学习轨迹。在每一步中,该方法从当前策略分布中采样多个候选令牌,执行一次蒙特卡洛“rollout”。然后,利用监督数据中的真实标签令牌为这些采样结果提供奖励信号。在策略梯度的指导下,我们的算法将静态的、离策略(off-policy)的监督数据转化为动态的、逐令牌级别的在策略(on-policy)信号,在保留 on-policy 学习所带来的泛化优势的同时,避免了完整句子生成带来的高昂计算开销。我们在涵盖数学推理、代码生成和通用领域推理等多个具有挑战性的基准任务上进行了广泛实验,结果表明 OTR 始终优于标准的 SFT 方法。本研究确立了 OTR 作为一种强大且实用的 LLM 微调替代方案,并提供了有力证据表明数据的 on-policy 特性是推动模型泛化能力的关键因素,为 LLM 的微调提供了富有前景的新方向。


43. FrameThinker: Learning to Think with Long Videos via Multi-Turn Frame

Spotlighting

作者: Zefeng He, Xiaoye Qu, Yafu Li, Siyuan Huang, Daizong Liu, Yu Cheng

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-29 | 👍 点赞数: 3

摘要:

论文标题:FrameThinker:通过多轮帧选择实现长视频推理学习

中文摘要:
尽管大型视觉-语言模型(Large Vision-Language Models, LVLMs)在视频理解方面已取得显著进展,但其在长视频推理任务中的应用仍受限于均匀帧采样和静态文本推理方式,这些方法效率低下,难以应对视觉信息密集的复杂视频任务。为克服上述挑战,本文提出“长视频推理”这一新概念,并设计了一种新颖的框架——FrameThinker。在该框架下,LVLMs 能够对视频内容进行多轮迭代式查询与推理。然而,在 LVLMs 中构建此类视频推理能力面临显著挑战,尤其是如何使模型适应新的视频操作(例如选择关键帧),以及设计有效的奖励函数以引导模型合理使用这些新引入的操作。为此,我们提出一种两阶段训练策略:首先采用监督微调(Supervised Fine-Tuning, SFT)赋予模型基本的动作执行能力;随后通过强化学习(Reinforcement Learning, RL)优化其策略性决策能力。特别地,在强化学习阶段,我们对每种动作及格式化奖励的设计进行了深入而全面的探索。在多个推理基准(如 Video-Holmes、LongVideo-Reason)以及长视频理解基准(如 LongVideoBench、MLVU、VideoMME 和 LVBench)上的大量实验表明,FrameThinker 相较基线方法平均提升了 +10.4%,同时显著减少了处理的帧数。尤为突出的是,我们的 7B 规模模型 FrameThinker 在 LongVideo-Reason 上取得了 76.1% 的准确率,平均每段视频仅使用 20.6 帧,不仅超越了具有竞争力的 LongVILA-R1 模型(72.0%),而且所用帧数减少超过 20 倍(对比 512 帧),展现出前所未有的高效性与优越性能。


44. SKYLENAGE Technical Report: Mathematical Reasoning and

Contest-Innovation Benchmarks for Multi-Level Math Evaluation

作者: Hu Wei, Ze Xu, Boyu Yang, Linlin Miao, Weiqi Zhai, Yihan Li, Zixuan Li, Zhijun Wang, Boya Wang, Jianwei Yu, Jialing Yuan, Xiaoyue Zhang, Cheng He, Minglei Chen, Zifan Zhang, Qianhui Li, Wei Wang, Xiang Xu

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-24 | 👍 点赞数: 3

摘要:

论文标题:SKYLENAGE 技术报告:面向多层级数学评估的推理能力与竞赛创新基准

中文摘要:
大型语言模型(LLMs)在许多公开数学测试集上已展现出强劲性能,然而当前在数学领域内的前沿模型区分度正日益受到天花板效应的限制。为此,我们提出了两个互补的基准测试集:SKYLENAGE-ReasoningMATH,一个包含100道题目的、具有结构感知特性的诊断性数据集,每道题目均附有关于长度、数字密度和符号复杂度的元数据;以及 SKYLENAGE-MATH,一个涵盖150道题目的竞赛风格测试集,依据七类学科分类,覆盖从高中到博士阶段的四个难度层级。我们在统一实验设置下评估了十五种当前主流的 LLM 变体,并对“学科×模型”与“难度等级×模型”的表现进行了分析。在竞赛类测试集中,最强模型得分为44%,次优模型为37%;准确率随教育层级升高而下降,顶尖系统在博士级到高中级题目间的性能保持率约为79%。在推理测试集中,最佳模型总体准确率达到81%,而在最难子集上的结果揭示了领先模型与中等水平模型之间存在明显的鲁棒性差距。综上所述,我们正式发布 SKYLENAGE-ReasoningMATH,并报告 SKYLENAGE-MATH 的聚合结果;整体而言,SKYLENAGE 构成了一个高难度、以推理为核心、覆盖面广且具备校准难度与丰富元数据的数学评估基准,可作为未来数学推理能力评估的重要参考标准。


45. Optimizing What Matters: AUC-Driven Learning for Robust Neural Retrieval

作者: Nima Sheikholeslami, Erfan Hosseini, Patrice Bechard, Srivatsava Daruru, Sai Rajeswar

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-30 | 👍 点赞数: 2

摘要:

论文标题:优化关键所在:面向鲁棒神经检索的AUC驱动学习

中文摘要:
双编码器检索模型依赖于这样一个原则:对于给定查询,相关文档的得分应高于不相关文档。然而,当前主流的噪声对比估计(Noise Contrastive Estimation, NCE)目标函数(即对比损失的基础)优化的是一个经过软化的排序代理目标,我们严格证明该目标从根本上忽视了得分分离的质量,且与AUC无关。这种不匹配导致模型在诸如检索增强生成(RAG)等下游任务中校准性能差、效果次优。为解决这一根本性局限,我们提出了MW损失(MW loss),一种新的训练目标,旨在最大化Mann-Whitney U统计量,该统计量在数学上等价于ROC曲线下面积(AUC)。MW损失通过对得分差异最小化二元交叉熵,促使每一对正负样本均被正确排序。我们提供了理论保证,表明MW损失能够直接上界AoC(Area over the Curve),从而更紧密地将优化过程与检索目标对齐。此外,我们倡导将ROC曲线和AUC作为自然的、无需阈值设定的诊断工具,用于评估检索器的校准程度和排序质量。实验结果表明,采用MW损失训练的检索器在AUC及标准检索指标上 consistently 优于基于对比学习的模型。我们的实验验证了MW损失是对比损失的一个实证性能更优的替代方案,能够为RAG等高要求应用场景提供校准更好、判别能力更强的检索模型。


46. Controlled Generation for Private Synthetic Text

作者: Zihao Zhao, Anjalie Field

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-30 | 👍 点赞数: 2

摘要:

论文标题:面向私有合成文本的可控生成

中文摘要:
在医疗、社会服务和法律等高风险领域,文本去标识化对于负责任地开发和部署人工智能技术至关重要。本文提出了一种新的隐私保护型合成文本生成方法,该方法结合了去标识化原则与“公然隐藏”(Hiding In Plain Sight, HIPS)理论。我们引入了实体感知的控制码,以指导基于上下文学习(in-context learning, ICL)或前缀调优(prefix tuning)的可控文本生成。其中,ICL变体能够确保与底层去标识化系统一致的隐私保护水平;而前缀调优变体则采用定制的掩码策略和损失函数,支持可扩展且高质量的文本生成。在法律和临床数据集上的实验表明,所提出的方法在隐私保护与文本可用性之间实现了良好平衡,为敏感领域的合成文本生成提供了一种实用且有效的解决方案。


47. MedQ-Bench: Evaluating and Exploring Medical Image Quality Assessment

Abilities in MLLMs

作者: Jiyao Liu, Jinjie Wei, Wanying Qu, Chenglong Ma, Junzhi Ning, Yunheng Li, Ying Chen, Xinzhe Luo, Pengcheng Chen, Xin Gao, Ming Hu, Huihui Xu, Xin Wang, Shujian Gao, Dingkang Yang, Zhongying Deng, Jin Ye, Lihao Liu, Junjun He, Ningsheng Xu

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-10-02 | 👍 点赞数: 1

摘要:

论文标题:MedQ-Bench:评估与探索多模态大语言模型在医学图像质量评价中的能力

中文摘要:
医学图像质量评估(IQA)是临床人工智能的“第一道安全关卡”,然而现有方法仍局限于标量化的、基于评分的指标,难以反映专家评估中所依赖的描述性、类人推理过程。为填补这一空白,我们提出了MedQ-Bench——一个综合性基准,旨在建立一种基于语言的、融合感知与推理范式的医学图像质量评估体系,专用于多模态大语言模型(MLLMs)。MedQ-Bench定义了两个互补的任务:(1)MedQ-感知(MedQ-Perception),通过人工精心设计的关于基础视觉属性的问题,考察模型在低层次感知方面的能力;(2)MedQ-推理(MedQ-Reasoning),包含无参考和对比推理任务,使模型的评估方式更贴近人类对图像质量的类人推理过程。该基准涵盖五种医学成像模态和四十余种质量属性,共包含2,600个感知类问题和708项推理评估任务,数据来源多样,包括真实临床采集图像、通过物理建模重建模拟退化的图像,以及AI生成的图像。为了评估模型的推理能力,我们提出了一种多维度评判协议,从四个互补的维度对模型输出进行评估。此外,我们通过将基于大语言模型的判断结果与放射科医生的评估进行比较,开展了严格的人类-人工智能一致性验证。对14种当前最先进的MLLMs的评估结果显示,这些模型虽已初步具备一定的感知与推理能力,但表现尚不稳定,在准确性方面仍不足以支持可靠的临床应用。这些发现凸显了针对医学图像质量评估任务对MLLMs进行专门优化的迫切需求。我们期望MedQ-Bench能够推动相关研究的深入发展,充分释放MLLMs在医学图像质量评估领域的潜在价值。


48. Spectral Scaling Laws in Language Models: How Effectively Do

Feed-Forward Networks Use Their Latent Space?

作者: Nandan Kumar Jha, Brandon Reagen

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-10-01 | 👍 点赞数: 1

摘要:

论文标题:语言模型中的谱缩放定律:前馈网络如何有效利用其潜在空间?

中文摘要:
随着大语言模型(LLMs)规模的不断扩大,问题不仅在于模型体量的增长,更在于其容量有多少得到了有效利用。现有的缩放定律描述了模型规模与损失之间的关系,却忽视了模型各组件对其潜在空间的利用情况。本文研究前馈网络(FFNs),并将宽度选择问题重新表述为一种谱利用问题。我们采用一套轻量级诊断工具——硬秩(Hard Rank,参与比)、软秩(Soft Rank,香农秩)、谱集中度(Spectral Concentration)以及综合性的谱利用率指数(Spectral Utilization Index, SUI)——来量化LLaMA、GPT-2和nGPT系列模型中实际被有意义激活的潜在方向数量。我们的核心发现是一种不对称的谱缩放律:软秩几乎完美地遵循前馈网络宽度的幂律关系,而硬秩仅以次线性方式增长且具有较高方差。这种不对称性表明,增加前馈网络宽度主要引入的是低能量的尾部方向,而主导模式的子空间则较早达到饱和。此外,在更大宽度下,方差进一步坍缩至一个狭窄的子空间,导致大部分潜在空间未被充分利用。这些结果将前馈网络宽度的选择重新定义为尾部容量与主导模式容量之间的原则性权衡,为推理高效的大语言模型设计提供了具体指导。


49. SQUARE: Semantic Query-Augmented Fusion and Efficient Batch Reranking

for Training-free Zero-Shot Composed Image Retrieval

作者: Ren-Di Wu, Yu-Yen Lin, Huei-Fang Yang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-30 | 👍 点赞数: 1

摘要:

论文标题:SQUARE:语义查询增强融合与高效批量重排序,用于无需训练的零样本组合图像检索

中文摘要:
组合图像检索(Composed Image Retrieval, CIR)旨在检索既保留参考图像视觉内容又融合用户指定文本修改的目标图像。无需任务特定训练或标注数据的零样本CIR(ZS-CIR)方法具有重要应用价值,但准确捕捉用户意图仍具挑战性。本文提出SQUARE,一种新颖的两阶段无需训练框架,利用多模态大语言模型(MLLMs)提升ZS-CIR性能。在语义查询增强融合(Semantic Query-Augmented Fusion, SQAF)阶段,我们利用MLLM生成的目标图像描述来增强来自视觉-语言模型(如CLIP)的查询嵌入。这些描述提供了高层语义引导,使查询能更准确地捕捉用户意图,从而提升整体检索质量。在高效批量重排序(Efficient Batch Reranking, EBR)阶段,将初步检索出的高排名候选图像以带视觉标记的图像网格形式输入MLLM,由其对所有候选图像进行联合的视觉-语义推理。我们的重排序策略仅需单次推理即可完成,显著提高了排序精度。实验结果表明,SQUARE凭借其简洁性和有效性,在四个标准CIR基准上均表现出色。值得注意的是,即使采用轻量级预训练模型,SQUARE仍能保持优异性能,展现出良好的实际应用潜力。


50. Think Right: Learning to Mitigate Under-Over Thinking via Adaptive,

Attentive Compression

作者: Joykirat Singh, Justin Chih-Yao Chen, Archiki Prasad, Elias Stengel-Eskin, Akshay Nambi, Mohit Bansal

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-10-02

摘要:

论文标题:Think Right:通过自适应、注意力驱动的压缩学习缓解过度与不足思考

中文摘要:
近期的“思维模型”通过扩展测试时计算量来解决复杂的推理任务,但这种计算资源的扩展必须根据任务难度进行合理分配。一方面,过短的推理过程(即“思考不足”)会导致在需要多步深入推理的复杂问题上出现错误;而另一方面,过长的推理过程(即“思考过度”)则会造成token使用效率低下,即使已得出正确的中间结论,仍继续生成不必要的推理步骤。我们将此类问题称为“缺乏适应性”(under-adaptivity),即模型无法根据问题难度动态调节其输出长度。为应对这一问题,并在“思考不足”与“思考过度”之间取得平衡,我们提出了TRAAC(Think Right with Adaptive, Attentive Compression)——一种在线后训练强化学习方法。该方法利用模型在长推理轨迹上的自注意力机制,识别关键推理步骤并剪枝冗余部分。同时,TRAAC还能估计问题难度,并将其纳入训练奖励函数中,从而学会根据样本难度合理分配推理预算。相比基础模型及其他强化学习基线方法,我们的方法在提升准确率的同时减少了推理步数,实现了更具适应性的推理能力。在多种任务(AIME、AMC、GPQA-D、BBEH)上的实验表明,基于Qwen3-4B的TRAAC模型相较于基础模型平均绝对准确率提升了8.4%,推理长度相对缩短了36.8%;相较于最优的强化学习基线,准确率提升7.9%,推理长度减少29.4%。此外,TRAAC展现出较强的泛化能力:尽管模型仅在数学类数据集上进行训练,但在分布外的非数学任务(如GPQA-D、BBEH和OptimalThinkingBench)上也实现了准确率与推理效率的双重提升。我们的分析进一步验证了TRAAC能够根据任务难度对推理预算进行细粒度调整,且任务难度校准与基于注意力的压缩机制相结合,可在多种不同任务上带来一致的性能增益。


51. AReUReDi: Annealed Rectified Updates for Refining Discrete Flows with

Multi-Objective Guidance

作者: Tong Chen, Yinuo Zhang, Pranam Chatterjee

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-30

摘要:

论文标题:AReUReDi:基于退火修正更新的多目标引导离散流优化方法

中文摘要:
在治疗性分子与生物分子工程中,设计满足多个(通常是相互冲突的)目标的序列是一项核心挑战。现有的生成模型框架大多在连续空间中运行,并依赖单目标引导;而离散方法则缺乏对多目标帕累托最优性的保证。本文提出AReUReDi(Annealed Rectified Updates for Refining Discrete Flows,即“退火修正更新用于优化离散流”),这是一种具有理论保证、可收敛至帕累托前沿的离散优化算法。该方法基于修正离散流(Rectified Discrete Flows, ReDi),结合切比雪夫标量化(Tchebycheff scalarization)、局部平衡提议机制以及退火Metropolis-Hastings更新策略,在保持分布不变性的同时,将采样过程导向帕累托最优区域。在肽段和SMILES序列设计任务中的应用表明,AReUReDi能够同时优化多达五项治疗相关性质(包括亲和力、溶解度、溶血性、半衰期和抗污性),性能优于传统的进化算法及基于扩散模型的基线方法。实验结果表明,AReUReDi是一种强大且以序列为基础的多属性生物分子生成框架。


52. IoT-MCP: Bridging LLMs and IoT Systems Through Model Context Protocol

作者: Ningyuan Yang, Guanliang Lyu, Mingchen Ma, Yiyi Lu, Yiming Li, Zhihui Gao, Hancheng Ye, Jianyi Zhang, Tingjun Chen, Yiran Chen

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-25

摘要:

论文标题:IoT-MCP:通过模型上下文协议连接大语言模型与物联网系统

中文摘要:
将大语言模型(Large Language Models, LLMs)与物联网(Internet-of-Things, IoT)系统集成面临硬件异构性和控制复杂性等重大挑战。模型上下文协议(Model Context Protocol, MCP)作为一种关键使能技术,为LLMs与物理设备之间的标准化通信提供了支持。本文提出IoT-MCP,一种通过边缘部署服务器实现MCP的新型框架,旨在桥接LLMs与物联网生态系统。为支持严谨的评估,我们提出了IoT-MCP Bench,这是首个面向具备物联网能力的LLMs的基准测试集,包含114项基础任务(例如,“当前温度是多少?”)和1,140项复杂任务(例如,“我感觉太热了,你有什么建议吗?”)。在22种传感器类型和6种微控制器单元上的实验验证表明,IoT-MCP在生成完全符合预期且结果完全准确的工具调用方面实现了100%的任务成功率,平均响应时间为205毫秒,峰值内存占用仅为74KB。本研究不仅提供了一个开源集成框架(https://github.com/Duke-CEI-Center/IoT-MCP-Servers),还建立了一套标准化的LLM-IoT系统评估方法。