跳到主要内容
目录

每日论文 - 2025年09月09日

论文总数: 25

1. Reverse-Engineered Reasoning for Open-Ended Generation

作者: Haozhe Wang, Haoran Que, Qixin Xu, Minghao Liu, Wangchunshu Zhou, Jiazhan Feng, Wanjun Zhong, Wei Ye, Tong Yang, Wenhao Huang, Ge Zhang, Fangzhen Lin

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-07 | 👍 点赞数: 136

摘要:

尽管“深度推理”范式在数学等可验证领域推动了显著进展,但其在开放性、创造性生成任务中的应用仍是一个关键挑战。目前用于灌输推理能力的两种主流方法——强化学习(Reinforcement Learning, RL)与指令蒸馏(instruction distillation)——在这一领域表现不佳:强化学习面临明确奖励信号缺失和高质量奖励模型匮乏的问题,而指令蒸馏则成本高昂,并且受限于教师模型的能力上限。为克服这些局限性,我们提出了REverse-Engineered Reasoning(REER,反向工程推理)这一新范式,从根本上改变了推理方法的构建方式。REER并非通过试错或模仿“正向”构建推理过程,而是从已知优质解出发“反向”推导出潜在的、逐步深入的深度推理过程。借助这一可扩展、无梯度的方法,我们整理并开源了DeepWriting-20K数据集,其中包含20,000条面向开放性任务的深度推理轨迹。基于该数据集训练的模型DeepWriter-8B不仅超越了多个强大的开源基线模型,还在某些任务上实现了与GPT-4o和Claude 3.5等领先闭源模型相当甚至更优的性能。


2. WebExplorer: Explore and Evolve for Training Long-Horizon Web Agents

作者: Junteng Liu, Yunji Li, Chi Zhang, Jingyang Li, Aili Chen, Ke Ji, Weiyu Cheng, Zijia Wu, Chengyu Du, Qidi Xu, Jiayuan Song, Zhengmao Zhu, Wenhu Chen, Pengyu Zhao, Junxian He

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-08 | 👍 点赞数: 72

摘要:

WebExplorer: 探索与演进以训练长视野网络代理

摘要: 大型语言模型(LLMs)的研究范式正日益转向代理式应用,其中网络浏览能力对于从多样化的在线来源中检索信息至关重要。然而,现有的开源网络代理在复杂任务中的信息检索能力有限,或缺乏透明的实现方式。本研究发现,关键挑战在于缺乏具有挑战性的信息检索数据。为解决这一问题,我们提出了WebExplorer:一种基于模型探索和迭代长到短查询演化的系统性数据生成方法。该方法生成需要多步推理和复杂网络导航的具有挑战性的查询-答案对。通过利用我们构建的高质量数据集,我们通过监督微调结合强化学习成功开发了先进的网络代理WebExplorer-8B。我们的模型支持128K的上下文长度和最多100次工具调用轮次,实现了长视野问题求解能力。在多种信息检索基准测试中,WebExplorer-8B在其规模模型中达到了最先进的性能。值得注意的是,作为一个8B参数量的模型,在强化学习训练后,WebExplorer-8B能够在平均16轮对话内有效完成搜索,在BrowseComp-en/zh任务上的准确率超过了WebSailor-72B,并在WebWalkerQA和FRAMES任务上超越了所有100B参数量以内的模型。除了这些信息检索任务外,尽管仅在知识密集型问答数据上进行训练,我们的模型在HLE基准测试中也表现出强大的泛化能力。这些结果表明,我们的方法是实现长视野网络代理的可行路径。


3. Revolutionizing Reinforcement Learning Framework for Diffusion Large

Language Models

作者: Yinjie Wang, Ling Yang, Bowen Li, Ye Tian, Ke Shen, Mengdi Wang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-08 | 👍 点赞数: 50

摘要:

我们提出了TraceRL,这是一种轨迹感知的强化学习框架,适用于扩散语言模型(Diffusion Language Models, DLMs),其在后训练过程中引入了优选的推理轨迹,并可应用于不同的模型架构。通过配备基于扩散的价值模型以增强训练稳定性,我们在复杂的数学和编程任务上展示了更优的推理性能。此外,TraceRL还可用于将特定块(block-specific)模型适配到更大的块上,从而提高采样灵活性。基于TraceRL,我们开发了一系列最先进的扩散语言模型,统称为TraDo。尽管TraDo-4B-Instruct的参数规模小于7B级别的自回归模型,但其在复杂数学推理任务中始终表现更优。TraDo-8B-Instruct在数学推理基准测试中相较Qwen2.5-7B-Instruct提升了6.1%,相较Llama3.1-8B-Instruct则提升了51.3%。通过课程学习(curriculum learning),我们还首次构建了支持长思维链(long-CoT)的DLM,在MATH500数据集上相较Qwen2.5-7B-Instruct实现了18.1%的相对准确率提升。为了促进可复现的研究和实际应用,我们发布了一个全面的开源框架,支持在多种架构上构建、训练和部署扩散大语言模型。该框架集成了加速KV缓存技术以及用于推理和强化学习的推理引擎,并实现了多种面向数学、编程和通用任务的监督微调与强化学习方法。 代码和模型地址:https://github.com/Gen-Verse/dLLM-RL


4. Does DINOv3 Set a New Medical Vision Standard?

作者: Che Liu, Yinda Chen, Haoyuan Shi, Jinpeng Lu, Bailiang Jian, Jiazhen Pan, Linghan Cai, Jiayi Wang, Yundi Zhang, Jun Li, Cosmin I. Bercea, Cheng Ouyang, Chen Chen, Zhiwei Xiong, Benedikt Wiestler, Christian Wachinger, Daniel Rueckert, Wenjia Bai, Rossella Arcucci

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-08 | 👍 点赞数: 34

摘要:

摘要: 大规模视觉基础模型的出现,这些模型在多样化自然图像上进行了预训练,标志着计算机视觉领域的范式转变。然而,前沿视觉基础模型在诸如医学成像等专业领域的有效性转移情况仍然是一个开放性问题。本报告研究了DINOv3是否可以直接作为医学视觉任务的强大统一编码器而无需领域特定预训练,DINOv3是一种最先进的自监督视觉变换模型(ViT),在密集预测任务中表现出强大的能力。为了回答这个问题,我们在常见的医学视觉任务上对DINOv3进行了基准测试,包括在多种医学成像模态上的2D/3D分类和分割。我们通过改变模型大小和输入图像分辨率对其可扩展性进行了系统分析。我们的研究发现表明,DINOv3表现出令人印象深刻的能力,并建立了新的强大基准。值得注意的是,尽管仅在自然图像上进行训练,它在某些任务上的表现甚至可以超过医学专用基础模型如BiomedCLIP和CT-Net。然而,我们也发现了明显的局限性:在需要深度领域专业化的场景中,如全切片病理图像(WSIs)、电子显微镜(EM)和正电子发射断层扫描(PET),模型特征表现下降。此外,我们观察到DINOv3在医学领域中并不始终遵循缩放定律;性能并不会随着模型规模的增大或特征分辨率的提高而可靠地增加,在不同任务中表现出多样的缩放行为。最终,我们的工作确立了DINOv3作为一个强大的基准,其强大的视觉特征可以作为多个复杂医学任务的稳健先验。这为未来有希望的方向打开了大门,例如利用其特征来加强三维重建中的多视角一致性。


5. Reinforced Visual Perception with Tools

作者: Zetong Zhou, Dongping Chen, Zixian Ma, Zhihan Hu, Mingyang Fu, Sinan Wang, Yao Wan, Zhou Zhao, Ranjay Krishna

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-01 | 👍 点赞数: 29

摘要:

视觉推理作为人类智能的核心能力,涵盖了用于解决多样化视觉问题的复杂感知与逻辑过程。尽管计算机视觉领域的进展已经催生出许多适用于各类感知任务的强大学模型,但如何将这些进展有效应用于通用视觉推理仍面临挑战。已有研究显示,通过监督微调将视觉模型集成到大语言模型(LLMs)中可以提升性能,但该方法存在数据生成成本高、依赖精细的数据筛选以及泛化能力差等关键限制。为解决这些问题,我们提出ReVPT,通过强化学习增强多模态大语言模型对视觉工具的推理和使用能力。我们基于GRPO引入了一种新颖的强化学习算法,旨在训练模型使用一套四种视觉工具进行推理。通过广泛的实验,我们证明所提出的方法在多个视觉感知密集型基准测试(包括SAT、CV-Bench、BLINK和MMStar)中实现了最先进的性能,显著优于监督学习和基于文本的强化学习微调基线。值得注意的是,我们的ReVPT-3B和ReVPT-7B在CV-Bench上分别比指令模型高出9.03%和9.44%。最后,通过大量的消融实验,我们为社区带来了基于强化学习的视觉工具使用方法的新见解。 我们的代码可在https://github.com/ls-kelvin/REVPT获取。


6. Reinforcement Learning Foundations for Deep Research Systems: A Survey

作者: Wenjun Li, Zhi Chen, Jingru Lin, Hannan Cao, Wei Han, Sheng Liang, Zhi Zhang, Kuicai Dong, Dexun Li, Chen Zhang, Yong Liu

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-08 | 👍 点赞数: 28

摘要:

深度研究系统是一种具有代理能力的人工智能,它通过协调推理、在开放网络和用户文件中进行搜索以及使用工具来解决复杂的多步骤任务,目前正朝着包含规划器(Planner)、协调器(Coordinator)和执行器(Executor)的层次化部署方向发展。在实践中,对整个堆栈进行端到端训练仍然不切实际,因此大多数工作集中于训练一个与核心工具(如搜索、浏览和代码执行)相连的单一规划器。虽然监督式微调(SFT)能够确保协议保真度,但它存在模仿偏差和暴露偏差,并且对环境反馈的利用不足。偏好对齐方法(如DPO)依赖于模式(schema)和代理指标,属于离策略方法,在长视野信用分配和多目标权衡方面表现较弱。SFT和DPO的另一个局限在于它们依赖人类通过模式设计和标注比较来定义决策点和子技能。

据我们所知,本综述是首次专注于深度研究系统中强化学习(RL)基础的文献。本文以DeepSeek-R1为起点,沿三个维度对相关研究进行系统梳理:(i)数据合成与整理;(ii)面向代理研究的RL方法,涵盖稳定性、样本效率、长上下文处理、奖励与信用分配设计、多目标优化及多模态整合;(iii)代理式RL训练系统与框架。此外,我们还涵盖了代理架构与协调机制、评估与基准测试内容,包括最新的问答(QA)、视觉问答(VQA)、长文本生成以及基于领域、工具交互的任务。本文提炼了反复出现的设计模式,揭示了基础设施瓶颈,并为使用RL训练鲁棒、透明的深度研究代理提供了实用指导。


7. DivMerge: A divergence-based model merging method for multi-tasking

作者: Touayouch Brahim, Fosse Loïc, Damnati Géraldine, Lecorvé Gwénolé

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-02 | 👍 点赞数: 24

摘要:

多任务学习(Multi-task learning, MTL)通常通过在微调前合并数据集来实现,但随着微调模型的日益增多,诸如任务算术等新的模型合并方法也相继出现。在此背景下,一个主要挑战是任务间的干扰问题,且该问题会随着任务数量的增加而加剧。我们提出了一种将针对不同任务训练的模型融合为一个模型的方法,能够在所有任务上保持优异性能。我们的方法利用Jensen-Shannon散度(Jensen-Shannon divergence)来指导合并过程,无需额外的标注数据,并能自动平衡各任务的重要性。与现有方法不同,我们的方法在任务数量增加时仍保持稳健性,并且在多个任务上持续优于先前的工作。


8. Paper2Agent: Reimagining Research Papers As Interactive and Reliable AI

Agents

作者: Jiacheng Miao, Joe R. Davis, Jonathan K. Pritchard, James Zou

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-08 | 👍 点赞数: 22

摘要:

我们提出Paper2Agent,一个将研究论文自动转化为AI代理的框架。Paper2Agent将研究成果从被动的文档转变为能够加速后续应用、采纳和发现的主动系统。传统研究论文要求读者投入大量精力去理解并将其代码、数据和方法适配到自己的工作中,这构成了知识传播与复用的障碍。Paper2Agent通过自动生成一个AI代理来应对这一挑战,该代理可作为知识丰富的研究助手。Paper2Agent系统性地分析论文及其相关代码库,利用多个代理构建一个模型上下文协议(Model Context Protocol, MCP)服务器,然后迭代生成并运行测试以优化和增强所生成的MCP。这些论文MCP随后可以灵活地连接到聊天代理(例如Claude Code),通过自然语言执行复杂的科学查询,同时调用原始论文中的工具和工作流程。我们通过深入的案例研究展示了Paper2Agent在创建可靠且功能强大的论文代理方面的有效性。Paper2Agent创建了利用AlphaGenome解释基因组变异的代理,以及基于ScanPy和TISSUE进行单细胞和空间转录组分析的代理。我们验证了这些论文代理能够复现原始论文的结果,并能正确执行用户的新查询。通过将静态论文转变为动态、交互式的AI代理,Paper2Agent引入了一种全新的知识传播范式,并为AI科研合作者的协作生态系统奠定了基础。


9. Focusing by Contrastive Attention: Enhancing VLMs' Visual Reasoning

作者: Yuyao Ge, Shenghua Liu, Yiwei Wang, Lingrui Mei, Baolong Bi, Xuanshan Zhou, Jiayu Yao, Jiafeng Guo, Xueqi Cheng

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-08 | 👍 点赞数: 16

摘要:

视觉-语言模型(Vision-Language Models, VLMs)在多种视觉任务中表现出色,但在复杂的视觉环境中其性能显著下降。现有的增强方法通常需要额外训练、依赖外部分割工具或仅在粗粒度层面操作,而忽视了VLMs内部固有的能力。为弥补这一差距,我们研究了VLMs的注意力模式,并发现:(1)视觉复杂度与注意力熵高度相关,对推理性能产生负面影响;(2)注意力机制从浅层的全局扫描逐步细化为深层的聚焦收敛,其收敛程度由视觉复杂度决定;(3)理论上,我们证明了通用查询与任务特定查询之间的注意力图对比能够将视觉信号分解为语义信号和视觉噪声成分。基于这些发现,我们提出了基于对比注意力的视觉增强方法(Contrastive Attention Refinement for Visual Enhancement, CARVE),这是一种无需训练的方法,通过在像素级别进行注意力对比来提取与任务相关的视觉信号。大量实验表明,CARVE能够持续提升模型性能,在开源模型上最高可实现75%的提升。本研究为理解视觉复杂度与注意力机制之间的相互作用提供了关键见解,并为通过对比注意力提升视觉推理能力提供了高效路径。


10. Interleaving Reasoning for Better Text-to-Image Generation

作者: Wenxuan Huang, Shuang Chen, Zheyong Xie, Shaosheng Cao, Shixiang Tang, Yufan Shen, Qingyu Yin, Wenbo Hu, Xiaoman Wang, Yuntian Tang, Junbo Qiao, Yue Guo, Yao Hu, Zhenfei Yin, Philip Torr, Yu Cheng, Wanli Ouyang, Shaohui Lin

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-08 | 👍 点赞数: 13

摘要:

摘要:
近期,统一的多模态理解和生成模型在图像生成能力方面取得了显著进展,但在指令遵循和细节保留方面与将理解与生成紧密结合的系统(如GPT-4o)相比仍存在较大差距。受交错推理(interleaving reasoning)最新进展的启发,我们探索此类推理是否能够进一步提升文本到图像(Text-to-Image, T2I)生成的效果。我们提出了交错推理生成(Interleaving Reasoning Generation, IRG)框架,该框架在基于文本的思考与图像合成之间交替进行:模型首先生成基于文本的思考以指导生成初始图像,然后对结果进行反思,以在保持语义的前提下优化细粒度细节、视觉质量和美学效果。为了有效训练IRG,我们提出了交错推理生成学习(Interleaving Reasoning Generation Learning, IRGL),其目标包括两个子目标:(1)强化初始的思考与生成阶段,以确立核心内容和基础质量;(2)实现高质量的文本反思,并在后续图像中忠实执行这些优化。我们构建了IRGL-300K数据集,该数据集包含六种分解的学习模式,共同覆盖基于文本的思考学习以及完整的思考-图像轨迹学习。我们的两阶段训练方法从一个能够原生输出交错文本-图像输出的统一基础模型出发,首先构建稳健的思考与反思能力,随后在完整的思考-图像轨迹数据上高效微调IRG流程。大量实验表明,该方法在GenEval、WISE、TIIF、GenAI-Bench和OneIG-EN等评测中取得了绝对提升5-10分的SOTA性能,同时在视觉质量和细粒度保真度方面也有显著提升。 代码、模型权重和数据集将在以下地址发布:https://github.com/Osilly/Interleaving-Reasoning-Generation


11. UniVerse-1: Unified Audio-Video Generation via Stitching of Experts

作者: Duomin Wang, Wei Zuo, Aojie Li, Ling-Hao Chen, Xinyao Liao, Deyu Zhou, Zixin Yin, Xili Dai, Daxin Jiang, Gang Yu

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-07 | 👍 点赞数: 13

摘要:

我们提出了UniVerse-1,这是一种统一的、类似Veo-3的模型,能够同时生成协调的音频和视频。为了提高训练效率,我们跳过从头训练的过程,转而采用专家拼接(Stitching of Experts, SoE)技术。该方法对预训练的视频和音乐生成专家模型的对应模块进行深度融合,从而充分挖掘其基础能力。为了确保环境音和语音与视频内容在标注和时间上的准确对齐,我们开发了一个在线标注流程,在训练过程中处理所需的训练数据并生成标签。该策略有效避免了基于文本的错误对齐所导致的性能下降。通过这些技术的协同作用,我们的模型在约7,600小时的音视频数据上微调后,能够生成具有协调环境音的视频,并在语音生成方面实现高度对齐。为了系统评估我们提出的方法,我们引入了一个新的基准数据集Verse-Bench。为了推动音视频生成领域的研究,并缩小与Veo3等最先进模型之间的性能差距,我们公开了模型和代码。我们希望这一贡献能够惠及更广泛的研究社区。 项目页面:https://dorniwang.github.io/UniVerse-1/


12. Easier Painting Than Thinking: Can Text-to-Image Models Set the Stage,

but Not Direct the Play?

作者: Ouxiang Li, Yuan Wang, Xinting Hu, Huijuan Huang, Rui Chen, Jiarong Ou, Xin Tao, Pengfei Wan, Fuli Feng

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-03 | 👍 点赞数: 10

摘要:

文本到图像(Text-to-Image, T2I)生成旨在根据文本提示合成图像,这些提示既明确描述了必须展示的内容,也隐含了可推断的信息,从而对应两种核心能力:组合(composition)和推理(reasoning)。然而,随着T2I模型在超越组合能力的推理方面取得新进展,现有基准在跨和在这些能力内的全面评估方面表现出明显局限。同时,这些进展也使模型能够处理更复杂的提示,而当前的基准仍局限于低场景密度和简化的单对单推理。为解决这些局限,我们提出了T2I-CoReBench,一个全面且复杂的基准,用于评估T2I模型的组合与推理能力。为确保全面性,我们将组合能力围绕场景图元素(实例、属性和关系)构建,推理能力则基于推理的哲学框架(演绎、归纳和溯因)构建,从而形成一个12维度的评估分类体系。为了提高复杂性,受现实场景复杂性的驱动,我们为每个提示设计了高组合密度和多步骤推理。此外,我们还为每个提示配对一个检查清单,其中包含独立的是/否问题,以分别评估每个预期元素,从而实现细粒度和可靠的评估。从统计数据来看,我们的基准包含1,080个具有挑战性的提示和约13,500个检查清单问题。在27种当前T2I模型上的实验表明,它们在复杂高密度场景下的组合能力仍然有限,而推理能力则更为滞后,成为关键瓶颈,所有模型均难以从提示中推断隐含元素。 我们的项目页面:https://t2i-corebench.github.io/


13. Scaling up Multi-Turn Off-Policy RL and Multi-Agent Tree Search for LLM

Step-Provers

作者: Ran Xin, Zeyu Zheng, Yanchen Nie, Kun Yuan, Xia Xiao

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-08 | 👍 点赞数: 8

摘要:

摘要:将大语言模型(Large Language Models, LLMs)集成到自动定理证明中已展现出巨大的潜力,但从根本上受到训练阶段强化学习(Reinforcement Learning, RL)和推理阶段计算扩展性的限制。本文提出BFS-Prover-V2,一个旨在解决双重扩展问题的系统。我们主要提出两项创新。第一项创新是一种新颖的多轮离策略强化学习框架,用于在训练过程中持续提升LLM步进证明器(step-prover)的性能。该框架受AlphaZero原理的启发,采用多阶段专家迭代流水线,结合自适应战术级(tactic-level)数据过滤和周期性重新训练,以克服通常限制基于LLM代理长期强化学习的性能瓶颈。第二项创新是一种规划器增强的多代理搜索架构,可在推理阶段扩展推理能力。该架构使用一个通用推理模型作为高层规划器,迭代地将复杂定理分解为一系列更简单的子目标。这种分层方法显著减少了搜索空间,使得一组并行证明代理能够通过共享证明缓存高效协作。我们证明,这种双重扩展方法在既定的形式化数学基准测试中取得了最先进的成果。BFS-Prover-V2在MiniF2F和ProofNet测试集上分别达到了95.08%和41.4%的准确率。尽管本文的强化学习与推理技术是在形式化数学领域中展示,但其方法具有更广泛的应用前景,可推广至其他需要长视野多轮推理和复杂搜索的领域。


14. SFR-DeepResearch: Towards Effective Reinforcement Learning for

Autonomously Reasoning Single Agents

作者: Xuan-Phi Nguyen, Shrey Pandit, Revanth Gangi Reddy, Austin Xu, Silvio Savarese, Caiming Xiong, Shafiq Joty

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-08 | 👍 点赞数: 8

摘要:

摘要:为大型语言模型(LLMs)赋予复杂的、交织的推理和工具使用能力已成为智能体AI研究的关键方向,尤其是随着面向推理(“思考”)模型的最新进展。这些能力对于实现许多重要应用至关重要,其中之一是深度研究(Deep Research, DR),该任务需要在大量来源上进行广泛的搜索与推理。本文的研究重点是开发适用于DR的原生自主单智能体模型,该模型具备最小化的网页爬取和Python工具集成能力。与多智能体系统不同,在多智能体系统中,智能体承担预定义角色并按照静态流程中的每一步进行操作,而自主单智能体则根据上下文动态决定下一步动作,无需人工指令。尽管先前的研究提出了基础模型或指令调优LLMs的训练方法,我们则专注于对推理优化模型进行持续的强化学习(RL),以进一步提升智能体能力,同时保持其推理性能。为此,我们提出了一种完全基于合成数据的简单RL训练方法,并将其应用于多个开源LLMs。我们最优的变体SFR-DR-20B在Humanity's Last Exam基准测试中取得了最高28.7%的得分。此外,我们还进行了关键的分析实验,以更深入地阐释我们的方法论。


15. Test-Time Scaling in Reasoning Models Is Not Effective for

Knowledge-Intensive Tasks Yet

作者: James Xu Zhao, Bryan Hooi, See-Kiong Ng

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-08 | 👍 点赞数: 7

摘要:

测试时扩展在知识密集型任务中尚未有效

测试时扩展通过允许模型生成更长的推理链来增加推理时的计算量,在许多领域中表现出较强的性能。然而在本研究中,我们发现该方法在知识密集型任务中尚未表现出有效性,而在这些任务中,事实准确率高和幻觉率低是至关重要的。我们使用12个推理模型在两个知识密集型基准数据集上对测试时扩展进行了全面评估。结果表明,增加测试时计算量并不能持续提升准确率,且在许多情况下甚至导致更多幻觉。我们进一步分析了扩展推理对幻觉行为的影响。我们发现,减少的幻觉往往源于模型经过更多思考后选择放弃回答,而非源于事实回忆能力的提升。相反,对于某些模型,更长的推理过程促使它们尝试回答先前未能解答的问题,其中许多尝试导致了幻觉。案例研究表明,扩展推理可能引发确认偏误,从而导致过度自信的幻觉。尽管存在这些局限性,我们仍观察到,与不进行推理相比,启用推理过程仍然是有益的。 代码和数据可在https://github.com/XuZhao0/tts-knowledge 获取。


16. Guided Decoding and Its Critical Role in Retrieval-Augmented Generation

作者: Özgür Uğur, Musa Yılmaz, Esra Şavirdi, Özay Ezerceli, Mahmut El Huseyni, Selva Taş, Reyhan Bayraktar

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-08 | 👍 点赞数: 6

摘要:

摘要:
将大语言模型(Large Language Models, LLMs)集成到各类应用中推动了对结构化和可靠响应的需求。检索增强生成(Retrieval-Augmented Generation, RAG)系统的一个关键挑战在于确保输出符合预期格式的同时最小化幻觉现象。本研究探讨了在RAG系统中引导解码(guided decoding)的作用,并在不同的多轮提示设置(0轮、1轮和2轮)下比较了三种方法:Outlines、XGrammar 和 LM Format Enforcer。通过评估成功率、幻觉率和输出质量,我们提供了这些方法性能与适用性的深入分析。研究结果揭示了多轮交互如何影响引导解码的表现,并发现了出人意料的性能差异,从而为特定用例的方法选择提供了依据。本工作推进了对RAG系统中结构化输出生成的理解,为LLM的部署提供了理论洞见与实践指导。


17. D-HUMOR: Dark Humor Understanding via Multimodal Open-ended Reasoning

作者: Sai Kartheek Reddy Kasu, Mohammad Zia Ur Rehman, Shahid Shafi Dar, Rishi Bharat Junghare, Dhanvin Sanjay Namboodiri, Nagendra Kumar

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-08 | 👍 点赞数: 5

摘要:

D-HUMOR: 通过多模态开放式推理理解黑色幽默

在线模因(meme)中的黑色幽默因其依赖隐含、敏感且具有文化背景的线索而带来了独特的挑战。为解决当前在多模态内容中检测黑色幽默方面资源和方法的不足,我们构建了一个包含4,379个Reddit模因的新数据集,标注了黑色幽默、目标类别(性别、心理健康、暴力、种族、残疾及其他)以及三级强度评分(轻度、中度、重度)。基于这一资源,我们提出了一种增强推理的框架:首先使用大型视觉-语言模型(VLM)为每个模因生成结构化解释。通过角色反转自循环(Role-Reversal Self-Loop),VLM从作者视角迭代优化其解释,确保解释的完整性和一致性。随后,我们通过文本编码器提取OCR文本和自优化推理的文本特征,视觉特征则通过视觉Transformer获取。一个三通道交叉推理网络(Tri-stream Cross-Reasoning Network, TCRNet)通过成对注意力机制融合文本、图像和推理三个模态流,生成统一的表示用于分类。实验结果表明,在黑色幽默检测、目标识别和强度预测三项任务中,我们的方法均优于多个强基线模型。该数据集、标注和代码已公开,以促进多模态幽默理解和内容审核领域的进一步研究。代码和数据集地址:
https://github.com/Sai-Kartheek-Reddy/D-Humor-Dark-Humor-Understanding-via-Multimodal-Open-ended-Reasoning


18. Llama-GENBA-10B: A Trilingual Large Language Model for German, English

and Bavarian

作者: Michael Hoffmann, Jophin John, Stefan Schweter, Gokul Ramakrishnan, Hoi-Fong Mak, Alice Zhang, Dmitry Gaynullin, Nicolay J. Hammer

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-06 | 👍 点赞数: 4

摘要:

我们推出了Llama-GENBA-10B,这是一款三语基础模型,旨在解决大语言模型中存在的以英语为中心的偏见。该模型基于Llama 3.1-8B构建,并扩展至100亿参数,其在1640亿个token(820亿英语、820亿德语和8千万巴伐利亚语)上进行了持续预训练,在平衡语种资源的同时避免了英语的主导地位。Llama-GENBA-10B主要面向德国自然语言处理(NLP)研究社区,同时也推动了低资源语言——巴伐利亚语的发展。在开发过程中,我们应对了四个挑战:(1)在巴伐利亚语资源稀缺的情况下构建多语语料库;(2)为英语、德语和巴伐利亚语创建统一的分词器;(3)优化架构及语种比例超参数以实现跨语言迁移;(4)通过将德语基准测试翻译为巴伐利亚语,建立首个标准化的三语评估套件。评估结果显示,Llama-GENBA-10B展现出出色的跨语言性能,其微调版本在巴伐利亚语任务上超越了Apertus-8B-2509和gemma-2-9b,成为该语言中表现最佳的同类模型,同时在英语任务上优于EuroLLM,在德语任务上与其表现相当。训练在Cerebras CS-2平台上完成,展示了高效的大规模多语种预训练能力,并记录了能耗数据,为整合低资源语言的包容性基础模型提供了参考范式。


19. Inpaint4Drag: Repurposing Inpainting Models for Drag-Based Image Editing

via Bidirectional Warping

作者: Jingyi Lu, Kai Han

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-04 | 👍 点赞数: 4

摘要:

基于拖拽的图像编辑已成为直观图像操作的强大范式。然而,现有方法主要依赖于对生成模型潜空间的操作,导致精度有限、反馈延迟以及模型特定的限制。为此,我们提出了Inpaint4Drag,一种将基于拖拽的编辑分解为像素空间双向变形和图像修复的全新框架。受物理世界中弹性物体变形的启发,我们将图像区域视为可变形材料,在用户操作下保持自然形状。我们的方法在512x512分辨率下实现了实时变形预览(0.01秒)和高效的图像修复(0.3秒),显著提升了交互体验,相较于需要数分钟完成编辑的现有方法具有明显优势。通过将拖拽输入直接转换为标准的图像修复格式,我们的方法可作为通用适配器应用于任何图像修复模型,无需修改其架构,并自动继承未来图像修复技术的所有改进。大量实验表明,我们的方法在保持实时性能的同时,实现了卓越的视觉质量和精确控制。 项目页面:https://visual-ai.github.io/inpaint4drag/


20. R²AI: Towards Resistant and Resilient AI in an

Evolving World

作者: Youbang Sun, Xiang Wang, Jie Fu, Chaochao Lu, Bowen Zhou

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-08 | 👍 点赞数: 3

摘要:

在本文中,我们探讨了快速发展的AI能力与相对滞后的安全性进展之间持续存在的差距。现有的研究范式主要分为两类:一类是“让AI变得安全”(Make AI Safe),该范式依赖事后施加的对齐机制和限制措施,但这种方法仍显脆弱且具有被动性;另一类是“安全的AI”(Make Safe AI),该范式强调内在安全性,但难以应对开放环境中出现的不可预见风险。因此,我们提出了一种新的“安全通过共进化”(safe-by-coevolution)框架,作为“Make Safe AI”范式的延伸,其灵感来源于生物免疫系统,将安全性视为一种动态的、对抗性的、持续的学习过程。为实现这一愿景,我们引入了R²AI——即抗御性与韧性AI(Resistant and Resilient AI)——作为实用框架,将抵御已知威胁的能力与应对未知风险的韧性统一起来。R²AI整合了快速与慢速安全模型、通过“安全风洞”进行对抗性模拟与验证,以及持续反馈循环,引导安全性和能力共同进化。我们认为,该框架为在动态环境中维持持续安全性提供了一条可扩展且具有前瞻性的路径,既应对了短期内的脆弱性问题,也针对AI向AGI与ASI演进过程中可能面临的长期性存在风险。


21. Mechanistic interpretability for steering vision-language-action models

作者: Bear Häon, Kaylene Stocking, Ian Chuang, Claire Tomlin

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-30 | 👍 点赞数: 3

摘要:

视觉-语言-动作(Vision-Language-Action, VLA)模型为实现能够快速适应新任务、新模式和新环境的通用具身智能体提供了有前景的路径。然而,目前对VLA模型的解释与引导方法远不及经典机器人系统,后者基于对运动学、动力学和控制的显式建模。这种缺乏机制性洞察力的问题,在需要高鲁棒性与可解释性的现实机器人系统部署中,构成了一个核心挑战。受大语言模型中机制性可解释性研究进展的启发,我们提出了首个通过VLA模型内部表征对其进行解释与引导的框架,实现了在推理阶段对模型行为的直接干预。我们将Transformer层中的前馈激活投影到token嵌入基底上,识别出与动作选择存在因果关联的稀疏语义方向——例如速度和方向。基于这些发现,我们提出了一种通用的激活引导方法,能够在无需微调、奖励信号或环境交互的前提下,实时调节模型行为。我们在两个近期开源的VLA模型Pi0和OpenVLA上评估了该方法,并在仿真环境(LIBERO)和实体机器人(UR5)上实现了零样本的行为控制。本研究表明,具身VLA模型中可解释的组件可以被系统化地利用于控制目的,为机器人领域中透明且可引导的基础模型建立了一种新的范式。


22. MAS-Bench: A Unified Benchmark for Shortcut-Augmented Hybrid Mobile GUI

Agents

作者: Pengxiang Zhao, Guangyi Liu, Yaozhen Liang, Weiqing He, Zhengxi Lu, Yuehao Huang, Yaxuan Guo, Kexin Zhang, Hao Wang, Liang Liu, Yong Liu

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-08 | 👍 点赞数: 2

摘要:

MAS-Bench: 一种用于增强型混合移动GUI智能体的统一基准

为了提高GUI智能体在智能手机和计算机等多种平台上的效率,一种结合灵活GUI操作与高效快捷方式(例如API、深层链接)的混合范式正成为有前景的发展方向。然而,目前尚缺乏一个系统评估此类混合智能体的框架。为填补这一空白,我们提出了MAS-Bench,这是首个专注于移动领域的GUI-快捷方式混合智能体评估基准。MAS-Bench不仅限于使用预定义的快捷方式,还评估智能体通过发现和创建可重用、低成本工作流来自主生成快捷方式的能力。该基准包含139个复杂任务,覆盖11个真实应用程序,提供一个包含88个预定义快捷方式(API、深层链接、RPA脚本)的知识库,以及7项评估指标。这些任务设计为可通过纯GUI操作解决,但通过智能嵌入快捷方式可显著加速完成。实验表明,混合智能体在成功率和效率方面均显著优于仅使用GUI的智能体。该结果也验证了我们评估智能体生成快捷方式能力方法的有效性。MAS-Bench填补了关键的评估空白,为未来构建更高效、更稳健的智能代理研究提供了基础平台。


23. Singular Value Few-shot Adaptation of Vision-Language Models

作者: Taha Koleilat, Hassan Rivaz, Yiming Xiao

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-03 | 👍 点赞数: 2

摘要:

视觉-语言模型(VLMs)如CLIP在多种应用场景中展现出出色的零样本和少样本学习能力。然而,由于依赖提示工程以及全模型微调的高昂成本,将这些模型适应到新的细粒度领域仍然具有挑战性。现有的适应方法依赖于增强组件,例如提示标记和适配模块,这些方法可能会限制适应质量、导致模型不稳定,并削弱预训练过程中学到的丰富知识。本文提出了一种新颖的多模态且参数高效适应技术CLIP-SVD,该技术利用奇异值分解(Singular Value Decomposition, SVD)修改CLIP的内部参数空间,而无需引入额外模块。具体而言,我们仅微调CLIP参数矩阵的奇异值,以重新缩放基向量实现领域适应,同时保留预训练模型。该设计仅使用模型总参数量的0.04%即可提升适应性能,并更好地保持其泛化能力。CLIP-SVD在11个自然领域和10个生物医学数据集上均取得了最先进的分类结果,在少样本设置下,其准确性和泛化能力均优于先前方法。此外,我们采用基于自然语言的方法分析CLIP适应的有效性和动态过程,从而赋予CLIP-SVD可解释性。 代码已公开,地址为https://github.com/HealthX-Lab/CLIP-SVD


24. Saturation-Driven Dataset Generation for LLM Mathematical Reasoning in

the TPTP Ecosystem

作者: Valentin Quesnel, Damien Sileo

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-08 | 👍 点赞数: 1

摘要:

摘要:高质量、逻辑严谨的数据稀缺是推进大语言模型(Large Language Models, LLMs)数学推理能力的关键瓶颈。我们的工作通过将数十年的自动定理证明研究转化为可扩展的数据引擎来应对这一挑战。不同于依赖易出错的LLMs或复杂的证明助手语法(如Lean和Isabelle),我们的框架利用E-prover在庞大的TPTP公理库上的饱和求解能力,推导出一个海量且保证有效的定理语料库。我们的数据生成流程具有原理性和简洁性:对公理进行饱和求解,筛选“有趣”的定理,并生成任务。由于整个流程不涉及LLMs,因此从构造上消除了事实性错误。这种纯符号数据随后被转化为三类难度可控的挑战任务:蕴含验证、前提选择和证明重构。我们在前沿模型上的零样本实验揭示了一个明显弱点:在需要深度结构推理的任务上,模型性能急剧下降。我们的框架不仅提供了衡量这一能力差距的诊断工具,还提供了一个可扩展的符号训练数据来源。我们已将代码和数据公开发布。
https://github.com/sileod/reasoning_core
https://hf.co/datasets/reasoning-core/rc1


25. DCReg: Decoupled Characterization for Efficient Degenerate LiDAR

Registration

作者: Xiangcheng Hu, Xieyuanli Chen, Mingkai Jia, Jin Wu, Ping Tan, Steven L. Waslander

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-08 | 👍 点赞数: 1

摘要:

LiDAR点云配准在机器人感知与导航中具有基础性作用。然而,在几何退化或狭窄环境中,配准问题会呈现病态特征,导致解的不稳定和精度下降。尽管现有方法试图应对这些问题,但未能解决核心挑战:准确检测、解释并消除病态特性,从而导致漏检或错误解的产生。本研究提出DCReg,这是一种具有理论基础的框架,通过三项集成创新系统性地解决病态配准问题。首先,DCReg通过将Hessian矩阵进行Schur补分解,实现可靠的病态特征检测。该技术将配准问题解耦为清晰的旋转与平移子空间,消除了传统分析中掩盖退化模式的耦合效应。其次,在这些清晰的子空间中,我们开发了定量特征分析技术,建立了数学特征空间与物理运动方向之间的显式映射,提供了关于哪些特定运动方向缺乏约束的可操作洞察。最后,基于该清晰子空间,我们设计了一种针对性的缓解策略:一种新颖的预条件子,仅选择性地稳定已识别的病态方向,同时保留所有可观测空间中的良好约束信息。该方法通过预条件共轭梯度法实现高效且鲁棒的优化,并仅需一个物理意义明确的参数。大量实验表明,DCReg在多样化环境中相较于当前最先进的方法,在定位精度上至少提升了20%至50%,速度提升了5至100倍。 我们的实现代码将在以下网址发布:https://github.com/JokerJohn/DCReg