Skip to main content

每日论文 - 2025年09月06日

论文总数: 14

1. Drivel-ology: Challenging LLMs with Interpreting Nonsense with Depth

作者: Yang Wang, Chenghao Xiao, Chia-Yi Hsiao, Zi Yan Chang, Chi-Li Chen, Tyler Loakman, Chenghua Lin

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-04 | 👍 点赞数: 198

摘要:

我们提出了一种独特的语言现象——Drivelology,其特征是“有深度的无意义”(nonsense with depth),即那些在句法上连贯但在语用上具有矛盾性、情感负载性或修辞颠覆性的表达。尽管这类表达可能看似表层无意义,但它们蕴含了需要语境推理、道德判断或情感解读的隐含意义。我们发现,尽管当前的大语言模型(Large Language Models,LLMs)在许多自然语言处理(Natural Language Processing,NLP)任务中表现出色,却始终无法理解Drivelological文本的多层次语义。为了深入研究这一问题,我们构建了一个包含1200多个精心筛选样本的小型但多样化的基准数据集,涵盖英语、汉语、西班牙语、法语、日语和韩语的精选实例。数据标注过程尤其具有挑战性:每个样本都需要专家仔细审查,以确保其真正体现Drivelological的特征。这一过程经历了多轮讨论与裁决以解决分歧,突显了Drivelology本身的微妙性和主观性。我们在分类、生成和推理任务上对多种LLMs进行了评估。结果表明,LLMs存在明显局限:模型常常将Drivelology误认为浅层无意义语句,生成不连贯的解释,或完全忽略其中隐含的修辞功能。这些发现揭示了LLMs在语用理解方面更深层次的表征缺陷,并挑战了“统计流畅性意味着认知理解”的假设。我们公开了数据集和代码,以推动超越表层连贯性的语言深度建模研究。


2. From Editor to Dense Geometry Estimator

作者: JiYuan Wang, Chunyu Lin, Lei Sun, Rongying Liu, Lang Nie, Mingxing Li, Kang Liao, Xiangxiang Chu, Yao Zhao

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-04 | 👍 点赞数: 86

摘要:

从编辑器到密集几何估计器

利用预训练文本到图像(text-to-image, T2I)生成模型中的视觉先验信息已在密集预测任务中取得成功。然而,密集预测本质上是一个图像到图像的任务,表明图像编辑模型相较于T2I生成模型可能是更适合微调的基础模型。受此启发,我们对编辑器和生成器在密集几何估计中的微调行为进行了系统分析。研究发现,编辑模型具有内在的结构先验信息,能够通过“优化”其固有特征实现更稳定的收敛,最终表现优于生成模型。

基于上述发现,我们提出了FE2E框架,这是首个将基于扩散变压器(Diffusion Transformer, DiT)架构的先进编辑模型应用于密集几何预测的工作。具体而言,为了适配这一确定性任务,我们将编辑器原有的流匹配损失重新定义为“一致速度”训练目标。同时,我们采用对数量化方法解决编辑器原生BFloat16格式与任务高精度需求之间的精度冲突。此外,我们利用DiT的全局注意力机制,在单次前向传播中实现深度和法线的零成本联合估计,使它们的监督信号能够相互增强。

在未扩大训练数据规模的前提下,FE2E在多个数据集上的零样本单目深度和法线估计任务中实现了显著的性能提升。值得注意的是,其在ETH3D数据集上取得了超过35%的性能提升,并优于基于100倍数据量训练的DepthAnything系列模型。 项目页面请访问:https://amap-ml.github.io/FE2E


3. Towards a Unified View of Large Language Model Post-Training

作者: Xingtai Lv, Yuxin Zuo, Youbang Sun, Hongyi Liu, Yuntian Wei, Zhekai Chen, Lixuan He, Xuekai Zhu, Kaiyan Zhang, Bingning Wang, Ning Ding, Bowen Zhou

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-04 | 👍 点赞数: 67

摘要:

现代语言模型的后训练存在两类主要的训练数据来源:在线数据(模型生成的 rollout 数据)和离线数据(人类或其他模型的示范数据)。这两类数据通常分别由强化学习(Reinforcement Learning, RL)和监督微调(Supervised Fine-Tuning, SFT)等方法使用。本文表明,这些方法并非相互对立,而是单一优化过程的不同实例。我们推导出一个统一的策略梯度估计器,并展示在不同数据分布假设和各种偏差-方差权衡下,广泛范围的后训练方法的计算均可视为一个共同目标函数的梯度。该梯度估计器由四个可互换的组件构成:稳定化掩码(stabilization mask)、参考策略分母(reference policy denominator)、优势估计(advantage estimate)和似然梯度(likelihood gradient)。受理论分析的启发,我们提出了混合后训练(Hybrid Post-Training, HPT)算法,能够动态选择不同的训练信号。HPT 设计用于在不牺牲已学习推理模式的前提下,有效利用示范数据并实现稳定的探索。我们提供了广泛的实验和消融研究,以验证所提出的统一理论框架及 HPT 算法的有效性。在六个数学推理基准测试和两个分布外测试套件中,HPT 在不同规模和结构的模型上均一致优于强基线方法。


4. Inverse IFEval: Can LLMs Unlearn Stubborn Training Conventions to Follow

Real Instructions?

作者: Qinyan Zhang, Xinping Lei, Ruijie Miao, Yu Fu, Haojie Fan, Le Chang, Jiafan Hou, Dingling Zhang, Zhongfei Hou, Ziqiang Yang, Changxin Pu, Fei Hu, Jingkai Liu, Mengyun Liu, Yang Liu, Xiang Gao, Jiaheng Liu, Tong Yang, Zaiyuan Wang, Ge Zhang, Wenhao Huang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-04 | 👍 点赞数: 54

摘要:

逆向IFEval:大语言模型能否摆脱训练惯性以遵循真实指令?

大语言模型(Large Language Models, LLMs)在多种任务中表现出色,但常常表现出认知惯性(cognitive inertia),难以遵循与监督微调(supervised fine-tuning, SFT)阶段所习得的标准化模式相冲突的指令。为评估这一局限性,我们提出了逆向IFEval(Inverse IFEval)基准测试,用于衡量模型的反直觉能力——即其克服训练诱导偏差并遵循对抗性指令的能力。Inverse IFEval引入了八类此类挑战,包括问题修正(Question Correction)、故意文本缺陷(Intentional Textual Flaws)、无注释代码(Code without Comments)和反事实回答(Counterfactual Answering)等。通过一个人机协同的数据构建流程,我们在23个领域中构建了一个包含1012个高质量中英文问题的数据集,并在一个优化的LLM-as-a-Judge框架下进行评估。在现有领先LLMs上的实验验证了我们所提出的Inverse IFEval基准测试的必要性。我们的研究结果强调,未来的对齐工作不仅应追求语言流畅性和事实正确性,还应关注模型在非传统情境下的适应能力。我们希望Inverse IFEval既能作为诊断工具,也能成为开发缓解认知惯性、减少对狭窄模式过拟合的方法的基础,从而最终提升LLMs在多样且不可预测的真实世界场景中的指令遵循可靠性。


5. DeepResearch Arena: The First Exam of LLMs' Research Abilities via

Seminar-Grounded Tasks

作者: Haiyuan Wan, Chen Yang, Junchi Yu, Meiqi Tu, Jiaxuan Lu, Di Yu, Jianbao Cao, Ben Gao, Jiaqing Xie, Aoran Wang, Wenlong Zhang, Philip Torr, Dongzhan Zhou

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-01 | 👍 点赞数: 53

摘要:

DeepResearch Arena:首个基于研讨会任务的LLMs研究能力评估

深度研究代理因其在协调多阶段研究工作流程方面的潜力而受到越来越多的关注,这些工作流程包括文献综合、方法论设计和实证验证。尽管取得了这些进展,但由于难以收集真正体现研究人员关注点和智力好奇心的前沿研究问题,对它们研究能力的准确评估仍然极具挑战性。为了解决这一空白,我们提出了DeepResearch Arena,这是一个基于学术研讨会的基准,能够捕捉丰富的专家讨论和互动,更好地反映真实世界的研究环境,并减少数据泄露的风险。为了自动构建DeepResearch Arena,我们提出了一种多智能体分层任务生成(Multi-Agent Hierarchical Task Generation, MAHTG)系统,该系统可以从研讨会记录中提取具有研究价值的灵感。MAHTG系统进一步将这些研究灵感转化为高质量的研究任务,在确保研究任务可追溯性的同时过滤噪声。借助MAHTG系统,我们从200多场学术研讨会中策划了涵盖文学、历史和科学等12个学科的超过10,000个高质量研究任务的DeepResearch Arena。我们的广泛评估表明,当前最先进的研究代理在DeepResearch Arena中面临重大挑战,不同模型之间表现出明显的性能差距。


6. Transition Models: Rethinking the Generative Learning Objective

作者: Zidong Wang, Yiyuan Zhang, Xiaoyu Yue, Xiangyu Yue, Yangguang Li, Wanli Ouyang, Lei Bai

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-04 | 👍 点赞数: 28

摘要:

生成建模中的一个基本困境仍然存在:迭代扩散模型虽然能够实现卓越的生成质量,但却伴随着显著的计算成本;而高效的小步长替代方案则受限于难以突破的质量上限。这种生成步数与输出质量之间的矛盾源于限制性的训练目标,这些目标仅专注于无穷小动力学(PF-ODEs)或直接端点预测。为解决这一挑战,我们引入了一个精确的连续时间动力学方程,该方程在任意有限时间区间上解析地定义了状态转移。这催生了一种新的生成范式——转移模型(Transition Models, TiM),其能够适应任意步长的转移,在从单步跳跃到多步细粒度优化的整个生成轨迹中无缝过渡。尽管仅有865M参数,TiM在所有评估的步数条件下均实现了超越SD3.5(8B参数)和FLUX.1(12B参数)等领先模型的性能。重要的是,与此前的小步长生成模型不同,TiM在采样预算增加时展现出生成质量的单调提升。此外,采用我们提出的原生分辨率策略后,TiM在高达4096x4096的分辨率下仍能提供卓越的生成保真度。


7. NER Retriever: Zero-Shot Named Entity Retrieval with Type-Aware

Embeddings

作者: Or Shachar, Uri Katz, Yoav Goldberg, Oren Glickman

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-04 | 👍 点赞数: 28

摘要:

NER Retriever: 基于类型感知嵌入的零样本命名实体检索

我们提出了NER Retriever,一种用于即席命名实体检索(ad-hoc Named Entity Retrieval)的零样本检索框架,该任务是命名实体识别(NER)的一种变体。在该任务中,感兴趣的实体类型并非预先给定,而是通过用户定义的类型描述来检索提及该类型实体的文档。与依赖固定模式或微调模型的方法不同,我们的方法基于大语言模型(LLMs)的内部表示,将实体提及和用户提供的开放类型描述嵌入到一个共享的语义空间中。我们发现,内部表示(特别是来自中间层Transformer块的值向量)比常用的顶层嵌入能够更有效地编码细粒度的类型信息。为了优化这些表示,我们训练了一个轻量级的对比投影网络,以对齐类型兼容的实体并分离不相关的类型。最终得到的实体嵌入紧凑、具备类型感知能力,并且适用于最近邻搜索。在三个基准数据集上的评估表明,NER Retriever 显著优于基于词法和密集句子级检索的基线方法。我们的研究结果为大语言模型中的表示选择提供了实证支持,并展示了可扩展、无需预定义模式的实体检索的实用解决方案。NER Retriever 的代码库已公开, 地址为 https://github.com/ShacharOr100/ner_retriever


8. Loong: Synthesize Long Chain-of-Thoughts at Scale through Verifiers

作者: Xingyue Huang, Rishabh, Gregor Franke, Ziyi Yang, Jiamu Bai, Weijie Bai, Jinhe Bi, Zifeng Ding, Yiqun Duan, Chengyu Fan, Wendong Fan, Xin Gao, Ruohao Guo, Yuan He, Zhuangzhuang He, Xianglong Hu, Neil Johnson, Bowen Li, Fangru Lin, Siyu Lin, Tong Liu, Yunpu Ma, Hao Shen, Hao Sun, Beibei Wang, Fangyijie Wang, Hao Wang, Haoran Wang, Yang Wang, Yifeng Wang, Zhaowei Wang, Ziyang Wang, Yifan Wu, Zikai Xiao, Chengxing Xie, Fan Yang, Junxiao Yang, Qianshuo Ye, Ziyu Ye, Guangtao Zeng, Yuwen Ebony Zhang, Zeyu Zhang, Zihao Zhu, Bernard Ghanem, Philip Torr, Guohao Li

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-03 | 👍 点赞数: 23

摘要:

摘要:近期大型语言模型(Large Language Models, LLMs)的研究进展表明,通过可验证奖励的强化学习(Reinforcement Learning with Verifiable Reward, RLVR),其推理能力可以得到显著提升,尤其在数学和编程等领域,这些领域的正确性可以通过自动化手段进行评估。然而,由于高质量、可验证的数据集稀缺以及人工监督成本高昂,将这一成功推广到其他需要复杂推理的领域仍面临挑战。为此,我们提出了Loong项目:一个开源框架,用于在多种需要复杂推理的领域中大规模生成和验证合成数据。该框架包含两个核心组件:(1)LoongBench,一个经过人工审核的种子数据集,包含来自12个领域(如高等数学、化学、逻辑学)的8,729个示例,每个示例均配有可执行代码和丰富的元数据;(2)LoongEnv,一个模块化的合成数据生成环境,支持多种提示策略以生成新的“问题-答案-代码”三元组。这两个组件共同构成了一个智能体-环境循环系统,支持强化学习,其中基于LLM的智能体在生成与代码执行结果一致的思维链(Chain-of-Thought, CoT)解决方案时获得奖励。在实验部分,我们对LoongBench在多个开源和商业LLM上进行了广泛基准测试,以评估其领域覆盖能力和揭示性能瓶颈。此外,我们对LoongEnv生成的合成数据进行了全面分析,考察其正确性、难度和多样性。 代码和文档可在https://github.com/camel-ai/loong获取。


9. Video-MTR: Reinforced Multi-Turn Reasoning for Long Video Understanding

作者: Yuan Xie, Tianshui Chen, Zheng Ge, Lionel Ni

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-28 | 👍 点赞数: 17

摘要:

长视频理解因其长范围时间依赖性和多个事件的存在而仍然具有挑战性。现有方法通常依赖静态推理或外部视觉-语言模型(VLMs),由于缺乏端到端训练,面临复杂性和次优性能等问题。本文中,我们提出Video-MTR,一种强化的多轮推理框架,旨在实现迭代的关键视频片段选择和问题理解。与传统单轮预测的视频推理流程不同,Video-MTR通过多轮推理,根据先前处理片段的逐步理解以及当前问题渐进式地选择视频片段。这种迭代过程使得对视频的分析更加精细且具有上下文感知能力。为确保中间推理过程的有效性,我们引入了一种新颖的门控双层奖励系统,结合基于答案正确性的轨迹级奖励和强调帧-查询相关性的轮次级奖励。该系统同时优化视频片段选择和问题理解,无需依赖外部VLMs,并支持端到端训练。在VideoMME、MLVU和EgoSchema等多个基准上的大量实验表明,Video-MTR在准确性和效率方面均优于现有方法,推动了长视频理解的最新进展。


10. Few-step Flow for 3D Generation via Marginal-Data Transport Distillation

作者: Zanwei Zhou, Taoran Yi, Jiemin Fang, Chen Yang, Lingxi Xie, Xinggang Wang, Wei Shen, Qi Tian

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-04 | 👍 点赞数: 11

摘要:

基于边缘数据传输蒸馏的少步长三维生成流程

基于流的三维生成模型在推理过程中通常需要数十个采样步骤。尽管少步长蒸馏方法,特别是一致性模型(Consistency Models, CMs),在加速二维扩散模型方面取得了显著进展,但在更复杂的三维生成任务中仍鲜有探索。本研究提出了一种新颖的少步长三维流蒸馏框架MDT-dist。我们的方法建立在一个核心目标之上:蒸馏预训练模型以学习边缘数据传输(Marginal-Data Transport)。直接学习该目标需要对速度场(velocity fields)进行积分,而该积分在实际操作中难以实现。因此,我们提出了两个可优化目标——速度匹配(Velocity Matching, VM)和速度蒸馏(Velocity Distillation, VD),将优化目标分别从传输层面等效转换到速度层面和分布层面。速度匹配(VM)旨在稳定地匹配学生模型与教师模型的速度场,但不可避免地会提供有偏梯度估计。速度蒸馏(VD)则进一步利用学习到的速度场进行概率密度蒸馏,从而增强优化过程。在领先的三维生成框架TRELLIS上进行评估时,我们的方法将每个流变换器(flow transformer)的采样步骤从25步减少到1或2步,在A800设备上实现了0.68秒(1步×2)和0.94秒(2步×2)的延迟,分别获得9.0倍和6.5倍的加速,同时保持了高质量的视觉与几何保真度。大量实验表明,我们的方法显著优于现有的CM蒸馏方法,并使TRELLIS在少步长三维生成任务中展现出卓越性能。


11. Durian: Dual Reference-guided Portrait Animation with Attribute Transfer

作者: Hyunsoo Cha, Byungjun Kim, Hanbyul Joo

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-04 | 👍 点赞数: 9

摘要:

我们提出Durian,这是首个能够在零样本设置下实现将给定参考图像中的面部属性迁移到目标肖像并生成肖像动画视频的方法。为了在帧间实现高保真且空间一致的属性迁移,我们引入了双参考网络,将来自肖像图像和属性图像的空间特征注入扩散模型的去噪过程中。我们采用自重建的训练方式,从同一肖像视频中采样两帧:其中一帧作为属性参考,另一帧作为目标肖像,并基于这些输入及其对应的掩码重建剩余帧。为了支持具有不同空间范围的属性迁移,我们提出了一种基于关键点条件图像生成的掩码扩展策略。此外,我们对属性图像和肖像图像进行了空间和外观层面的数据增强,以提升模型对两者之间位置不对齐的鲁棒性。尽管训练过程中未使用显式的三元组监督,这些策略使模型能够有效泛化到多种属性和真实场景下的参考组合。Durian在属性迁移的肖像动画任务中实现了当前最先进的性能,并且其双参考设计支持在单次生成过程中进行多属性组合迁移,无需额外训练。


12. Drawing2CAD: Sequence-to-Sequence Learning for CAD Generation from

Vector Drawings

作者: Feiwei Qin, Shichao Lu, Junhao Hou, Changmiao Wang, Meie Fang, Ligang Liu

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-26 | 👍 点赞数: 8

摘要:

Drawing2CAD:基于序列到序列学习的从矢量图纸生成CAD模型

计算机辅助设计(Computer-Aided Design, CAD)生成建模正在推动工业应用中的重大创新。近期研究在从点云、网格和文本描述等多种输入创建实体模型方面取得了显著进展。然而,这些方法与始于二维工程图纸的传统工业工作流程存在根本差异。尽管从二维矢量图纸自动生成参数化CAD模型是工程设计中的关键步骤,但这一方向仍未得到充分探索。为弥补这一差距,我们的核心见解是将CAD生成重新定义为一个序列到序列的学习问题,其中矢量图纸的基本元素直接指导参数化CAD操作的生成,从而在整个转换过程中保持几何精度和设计意图。我们提出了Drawing2CAD,该框架包含三个关键技术组件:一种网络友好的矢量图元表示方法,能够保留精确的几何信息;一种双解码器的Transformer架构,在解耦命令类型和参数生成的同时保持精确的对应关系;以及一种软目标分布损失函数,以适应CAD参数中固有的灵活性。为了训练和评估Drawing2CAD,我们构建了CAD-VGDrawing数据集,包含成对的工程图纸和参数化CAD模型,并进行了全面的实验以验证我们方法的有效性。 代码和数据集可在https://github.com/lllssc/Drawing2CAD获取。


13. Delta Activations: A Representation for Finetuned Large Language Models

作者: Zhiqiu Xu, Amish Sethi, Mayur Naik, Ser-Nam Lim

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-04 | 👍 点赞数: 5

摘要:

Delta Activations: 一种用于微调大语言模型的表示方法

摘要: 强大的开源大语言模型(Large Language Models, LLMs)的成功使社区能够创建大量针对特定任务和领域的微调模型。然而,由于元数据不一致和仓库结构不规范,这些模型的管理和理解仍然具有挑战性。我们提出Delta Activations方法,通过测量模型内部激活相对于基础模型的变化,将微调模型表示为向量嵌入。这种表示方法能够根据领域和任务实现有效的聚类,揭示模型生态中的结构特征。Delta Activations还展现出良好的性质:其在不同微调设置下具有鲁棒性,并在微调数据集混合时表现出可加性。此外,我们展示了Delta Activations可以通过少量样本微调对任务进行嵌入,并进一步探讨了其在模型选择和合并中的应用。我们希望Delta Activations能够促进公开可用模型的复用实践。 代码地址:https://github.com/OscarXZQ/delta_activations


14. False Sense of Security: Why Probing-based Malicious Input Detection

Fails to Generalize

作者: Cheng Wang, Zeming Wei, Qin Liu, Muhao Chen

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-04 | 👍 点赞数: 2

摘要:

虚假的安全感:为何基于探测的恶意输入检测无法泛化

尽管大语言模型(Large Language Models, LLMs)具备出色的能力,但其仍可能遵循有害指令,引发严重的安全问题。近期研究利用基于探测的方法来研究LLMs内部表示中恶意输入与良性输入的可分性,并有学者提出将此类探测方法用于安全检测。我们对这一范式进行了系统性再审视。受制于较差的分布外表现,我们假设探测器学习到的是表面模式而非语义层面的危害性。通过受控实验,我们验证了这一假设,并识别出探测器学习到的具体模式:指令模式和触发词。我们的研究采用了系统的方法,从展示简单n-gram方法的相当性能开始,逐步进行语义清洗数据集的受控实验,最终对模式依赖性进行了详细分析。这些结果揭示了当前基于探测的方法所造成的虚假安全感,并强调了重新设计模型和评估协议的必要性。我们对此进行了进一步讨论,以期为该方向的后续负责任研究提供建议。 本项目已开源,地址为 https://github.com/WangCheng0116/Why-Probe-Fails