每日论文 - 2025年09月07日
论文总数: 14
1. Drivel-ology: Challenging LLMs with Interpreting Nonsense with Depth
作者: Yang Wang, Chenghao Xiao, Chia-Yi Hsiao, Zi Yan Chang, Chi-Li Chen, Tyler Loakman, Chenghua Lin
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-04 | 👍 点赞数: 198
摘要:
我们提出了一种独特的语言现象——Drivelology,其特征是“有深度的无意义”(nonsense with depth),即那些在句法上连贯但在语用上具有矛盾性、情感负载性或修辞颠覆性的表达。尽管此类表达可能看似表层无意义,但它们隐含了需要语境推理、道德判断或情感解读的深层含义。我们发现,当前的大语言模型(LLMs)尽管在许多自然语言处理(NLP)任务中表现出色,却始终未能理解Drivelological文本的多层次语义。为此,我们构建了一个包含1200多个精心筛选样本的小型但多样化的基准数据集,其中包含英语、汉语、西班牙语、法语、日语和韩语的精选实例。数据标注过程尤其具有挑战性:每个样本都需要专家仔细审查,以确认其确实体现了Drivelological特征。该过程经历了多轮讨论与裁决以解决分歧,突显了Drivelology现象本身的微妙性和主观性。我们对多种LLMs在分类、生成和推理任务上的评估结果揭示了其明显的局限性:模型常常将Drivelology与浅层无意义语句混淆,生成不连贯的解释,或完全忽略其中隐含的修辞功能。这些发现表明LLMs在语用理解方面存在更深层次的表征缺陷,并挑战了“统计流畅性等同于认知理解”的假设。我们公开了数据集和代码,以促进对超越表层连贯 性的语言深度建模的进一步研究。
2. From Editor to Dense Geometry Estimator
作者: JiYuan Wang, Chunyu Lin, Lei Sun, Rongying Liu, Lang Nie, Mingxing Li, Kang Liao, Xiangxiang Chu, Yao Zhao
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-04 | 👍 点赞数: 86
摘要:
从编辑器到密集几何估计器
利用预训练文本到图像(text-to-image, T2I)生成模型中的视觉先验信息已在密集预测任务中取得成功。然而,密集预测本质上是一个图像到图像的任务,这表明图像编辑模型相较于T2I生成模型,可能是更适合微调的起点。受此启发,我们对编辑器和生成器在密集几何估计任务中的微调行为进行了系统分析。研究发现,编辑模型具有内在的结构先验,使其能够通过“优化”其固有特征实现更稳定的收敛,并最终在性能上超越生成模型。基于上述发现,我们提出了FE2E框架,首次将基于扩散变压器(Diffusion Transformer, DiT)架构的先进编辑模型应用于密集几何预测。具体而言,为了适配这一确定性任务,我们重新设计了编辑器原有的流匹配损失函数,提出了“一致速度”训练目标。同时,我们采用对数量化方法解决编辑器原生BFloat16格式与任务高精度需求之间的精度冲突。此外,我们利用DiT的 全局注意力机制,在单次前向传播中实现深度和法线的无额外成本联合估计,使它们的监督信号能够相互增强。在未扩大训练数据规模的情况下,FE2E在多个数据集上的零样本单目深度和法线估计任务中实现了显著的性能提升。值得注意的是,其在ETH3D数据集上取得了超过35%的性能提升,并优于基于100倍数据量训练的DepthAnything系列模型。 项目页面地址为https://amap-ml.github.io/FE2E。
3. Towards a Unified View of Large Language Model Post-Training
作者: Xingtai Lv, Yuxin Zuo, Youbang Sun, Hongyi Liu, Yuntian Wei, Zhekai Chen, Lixuan He, Xuekai Zhu, Kaiyan Zhang, Bingning Wang, Ning Ding, Bowen Zhou
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-04 | 👍 点赞数: 67
摘要:
现代语言模型的后训练阶段存在两种主要的训练数据来源:在线数据(模型生成的 rollout 数据)和离线数据(人类或其他模型的示范数据)。这两类数据通常分别由强化学习(Reinforcement Learning, RL)和监督微调(Supervised Fine-Tuning, SFT)等方法使用。本文表明,这些方法并非相互对立,而是同一优化过程的 不同实例。我们推导出一个统一的策略梯度估计器,并展示在不同数据分布假设和各种偏差-方差权衡下,广泛的后训练方法可以表示为一个共同目标函数的梯度。该梯度估计器由四个可互换的组件构成:稳定化掩码、参考策略分母、优势估计和似然梯度。受理论分析的启发,我们提出混合后训练(Hybrid Post-Training, HPT)算法,能够动态选择不同的训练信号。HPT 的设计旨在有效利用示范数据实现稳定探索,同时保留已学习的推理模式。我们提供了广泛的实验和消融研究,以验证所提出的统一理论框架及 HPT 算法的有效性。在六个数学推理基准测试和两个分布外测试套件中,HPT 在不同规模和家族的模型上均持续超越强基线方法。
4. Inverse IFEval: Can LLMs Unlearn Stubborn Training Conventions to Follow
Real Instructions?
作者: Qinyan Zhang, Xinping Lei, Ruijie Miao, Yu Fu, Haojie Fan, Le Chang, Jiafan Hou, Dingling Zhang, Zhongfei Hou, Ziqiang Yang, Changxin Pu, Fei Hu, Jingkai Liu, Mengyun Liu, Yang Liu, Xiang Gao, Jiaheng Liu, Tong Yang, Zaiyuan Wang, Ge Zhang, Wenhao Huang
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-04 | 👍 点赞数: 54
摘要:
大型语言模型(Large Language Models, LLMs)在多种任务中表现出色,但常常表现出认知惯性(cognitive inertia),难以遵循与监督微调(supervised fine-tuning, SFT)阶段所习得的标准化模式相冲突的指令。为评估这一局限性,我们提出了Inverse IFEval基准测试,用于衡量模型的反直觉能力(Counter-intuitive Ability),即其克服训练诱导偏差并遵循对抗性指令的能力。Inverse IFEval引入了八种类型的此类挑战,包括问题修正(Question Correction)、故意文本缺陷(Intentional Textual Flaws)、无注释代码(Code without Comments)和反事实回答(Counterfactual Answering)。通过一个人机协同的数据构建流程,我们在23个领域中创建了一个包含1012个高质量中英文问题的数据集,并在一个优化的LLM-as-a-Judge框架下进行评估。针对现有主流LLMs的实验验证了Inverse IFEval基准测试的必要性。我们的研究结果强调,未来的对齐工作不仅应追求语言流畅性和事实正确性,还应关注模型在非传统情境下的适应能力。我们希望Inverse IFEval能够作为诊断工具,并为开发缓解认知惯性、减少对狭窄模式过拟合的方法奠定基础,最终提升LLMs在多样且不可预测的真实世界场景中的指令遵循可靠性。
5. DeepResearch Arena: The First Exam of LLMs' Research Abilities via
Seminar-Grounded Tasks
作者: Haiyuan Wan, Chen Yang, Junchi Yu, Meiqi Tu, Jiaxuan Lu, Di Yu, Jianbao Cao, Ben Gao, Jiaqing Xie, Aoran Wang, Wenlong Zhang, Philip Torr, Dongzhan Zhou
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-01 | 👍 点赞数: 53
摘要:
DeepResearch Arena:首个基于研讨会任务的LLMs研究能力测试
深度研究代理因其在协调多阶段研究工作流程方面的潜力而受到越来越多的关注,这些流程包括文献综述、方法设计和实证验证等。尽管取得了这些进展,但由于难以收集真正引起研究人员关注和智力兴趣的前沿研究问题,对它们研究能力的准确评估仍然极具挑战性。为弥补这一空白,我们提出了DeepResearch Arena,这是一个基于学术研讨会的基准,能够捕捉丰富的专家讨论和互动,更好地反映真实世界的研究环境,并减少数据泄露的风险。为了自动构建DeepResearch Arena,我们设计了一个多智能体分层任务生成(Multi-Agent Hierarchical Task Generation, MAHTG)系统,用于从研讨会记录中提取具有研究价值的灵感。MAHTG系统进一步将这些研究灵感转化为高质量的研究任务,在确保研究任务可追溯性的同时过滤噪声。借助MAHTG系统,我们从200多场学术研讨会中整理出超过10,000个高质量研究任务,涵盖文学、历史、科学等12个学科领域。我们的广泛评估表明,当前最先进的研究代理在DeepResearch Arena中仍面临显著挑战,不同模型之间表现出明显的性能差距。
6. Transition Models: Rethinking the Generative Learning Objective
作者: Zidong Wang, Yiyuan Zhang, Xiaoyu Yue, Xiangyu Yue, Yangguang Li, Wanli Ouyang, Lei Bai
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-04 | 👍 点赞数: 28
摘要:
生成建模中的一个基本困境仍然存在:迭代扩散模型虽然能够实现卓越的生成质量,但却伴随着显著的计算成本;而高效的小步长替代方案则受限于难以突破的质量上限。这种生成步数与输出质量之间的矛盾源于限制性的训练目标,这些目标仅专注于无穷小动力学(PF-ODEs)或直接端点预测。为解决这一挑战,我们引入了一个精确的连续时间动力学方程,该方程在任意有限时间间隔上解析地定义了状态转移。这催生了一种全新的生成范式——转移模型(Transition Models, TiM),其能够适应任意步长的转移,在从单步跳跃到多步细粒度优化的整个生成轨迹上无缝过渡。尽管仅有865M参数,TiM在所有评估步数下均超越了SD3.5(8B参数)和FLUX.1(12B参数)等领先模型,达到最先进的性能。重要的是,与以往的小步长生成模型不同,TiM在采样预算增加时表现出单调的质量提升。此外,采用我们原生分辨率策略时,TiM在高达4096x4096的分辨率下仍能提供卓越的生成保真度。
7. NER Retriever: Zero-Shot Named Entity Retrieval with Type-Aware
Embeddings
作者: Or Shachar, Uri Katz, Yoav Goldberg, Oren Glickman
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-04 | 👍 点赞数: 28
摘要:
NER Retriever: 基于类型感知嵌入的零样本命名实体检索
我们提出了NER Retriever,一种用于即席命名实体检索(ad-hoc Named Entity Retrieval)的零样本检索框架,这是命名实体识别(NER)的一个变体。在该任务中,感兴趣的实体类型并非预先给定,而是通过用户定义的类型描述来检索提及该类型实体的文档。我们的方法不依赖于固定模式或微调模型,而是基于大语言模型(LLMs)的内部表示,将实体提及和用户提供的开放类型描述嵌入到一个共享的语义空间中。我们发现,内部表示(特别是来自中间层Transformer块的值向量)比常用的顶层嵌入能够更有效地编码细粒度的类型信息。为了优化这些表示,我们训练了一个轻量级的对比投影网络,以对齐类型兼容的实体并分离不相关的类型。最终得到的实体嵌入具有紧凑性、类型感知性,并适用于最近邻搜索。在三个基准数据集上的评估表明,NER Retriever 显著优于基于词汇和密集句子级别的检索基线方法。我们的研究结果为大语言模型中的表示 选择提供了实证支持,并展示了一种可扩展、无模式实体检索的实用解决方案。NER Retriever 的代码库已公开, 地址为 https://github.com/ShacharOr100/ner_retriever
8. Loong: Synthesize Long Chain-of-Thoughts at Scale through Verifiers
作者: Xingyue Huang, Rishabh, Gregor Franke, Ziyi Yang, Jiamu Bai, Weijie Bai, Jinhe Bi, Zifeng Ding, Yiqun Duan, Chengyu Fan, Wendong Fan, Xin Gao, Ruohao Guo, Yuan He, Zhuangzhuang He, Xianglong Hu, Neil Johnson, Bowen Li, Fangru Lin, Siyu Lin, Tong Liu, Yunpu Ma, Hao Shen, Hao Sun, Beibei Wang, Fangyijie Wang, Hao Wang, Haoran Wang, Yang Wang, Yifeng Wang, Zhaowei Wang, Ziyang Wang, Yifan Wu, Zikai Xiao, Chengxing Xie, Fan Yang, Junxiao Yang, Qianshuo Ye, Ziyu Ye, Guangtao Zeng, Yuwen Ebony Zhang, Zeyu Zhang, Zihao Zhu, Bernard Ghanem, Philip Torr, Guohao Li
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-03 | 👍 点赞数: 23
摘要:
摘要:近期大型语言模型(Large Language Models, LLMs)的研究表明,通过可验证奖励的强化学习(Reinforcement Learning with Verifiable Reward, RLVR),其推理能力可以在诸如数学和编程等领域显著 提升,这些领域的真实正确性可以被自动评估。然而,由于高质量、可验证数据集的稀缺以及人工监督的高成本,将这一成功扩展到其他需要推理的领域仍然具有挑战性。为此,我们提出了Loong项目:一个开源框架,用于在多种推理密集型领域中进行可扩展的合成数据生成与验证。该框架包含两个核心组件:(1)LoongBench,一个精选的种子数据集,包含12个领域(例如,高等数学、化学、逻辑)的8,729个经过人工审核的示例,每个示例均配有可执行代码和丰富的元数据;(2)LoongEnv,一个模块化的合成数据生成环境,支持多种提示策略以生成新的问答代码三元组。这两个组件共同构成了一个智能体-环境循环系统,支持强化学习,其中基于LLM的智能体因生成与代码执行结果一致的思维链(Chain-of-Thought, CoT)解决方案而获得奖励。在实验方面,我们基于LoongBench在多个开源和专有LLMs上进行了基准测试,以评估领域覆盖范围并识别性能瓶颈。此外,我们对LoongEnv生成的合成数据进行了全面分析,评估其正确性、难度和多样性。 代码和文档可在https://github.com/camel-ai/loong获取。
9. Video-MTR: Reinforced Multi-Turn Reasoning for Long Video Understanding
作者: Yuan Xie, Tianshui Chen, Zheng Ge, Lionel Ni
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-28 | 👍 点赞数: 17
摘要:
长视频理解因其长范围时间依赖性和包含多个事件的特点而仍然是一项挑战。现有方法通常依赖静态推理或外部视觉-语言模型(VLMs),由于缺乏端到端训练,面临复杂度高和性能次优的问题。本文中,我们提出Video-MTR,一种强化的多轮推理框架,旨在实现迭代的关键视频片段选择与问题理解。不同于传统的单轮预测视频推理流程,Video-MTR通过多轮推理,根据已处理片段的逐步理解及当前问题渐进式地选择视频片段。这种迭代过程实现了更精细且上下文感知的视频分析。为确保中间推理过程的有效性,我们引入了一种新颖的门控双层级奖励机制,结合基于答案正确性的轨迹级奖励与强调帧-查询相关性的轮次级奖励。该机制同时优化视频片段选择与问题理解,无需依赖外部VLMs并支持端到端训练。在VideoMME、MLVU和EgoSchema等多个基准上的大量实验表明,Video-MTR在准确性和效率方面均优于现有方法,推动了长视频理解的前沿进展。
10. Few-step Flow for 3D Generation via Marginal-Data Transport Distillation
作者: Zanwei Zhou, Taoran Yi, Jiemin Fang, Chen Yang, Lingxi Xie, Xinggang Wang, Wei Shen, Qi Tian
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-04 | 👍 点赞数: 11
摘要:
基于边缘数据传输蒸馏的少步长三维生成流程
基于流的三维生成模型在推理过程中通常需要数十个采样步长。尽管少步长蒸馏方法,特别是一致性模型(Consistency Models, CMs),在加速二维扩散模型方面取得了显著进展,但其在更为复杂的三维生成任务中的应用仍鲜有探索。本研究提出了一种新颖的少步长三维流蒸馏框架MDT-dist。我们的方法建立在一个核心目标之上:蒸馏预训练模型以学习边缘数据传输(Marginal-Data Transport)。直接学习该目标需要对速度场(velocity fields)进行积分,而该积分在实际实现中难以处理。因此,我们提出了两个可优化目标——速度匹配(Velocity Matching, VM)和速度蒸馏(Velocity Distillation, VD),将优化目标分别等效地从传输层面转化为速度层面和分布层面。速度匹配(VM)学习在学生模型与教师模型之间稳定匹配速度场,但不可避免地提供了有偏的梯度估计。速度蒸馏(VD)则进一步利用所学习的速度场进行概率密度蒸馏,从而增强优化过程。在领先的三维生成框架TRELLIS上的评估结果显示,我们的方法将每个流变换器(flow transformer)所需的采样步长从25步减少至仅1或2步,在A800设备上实现了0.68秒(1步×2)和0.94秒(2步×2)的延迟,分别获得9.0倍和6.5倍的速度提升,同时保持了高质量的视觉与几何保真度。大量实验表明,我们的方法显著优于现有的CM蒸馏 方法,并使TRELLIS在少步长三维生成任务中展现出更优越的性能。
11. Durian: Dual Reference-guided Portrait Animation with Attribute Transfer
作者: Hyunsoo Cha, Byungjun Kim, Hanbyul Joo
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-04 | 👍 点赞数: 9
摘要:
我们提出Durian,这是首个能够在零样本设置下实现从给定参考图像向目标肖像进行面部属性迁移并生成肖像动画视频的方法。为了在帧间实现高保真且空间一致的属性迁移,我们引入了双参考网络,将来自肖像图像和属性图像的空间特征注入扩散模型的去噪过程中。我们采用自重建的训练方式,从同一段肖像视频中采样两帧:一帧作为属性参考,另一帧作为目标肖像,并基于这些输入及其对应的掩码重建其余帧。为了支持具有不同空间范围的属性迁移,我们提出了一种基于关键点条件图像生成的掩码扩展策略。此外,我们还对属性图像和肖像图像进行了空间和外观层面的增强变换,以提升模型对两者之间位置不对齐的鲁棒性。尽管训练过程中未使用显式的三元组监督,这些策略使得模型能够有效泛化到多种属性 和真实场景下的参考组合。Durian在属性迁移的肖像动画任务中达到了最先进的性能,并且其双参考设计支持在单次生成过程中进行多属性组合迁移,而无需额外训练。
12. Drawing2CAD: Sequence-to-Sequence Learning for CAD Generation from
Vector Drawings
作者: Feiwei Qin, Shichao Lu, Junhao Hou, Changmiao Wang, Meie Fang, Ligang Liu
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-26 | 👍 点赞数: 8
摘要:
摘要:计算机辅助设计(Computer-Aided Design, CAD)生成建模正在推动工业应用中的重大创新。近期研究在从点云、网格和文本描述等多种输入创建实体模型方面取得了显著进展。然而,这些方法与始于二维工程图纸的传统工业工作流程存在根本差异。尽管从这些二维矢量图纸自动生成参数化CAD模型是工程设计中的关键步骤,但相关研究仍较为匮乏。为弥补这一差距,我们的核心观点是将CAD生成重新定义为一个序列到序列的学习问题,其中矢量绘图基本元素直接指导参数化CAD操作的生成,在整个转换过程中保持几何精度和设计意图。我们提出了Drawing2CAD框架,包含三个关键技术组件:一种网络友好的矢量基本元素表示方法,能够保留精确的几何信息;一种双解码器Transformer架构,在解耦命令类型和参数生成的同时保持精确对应关系;以及一种软目标分布损失函数,以适应CAD参数中的固有灵活性。为了训练和评估Drawing2CAD,我们构建了CAD-VGDrawing数据集,包含成对的工程图纸与参数化CAD模型,并进行了全面的实验以验证我们方法的有效性。 代码和数据集可在https://github.com/lllssc/Drawing2CAD获取。
13. Delta Activations: A Representation for Finetuned Large Language Models
作者: Zhiqiu Xu, Amish Sethi, Mayur Naik, Ser-Nam Lim
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-04 | 👍 点赞数: 5
摘要:
Delta激活:一种用于微调大型语言模型的表示方法
摘要: 强大的开源大型语言模型(Large Language Models, LLMs)的成功使社区能够创建大量针对特定任务和领域的后训练模型。然而,由于元数据不一致和仓库结构不规范,这些模型的导航和理解仍然具有挑战性。我们提出Delta激活方法,通过测量微调模型相对于 基础模型的内部激活变化,将其表示为向量嵌入。这种表示方法能够根据领域和任务进行有效聚类,揭示模型分布中的结构。Delta激活还表现出良好的特性:在不同的微调设置下具有鲁棒性,并且在微调数据集混合时表现出可加性。此外,我们展示了Delta激活可以通过少量样本微调嵌入任务,并进一步探索了其在模型选择和合并中的应用。我们希望Delta激活能够促进公众可用模型的复用实践。 代码可在https://github.com/OscarXZQ/delta_activations获取。
14. False Sense of Security: Why Probing-based Malicious Input Detection
Fails to Generalize
作者: Cheng Wang, Zeming Wei, Qin Liu, Muhao Chen
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-04 | 👍 点赞数: 2
摘要:
大型语言模型(Large Language Models, LLMs)可能执行有害指令,尽管其能力强大,但仍引发了严重的安全性担忧。近期研究利用基于探测(probing-based)的方法来研究LLMs内部表征中恶意输入与良性输入的可分性,并提出将此类探测方法用于安全检测。我们对这 一范式进行了系统性再审视。受制于较差的分布外表现,我们假设探测器学习到的是表层模式而非语义上的危害性。通过受控实验,我们验证了这一假设并识别了探测器学到的具体模式:指令模式和触发词。我们的研究采用了系统性方法,从展示简单n-gram方法的相当性能,到使用语义清洗后的数据集进行受控实验,再到对模式依赖性的详细分析。这些结果揭示了当前基于探测的方法所造成的虚假安全感,并强调了重新设计模型和评估协议的必要性。我们对此进行了进一步讨论,以期为该方向的负责任研究提供启示。 本项目已开源,地址为 https://github.com/WangCheng0116/Why-Probe-Fails。