每日论文 - 2025年09月06日
论文总数: 14
1. Drivel-ology: Challenging LLMs with Interpreting Nonsense with Depth
作者: Yang Wang, Chenghao Xiao, Chia-Yi Hsiao, Zi Yan Chang, Chi-Li Chen, Tyler Loakman, Chenghua Lin
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-04 | 👍 点赞数: 198
摘要:
我们提出了一种独特的语言现象——Drivelology,其特征是“有深度的无意义”(nonsense with depth),即那些在句法上连贯但在语用上具有矛盾性、情感负载性或修辞颠覆性的表达。尽管这类表达可能看似表层无意义,但它们蕴含了需要语境推理、道德判断或情感解读的隐含意义。我们发现,尽管当前的大语言模型(Large Language Models,LLMs)在许多自然语言处理(Natural Language Processing,NLP)任务中表现出色,却始终无法理解Drivelological文本的多层次语义。为了深入研究这一问题,我们构建了一个包含1200多个精心筛选样本的小型但多样化的基准数据集,涵盖英语、汉语、西班牙语、法语、日语和韩语的精选实例。数据标注过程尤其具有挑战性:每个样本都需要专家仔细审查,以确保其真正体现Drivelological的特征。这一过程经历了多轮讨论与裁决以解决分歧,突显了Drivelology本身的微妙性和主观性。我们在分类、生成和推理任务上对多种LLMs进行了评估。结果表明,LLMs存在明显局限:模型常常将Drivelology误认为浅层无意义语句,生成不连贯的解释,或完全忽略其中隐含的修辞功能。这些发现揭示了LLMs在语用理解方面更深层次的表征缺陷,并挑战了“统计流畅性意味着认知理解”的 假设。我们公开了数据集和代码,以推动超越表层连贯性的语言深度建模研究。
2. From Editor to Dense Geometry Estimator
作者: JiYuan Wang, Chunyu Lin, Lei Sun, Rongying Liu, Lang Nie, Mingxing Li, Kang Liao, Xiangxiang Chu, Yao Zhao
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-04 | 👍 点赞数: 86
摘要:
从编辑器到密集几何估计器
利用预训练文本到图像(text-to-image, T2I)生成模型中的视觉先验信息已在密集预测任务中取得成功。然而,密集预测本质上是一个图像到图像的任务,表明图像编辑模型相较于T2I生成模型可能是更适合微调的基础模型。受此启发,我们对编辑器和生成器在密集几何估计中的微调行为进行了系统分析。研究发现,编辑模型具有内在的结构先验信息,能够通过“优化”其固有特征实现更稳定的收敛,最终表现优于生成模型。
基于上述发现,我们提出了FE2E框架,这是首个将基于扩散变压器(Diffusion Transformer, DiT)架构的先进编辑模型应用于密集几何预测的工作。具体而言,为了适配这一确定性任务,我们将编辑器原有的流匹配损失重新定义为“一致速度”训练目标。同时,我们采用对数量化方法解决编辑器原生BFloat16格式与任务高精度需 求之间的精度冲突。此外,我们利用DiT的全局注意力机制,在单次前向传播中实现深度和法线的零成本联合估计,使它们的监督信号能够相互增强。
在未扩大训练数据规模的前提下,FE2E在多个数据集上的零样本单目深度和法线估计任务中实现了显著的性能提升。值得注意的是,其在ETH3D数据集上取得了超过35%的性能提升,并优于基于100倍数据量训练的DepthAnything系列模型。 项目页面请访问:https://amap-ml.github.io/FE2E。
3. Towards a Unified View of Large Language Model Post-Training
作者: Xingtai Lv, Yuxin Zuo, Youbang Sun, Hongyi Liu, Yuntian Wei, Zhekai Chen, Lixuan He, Xuekai Zhu, Kaiyan Zhang, Bingning Wang, Ning Ding, Bowen Zhou
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-04 | 👍 点赞数: 67
摘要:
现代语言模型的后训练存在两类主要的训练数据来源:在线数据(模型生成的 rollout 数据)和离线数据(人类或其他模型的示范数据)。这两类数据通常分别由强化学习(Reinforcement Learning, RL)和监督微调(Supervised Fine-Tuning, SFT)等方法使用。本文表明,这些方法并非相互对立,而是单一优化过程的不同实例。我们推导出一个统一的策略梯度估计器,并展示在不同数据分布假设和各种偏差-方差权衡下,广泛范围的后训练方法的计算均可视为一个共同目标函数的梯度。该梯度估计器由四个可互换的组件构成:稳定化掩码(stabilization mask)、参考策略分母(reference policy denominator)、优势估计(advantage estimate)和似然梯度(likelihood gradient)。受理论分析的启发,我们提出了混合后训练(Hybrid Post-Training, HPT)算法,能够动态选择不同的训练信号。HPT 设计用于在不牺牲已学习推理模式的前提下,有效利用示范数据并实现稳定的探索。我们提供了广泛的实验和消融研究,以验证所提出的统一理论框架及 HPT 算法的有效性。在六个数学推理基准测试和两个分布外测试套件中,HPT 在不同规模和结构的模型上均一致优于强基线方法。
4. Inverse IFEval: Can LLMs Unlearn Stubborn Training Conventions to Follow
Real Instructions?
作者: Qinyan Zhang, Xinping Lei, Ruijie Miao, Yu Fu, Haojie Fan, Le Chang, Jiafan Hou, Dingling Zhang, Zhongfei Hou, Ziqiang Yang, Changxin Pu, Fei Hu, Jingkai Liu, Mengyun Liu, Yang Liu, Xiang Gao, Jiaheng Liu, Tong Yang, Zaiyuan Wang, Ge Zhang, Wenhao Huang
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-04 | 👍 点赞数: 54
摘要:
逆向IFEval:大语言模型能否摆脱训练惯性以遵循真实指令?
大语言模型(Large Language Models, LLMs)在多种任务中表现出色,但常常表现出认知惯性(cognitive inertia),难以遵循与监督微调(supervised fine-tuning, SFT)阶段所习得的标准化模式相冲突的指令。为评估这一局限性,我们提出了逆向IFEval(Inverse IFEval)基准测试,用于衡量模型的反直觉能力——即其克服训练诱导偏差并遵循对抗性指令的能力。Inverse IFEval引入了八类此类挑战,包括问题修正(Question Correction)、故意文本缺陷(Intentional Textual Flaws)、无注释代码(Code without Comments)和反事实回答(Counterfactual Answering)等。通过一个人机协同的数据构建流程,我们在23个领域中构建了一个包含1012个高质量中英文问题的数据集,并在一个优化的LLM-as-a-Judge框架下进行评估。在现有领先LLMs上的实验验证了我们所提出的Inverse IFEval基准测试的必要性。我们的研究结果强调,未来的对齐工作不仅应追求语言流畅性和事实正确性,还应关注模型在非传统情境下的适应能力。我们希望Inverse IFEval既能作为诊断工具,也能成为开发缓解认知惯性、减少对狭窄模式过拟合的方法的基础,从而最终提升LLMs在多样且不可预测的真实世界场景中的指令遵循可靠性。
5. DeepResearch Arena: The First Exam of LLMs' Research Abilities via
Seminar-Grounded Tasks
作者: Haiyuan Wan, Chen Yang, Junchi Yu, Meiqi Tu, Jiaxuan Lu, Di Yu, Jianbao Cao, Ben Gao, Jiaqing Xie, Aoran Wang, Wenlong Zhang, Philip Torr, Dongzhan Zhou
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-01 | 👍 点赞数: 53
摘要:
DeepResearch Arena:首个基于研讨会任务的LLMs研究能力评估
深度研究代理因其在协调多阶段研究工作流程方面的潜力而受到越来越多的关注,这些工作流程包括文献综合、方法论设计和实证验证。尽管取得了这些进展,但由于难以收集真正体现研究人员关注点和智力好奇心的前沿研究问题,对它们研究能力的准确评估仍然极具挑战性。为了解决这一空白,我们提出了DeepResearch Arena,这是一个基于学术研讨会的基准,能够捕捉丰富的专家讨论和互动,更好地反映真实世界的研究环境,并减少数据泄露的风险。为了自动构建DeepResearch Arena,我们提出了一种多智能体分层任务生成(Multi-Agent Hierarchical Task Generation, MAHTG)系统,该系统可以从研讨会记录中提取具有研究价值的灵感。MAHTG系统进一步将这些研究灵感转化为高质量的研究任务,在确保研究任务可追溯性的同时过滤噪声。借助MAHTG系统,我们从200多场学术研讨会中策划了涵盖文学、历史和科学等12个学科的超过10,000个高质量研究任务的DeepResearch Arena。我们的广泛评估表明,当前最先进的研究代理在DeepResearch Arena中面临重大挑战,不同模型之间表现出明显的性能差距。
6. Transition Models: Rethinking the Generative Learning Objective
作者: Zidong Wang, Yiyuan Zhang, Xiaoyu Yue, Xiangyu Yue, Yangguang Li, Wanli Ouyang, Lei Bai
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-04 | 👍 点赞数: 28
摘要:
生成建模中的一个基本困境仍然存在:迭代扩散模型虽然能够实现卓越的生成质量,但却伴随着显著的计算成本;而高效的小步长替代方案则受限于难以突破的质量上限。这种生成步数与输出质量之间的矛盾源于限制性的训练目标,这些目标仅专注于无穷小动力学(PF-ODEs)或直接端点预测。为解决这一挑战,我们引入了一个精确的连续时间动力学方程,该方程在任意有限时间区间上解析地定义了状态转移。这催生了一种新的生成范式——转移模型(Transition Models, TiM),其能够适应任意步长的转移,在从单步跳跃到多步细粒度优化的整个生成轨迹中无缝过渡。尽管仅有865M参数,TiM在所有评估的步数条件下均实现了超越SD3.5(8B参数)和FLUX.1(12B参数)等领先模型的性能。重要的是,与此前的小步长生成模型不同,TiM在采样预算增加时展现出生成质量的单调提升。此外,采用我们提出的原生分辨率策略后,TiM在高达4096x4096的分辨率下仍能提供卓越的生成保真度。
7. NER Retriever: Zero-Shot Named Entity Retrieval with Type-Aware
Embeddings
作者: Or Shachar, Uri Katz, Yoav Goldberg, Oren Glickman
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-04 | 👍 点赞数: 28
摘要:
NER Retriever: 基于类型感知嵌入的零样本命名实体检索
我们提出了NER Retriever,一种用于即席命名实体检索(ad-hoc Named Entity Retrieval)的零样本检索框架,该任务是命名实体识别(NER)的一种变体。在该任务中,感兴趣的实体类型并非预先给定,而是通过用户定义的类型描述来检索提及该类型实体的文档。与依赖固定模式或微调模型的方法不同,我们的方法基于大语言模型(LLMs)的内部表示,将实体提及和用户提供的开放类型描述嵌入到一个共享的语义空间中。我们发现,内部表示(特别是来自中间层Transformer块的值向量)比常用的顶层嵌入能够更有效地编码细粒度的类型信息。为了优化这些表示,我们训练了一个轻量级的对比投影网络 ,以对齐类型兼容的实体并分离不相关的类型。最终得到的实体嵌入紧凑、具备类型感知能力,并且适用于最近邻搜索。在三个基准数据集上的评估表明,NER Retriever 显著优于基于词法和密集句子级检索的基线方法。我们的研究结果为大语言模型中的表示选择提供了实证支持,并展示了可扩展、无需预定义模式的实体检索的实用解决方案。NER Retriever 的代码库已公开, 地址为 https://github.com/ShacharOr100/ner_retriever。
8. Loong: Synthesize Long Chain-of-Thoughts at Scale through Verifiers
作者: Xingyue Huang, Rishabh, Gregor Franke, Ziyi Yang, Jiamu Bai, Weijie Bai, Jinhe Bi, Zifeng Ding, Yiqun Duan, Chengyu Fan, Wendong Fan, Xin Gao, Ruohao Guo, Yuan He, Zhuangzhuang He, Xianglong Hu, Neil Johnson, Bowen Li, Fangru Lin, Siyu Lin, Tong Liu, Yunpu Ma, Hao Shen, Hao Sun, Beibei Wang, Fangyijie Wang, Hao Wang, Haoran Wang, Yang Wang, Yifeng Wang, Zhaowei Wang, Ziyang Wang, Yifan Wu, Zikai Xiao, Chengxing Xie, Fan Yang, Junxiao Yang, Qianshuo Ye, Ziyu Ye, Guangtao Zeng, Yuwen Ebony Zhang, Zeyu Zhang, Zihao Zhu, Bernard Ghanem, Philip Torr, Guohao Li
链接: 📄 ArXiv | 🤗 HuggingFace