每日论文 - 2025年09月05日
论文总数: 12
1. From Editor to Dense Geometry Estimator
作者: JiYuan Wang, Chunyu Lin, Lei Sun, Rongying Liu, Lang Nie, Mingxing Li, Kang Liao, Xiangxiang Chu, Yao Zhao
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-04 | 👍 点赞数: 45
摘要:
从编辑器到密集几何估计器
利用预训练文本到图像(text-to-image, T2I)生成模型中的视觉先验信息已在密集预测任务中取得成功。然而,密集预测本质上是一个图像到图像的任务,表明图像编辑模型相较于T2I生成模型可能是更适合微调的基础。受此启发,我们对编辑器和生成器在密集几何估计中的微调行为进行了系统分析。研究发现,编辑模型具有内在的结构先验信息,能够通过“优化”其固有特征实现更稳定的收敛,最终表现优于生成模型。基于这些发现,我们提出了FE2E框架,首次将基于扩散变压器(Diffusion Transformer, DiT)架构的先进编辑模型应用于密集几何预测。具体而言,为了使编辑器适应这一确定性任务,我们将编辑器原有的流匹配损失重新定义为“一致速度”训练目标,并采用对数量化方法解决编辑器原生BFloat16格式与本任务高精度需求之间的精度冲突。此外,我们利用DiT的全局注意力机制,在单次前向传播中实现深度和法线的无额外成本联合估计,使它们的监督信号能够相互增强。在未增加训练数据规模的情况下,FE2E在多个数据集上的零样本单目深度和法线估计任务中均实现了显著的性能提升。特别地,它在ETH3D数据集上实现了超过35%的性能提升,并优于基于100倍数据量训练的DepthAnything系列模型。 项目页面请访问https://amap-ml.github.io/FE2E。
2. Towards a Unified View of Large Language Model Post-Training
作者: Xingtai Lv, Yuxin Zuo, Youbang Sun, Hongyi Liu, Yuntian Wei, Zhekai Chen, Lixuan He, Xuekai Zhu, Kaiyan Zhang, Bingning Wang, Ning Ding, Bowen Zhou
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-04 | 👍 点赞数: 33
摘要:
论文标题:Towards a Unified View of Large Language Model Post-Training
英文摘要翻译:
现代语言模型的后训练(post-training)存在两种主要的训练数据来源:在线数据(模型生成的rollouts)和离线数据(人类或其他模型的示范)。这两类数据通常分别由强化学习(Reinforcement Learning, RL)和监督微调(Supervised Fine-Tuning, SFT)等方法使用。本文表明,这些方法并非相互对立,而是同一优化过程的不同实例。我们推导出一个统一的策略梯度估计器(Unified Policy Gradient Estimator),并展示了在不同数据分布假设和偏差-方差权衡下,各种后训练方法的计算形式均可视为一个共同目标函数的梯度。该梯度估计器由四个可互换的组件构成:稳定化掩码(stabilization mask)、参考策略分母(reference policy denominator)、优势估计(advantage estimate)和似然梯度(likelihood gradient)。受理论分析的启发,我们提出了混合后训练(Hybrid Post-Training, HPT)算法,该算法能够动态选择不同的训练信号。HPT旨在有效利用示范数据的同时实现稳定的探索,且不损害已学习的推理模式。我们通过大量实验和消融研究验证了所提出的统一理论框架和HPT算法的有效性。在六个数学推理基 准测试和两个分布外测试套件中,HPT在不同规模和家族的模型上均一致优于强基线方法。
3. Inverse IFEval: Can LLMs Unlearn Stubborn Training Conventions to Follow
Real Instructions?
作者: Qinyan Zhang, Xinping Lei, Ruijie Miao, Yu Fu, Haojie Fan, Le Chang, Jiafan Hou, Dingling Zhang, Zhongfei Hou, Ziqiang Yang, Changxin Pu, Fei Hu, Jingkai Liu, Mengyun Liu, Yang Liu, Xiang Gao, Jiaheng Liu, Tong Yang, Zaiyuan Wang, Ge Zhang, Wenhao Huang
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-04 | 👍 点赞数: 32
摘要:
逆向IFEval:大语言模型能否摆脱顽固的训练惯例以遵循真实指令?
大语言模型(Large Language Models, LLMs)在多种任务中表现出色,但常常表现出认知惯性(cognitive inertia),难以遵循与监督微调(supervised fine-tuning, SFT)阶段所习得的标准化模式相冲突的指令。为评估这一局限性,我们提出了逆向IFEval(Inverse IFEval)基准测试,用于衡量模型在违背训练诱导偏差方面的反直觉能力(Counter-intuitive Ability)及其遵循对抗性指令的能力。Inverse IFEval引入了八种类型的此类挑战,包括问题修正(Question Correction)、故意文 本缺陷(Intentional Textual Flaws)、无注释代码(Code without Comments)和反事实回答(Counterfactual Answering)等。通过一个人机协同的数据构建流程,我们在23个领域中构建了一个包含1012个高质量中英文问题的数据集,并在一个优化的LLM-as-a-Judge评估框架下进行测试。在现有领先LLMs上的实验验证了我们提出的Inverse IFEval基准测试的必要性。我们的研究结果强调,未来的对齐工作不仅应追求语言流畅性和事实正确性,还应关注在非传统情境下的适应能力。我们希望Inverse IFEval能够作为诊断工具,并为开发缓解认知惯性、减少对狭窄模式的过拟合、最终提升LLMs在多样且不可预测的真实世界场景中指令遵循可靠性的方法提供基础。
4. DeepResearch Arena: The First Exam of LLMs' Research Abilities via
Seminar-Grounded Tasks
作者: Haiyuan Wan, Chen Yang, Junchi Yu, Meiqi Tu, Jiaxuan Lu, Di Yu, Jianbao Cao, Ben Gao, Jiaqing Xie, Aoran Wang, Wenlong Zhang, Philip Torr, Dongzhan Zhou
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-01 | 👍 点赞数: 28
摘要:
DeepResearch Arena:基于研讨会任务的首次LLMs研究能力评估
深度研 究代理因其在协调多阶段研究工作流程方面的潜力而受到越来越多的关注,这些工作流程包括文献综合、方法设计和实证验证。尽管取得了这些进展,但由于收集真正吸引研究人员注意力和激发智力好奇心的前沿研究问题存在困难,对它们研究能力的准确评估仍然极具挑战性。为了解决这一空白,我们提出了DeepResearch Arena,这是一个基于学术研讨会的基准,能够捕捉丰富的专家讨论和互动,更好地反映真实世界的研究环境,并降低数据泄露的风险。为了自动构建DeepResearch Arena,我们提出了一种多智能体分层任务生成(Multi-Agent Hierarchical Task Generation, MAHTG)系统,用于从研讨会记录中提取具有研究价值的灵感。MAHTG系统进一步将这些研究灵感转化为高质量的研究任务,在确保研究任务可追溯性的同时过滤噪声。借助MAHTG系统,我们从200多场学术研讨会中整理出超过10,000个高质量的研究任务,涵盖文学、历史、科学等12个学科,构建了DeepResearch Arena。我们的广泛评估表明,当前最先进的研究代理在DeepResearch Arena中仍面临显著挑战,不同模型之间表现出明显的性能差距。
5. Transition Models: Rethinking the Generative Learning Objective
作者: Zidong Wang, Yiyuan Zhang, Xiaoyu Yue, Xiangyu Yue, Yangguang Li, Wanli Ouyang, Lei Bai