跳到主要内容
目录

每日论文 - 2025年09月30日

论文总数: 82

1. SLA: Beyond Sparsity in Diffusion Transformers via Fine-Tunable

Sparse-Linear Attention

作者: Jintao Zhang, Haoxu Wang, Kai Jiang, Shuo Yang, Kaiwen Zheng, Haocheng Xi, Ziteng Wang, Hongzhou Zhu, Min Zhao, Ion Stoica, Joseph E. Gonzalez, Jun Zhu, Jianfei Chen

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-28 | 👍 点赞数: 108

摘要:

论文标题:SLA:通过可微调稀疏线性注意力超越扩散变换器中的稀疏性

中文摘要:
在扩散变换器(Diffusion Transformer, DiT)模型中,尤其是视频生成任务中,由于序列长度较长以及注意力机制的二次复杂度,注意力计算延迟成为主要瓶颈。我们发现,注意力权重可以自然地分为两部分:一小部分具有高秩的大权重,以及其余低秩的小权重。这一观察表明,可以对前者采用稀疏加速,对后者采用低秩加速。基于此,我们提出了SLA(Sparse-Linear Attention,稀疏线性注意力),一种可训练的注意力方法,融合了稀疏注意力与线性注意力,以加速扩散模型。SLA将注意力权重划分为关键、边缘和可忽略三类,分别对关键权重应用O(N²)复杂度的注意力计算,对边缘权重应用O(N)复杂度的计算,而跳过可忽略的权重。SLA将这些计算整合到一个统一的GPU内核中,并支持前向和反向传播。仅需少量使用SLA的微调步骤,DiT模型即可实现注意力计算量减少20倍,显著提升推理速度,且不损失生成质量。实验表明,SLA在端到端生成质量无损的情况下,将注意力计算量减少了95%,性能优于基线方法。此外,我们实现了高效的SLA专用GPU内核,在Wan2.1-1.3B模型上的视频生成任务中,注意力计算速度提升了13.7倍,端到端速度提升了2.2倍。


2. StableToken: A Noise-Robust Semantic Speech Tokenizer for Resilient

SpeechLLMs

作者: Yuhan Song, Linhao Zhang, Chuhan Wu, Aiwei Liu, Wei Jia, Houfeng Wang, Xiao Zhou

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-26 | 👍 点赞数: 62

摘要:

论文标题:StableToken:一种面向鲁棒语音大语言模型的抗噪声语义语音分词器

中文摘要:
当前主流的语义语音分词器虽旨在捕捉语言内容,却表现出惊人的脆弱性。我们发现,这些分词器对不改变语义的声学扰动缺乏鲁棒性;即使在信噪比(SNR)较高的情况下——此时语音完全可懂——其输出的分词序列仍可能发生剧烈变化,从而加重下游大语言模型的学习负担。这种不稳定性源于两个缺陷:一是采用脆弱的单路径量化架构,二是训练信号远离中间分词结果的稳定性需求。为解决这一问题,我们提出 StableToken,一种通过共识驱动机制实现稳定性的语音分词器。该分词器采用多分支并行处理音频的架构,并通过强大的逐比特投票机制融合各分支表征,生成单一且稳定的分词序列。StableToken 在分词稳定性方面达到了新的最先进水平,在多种噪声条件下显著降低了单元编辑距离(Unit Edit Distance, UED)。这种基础性的稳定性直接转化为下游任务的优势,显著提升了语音大语言模型(SpeechLLMs)在多项任务中的鲁棒性。


3. Multiplayer Nash Preference Optimization

作者: Fang Wu, Xu Huang, Weihao Xuan, Zhiwei Zhang, Yijia Xiao, Guancheng Wan, Xiaomin Li, Bing Hu, Peng Xia, Jure Leskovec, Yejin Choi

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-27 | 👍 点赞数: 60

摘要:

论文标题:多玩家纳什偏好优化

摘要:
基于人类反馈的强化学习(RLHF)已成为将大语言模型(LLMs)与人类偏好对齐的标准范式。然而,建立在Bradley-Terry假设基础上的基于奖励的方法难以捕捉现实世界偏好中普遍存在的非传递性和异质性特征。为解决这一问题,近期研究将对齐过程重新建模为一个双人纳什博弈,从而提出了基于人类反馈的纳什学习(NLHF)。尽管这一视角催生了INPO、ONPO和EGPO等具有较强理论与实证保障的算法,但这些方法仍局限于双人交互框架,导致存在单一对手偏差,无法充分反映真实偏好结构的复杂性。本文提出多玩家纳什偏好优化(MNPO),一种将NLHF推广至多玩家场景的全新框架。该框架将对齐问题建模为一个n人博弈,其中每个策略在与一组对手策略竞争的同时,受到向参考模型正则化的约束。我们的方法在多玩家设定下建立了定义良好的纳什均衡,并扩展了对偶间隙(duality gap)的概念以量化近似解的质量。我们证明,MNPO继承了双人博弈方法的均衡保证,同时支持更丰富的竞争动态,能够更好地覆盖多样化的偏好结构。通过全面的实验评估,我们在指令遵循基准任务上验证了MNPO始终优于现有的NLHF基线方法,在标注者异质性条件以及混合策略评估场景下均展现出更优的对齐性能。综上所述,本研究确立了MNPO作为一种原理严谨且可扩展的框架,适用于将大语言模型与复杂、非传递的人类偏好进行对齐。代码地址:https://github.com/smiles724/MNPO。


4. OpenGPT-4o-Image: A Comprehensive Dataset for Advanced Image Generation

and Editing

作者: Zhihong Chen, Xuehai Bai, Yang Shi, Chaoyou Fu, Huanyu Zhang, Haotian Wang, Xiaoyan Sun, Zhang Zhang, Liang Wang, Yuanxing Zhang, Pengfei Wan, Yi-Fan Zhang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-29 | 👍 点赞数: 48

摘要:

论文标题:OpenGPT-4o-Image:面向高级图像生成与编辑的综合性数据集

中文摘要:
统一的多模态模型在图像生成与编辑任务上的性能,从根本上受限于其训练数据的质量和全面性。尽管现有数据集已涵盖风格迁移和简单物体操作等基础任务,但往往缺乏面向实际应用所需的系统性结构和具有挑战性的场景。为解决这一瓶颈问题,我们提出了OpenGPT-4o-Image——一个采用新颖方法构建的大规模数据集,该方法结合了分层任务分类体系与自动化数据生成流程。我们的分类体系不仅包含文本渲染、风格控制等基础能力,还引入了若干高度实用但极具挑战性的类别,例如用于化学图示的科学图像生成,以及需要同时执行多个操作的复杂指令编辑任务。通过利用结构化资源库和GPT-4o构建的自动化流水线,我们生成了8万组高质量的指令-图像配对数据,覆盖11个主要领域和51个子任务,且具备可控的多样性。大量实验表明,在本数据集上对先进模型进行微调后,在多个基准测试中均取得显著性能提升:在图像编辑任务上最高提升达18%(UniWorld-V1在ImgEdit-Bench上的表现),在图像生成任务上提升达13%(Harmon在GenEval上的表现)。本研究证明,系统化的数据构建是推动多模态人工智能能力进步的关键。


5. Beyond the Exploration-Exploitation Trade-off: A Hidden State Approach

for LLM Reasoning in RLVR

作者: Fanding Huang, Guanbo Huang, Xiao Fan, Yi He, Xiao Liang, Xiao Chen, Qinting Jiang, Faisal Nadeem Khan, Jingyan Jiang, Zhi Wang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-28 | 👍 点赞数: 46

摘要:

论文标题:超越探索与利用的权衡:一种面向大语言模型在可验证奖励强化学习中推理的隐状态方法

中文摘要:
在可验证奖励强化学习(RLVR)领域,主流观点常从“探索-利用权衡”的视角来理解近期进展,这一观点主要受到词元(token)层级指标的影响。我们重新审视这一视角,提出这种看似存在的权衡可能并非根本性约束,而更多是测量层级带来的产物。为深入探究此问题,我们将分析转向语义更丰富的隐状态空间,采用有效秩(Effective Rank, ER)来量化探索程度,并提出其新颖的一阶和二阶导数——有效秩速度(Effective Rank Velocity, ERV)与有效秩加速度(Effective Rank Acceleration, ERA),用于刻画利用动态。我们的分析表明,在隐状态层面,探索与利用可以实现解耦(见第4节)。这一发现揭示了同时提升两者能力的新机遇。基于此洞见,我们提出了速度驱动的秩学习方法(Velocity-Exploiting Rank-Learning, VERL),这是首个通过直接塑造强化学习中的优势函数来实现探索与利用协同增强的方法。其核心创新在于利用理论上稳定的ERA作为预测性元控制器,构建一种协同式的双通道激励结构。VERL不再强制进行权衡,而是前瞻性地放大探索带来的奖励以防止过度自信,同时强化利用性收益以巩固推理成果。在多种大语言模型和推理基准上的实验结果均显示出持续提升的效果,其中在具有挑战性的Gaokao 2024数据集上绝对准确率最高提升了21.4%。


6. RealUnify: Do Unified Models Truly Benefit from Unification? A

Comprehensive Benchmark

作者: Yang Shi, Yuhao Dong, Yue Ding, Yuran Wang, Xuanyu Zhu, Sheng Zhou, Wenting Liu, Haochen Tian, Rundong Wang, Huanqian Wang, Zuyan Liu, Bohan Zeng, Ruizhe Chen, Qixun Wang, Zhuoran Zhang, Xinlong Chen, Chengzhuo Tong, Bozhou Li, Chaoyou Fu, Qiang Liu, Haotian Wang, Wenjing Yang, Yuanxing Zhang, Pengfei Wan, Yi-Fan Zhang, Ziwei Liu

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-29 | 👍 点赞数: 44

摘要:

论文标题:RealUnify:统一模型真的能从统一中受益吗?一项全面的基准研究

中文摘要:
将视觉理解与生成能力整合到统一的多模态模型中,是迈向通用人工智能的重要一步。然而,现有基准尚未回答一个根本性问题:这种架构上的统一是否真正实现了不同能力之间的协同交互?当前的评估范式主要孤立地评估理解与生成能力,难以判断统一模型是否能够利用其理解能力来提升生成质量,或通过生成模拟来促进更深层次的理解。为填补这一关键空白,我们提出了RealUnify——一个专门用于评估双向能力协同性的基准。RealUnify包含10个类别、32项子任务,共1,000个人工精心标注的实例。该基准围绕两个核心维度构建:1)理解增强生成,要求通过推理(如常识、逻辑)来指导图像生成;2)生成增强理解,要求通过心理模拟或重构(例如对变换或混乱视觉输入的重建)来完成推理任务。本研究的一项重要贡献是提出了一种双阶段评估协议,结合了端到端的直接评估与诊断性的分步评估,后者将任务分解为独立的理解和生成阶段。该协议使我们能够精确识别性能瓶颈究竟源于核心能力的不足,还是能力间整合失败。通过对12种主流统一模型和6种专用基线模型的大规模评估,我们发现当前的统一模型在实现有效协同方面仍面临显著挑战,表明仅靠架构上的统一是不够的。这些结果凸显了亟需新的训练策略和归纳偏置,以充分释放统一建模范式的潜力。


7. SANA-Video: Efficient Video Generation with Block Linear Diffusion

Transformer

作者: Junsong Chen, Yuyang Zhao, Jincheng Yu, Ruihang Chu, Junyu Chen, Shuai Yang, Xianbang Wang, Yicheng Pan, Daquan Zhou, Huan Ling, Haozhe Liu, Hongwei Yi, Hao Zhang, Muyang Li, Yukang Chen, Han Cai, Sanja Fidler, Ping Luo, Song Han, Enze Xie

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-29 | 👍 点赞数: 37

摘要:

论文标题:SANA-Video:基于块线性扩散Transformer的高效视频生成

中文摘要:
我们提出了SANA-Video,一种小型扩散模型,能够高效生成分辨率高达720×1280、时长达到一分钟的视频。SANA-Video可在极快速度下合成高分辨率、高质量且文本与视频高度对齐的长时视频,并可部署于RTX 5090 GPU上。两项核心技术设计保障了我们高效、有效且支持长时视频生成的能力:(1)线性DiT(Linear DiT):我们采用线性注意力机制作为核心运算模块,在处理视频生成中大量token的情况下,相比传统注意力机制具有更高的计算效率;(2)用于块线性注意力的恒定内存KV缓存:通过利用线性注意力的累积特性,我们设计了一种按块自回归的方法,引入固定内存开销的状态表示。该KV缓存以恒定内存成本为线性DiT提供全局上下文信息,无需传统的KV缓存机制,从而实现高效的一分钟级长视频生成。此外,我们探索了有效的数据过滤方法和模型训练策略,将训练成本压缩至64块H100 GPU上仅需12天,仅为MovieGen训练成本的1%。在如此低的训练成本下,SANA-Video在性能上仍可与当前最先进的小型扩散模型(如Wan 2.1-1.3B和SkyReel-V2-1.3B)相媲美,且实测延迟速度快16倍。同时,SANA-Video可在RTX 5090 GPU上以NVFP4精度进行部署,将生成一段5秒720p视频的推理时间从71秒缩短至29秒,实现2.4倍加速。综上所述,SANA-Video实现了低成本、高质量的视频生成。


8. Democratizing AI scientists using ToolUniverse

作者: Shanghua Gao, Richard Zhu, Pengwei Sui, Zhenglun Kong, Sufian Aldogom, Yepeng Huang, Ayush Noori, Reza Shamji, Krishna Parvataneni, Theodoros Tsiligkaridis, Marinka Zitnik

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-27 | 👍 点赞数: 36

摘要:

论文标题:利用ToolUniverse实现AI科学家的普及化

中文摘要:
AI科学家是一类新兴的计算系统,可作为科研发现中的协作伙伴。然而,这类系统的构建仍然面临挑战,原因在于它们通常是定制化的,依赖于固定的流程,且缺乏能够将工具、数据和分析方法整合到统一生态系统中的共享环境。在组学(omics)领域,统一的生态系统通过实现互操作性、可重用性以及社区驱动的开发,已彻底改变了研究范式;而AI科学家的发展同样需要类似的基础设施。本文提出了ToolUniverse——一个支持使用任意编程语言或推理模型(无论是开源还是闭源)构建AI科学家的生态系统。ToolUniverse标准化了AI科学家识别和调用工具的方式,集成了超过600个用于数据分析、知识检索和实验设计的机器学习模型、数据集、API及科学计算软件包。该系统能够自动优化工具接口以确保AI科学家正确使用,可根据自然语言描述生成新工具,迭代优化工具规范,并将多个工具组合成具备自主能力的工作流。在一项关于高胆固醇血症的案例研究中,研究人员利用ToolUniverse构建了一位AI科学家,成功识别出一种具有良好预测性质的强效药物类似物。开源版的ToolUniverse可在 https://aiscientist.tools 获取。


9. When Does Reasoning Matter? A Controlled Study of Reasoning's

Contribution to Model Performance

作者: Nicolas Boizard, Hippolyte Gisserot-Boukhlef, Kevin El-Haddad, Céline Hudelot, Pierre Colombo

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-26 | 👍 点赞数: 35

摘要:

论文标题:推理在何时重要?对推理能力在模型性能中作用的控制性研究

中文摘要:
具备推理能力的大语言模型(LLMs)已在多种任务上取得了最先进的性能。尽管推理方法在实证上取得了成功,但其在哪些任务和模型规模下才真正有效,以及相关的训练与推理成本,仍有待深入探索。在本研究中,我们基于一种合成数据蒸馏框架,开展了一项大规模的有监督研究。我们在多种以数学为核心及通用型任务上,对比了不同规模的指令微调(Instruction Fine-Tuning, IFT)模型与推理模型,并评估了多项选择题和开放式生成两种形式的表现。我们的分析表明,推理能力始终能持续提升模型性能,往往能够达到甚至超过规模显著更大的IFT系统的性能。值得注意的是,尽管IFT在训练和推理成本方面仍保持帕累托最优,但随着模型规模的扩大,推理模型的价值日益凸显,能够在推理密集型和开放式任务上突破IFT的性能瓶颈。


10. Visual Jigsaw Post-Training Improves MLLMs

作者: Penghao Wu, Yushan Zhang, Haiwen Diao, Bo Li, Lewei Lu, Ziwei Liu

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-29 | 👍 点赞数: 34

摘要:

论文标题:视觉拼图后训练提升多模态大语言模型性能

中文摘要:
基于强化学习的后训练方法最近成为增强多模态大语言模型(MLLMs)对齐能力与推理能力的一种强大范式。尽管以视觉为中心的后训练对于提升MLLMs对视觉信号的内在理解至关重要,但当前的后训练范式主要以文本为中心,仅利用密集的视觉输入提取稀疏线索用于基于文本的推理。虽已有少数研究朝此方向探索,但这些方法通常仍依赖文本作为中间媒介,或引入额外的视觉生成模块。在本研究中,我们提出了Visual Jigsaw——一种通用的自监督后训练框架,旨在增强MLLMs的视觉理解能力。Visual Jigsaw被构建成一个通用的排序任务:将视觉输入分割后打乱顺序,要求模型通过生成正确的排列顺序描述来重建原始视觉信息。该任务自然契合可验证奖励下的强化学习(RLVR),无需引入额外的视觉生成组件,并且能够在无任何人工标注的情况下自动获得监督信号。我们在图像、视频和3D数据三种视觉模态上实现了Visual Jigsaw的具体应用。大量实验表明,该方法在细粒度感知、时序推理以及三维空间理解方面均带来显著提升。我们的研究结果凸显了自监督、以视觉为中心的任务在MLLMs后训练中的潜力,并期望激发更多关于视觉中心型预训练任务设计的后续研究。项目主页:https://penghao-wu.github.io/visual_jigsaw/


11. Sequential Diffusion Language Models

作者: Yangzhou Liu, Yue Cao, Hao Li, Gen Luo, Zhe Chen, Weiyun Wang, Xiaobo Liang, Biqing Qi, Lijun Wu, Changyao Tian, Yanting Zhang, Yuqiang Li, Tong Lu, Yu Qiao, Jifeng Dai, Wenhai Wang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-28 | 👍 点赞数: 34

摘要:

论文标题:序列扩散语言模型

中文摘要: 扩散语言模型(Diffusion Language Models, DLMs)具有较强的理论效率,但受限于固定长度的解码过程以及与键值(KV)缓存机制的不兼容性。块扩散(Block diffusion)方法在一定程度上缓解了这些问题,但仍强制使用固定的块大小,且需要昂贵的训练成本。本文提出“下一段序列预测”(Next Sequence Prediction, NSP),该方法统一了下一个词元(next-token)和下一块序列(next-block)的预测任务,使模型能够在每一步自适应地决定生成序列的长度。当生成长度固定为1时,NSP退化为标准的下一词元预测。基于NSP,我们进一步提出序列扩散语言模型(Sequential Diffusion Language Model, SDLM),该模型能够以极低的成本改造预训练的自回归语言模型(Autoregressive Language Models, ALMs)。具体而言,SDLM在固定大小的掩码块内执行扩散推理,但根据模型的置信度动态解码连续的子序列,从而保持与KV缓存的兼容性,并提升对序列中不同位置不确定性与语义变化的鲁棒性。实验表明,SDLM仅使用350万训练样本即可达到或超越强自回归基线模型的性能,同时吞吐量较Qwen-2.5高出2.1倍。值得注意的是,SDLM-32B模型展现出更为显著的效率优势,验证了所提建模范式的良好可扩展性。项目主页与代码地址:https://github.com/OpenGVLab/SDLM


12. SparseD: Sparse Attention for Diffusion Language Models

作者: Zeqing Wang, Gongfan Fang, Xinyin Ma, Xingyi Yang, Xinchao Wang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-28 | 👍 点赞数: 29

摘要:

论文标题:SparseD:面向扩散语言模型的稀疏注意力机制

中文摘要:
尽管扩散语言模型(DLMs)为自回归模型(ARs)提供了一种颇具前景的替代方案,但现有的开源DLMs在推理过程中存在较高的延迟问题。这一瓶颈主要源于注意力机制在计算所有查询-键值对时,其复杂度随上下文长度呈二次增长。直观上,为了降低该复杂度,一种自然的策略是将注意力限制在仅保留最相关连接的稀疏模式中。这类方法在自回归模型中已有成熟应用,其中注意力遵循固定且明确定义的稀疏模式。然而,在DLMs中,我们观察到显著不同的稀疏特性:(1)注意力模式在不同注意力头之间存在差异;(2)每个注意力头内的模式在去噪的各个步骤中高度相似;(3)早期去噪步骤对生成质量至关重要。这些发现使得专为ARs设计的稀疏注意力方法难以适用于DLMs——它们无法捕捉头特定的结构特征,并且在早期去噪步骤中应用时可能损害生成效果。为应对这些挑战,我们提出了SparseD,一种面向DLMs的新型稀疏注意力方法。基于上述观察,SparseD仅需预先一次性计算各注意力头特有的稀疏模式,并在所有去噪步骤中重复使用,从而避免了每一步都重新计算稀疏结构。同时,SparseD在早期去噪阶段采用完整注意力以保障生成质量,随后切换至稀疏注意力以提升效率。上述设计使SparseD成为在长上下文应用场景中部署DLMs的一种高效且实用的解决方案。实验结果表明,SparseD实现了无损加速,在64k上下文长度和1,024步去噪的设置下,相比FlashAttention最高可达1.50倍的加速效果。


13. GSM8K-V: Can Vision Language Models Solve Grade School Math Word

Problems in Visual Contexts

作者: Fan Yuan, Yuchen Yan, Yifan Jiang, Haoran Zhao, Tao Feng, Jinyan Chen, Yanwei Lou, Wenqi Zhang, Yongliang Shen, Weiming Lu, Jun Xiao, Yueting Zhuang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-29 | 👍 点赞数: 27

摘要:

论文标题:GSM8K-V:视觉语言模型能否解决视觉情境下的小学数学应用题

中文摘要:
视觉语言模型(Vision Language Models, VLMs)实现了图像与文本的统一建模,使其能够通过感知、规划和推理来完成复杂的现实世界任务。在这些任务中,推理能力尤为关键,而数学推理是一个典型代表,它体现了VLMs对图像中数学信息的理解能力以及进行复杂推理的高级水平。尽管近年来已提出多个面向视觉数学推理的评测基准,但这些基准大多局限于几何问题,缺乏对数学应用题(math word problems)的覆盖,且很少评估跨多幅图像的推理能力。为弥补上述不足,我们提出了GSM8K-V——一个纯视觉的、多图像数学推理基准数据集。GSM8K-V基于广泛使用的文本型GSM8K数据集,通过系统性地将其中每个样本转化为视觉形式构建而成。借助精心设计的自动化图像生成流程,并结合细致的人工标注,我们最终整理出1,319个高质量样本。我们在GSM8K-V上评估了多种开源与闭源模型的表现。结果表明,尽管现有VLMs在文本版GSM8K上的性能已接近饱和,但在GSM8K-V上仍有显著提升空间。例如,表现最优的模型Gemini-2.5-Pro在GSM8K上准确率达到95.22%,而在GSM8K-V上仅为46.93%。我们对GSM8K-V进行了全面分析,探讨了当前模型的局限性以及未来可能的改进方向。GSM8K-V为视觉数学推理研究提供了新的视角,并建立了一个基准,有助于推动更鲁棒、更具泛化能力的视觉语言模型的发展。


14. Towards Personalized Deep Research: Benchmarks and Evaluations

作者: Yuan Liang, Jiaxian Li, Yuqing Wang, Piaohong Wang, Motong Tian, Pai Liu, Shuofei Qiao, Runnan Fang, He Zhu, Ge Zhang, Minghao Liu, Yuchen Eleanor Jiang, Ningyu Zhang, Wangchunshu Zhou

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-29 | 👍 点赞数: 27

摘要:

论文标题:面向个性化深度研究:基准构建与评估

中文摘要:
深度研究代理(Deep Research Agents, DRAs)能够自主开展复杂调查并生成全面报告,展现出强大的实际应用潜力。然而,现有评估方法主要依赖于封闭式基准,而开放式深度研究的基准仍然稀缺,且通常忽视个性化场景。为弥补这一空白,我们提出了“个性化深度研究基准”(Personalized Deep Research Bench),这是首个用于评估DRAs个性化能力的基准测试。该基准将涵盖10个领域的50项多样化研究任务,与25个真实用户画像配对,每个画像结合了结构化的人物属性与动态的真实世界情境,从而生成250个贴近现实的用户-任务查询。为评估系统性能,我们提出PQR评估框架,综合衡量(P)个性化一致性、(Q)内容质量以及(R)事实可靠性三个维度。我们在多种系统上的实验揭示了当前技术在处理个性化深度研究任务方面的优势与局限。本研究为开发和评估下一代真正个性化的AI研究助手奠定了严谨的基础。


15. Random Policy Valuation is Enough for LLM Reasoning with Verifiable

Rewards

作者: Haoran He, Yuxiao Ye, Qingpeng Cai, Chen Hu, Binxing Jiao, Daxin Jiang, Ling Pan

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-29 | 👍 点赞数: 27

摘要:

论文标题:随机策略估值足以实现具有可验证奖励的LLM推理

中文摘要:
基于可验证奖励的强化学习(RLVR)已成为提升大语言模型(LLM)推理能力的一种有前景的范式。现有方法主要依赖于PPO和GRPO等策略优化框架,这些方法遵循广义策略迭代机制,交替进行当前策略的价值评估与基于评估结果的策略改进。尽管有效,但这类方法常面临训练不稳定和多样性崩溃的问题,需要复杂的启发式技巧和精细调参。我们观察到,在数学推理任务中,标准的RLVR可以被形式化为一种特殊的有限时域马尔可夫决策过程,其具有确定性的状态转移、树状结构的动力学特性以及二元终止奖励。尽管问题规模较大,但其底层结构比通用控制场景更为简单——而主流强化学习算法(如PPO)正是为后者设计的,这意味着现有方法中的许多复杂技术或许可以简化甚至省略。基于这一洞察,我们证明了一个令人惊讶的结果:最优动作可以从一个固定均匀随机策略的Q函数中恢复出来,从而绕开广义策略迭代循环及其相关启发式设计。据此,我们提出了“用于多样化推理的随机策略估值”方法(ROVER),将该原理转化为一种实用且可扩展的大语言模型数学推理算法。ROVER是一种极简但高度有效的强化学习方法,通过对均匀策略下的Q值进行softmax采样来生成动作。在整个训练过程中,ROVER保持了良好的策略多样性,能够持续探索多种有效的推理路径。在多个基础模型和标准数学推理基准上的实验表明,尽管相比现有强效复杂方法大幅简化,ROVER在推理质量(pass@1提升+8.2,pass@256提升+16.8)和生成多样性(+17.6%)方面均表现出更优性能。


16. EasySteer: A Unified Framework for High-Performance and Extensible LLM

Steering

作者: Haolei Xu, Xinyu Mei, Yuchen Yan, Rui Zhou, Wenqi Zhang, Weiming Lu, Yueting Zhuang, Yongliang Shen

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-29 | 👍 点赞数: 26

摘要:

论文标题:EasySteer:一种高性能、可扩展的大语言模型引导统一框架

中文摘要:
大语言模型(LLM)引导(steering)作为一种在推理阶段通过有针对性地操控隐藏状态来控制模型行为的新范式,正受到广泛关注,其提供了一种相较于昂贵的重新训练更为轻量级的替代方案。然而,现有的引导框架存在若干关键局限性,包括计算效率低下、可扩展性不足以及功能受限,严重制约了相关研究进展与实际部署应用。本文提出了 EasySteer,一个基于 vLLM 构建的高性能、可扩展的大语言模型引导统一框架。该系统采用模块化架构,支持基于分析和基于学习方法的可插拔接口,提供细粒度参数控制,预计算了涵盖八个应用领域的引导向量,并配备交互式演示系统。通过与 vLLM 高度优化的推理引擎深度集成,EasySteer 相较于现有框架实现了 5.5 至 11.4 倍的速度提升。大量实验验证了其在缓解过度推理(overthinking)、减少幻觉(hallucination)以及其他关键应用场景中的有效性。EasySteer 将引导技术从研究工具转变为可用于生产的实用能力,为可部署、可控制的语言模型建立了重要的基础设施。


17. EditScore: Unlocking Online RL for Image Editing via High-Fidelity

Reward Modeling

作者: Xin Luo, Jiahao Wang, Chenyuan Wu, Shitao Xiao, Xiyan Jiang, Defu Lian, Jiajun Zhang, Dong Liu, Zheng liu

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-28 | 👍 点赞数: 26

摘要:

论文标题:EditScore:通过高保真奖励建模解锁图像编辑中的在线强化学习

中文摘要:
指令引导的图像编辑已取得显著进展,但现有模型在处理复杂指令时仍面临挑战,通常需要生成多个样本才能获得理想结果。强化学习(RL)为此提供了一种有前景的解决方案,但其在图像编辑领域的应用长期受限于缺乏高效且高保真的奖励信号。本文提出了一套完整的方法体系以突破这一瓶颈,核心在于构建一个最先进的专用奖励模型。我们首先提出了 EditReward-Bench,这是一个综合性基准,用于系统评估奖励模型在图像编辑质量方面的表现。基于该基准,我们开发了 EditScore——一系列用于评估指令引导图像编辑质量的奖励模型(参数规模从7B到72B)。通过精心的数据整理与过滤,EditScore 在性能上有效媲美基于专有视觉语言模型(VLM)的学习效果。此外,结合针对 EditScore 生成特性的高效自集成策略,我们最大的模型变体甚至在基准测试中超越了 GPT-5。随后,我们证明高保真奖励模型是实现图像编辑领域在线强化学习的关键。实验表明,即便是当前最大的开源 VLM 也无法提供有效的学习信号,而 EditScore 却能够支持高效且鲁棒的策略优化。将我们的框架应用于强大的基础模型 OmniGen2 后,最终得到的模型在各项指标上均表现出显著且一致的性能提升。总体而言,本研究首次为图像编辑领域提供了从基准构建、奖励建模到强化学习训练的系统性路径,验证了高保真、领域专用的奖励模型是充分释放强化学习潜力的关键所在。


18. VideoScore2: Think before You Score in Generative Video Evaluation

作者: Xuan He, Dongfu Jiang, Ping Nie, Minghao Liu, Zhengxuan Jiang, Mingyi Su, Wentao Ma, Junru Lin, Chun Ye, Yi Lu, Keming Wu, Benjamin Schneider, Quy Duc Do, Zhuofeng Li, Yiming Jia, Yuxuan Zhang, Guo Cheng, Haozhe Wang, Wangchunshu Zhou, Qunshu Lin, Yuanxing Zhang, Ge Zhang, Wenhao Huang, Wenhu Chen

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-26 | 👍 点赞数: 22

摘要:

论文标题:VideoScore2:生成式视频评估前,请先思考

中文摘要:
近年来,文本到视频生成技术取得了显著进展,生成的内容日益逼真且多样化。然而,由于视频质量涉及视觉质量、语义一致性以及物理规律/常识一致性等多个维度,其评估仍面临根本性挑战。现有的评估方法或奖励模型通常仅提供单一的黑箱评分,缺乏可解释性,或仅能进行粗粒度分析,难以全面捕捉视频质量的复杂性。本文提出 VideoScore2,一种多维度、可解释且与人类判断对齐的评估框架,能够显式地评估视频的视觉质量、文本-视频对齐程度以及物理与常识一致性,并生成详细的链式推理理由(chain-of-thought rationales)。我们的模型基于一个大规模数据集 VideoFeedback2 进行训练,该数据集包含 27,168 个由人工标注的视频样本,涵盖三个维度的评分及推理过程记录。模型采用两阶段训练流程:首先进行监督微调,随后通过组相对策略优化(Group Relative Policy Optimization, GRPO)进行强化学习,以增强其分析的鲁棒性。大量实验表明,VideoScore2 在我们构建的领域内基准 VideoScore-Bench-v2 上取得了 44.35(+5.94)的准确率,在四个跨领域基准(包括 VideoGenReward-Bench、VideoPhy2 等)上的平均表现达到 50.37(+4.32),显著优于现有方法。同时,其提供的可解释性评估结果,通过为 Best-of-N 采样提供有效的奖励建模,有效弥合了评估与可控生成之间的鸿沟。项目主页:https://tiger-ai-lab.github.io/VideoScore2/


19. Rolling Forcing: Autoregressive Long Video Diffusion in Real Time

作者: Kunhao Liu, Wenbo Hu, Jiale Xu, Ying Shan, Shijian Lu

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-29 | 👍 点赞数: 21

摘要:

论文标题:滚动强制:实时自回归长视频扩散

中文摘要:
流式视频生成作为交互式世界模型和神经游戏引擎中的一个基础组成部分,旨在生成高质量、低延迟且时间上连贯的长时程视频流。然而,大多数现有方法存在严重的误差累积问题,往往在长时间生成过程中显著降低输出视频的质量。为此,我们提出了“滚动强制”(Rolling Forcing),一种新颖的视频生成技术,能够实现误差累积极小化的流式长视频生成。滚动强制包含三项创新设计:首先,不同于逐帧迭代采样的方式(这种方式会加速误差传播),我们设计了一种联合去噪机制,可同时对多个帧进行去噪处理,并逐步提升噪声水平。该设计放松了相邻帧之间严格的因果约束,有效抑制了误差的增长。其次,我们将注意力锚点(attention sink)机制引入长时程流视频生成任务中,使模型能够保留初始帧的关键值状态作为全局上下文锚点,从而增强长期的全局一致性。第三,我们设计了一种高效的训练算法,可在大幅扩展的去噪窗口上实现少步数蒸馏。该算法作用于非重叠窗口之上,并缓解了基于自生成历史条件下的暴露偏差问题。大量实验表明,滚动强制能够在单块GPU上实现实时的多分钟级视频流生成,且显著减少了误差累积。


20. Critique-Coder: Enhancing Coder Models by Critique Reinforcement

Learning

作者: Chi Ruan, Dongfu Jiang, Yubo Wang, Wenhu Chen

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-26 | 👍 点赞数: 20

摘要:

论文标题:Critique-Coder:通过批判式强化学习提升代码生成模型性能

中文摘要:
强化学习(Reinforcement Learning, RL)已成为一种流行的训练范式,尤其在与推理模型结合时表现出色。然而,尽管其有效性已得到验证,该方法主要关注生成响应的过程,缺乏明确促进模型进行批判性评估或反思的机制。近期一些研究,如批判微调(Critique-Fine-Tuning, CFT)和引导式批判蒸馏(Critique-Guided-Distillation, CGD),已证明显式地教会大语言模型(LLM)如何进行批判具有显著优势。受这些工作的启发,我们提出了批判式强化学习(Critique Reinforcement Learning, CRL),在此框架中,模型被要求对给定的(问题,解答)对生成批判性评价。奖励信号仅取决于模型生成的批判所给出的最终判断标签 c ∈ False 是否与真实判断标签 c^* 一致。基于此,我们进一步提出 Critique-Coder 模型,该模型通过将标准强化学习数据中的 20% 替换为 CRL 数据,在混合 RL 与 CRL 的方式下进行训练。我们对多个模型(即 Critique-Coder)进行了微调,并在多种基准任务上评估其性能,以展示其相较于纯强化学习模型的优势。实验结果表明,Critique-Coder 在所有测试基准上均持续优于仅使用强化学习的基线模型。值得注意的是,我们的 Critique-Coder-8B 在 LiveCodeBench(v5)上取得了超过 60% 的成绩,表现优于 DeepCoder-14B 和 GPT-o1 等其他推理模型。此外,除了代码生成能力外,Critique-Coder 还展现出更强的通用推理能力,这在其对 BBEH 数据集中逻辑推理任务的更优表现中得以体现。这一结果表明,在编码数据集上应用 CRL 能够增强模型的通用推理与批判能力,并且这些能力可迁移到广泛的任务中。因此,我们认为 CRL 是标准强化学习在大语言模型推理任务中的有力补充。


21. HunyuanImage 3.0 Technical Report

作者: Siyu Cao, Hangting Chen, Peng Chen, Yiji Cheng, Yutao Cui, Xinchi Deng, Ying Dong, Kipper Gong, Tianpeng Gu, Xiusen Gu, Tiankai Hang, Duojun Huang, Jie Jiang, Zhengkai Jiang, Weijie Kong, Changlin Li, Donghao Li, Junzhe Li, Xin Li, Yang Li, Zhenxi Li, Zhimin Li, Jiaxin Lin, Linus, Lucaz Liu, Shu Liu, Songtao Liu, Yu Liu, Yuhong Liu, Yanxin Long, Fanbin Lu, Qinglin Lu, Yuyang Peng, Yuanbo Peng, Xiangwei Shen, Yixuan Shi, Jiale Tao, Yangyu Tao, Qi Tian, Pengfei Wan, Chunyu Wang, Kai Wang, Lei Wang, Linqing Wang, Lucas Wang, Qixun Wang, Weiyan Wang, Hao Wen, Bing Wu, Jianbing Wu, Yue Wu, Senhao Xie, Fang Yang, Miles Yang, Xiaofeng Yang, Xuan Yang, Zhantao Yang, Jingmiao Yu, Zheng Yuan, Chao Zhang, Jian-Wei Zhang, Peizhen Zhang, Shi-Xue Zhang, Tao Zhang, Weigang Zhang, Yepeng Zhang, Yingfang Zhang, Zihao Zhang, Zijian Zhang, Penghao Zhao, Zhiyuan Zhao, Xuefei Zhe, Jianchen Zhu, Zhao Zhong

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-28 | 👍 点赞数: 18

摘要:

论文标题:HunyuanImage 3.0 技术报告

中文摘要:
本文介绍了HunyuanImage 3.0,一种原生多模态模型,它在一个自回归框架内统一了多模态理解与生成能力,其图像生成模块已公开发布。HunyuanImage 3.0 的成功实现依赖于多个关键技术要素,包括精细的数据构建、先进的架构设计、原生的思维链(Chain-of-Thoughts)机制、渐进式的模型预训练、激进的模型后训练,以及支持大规模训练与推理的高效基础设施。基于这些技术进步,我们成功训练了一个总参数量超过800亿的混合专家(Mixture-of-Experts, MoE)模型,在推理过程中每个token激活130亿参数,使其成为迄今为止最大且最强大的开源图像生成模型。我们开展了大量实验,自动评估与人工评估结果在文本-图像对齐性和视觉质量方面均表明,HunyuanImage 3.0 可与先前最先进的模型相媲美。通过开源HunyuanImage 3.0 的代码与模型权重,我们旨在为社区提供一个先进的基础模型,以推动新思想的探索,促进一个多模态技术蓬勃发展的生态系统。所有开源资源均已公开发布于 https://github.com/Tencent-Hunyuan/HunyuanImage-3.0


22. WirelessMathLM: Teaching Mathematical Reasoning for LLMs in Wireless

Communications with Reinforcement Learning

作者: Xin Li, Mengbing Liu, Yiyang Zhu, Wenhe Zhang, Li Wei, Jiancheng An, Chau Yuen

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-27 | 👍 点赞数: 18

摘要:

论文标题:WirelessMathLM:基于强化学习在无线通信领域教授大语言模型数学推理能力

中文摘要:
大语言模型(LLMs)在通用数学推理任务上表现出色,但在专业化的技术性数学问题上表现极差。在无线通信领域,问题通常涉及信息论边界、优化约束以及信号处理公式的精确推导,即便是当前最先进的模型也难以达到令人满意的性能。本文提出 WirelessMathLM,证明通过结合可验证奖励的领域特定强化学习,小型模型(0.5B–7B 参数)即可匹敌甚至超越更大规模的模型。我们的核心洞见在于:无线通信领域的数学问题具有一种独特性质——结果可验证性,这使得无需人工反馈即可有效实施强化学习。我们构建了 WirelessMathBench-XL,一个涵盖 970 篇论文中 4,027 道题目的综合性基准测试集。采用基于二值化验证奖励的分组相对策略优化(Group Relative Policy Optimization, GRPO)方法,我们直接从基础模型检查点进行训练,无需监督式预热初始化。我们的 7B 参数模型在 WirelessMathBench-XL 上达到了 39.5% 的准确率,接近 GPT-4o 的表现(40.4%),而参数量仅为 DeepSeek-R1(671B,准确率 57.4%)的约 1/100。值得注意的是,GRPO 训练使各规模模型性能几乎翻倍(0.5B +11%,3B +103%,7B +81%),并在通用数学基准任务上展现出正向迁移能力——尽管未在这些任务上进行任何训练,我们的模型在 MATH、Minerva-Math、OlympiadBench、AMC 和 AIME 上平均提升了 8.4 个百分点。


23. From f(x) and g(x) to f(g(x)): LLMs Learn New Skills in RL by

Composing Old Ones

作者: Lifan Yuan, Weize Chen, Yuchen Zhang, Ganqu Cui, Hanbin Wang, Ziming You, Ning Ding, Zhiyuan Liu, Maosong Sun, Hao Peng

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-29 | 👍 点赞数: 17

摘要:

论文标题:从 f(x) 和 g(x) 到 f(g(x)):大语言模型通过组合已有技能在强化学习中掌握新技能

中文摘要:
强化学习(RL)究竟是在教授大语言模型(LLM)真正的新技能,还是仅仅激活了其已有的能力?这一问题构成了当前关于强化学习在LLM后训练阶段作用之争的核心。一方面,即使没有先前的监督微调,仅靠强化学习也能取得显著的实证成果;另一方面,批评者认为,强化学习的作用仅限于对已有推理策略进行重新加权,贡献有限。本文提供了具体证据表明,LLM能够在强化学习过程中通过组合已有技能而获得真正意义上的新技能,这一过程类似于人类获取新认知能力的核心机制之一。为了消除数据污染及其他混杂因素的影响,并实现对任务复杂度的精确控制,我们构建了一个合成框架来进行研究。具体而言,我们将“技能”定义为:给定输入字符串 x,推断出某个字符串变换函数 f(x) 输出结果的能力。当一个LLM在强化学习前已掌握函数 f 和 g 时,我们的实验表明,强化学习使其能够学会此前未见过的函数组合 h(x) = g(f(x))。进一步地,这种组合能力可以泛化到更复杂的任务上,例如在训练中从未见过的多于两个函数的组合。令人惊讶的是,我们在源任务上习得的组合技能还能迁移到不同的目标任务上——即使目标任务并未经历组合性训练,只要模型事先掌握了该任务所需的原子技能即可实现迁移。定性分析显示,强化学习从根本上改变了模型的推理行为;相比之下,使用相同数据进行下一词预测训练则无法产生上述任何现象。我们的系统性实验为理解LLM的学习机制提供了新的洞见,提示我们应首先构建具备基础技能的基线模型,再利用强化学习激励其发展出面向复杂问题的高级、可泛化的技能。


24. VGGT-X: When VGGT Meets Dense Novel View Synthesis

作者: Yang Liu, Chuanchen Luo, Zimo Tang, Junran Peng, Zhaoxiang Zhang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-29 | 👍 点赞数: 16

摘要:

论文标题:VGGT-X:当 VGGT 遇见稠密新视角合成

中文摘要:
本文研究将三维基础模型(3D Foundation Models, 3DFMs)应用于稠密新视角合成(Novel View Synthesis, NVS)的问题。尽管基于NeRF和3D高斯泼溅(3DGS)的方法在新视角合成方面取得了显著进展,现有方法仍依赖于通过运动恢复结构(Structure-from-Motion, SfM)获取的精确三维属性(如相机位姿和点云),而该过程在低纹理或低重叠度的拍摄条件下通常速度慢且鲁棒性差。近年来提出的3DFMs相比传统流程实现了数量级上的加速,展现出用于在线新视角合成的巨大潜力。然而,大多数验证与结论仍局限于稀疏视角设置。我们的研究表明,直接将3DFMs扩展至稠密视图会面临两个根本性障碍:显存(VRAM)消耗急剧增加,以及输出质量不完美,进而损害对初始化敏感的三维训练过程。为克服这些挑战,我们提出了VGGT-X,其包含一种内存高效的VGGT实现方案,可扩展至1000张以上的图像;一种用于增强VGGT输出的自适应全局对齐机制;以及一系列鲁棒的3DGS训练策略。大量实验表明,这些改进显著缩小了与COLMAP初始化流程之间的重建保真度差距,在无需COLMAP的稠密新视角合成和位姿估计任务中达到了当前最优性能。此外,我们分析了当前方法与COLMAP初始化渲染之间残余差距的成因,为未来三维基础模型及稠密新视角合成的发展提供了有益见解。本项目页面位于 https://dekuliutesla.github.io/vggt-x.github.io/


25. The Era of Real-World Human Interaction: RL from User Conversations

作者: Chuanyang Jin, Jing Xu, Bo Liu, Leitian Tao, Olga Golovneva, Tianmin Shu, Wenting Zhao, Xian Li, Jason Weston

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-29 | 👍 点赞数: 16

摘要:

论文标题:真实人类交互时代:从用户对话中进行强化学习

中文摘要:
我们认为,为了实现模型的持续改进和多维度对齐,未来的模型必须能够从自然的人类交互中学习。当前的对话模型主要依赖预先标注的、由专家提供的反馈数据进行对齐。在本研究中,我们提出了“从人类交互中进行强化学习”(Reinforcement Learning from Human Interaction, RLHI),这一范式直接从真实场景中的用户对话中学习。我们提出了两种互补的方法:(1)基于用户引导重写的RLHI(RLHI with User-Guided Rewrites),该方法根据用户以自然语言形式提供的后续回应,修正模型不满意的输出;(2)基于用户奖励的RLHI(RLHI with User-Based Rewards),该方法通过一个奖励模型进行学习,该模型以用户长期交互历史(称为“人物特征”或persona)为条件。这两种方法共同通过以人物特征为条件的偏好优化机制,将用户的长期人物特征与对话轮次级别的偏好关联起来。在源自WildChat的真实对话数据上训练后,两种RLHI变体在个性化能力和指令遵循方面均优于强基线模型,且类似的反馈还能提升模型在推理基准任务上的表现。这些结果表明,自然发生的人类交互能够为个性化对齐提供可扩展且有效的监督信号。


26. Scaling Generalist Data-Analytic Agents

作者: Shuofei Qiao, Yanqiu Zhao, Zhisong Qiu, Xiaobin Wang, Jintian Zhang, Zhao Bin, Ningyu Zhang, Yong Jiang, Pengjun Xie, Fei Huang, Huajun Chen

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-29 | 👍 点赞数: 16

摘要:

论文标题:扩展通用型数据解析智能体

中文摘要:
数据解析智能体正逐渐成为自动化科学发现以及“创新人工智能”愿景的关键推动力。然而,现有方法大多严重依赖基于专有模型的提示工程(prompt engineering),而开源模型在应对现实世界数据分析所要求的多格式、大规模数据文件以及长周期、多步骤推理任务时仍面临显著困难。本文提出了DataMind,一种可扩展的数据合成与智能体训练方案,旨在构建通用型数据解析智能体。DataMind针对构建开源数据解析智能体过程中的三大核心挑战——数据资源不足、训练策略不当以及基于代码的多轮交互不稳定——提出系统性解决方案。具体而言,DataMind包含以下四个关键技术:1)采用细粒度任务分类体系和递归式的由易到难任务组合机制,以提升合成查询的多样性与复杂度;2)结合知识增强的轨迹采样策略,并辅以基于模型和规则的双重过滤机制;3)设计动态可调的训练目标,融合监督微调(SFT)与强化学习(RL)损失;4)构建内存高效且稳定的基于代码的多轮交互框架。基于DataMind,我们构建了DataMind-12K,一个覆盖多个领域、任务类型和数据文件格式的高质量轨迹数据集,专用于数据解析任务。在DataMind-12K上训练的DataMind-14B在多个数据分析基准测试中取得71.16%的平均得分,达到当前最优水平,超越最强的专有基线模型DeepSeek-V3.1和GPT-5。我们的DataMind-7B也在所有开源模型中表现最佳,得分为68.10%。此外,我们还将探索性实验中获得的一些实证经验融入分析研究,旨在为社区提供关于智能体训练的可操作洞见。我们将向社区公开发布DataMind-12K数据集以及DataMind-7B和DataMind-14B模型,以支持后续研究工作。


27. Socratic-Zero : Bootstrapping Reasoning via Data-Free Agent Co-evolution

作者: Shaobo Wang, Zhengbo Jiao, Zifan Zhang, Yilang Peng, Xu Ze, Boyu Yang, Wei Wang, Hu Wei, Linfeng Zhang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-29 | 👍 点赞数: 15

摘要:

论文标题:Socratic-Zero:通过无数据的智能体协同进化实现推理能力的自举

中文摘要:
近年来,大语言模型(LLMs)在推理任务上的突破严重依赖于大规模、高质量的数据集——这些数据通常由人工标注,因而难以扩展。尽管数据合成或知识蒸馏提供了一种有前景的替代方案,但现有方法往往面临数据质量不一致以及无法动态适应模型能力演化的挑战,导致训练信号不够理想。为解决这些问题,我们提出了Socratic-Zero,一种完全自主的框架,仅需极少的初始示例即可通过三个智能体的协同进化生成高质量的训练数据:教师(Teacher)、解题者(Solver)和生成器(Generator)。解题者通过从成功与失败的推理路径中获得偏好反馈,持续优化其推理能力;教师则根据解题者的薄弱环节,自适应地设计出日益复杂的题目;生成器则提炼教师的出题策略,从而实现可扩展且高保真的课程内容生成。该闭环系统能够自主生成不断进化的训练课程,无需依赖任何预先存在的任务或标签。值得注意的是,在仅使用100个种子问题的情况下,我们的Socratic-Solver-8B在七个数学推理基准(AMC23、AIME24-25、Olympiad、MATH-500、Minerva 和 GSM8K)上平均超越此前数据合成方法达20.2个百分点,并在Qwen3和GLM4系列模型上均表现出稳定提升。更令人惊讶的是,由Socratic-Generator-32B生成的合成数据,使得学生模型在上述基准上的表现甚至优于包括Qwen3-235B-A22B、DeepSeek-V3.1-671B、GPT-5、Gemini-2.5-Pro、Grok-4 和 Claude-4.1-Opus在内的多种当前最先进的商业大模型。


28. Euclid's Gift: Enhancing Spatial Perception and Reasoning in

Vision-Language Models via Geometric Surrogate Tasks

作者: Shijie Lian, Changti Wu, Laurence Tianruo Yang, Hang Yuan, Bin Yu, Lei Zhang, Kai Chen

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-29 | 👍 点赞数: 15

摘要:

论文标题:欧几里得的馈赠:通过几何代理任务增强视觉-语言模型的空间感知与推理能力

中文摘要:
空间智能涵盖一系列丰富的能力,包括形状的可视化与变换、物体的心理旋转、相对位置与包含关系的判断,以及数量估计等。然而,这对多模态大语言模型(MLLMs)而言仍是一个关键且尚未解决的挑战。为填补这一空白,我们提出将欧几里得几何问题求解作为代理任务。具体而言,我们精心构建了一个名为 Euclid30K 的多模态数据集,包含约 3 万道平面与立体几何题目。为了使模型能够从这些几何问题中学习并应用欧几里得原理,我们采用分组相对策略优化(Group Relative Policy Optimization, GRPO)方法,对 Qwen2.5VL 系列和 RoboBrain2.0 系列模型进行微调,促使模型学会识别图形、计数、关联实体,并基于欧几里得原理进行多步演绎推理。实验结果表明,所得到的模型在四个空间推理基准(Super-CLEVR、Omni3DBench、VSI-Bench 和 MindCube)上均实现了显著的零样本性能提升,且无需任何任务特定的适配。值得注意的是,在 Euclid30K 上训练后,所有评估模型在 VSI-Bench 上的平均准确率从 34.5% 提升至 40.5%,提高了 5.5 个百分点。其中,RoboBrain2.0-Euclid-7B 达到了 49.6% 的准确率,超过了此前最先进的模型 Spatial-MLLM。据我们所知,这是首个系统性研究表明,以几何为中心的微调能够赋予视觉-语言模型广泛可迁移的空间能力。代码与 Euclid30K 数据集详见 https://zgca-ai4edu.github.io/Euclids_Gift。


29. MMPB: It's Time for Multi-Modal Personalization

作者: Jaeik Kim, Woojin Kim, Woohyeon Park, Jaeyoung Do

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-26 | 👍 点赞数: 14

摘要:

论文标题:MMPB:多模态个性化的时候到了

中文摘要:
视觉个性化在面向用户的AI系统(如智能家居和医疗健康)中至关重要,因为在这些场景中,模型行为必须与用户中心的概念保持一致。然而,尽管近年来的大型视觉-语言模型(VLMs)具有广泛的应用性,其在适应个体用户方面的能力仍鲜有研究。本文提出了MMPB,这是首个用于评估VLM在个性化方面表现的大规模基准测试。MMPB包含1万个图像-查询对,涵盖四类共111个可个性化概念:人物、动物、物体和角色,其中“人物”类别特别引入了基于偏好的查询。我们将个性化任务划分为三种主要类型,每种类型突出VLM的一项关键能力。我们采用包含概念注入、多轮对话和个性化查询的三阶段评估协议,对23种广泛使用的VLM(包括开源和闭源模型)进行了评测。结果表明,大多数VLM(包括一些闭源模型)在个性化方面表现不佳,尤其在对话过程中保持一致性、处理用户偏好以及响应视觉线索方面存在困难。我们的分析揭示,VLM在个性化过程中存在的挑战(如拒绝响应和长上下文遗忘)表明其仍有巨大的改进空间。通过识别这些局限性并提供一个可扩展的基准,MMPB为未来实现真正个性化的多模态AI研究提供了有价值的洞见和坚实的基础。项目主页:aidaslab.github.io/MMPB


30. BRIDGE - Building Reinforcement-Learning Depth-to-Image Data Generation

Engine for Monocular Depth Estimation

作者: Dingning Liu, Haoyu Guo, Jingyi Zhou, Tong He

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-29 | 👍 点赞数: 13

摘要:

论文标题:BRIDGE——基于强化学习的单目深度估计图像生成引擎

中文摘要:
单目深度估计(Monocular Depth Estimation, MDE)是计算机视觉中的一项基础性任务。传统方法受限于数据的数量与质量,导致其鲁棒性不足。为解决这一问题,我们提出了BRIDGE,一种基于强化学习(Reinforcement Learning, RL)优化的深度到图像(Depth-to-Image, D2I)生成框架。该框架能够从多样化的源深度图出发,合成超过2000万张真实感强且几何精度高的RGB图像,每张图像均与其真实的深度图天然配对。基于此数据集,我们采用一种混合监督策略训练深度估计模型,将教师模型生成的伪标签与真实深度标签相结合,实现更全面、更鲁棒的训练过程。这种创新的数据生成与训练范式使BRIDGE在数据规模和领域多样性方面取得突破,在定量指标和复杂场景细节还原能力上持续优于现有的最先进方法,从而学习到更具通用性和鲁棒性的深度特征。代码与模型已公开发布于 https://dingning-liu.github.io/bridge.github.io/。


31. Toward Effective Tool-Integrated Reasoning via Self-Evolved Preference

Learning

作者: Yifei Chen, Guanting Dong, Zhicheng Dou

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-27 | 👍 点赞数: 13

摘要:

论文标题:通过自我演化的偏好学习实现有效的工具集成推理

中文摘要:
工具集成推理(Tool-Integrated Reasoning, TIR)使大语言模型(LLMs)能够通过整合外部工具来提升其内部推理能力。然而,采用TIR的模型常常表现出次优行为,例如工具使用不足或过度使用,以及在调用工具后出现过度思考等问题。如何激励大语言模型高效且准确地执行TIR,同时稳定其推理过程,仍是一个尚未解决的问题。本文首先从信息熵的角度出发,探讨工具调用对模型推理过程的影响。研究发现,工具调用结果会导致后续推理过程中信息熵发生显著变化,且整个推理链的总体熵值会随着工具调用次数的不同而变化。基于这些发现,我们提出了Tool-Light框架,旨在促使大语言模型更高效、准确地进行工具集成推理。该框架包含数据集构建和多阶段微调两个部分。在数据集构建方面,我们采用基于微调模型的连续自我演化采样方法,结合标准采样与熵引导采样,并在采样过程中设定严格的正负样本对筛选标准。训练过程分为两个阶段:监督微调(Supervised Fine-Tuning, SFT)和自我演化的直接偏好优化(Self-Evolved Direct Preference Optimization, DPO)。在10个数据集上的实验结果表明,Tool-Light显著提升了模型执行TIR任务的效率。


32. Understanding Language Prior of LVLMs by Contrasting Chain-of-Embedding

作者: Lin Long, Changdae Oh, Seongheon Park, Yixuan Li

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-27 | 👍 点赞数: 13

摘要:

论文标题:通过对比嵌入链揭示大视觉语言模型的语言先验

中文摘要:
大视觉语言模型(LVLMs)在多模态任务中表现出色,但常常依赖其语言先验(LP)——即预训练过程中记忆的文本模式,而未能充分利用视觉证据。现有对语言先验的研究主要基于输入-输出探测方法,难以揭示视觉信息何时以及如何影响模型行为的内在机制。为填补这一空白,本文首次从“嵌入链”(chain-of-embedding)的视角出发,对语言先验进行系统性分析,考察LVLM内部逐层表征的动态变化。我们的分析揭示了一种普遍现象:每个模型都存在一个“视觉整合点”(Visual Integration Point, VIP),即视觉信息开始显著重塑隐藏表征并影响解码过程的关键网络层。基于这一发现,我们提出了“总视觉整合度”(Total Visual Integration, TVI)估计器,该指标通过聚合VIP之后的表征距离,量化视觉输入对生成响应的影响强度。在涵盖9个主流LVLM和6个基准数据集的54种模型-数据组合上的实验表明,VIP现象具有一致性,且TVI能够可靠地预测语言先验的强弱。本研究提供了一套系统性的工具,用于诊断和理解大视觉语言模型中的语言先验问题。


33. SIRI: Scaling Iterative Reinforcement Learning with Interleaved

Compression

作者: Haoming Wen, Yushi Bai, Juanzi Li, Jie Tang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-29 | 👍 点赞数: 12

摘要:

论文标题:SIRI:通过交错压缩扩展迭代强化学习

中文摘要:
本文提出SIRI(Scaling Iterative Reinforcement Learning with Interleaved Compression),一种简单而有效的面向大推理模型(Large Reasoning Models, LRMs)的强化学习方法,旨在实现更高效且更准确的推理。现有研究已观察到LRM中存在重复性的思考模式,而试图减少此类冗余的方法往往以牺牲性能为代价。本文表明,通过在训练过程中动态调整最大推理长度,交替进行“压缩”与“扩展”推理预算的训练机制,可以克服这一权衡。在压缩阶段,缩短推理长度迫使模型在有限的上下文内做出精确且有价值的决策,从而有效减少冗余token,提升推理密度;在随后的扩展阶段,则放宽长度限制,使模型能够在长视野场景下充分探索与规划。值得注意的是,我们发现每完成一次压缩-扩展循环后,模型性能持续提升,同时输出长度不断降低,逐步逼近性能与效率之间的帕累托前沿。在DeepSeek-R1-Distill-Qwen-1.5B上的实验结果显示,经过三次迭代后,SIRI-low在AIME24上的性能提升了43.2%,同时token使用量减少了46.9%;而SIRI-high则相较所有其他方法达到了最高的准确率(见图1)。我们的研究揭示了在训练过程中周期性振荡调整LRM输出截断长度的潜力,可动态平衡推理中的探索能力与推理效率,最终收敛至二者之间的最优“甜点”。我们的模型已公开发布。


34. MGM-Omni: Scaling Omni LLMs to Personalized Long-Horizon Speech

作者: Chengyao Wang, Zhisheng Zhong, Bohao Peng, Senqiao Yang, Yuqi Liu, Haokun Gui, Bin Xia, Jingyao Li, Bei Yu, Jiaya Jia

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-29 | 👍 点赞数: 12

摘要:

论文标题:MGM-Omni:面向个性化长时域语音的全能大语言模型扩展

中文摘要:
本文提出MGM-Omni,一种统一的全能大语言模型(Omni LLM),支持多模态理解以及富有表现力、长时域的语音生成。与将语音合成孤立处理的级联式流水线不同,MGM-Omni采用“大脑-口腔”(brain-mouth)设计,通过双通道、基于token的架构,清晰地将多模态推理与实时语音生成解耦。该设计实现了高效的跨模态交互,并支持低延迟、流式语音生成。在理解方面,统一的训练策略结合双路音频编码器设计,使模型能够在多种声学条件下实现长格式音频感知。在生成方面,基于语块的并行解码方案缩小了文本与语音token生成速率之间的差距,加快了推理速度,并支持流式的零样本语音克隆,且在长时间生成中保持稳定的音色特性。相比同期工作,MGM-Omni以显著更低的数据需求实现了上述能力。大量实验表明,MGM-Omni在长序列中保持音色一致性、生成自然且上下文感知的语音,以及在长格式音频和全模态理解方面,均优于现有的开源模型。MGM-Omni建立了一种高效、端到端的范式,用于实现全模态理解以及可控、个性化的长时域语音生成。


35. InfLLM-V2: Dense-Sparse Switchable Attention for Seamless Short-to-Long

Adaptation

作者: Weilin Zhao, Zihan Zhou, Zhou Su, Chaojun Xiao, Yuxuan Li, Yanghao Li, Yudi Zhang, Weilun Zhao, Zhen Li, Yuxiang Huang, Ao Sun, Xu Han, Zhiyuan Liu

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-29 | 👍 点赞数: 12

摘要:

论文标题:InfLLM-V2:面向短到长序列无缝适应的稠密-稀疏可切换注意力机制

中文摘要:
长序列处理是现代大语言模型的关键能力。然而,标准Transformer架构中的自注意力机制在处理长序列时面临严重的计算与内存瓶颈。尽管可训练的稀疏注意力方法提供了一种有前景的解决方案,但现有方法(如NSA)引入了过多的额外参数,并打破了“在短序列上预训练、在长序列上微调”的常规流程,导致收敛速度慢且难以实现加速。为克服这些局限,我们提出了稠密-稀疏可切换注意力框架——InfLLM-V2。InfLLM-V2是一种可训练的稀疏注意力机制,能够实现模型从短序列到长序列的无缝适应。具体而言,InfLLM-V2通过无参数的架构修改复用原有的稠密注意力参数,从而保持短序列与长序列处理之间的一致性。此外,InfLLM-V2在所有序列长度下均保证了计算效率:对短输入使用稠密注意力,对长序列则平滑过渡至稀疏注意力。为了实现实际加速,我们进一步设计了InfLLM-V2的高效实现方案,显著降低了计算开销。在长上下文理解与思维链推理任务上的实验表明,InfLLM-V2相比稠密注意力速度快4倍,同时分别保留了98.1%和99.7%的性能表现。基于InfLLM-V2框架,我们训练并开源了混合推理模型MiniCPM4.1(https://huggingface.co/openbmb/MiniCPM4.1-8B),为研究社区提供了可复现的实现方案。


36. Where LLM Agents Fail and How They can Learn From Failures

作者: Kunlun Zhu, Zijia Liu, Bingxuan Li, Muxin Tian, Yingxuan Yang, Jiaxun Zhang, Pengrui Han, Qipeng Xie, Fuyang Cui, Weijia Zhang, Xiaoteng Ma, Xiaodong Yu, Gowtham Ramesh, Jialian Wu, Zicheng Liu, Pan Lu, James Zou, Jiaxuan You

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-29 | 👍 点赞数: 11

摘要:

论文标题:大语言模型代理的失败之处及其从失败中学习的方法

中文摘要:
大型语言模型(LLM)代理通过整合规划、记忆、反思和工具使用等模块,在解决复杂、多步骤任务方面展现出巨大潜力。然而,其复杂的架构也放大了级联失败的风险——即一个根本性错误在后续决策过程中不断传播,最终导致任务失败。当前的系统缺乏一种能够以模块化和系统化方式全面理解代理错误的框架,因而难以有效检测此类错误。为弥补这一空白,本文做出了三项贡献。首先,我们提出了AgentErrorTaxonomy,一种涵盖记忆、反思、规划、行动以及系统级操作等多个模块的失败模式分类体系。其次,我们构建了AgentErrorBench,这是首个基于ALFWorld、GAIA和WebShop平台系统标注的代理失败轨迹数据集,为错误分析提供了真实代理执行过程中的实证基础。第三,我们提出了AgentDebug,一种调试框架,能够识别根本性错误并提供针对性的纠正反馈,使代理能够恢复并持续改进。在AgentErrorBench上的实验表明,与最强基线相比,AgentDebug在“全任务正确率”上提高了24%,在“单步准确率”上提高了17%。更重要的是,AgentDebug生成的定向反馈不仅实现错误检测,还能帮助LLM代理逐步从失败中恢复,在ALFWorld、GAIA和WebShop任务上的任务成功率相对提升最高达26%。这些结果表明,基于原则的调试机制是构建更可靠、更具适应性的LLM代理的有效路径。代码与数据将发布于 https://github.com/ulab-uiuc/AgentDebug


37. Rethinking Large Language Model Distillation: A Constrained Markov

Decision Process Perspective

作者: Matthieu Zimmer, Xiaotong Ji, Tu Nguyen, Haitham Bou Ammar

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-26 | 👍 点赞数: 11

摘要:

论文标题:重新思考大语言模型蒸馏:一种基于约束马尔可夫决策过程的视角

中文摘要:
本文提出了一种新颖的大语言模型(Large Language Model, LLM)蒸馏方法,将其建模为一个约束强化学习问题。尽管近期研究已开始探索在蒸馏过程中引入任务特定奖励,但现有方法通常依赖于经验性的奖励加权机制。我们提出了一种具有理论依据的优化框架,在最大化任务特定奖励的同时,将学生模型与教师模型之间的分布差异约束在预设阈值之内。该方法将约束增强状态强化学习(constrained state augmented reinforcement learning)适配至蒸馏场景,并设计了一种改进的奖励函数,在部署过程中无需状态增强或访问教师模型,同时避免了对偶拉格朗日方法带来的计算开销,仍能保持对约束满足的理论保证。通过在数学推理任务上的大量实验,我们验证了所提方法相较于软拉格朗日松弛基线方法,在约束满足率和推理能力方面均表现更优,同时保持了具有竞争力的任务性能。本框架为资源受限场景下的奖励感知型模型蒸馏提供了一种理论上严谨且实际高效可行的解决方案。


38. Dynamic Experts Search: Enhancing Reasoning in Mixture-of-Experts LLMs

at Test Time

作者: Yixuan Han, Fan Ma, Ruijie Quan, Yi Yang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-26 | 👍 点赞数: 11

摘要:

论文标题:动态专家搜索:在测试时增强混合专家大语言模型的推理能力

摘要:
测试时扩展(Test-Time Scaling, TTS)通过在推理过程中分配额外计算资源来提升大语言模型(LLM)的推理能力。然而,现有方法主要依赖输出层面的采样策略,忽视了模型架构本身的作用。在主流的混合专家(Mixture-of-Experts, MoE)大语言模型中,我们发现激活不同数量的专家可以产生互补的解集,同时保持稳定的准确性,揭示了一种新颖且尚未充分探索的多样性来源。受此启发,我们提出了动态专家搜索(Dynamic Experts Search, DES),一种将专家激活提升为可控制搜索空间维度的TTS策略。DES包含两个关键组件:(1)动态MoE(Dynamic MoE),可在推理过程中直接调控激活专家的数量,以零额外成本生成多样化的推理路径;(2)专家配置继承(Expert Configuration Inheritance),在同一条推理路径内保持专家数量的一致性,而在不同运行之间进行变化,从而在搜索过程中平衡稳定性与多样性。在多种MoE架构、验证器以及推理基准(包括数学、代码和知识类任务)上的大量实验表明,DES在无需增加计算成本的前提下,稳定地优于现有的TTS基线方法,显著提升了准确性和稳定性。这些结果表明,DES是一种实用且可扩展的、面向架构的TTS方法,展示了现代大语言模型中结构灵活性如何推动推理能力的进步。


39. Pretraining Large Language Models with NVFP4

作者: NVIDIA, Felix Abecassis, Anjulie Agrusa, Dong Ahn, Jonah Alben, Stefania Alborghetti, Michael Andersch, Sivakumar Arayandi, Alexis Bjorlin, Aaron Blakeman, Evan Briones, Ian Buck, Bryan Catanzaro, Jinhang Choi, Mike Chrzanowski, Eric Chung, Victor Cui, Steve Dai, Bita Darvish Rouhani, Carlo del Mundo, Deena Donia, Burc Eryilmaz, Henry Estela, Abhinav Goel, Oleg Goncharov, Yugi Guvvala, Robert Hesse, Russell Hewett, Herbert Hum, Ujval Kapasi, Brucek Khailany, Mikail Khona, Nick Knight, Alex Kondratenko, Ronny Krashinsky, Ben Lanir, Simon Layton, Michael Lightstone, Daniel Lo, Paulius Micikevicius, Asit Mishra, Tim Moon, Deepak Narayanan, Chao Ni, Abhijit Paithankar, Satish Pasumarthi, Ankit Patel, Mostofa Patwary, Ashwin Poojary, Gargi Prasad, Sweta Priyadarshi, Yigong Qin, Xiaowei Ren, Oleg Rybakov, Charbel Sakr, Sanjeev Satheesh, Stas Sergienko, Pasha Shamis, Kirthi Shankar, Nishant Sharma, Mohammad Shoeybi, Michael Siu, Misha Smelyanskiy, Darko Stosic, Dusan Stosic, Bor-Yiing Su, Frank Sun, Nima Tajbakhsh, Shelby Thomas, Przemek Tredak, Evgeny Tsykunov, Gandhi Vaithilingam, Aditya Vavre, Rangharajan Venkatesan, Roger Waleffe, Qiyu Wan, Hexin Wang, Mengdi Wang, Lizzie Wei, Hao Wu, Evan Wu, Keith Wyss, Ning Xu, Jinze Xue, Charlene Yang, Yujia Zhai, Ruoxi Zhang, Jingyang Zhu, Zhongbo Zhu

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-29 | 👍 点赞数: 10

摘要:

论文标题:使用NVFP4预训练大语言模型

中文摘要:
当前,大语言模型(Large Language Models, LLMs)在众多领域展现出强大的问题解决能力,并随着模型规模、训练数据量及数据质量的提升而持续增强,这一点已在业界广泛的研究与实验中得到验证。如今训练一个前沿模型需要高达数十至数百尧次浮点运算(yottaflops)的计算量,意味着巨大的时间、算力和能源投入。因此,提高预训练效率对于推动下一代更强大LLM的发展至关重要。尽管8位浮点数(FP8)训练目前已广泛应用,但进一步转向更低精度的格式,例如4位浮点数(FP4),有望在计算速度和资源利用率方面带来进一步提升。然而,在如此低的精度下进行量化会带来训练稳定性、收敛性以及实现上的挑战,尤其在长序列建模的大规模模型训练中更为显著。

本研究提出一种基于NVFP4格式的新型方法,可实现大语言模型稳定且精确的训练。该方法结合随机哈达玛变换(Random Hadamard Transforms, RHT)以抑制块级异常值,采用二维量化方案确保前向传播与反向传播过程中表示的一致性,利用随机舍入(stochastic rounding)实现无偏梯度估计,并引入选择性高精度层以保留关键计算的数值精度。我们通过在一个120亿参数的模型上使用10万亿个token进行训练,验证了该方法的有效性——这是迄今为止公开报道中最长的4位精度训练实验。实验结果表明,采用我们基于NVFP4的预训练技术所训练的模型,在训练损失和下游任务准确率方面均与FP8基线模型相当。这些发现表明,当与我们提出的训练方法相结合时,NVFP4代表了窄精度大语言模型训练算法的重要进展。


40. Efficient Multi-turn RL for GUI Agents via Decoupled Training and

Adaptive Data Curation

作者: Pengxiang Li, Zechen Hu, Zirui Shang, Jingrong Wu, Yang Liu, Hui Liu, Zhi Gao, Chenrui Shi, Bofei Zhang, Zihao Zhang, Xiaochuan Shi, Zedong YU, Yuwei Wu, Xinxiao Wu, Yunde Jia, Liuyu Xiang, Zhaofeng He, Qing Li

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-28 | 👍 点赞数: 9

摘要:

论文标题:通过解耦训练与自适应数据筛选实现面向GUI智能体的高效多轮强化学习

中文摘要:
基于视觉-语言模型(Vision-Language Model, VLM)的图形用户界面(GUI)智能体在自动化复杂的桌面和移动任务方面展现出巨大潜力,但在应用强化学习(Reinforcement Learning, RL)时仍面临显著挑战:(1)策略 rollout 过程中与 GUI 环境的多轮交互速度缓慢;(2)用于策略学习的高质量智能体-环境交互数据不足。为应对这些挑战,我们提出了 DART——一种面向 GUI 智能体的解耦式智能体强化学习训练框架,该框架以高度解耦的方式协调多个异构模块。DART 将训练系统划分为四个异步模块:环境集群、rollout 服务、数据管理器和训练器。这一设计实现了非阻塞通信、异步训练、按 rollout 的轨迹采样以及按工作节点的模型同步,显著提升了系统效率:rollout 阶段的 GPU 利用率提升 1.6 倍,训练吞吐量提高 1.9 倍,环境利用率提升 5.5 倍。为了从大量样本中实现高效学习,我们引入了一种自适应数据筛选机制:(1)预先收集困难任务的成功轨迹,以弥补在线采样中成功样本稀疏的问题;(2)根据任务难度动态调整 rollout 次数和轨迹长度;(3)选择高熵决策步骤进行训练,以优先学习关键决策点;(4)通过截断重要性采样缓解策略 rollout 与策略更新之间的不匹配问题,从而稳定学习过程。在 OSWorld 基准测试上,DART-GUI-7B 实现了 42.13% 的任务成功率,相较基础模型绝对提升 14.61%,并比现有开源最先进方法高出 7.34%。我们将通过 computer-use-agents.github.io/dart-gui 全面开源我们的训练框架、数据集及模型检查点,相信这将为智能体强化学习的开源社区提供一项及时而重要的贡献。


41. From Harm to Help: Turning Reasoning In-Context Demos into Assets for

Reasoning LMs

作者: Haonan Wang, Weida Liang, Zihang Fu, Nie Zheng, Yifan Zhang, Yao Tong, Tongyao Zhu, Hao Jiang, Chuang Li, Jiaying Wu, Kenji Kawaguchi

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-27 | 👍 点赞数: 9

摘要:

论文标题:从干扰到助力:将上下文中的推理示例转化为推理语言模型的有效资源

中文摘要:
近期的推理型大语言模型(Reasoning LLMs, RLMs),尤其是那些通过基于验证器的强化学习训练的模型,在使用少样本思维链(few-shot CoT)时的表现往往不如直接作答。我们利用 DeepSeek-R1 生成的高质量推理轨迹作为示范重新审视这一悖论,发现即使示范本身是最优的,增加更多示例仍会持续降低模型准确率。深入分析揭示了性能下降背后的两种机制:(i)语义误导(semantic misguidance),即过高的文本相似性导致模型将当前问题误认为与示例相同,从而逐字复制中间推理步骤;(ii)策略迁移失败(strategy transfer failure),即模型难以从示例中提取有效的推理策略并将其应用于新的目标问题。基于上述发现,我们提出“洞察-求解”(Insight-to-Solve, I2S)方法——一种在测试时依次执行的流程,该方法将示范转化为明确且可复用的推理洞见,并据此生成针对具体问题的推理路径;进一步地,还可对推理过程进行自我优化以提升逻辑连贯性与正确性(I2S+)。在多个多样化基准上的大量实验表明,I2S 与 I2S+ 在开源和闭源模型上均持续优于直接作答以及测试时扩展(test-time scaling)等基线方法。即使对于 GPT 系列模型,我们的方法也带来了显著提升:在 AIME'25 上,GPT-4.1 的表现提升了 +14.0%;o1-mini 在 AIME 上提升 +2.7%,在 GPQA 上提升 +1.7%。结果表明,通过“洞察—优化—求解”框架,上下文中的示范可以被有效利用,转变为提升推理能力的资产。


42. LUMINA: Detecting Hallucinations in RAG System with Context-Knowledge

Signals

作者: Min-Hsuan Yeh, Yixuan Li, Tanwi Mallick

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-26 | 👍 点赞数: 9

摘要:

论文标题:LUMINA:基于上下文-知识信号的RAG系统幻觉检测

中文摘要:
检索增强生成(Retrieval-Augmented Generation, RAG)通过将大语言模型(LLM)的响应建立在检索到的文档基础上,旨在缓解模型产生幻觉的问题。然而,即使在提供正确且充分上下文的情况下,基于RAG的LLM仍可能出现幻觉。越来越多的研究表明,其根源在于模型对外部上下文的使用与其内部知识之间的不平衡,已有若干方法尝试量化这两种信号以实现幻觉检测。然而,现有方法通常需要大量超参数调优,限制了其泛化能力。本文提出LUMINA,一种新颖的框架,通过上下文-知识信号来检测RAG系统中的幻觉:外部上下文的利用程度通过分布距离进行量化,而内部知识的利用程度则通过追踪预测词元在Transformer各层间的演化过程来衡量。我们进一步引入一个统计验证这些度量结果的框架。在常见的RAG幻觉基准数据集和四种开源大语言模型上的实验表明,LUMINA在AUROC和AUPRC指标上均表现出持续优异的性能,在HalluRAG数据集上相较先前基于利用率的方法最高提升达+13% AUROC。此外,LUMINA在对检索质量与模型匹配性做出较宽松假设的情况下仍保持鲁棒性,兼具有效性与实用性。


43. GRPO-MA: Multi-Answer Generation in GRPO for Stable and Efficient

Chain-of-Thought Training

作者: Hongcheng Wang, Yinuo Huang, Sukai Wang, Guanghui Ren, Hao Dong

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-29 | 👍 点赞数: 8

摘要:

论文标题:GRPO-MA:面向稳定高效思维链训练的多答案生成方法

中文摘要:
近期研究(如DeepSeek-R1)表明,GRPO算法作为一种强化学习(Reinforcement Learning, RL)方法,能够有效训练大语言模型(Large Language Models, LLMs)和视觉-语言模型(Vision-Language Models, VLMs)中的思维链(Chain-of-Thought, CoT)推理能力。本文分析了GRPO存在的三个挑战:思维与答案之间的梯度耦合、由于并行采样有限导致的稀疏奖励信号,以及优势估计的不稳定性。为缓解这些问题,我们提出了GRPO-MA——一种简单但具有理论依据的方法,通过从每个思维过程生成多个答案,实现更鲁棒且高效的优化。理论上,我们证明了每个思维对应的答案数量增加时,其思维优势(thought advantage)的方差会降低。实证梯度分析也验证了这一效应,表明GRPO-MA相比原始GRPO显著减少了梯度尖峰。在数学推理、代码生成以及多种多模态任务上的实验结果表明,GRPO-MA显著提升了模型性能和训练效率。我们的消融研究进一步表明,每条思维生成的答案数量增加能持续提升模型表现。


44. Taming Masked Diffusion Language Models via Consistency Trajectory

Reinforcement Learning with Fewer Decoding Step

作者: Jingyi Yang, Guanxu Chen, Xuhao Hu, Jing Shao

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-28 | 👍 点赞数: 7

摘要:

论文标题:通过一致性轨迹强化学习以更少解码步数驯服掩码扩散语言模型

中文摘要:
掩码扩散语言模型(Masked Diffusion Language Models, MDLMs)近年来作为一种有前景的自回归(Autoregressive, AR)语言模型替代方案崭露头角,具备并行解码、灵活生成顺序以及潜在减少推理步数等优势。尽管具有这些优点,针对MDLMs的解码策略和强化学习(Reinforcement Learning, RL)算法仍缺乏深入探索。一种简单的方法是将AR模型中已成熟的技巧直接迁移到MDLMs上。然而,这引发了一个关键问题:这种简单的迁移是否真正最优?例如:1)块状(block-wise)和半自回归(semi-AR)解码策略在MDLMs的训练过程中并未使用,为何在推理阶段其表现却优于完整的扩散式解码?2)将为AR模型设计的强化学习算法直接应用于MDLMs会导致训练与推理之间的不一致,因为MDLM的解码过程是非因果的(即并行的),从而造成 rollout 轨迹与优化轨迹之间的不匹配。为应对上述挑战,我们提出了“EOS早拒绝”(EOS Early Rejection, EOSER)机制和“递增步长”(Ascending Step-Size, ASS)解码调度器,二者共同释放了MDLMs进行完整扩散式解码的潜力,在更少解码步数下实现了具有竞争力的性能。此外,我们提出了一种新的强化学习算法——一致性轨迹组相对策略优化(Consistency Trajectory Group Relative Policy Optimization, CJ-GRPO),用于有效驯服MDLMs,该方法强调rollout轨迹与优化轨迹之间的一致性,并减少了因跳步优化带来的优化误差。我们在LLaDA-8B-Instruct模型上进行了大量实验,涵盖数学推理与规划等任务。结果表明,所提出的EOSER与ASS机制结合CJ-GRPO,在高效且有效地优化MDLMs方面展现出巨大潜力。代码地址:https://github.com/yjyddq/EOSER-ASS-RL。


45. Clean First, Align Later: Benchmarking Preference Data Cleaning for

Reliable LLM Alignment

作者: Min-Hsuan Yeh, Yixuan Li

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-28 | 👍 点赞数: 7

摘要:

论文标题:先清洁,后对齐:面向可靠大语言模型对齐的偏好数据清洗基准研究

中文摘要:
人类反馈在将大语言模型(LLMs)与人类偏好对齐的过程中起着关键作用。然而,此类反馈往往存在噪声或不一致,可能降低奖励模型的质量,阻碍对齐效果。尽管已有多种自动化数据清洗方法被提出以缓解这一问题,但目前仍缺乏对这些方法有效性与泛化能力的系统性评估。为填补这一空白,我们构建了首个全面的基准测试框架——PrefCleanBench,用于评估13种应用于大语言模型对齐任务中的偏好数据清洗方法。PrefCleanBench 提供了一个标准化协议,可在多样化的数据集、模型架构和优化算法下,对不同清洗策略在对齐性能和泛化能力方面进行评估。通过统一整合各类方法并开展严格比较,我们揭示了决定数据清洗在对齐任务中成败的关键因素。该基准为通过提升数据质量来改进大语言模型对齐的规范化、可复现的研究方法奠定了基础,凸显了数据预处理在负责任的人工智能发展中的关键但尚未充分探索的作用。我们公开了所有方法的模块化实现代码,以促进后续研究:https://github.com/deeplearning-wisc/PrefCleanBench。


46. Hyperspherical Latents Improve Continuous-Token Autoregressive

Generation

作者: Guolin Ke, Hui Xue

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-29 | 👍 点赞数: 6

摘要:

论文标题:超球面隐变量提升连续-token 自回归生成

中文摘要:
自回归(AR)模型在图像生成方面具有潜力,但连续-token 的 AR 变体通常落后于潜在扩散模型和掩码生成模型。其核心问题在于 VAE 隐变量中存在的异质性方差,这种方差在 AR 解码过程中被放大,尤其是在无分类器指导(CFG)下,可能导致方差崩溃。为此,我们提出了 SphereAR 来解决这一问题。该方法的核心设计是将所有 AR 输入和输出——包括经过 CFG 后的输出——约束在固定半径的超球面上(即保持恒定的 ℓ₂ 范数),并结合使用超球面 VAE。我们的理论分析表明,超球面约束消除了尺度分量(方差崩溃的主要原因),从而稳定了 AR 解码过程。实验结果表明,在 ImageNet 图像生成任务上,SphereAR-H(9.43 亿参数)以 FID 1.34 创造了 AR 模型的新纪录。即使在更小规模下,SphereAR-L(4.79 亿参数)达到 FID 1.54,SphereAR-B(2.08 亿参数)达到 FID 1.92,性能媲美甚至超越了更大规模的基线模型,例如 MAR-H(9.43 亿参数,FID 1.55)和 VAR-d30(20 亿参数,FID 1.92)。据我们所知,这是首次在相近参数规模下,一个采用光栅顺序的纯 next-token 自回归图像生成器在性能上超过扩散模型和掩码生成模型。


47. SCI-Verifier: Scientific Verifier with Thinking

作者: Shenghe Zheng, Chenyu Huang, Fangchen Yu, Junchi Yao, Jingqi Ye, Tao Chen, Yun Luo, Ning Ding, LEI BAI, Ganqu Cui, Peng Ye

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-29 | 👍 点赞数: 6

摘要:

论文标题:SCI-Verifier:具备推理能力的科学验证模型

中文摘要:
随着大语言模型(LLMs)在科学推理任务中的广泛应用,答案格式的复杂性以及等价表达形式的多样性使得答案验证成为一项关键但极具挑战性的任务。现有的科学领域验证研究存在两大主要局限:(a)缺乏系统性的评估标准且学科覆盖不足,限制了其全面评估能力;(b)过度依赖繁琐的规则设计或提示工程(prompt engineering),导致在复杂推理场景中效果受限,或难以实现跨学科的泛化。为应对这些挑战,我们在数据和模型两个层面提出了相应解决方案。在数据方面,我们构建了SCI-VerifyBench——一个涵盖数学、物理、生物、化学及通用科学问答的跨学科基准数据集。该数据集基于真实的大语言模型输出构建,并引入领域特定的等价变换方法,生成具有挑战性且贴近实际的数据。通过基于模型和专家的人工标注,确保了数据的质量与多样性,从而支持对验证能力进行严格评估。在模型方面,我们强调推理在验证过程中的重要性,提出SCI-Verifier——一种统一的、增强推理能力的科学领域验证模型。通过后训练(post-training),SCI-Verifier展现出强大的逻辑推理与等价性判断能力,同时保持输出的简洁性与稳定性。SCI-VerifyBench与SCI-Verifier共同构成了一个科学验证的系统性框架,为提升大语言模型在科学领域的可靠性与实用性提供了系统的评估手段和可行的技术路径。


48. AceSearcher: Bootstrapping Reasoning and Search for LLMs via Reinforced

Self-Play

作者: Ran Xu, Yuchen Zhuang, Zihan Dong, Jonathan Wang, Yue Yu, Joyce C. Ho, Linjun Zhang, Haoyu Wang, Wenqi Shi, Carl Yang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-29 | 👍 点赞数: 6

摘要:

论文标题:AceSearcher:通过强化自博弈实现大语言模型的推理与搜索协同优化

中文摘要:
现有的检索增强型大语言模型(LLMs)在处理复杂推理任务时,常因多跳检索效率低下和推理能力有限而表现不佳。为此,我们提出了AceSearcher,一种基于协作式自博弈的训练框架,能够使单个大语言模型在两种角色之间交替切换:一是“分解者”(decomposer),负责将复杂问题分解为子问题;二是“求解者”(solver),负责整合检索到的上下文信息以生成答案。AceSearcher结合了在多样化搜索、推理与问题分解任务上的监督微调,以及以最终答案准确率为优化目标的强化学习微调,无需依赖中间过程的人工标注。在涵盖10个数据集的三项高难度推理任务上进行的大量实验表明,AceSearcher显著优于当前最先进的基线方法,平均精确匹配率提升了7.6%。尤其值得注意的是,在文档级金融推理任务中,仅使用不到DeepSeek-V3模型5%参数量的AceSearcher-32B即达到了与其相当的性能。即使在更小规模的模型(1.5B和8B参数)上,AceSearcher也常常超越参数量多达9倍的现有检索增强型大语言模型,展现出其在应对复杂推理任务方面的卓越效率与有效性。我们的代码将发布于 https://github.com/ritaranx/AceSearcherhttps://huggingface.co/AceSearcher。


49. Local Success Does Not Compose: Benchmarking Large Language Models for

Compositional Formal Verification

作者: Xu Xu, Xin Li, Xingwei Qu, Jie Fu, Binhang Yuan

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-27 | 👍 点赞数: 6

摘要:

论文标题:局部成功无法组合:面向组合式形式验证的大语言模型基准测试

中文摘要:
我们提出了DafnyCOMP,这是一个用于评估大语言模型(LLMs)在Dafny中进行组合式规约生成能力的基准测试。与以往专注于单函数任务的基准不同,DafnyCOMP针对的是由多个相互关联且存在数据依赖关系的函数组成的程序,要求模型能够跨组件边界进行推理。该基准包含300个通过自动化合成的多函数程序。我们对多个最先进的大语言模型系列进行了评估,发现尽管这些模型在单函数验证任务上表现良好,但在组合式任务上的性能显著下降。分析揭示了模型在跨函数推理方面存在系统性缺陷,包括生成脆弱的规约、实现与证明之间的不一致,以及推理过程的不稳定性。因此,DafnyCOMP为衡量大语言模型在生成可靠、可验证且具有组合性的代码方面的进展提供了一个诊断工具。


50. MultiCrafter: High-Fidelity Multi-Subject Generation via Spatially

Disentangled Attention and Identity-Aware Reinforcement Learning

作者: Tao Wu, Yibo Jiang, Yehao Lu, Zhizhong Wang, Zeyi Huang, Zequn Qin, Xi Li

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-26 | 👍 点赞数: 6

摘要:

论文标题:MultiCrafter:通过空间解耦注意力与身份感知强化学习实现高保真多主体生成

中文摘要:
多主体图像生成旨在将用户提供的多个主体合成为单幅图像,同时保持主体的高保真度、确保与提示的一致性,并符合人类的审美偏好。然而,现有方法(尤其是基于上下文学习范式的方法)主要依赖简单的重建目标函数,导致不同主体之间出现严重的属性泄露问题,损害了主体保真度,且难以契合细致的人类偏好。为解决这些问题,我们提出了MultiCrafter,一种能够实现高保真且符合偏好对齐的生成框架。首先,我们发现属性泄露的根本原因在于生成过程中不同主体之间的注意力存在显著纠缠。为此,我们引入显式的位姿监督机制,以明确分离各个主体的注意力区域,从而有效缓解属性泄露问题。为了使模型能够在多样化场景中准确规划各主体的注意力区域,我们采用混合专家(Mixture-of-Experts, MoE)架构来增强模型的表达能力,使不同的专家专注于不同的场景。最后,我们设计了一种新颖的在线强化学习框架,以实现模型与人类偏好的对齐,该框架包含一个可精确评估多主体保真度的评分机制,以及一种针对MoE架构优化的更稳定训练策略。实验结果表明,我们的框架在显著提升主体保真度的同时,更好地实现了与人类偏好的对齐。


51. DepthLM: Metric Depth From Vision Language Models

作者: Zhipeng Cai, Ching-Feng Yeh, Hu Xu, Zhuang Liu, Gregory Meyer, Xinjie Lei, Changsheng Zhao, Shang-Wen Li, Vikas Chandra, Yangyang Shi

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-29 | 👍 点赞数: 5

摘要:

论文标题:DepthLM:来自视觉语言模型的度量深度

中文摘要:
视觉语言模型(Vision Language Models, VLMs)能够通过文本交互灵活地处理各种视觉任务。尽管在语义理解方面取得了成功,包括GPT-5在内的当前最先进的VLM在从二维输入理解三维场景方面仍然表现不佳。另一方面,专门设计的纯视觉模型在度量深度估计这一关键的三维理解任务上已达到超越人类的精度。然而,这些模型通常依赖于特定任务的网络结构和损失函数。这种差异促使我们提出一个问题:能否在不改变模型架构或损失函数的前提下,使VLM达到专家级的精度?我们以像素级的度量深度估计作为代表性任务,证明答案是肯定的!令人惊讶的是,全面分析表明,仅需使用稀疏标签进行基于文本的监督微调,即可充分释放VLM在三维理解上的潜力,无需引入密集预测头或复杂的回归/正则化损失。实际上,限制VLM性能的关键在于像素引用困难和跨数据集的相机内参歧义;我们通过视觉提示(visual prompting)和内参条件增强(intrinsic-conditioned augmentation)来解决这些问题。尽管所用模型规模更小,我们的方法DepthLM在精度上超过最先进的VLM两倍以上,首次使VLM在该任务上可与纯视觉模型相媲美。有趣的是,在训练过程中并未显式约束的情况下,经DepthLM训练的VLM自然避免了过度平滑的问题,在边界区域产生的“漂浮点”(flying points)显著少于纯视觉模型。DepthLM的简洁性还使得单个VLM能够拓展至多种其他三维任务。我们的代码与模型将通过下方链接公开发布。


52. DC-Gen: Post-Training Diffusion Acceleration with Deeply Compressed

Latent Space

作者: Wenkun He, Yuchao Gu, Junyu Chen, Dongyun Zou, Yujun Lin, Zhekai Zhang, Haocheng Xi, Muyang Li, Ligeng Zhu, Jincheng Yu, Junsong Chen, Enze Xie, Song Han, Han Cai

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-29 | 👍 点赞数: 5

摘要:

论文标题:DC-Gen:基于深度压缩潜在空间的推理后扩散加速方法

中文摘要:
现有的文本到图像扩散模型在生成高质量图像方面表现出色,但在扩展至高分辨率(如4K图像生成)时面临显著的效率挑战。尽管先前的研究从多个角度对扩散模型进行了加速优化,却很少关注潜在空间内部固有的冗余问题。为填补这一空白,本文提出了DC-Gen——一种通过利用深度压缩潜在空间来加速文本到图像扩散模型的通用框架。与代价高昂的从头训练方法不同,DC-Gen采用高效的推理后处理流程,在保留基础模型生成质量的同时实现加速。该范式下的一个关键挑战是基础模型潜在空间与深度压缩潜在空间之间的表示差异,这种差异会导致直接微调过程中的不稳定性。为解决此问题,DC-Gen首先通过轻量级的嵌入对齐训练来弥合表示差距;在潜在嵌入对齐之后,仅需少量LoRA微调即可恢复基础模型原有的生成质量。我们在SANA和FLUX.1-Krea模型上验证了DC-Gen的有效性。所得到的DC-Gen-SANA和DC-Gen-FLUX模型在生成质量上与原始基础模型相当,同时实现了显著的速度提升。具体而言,在NVIDIA H100 GPU上,DC-Gen-FLUX将4K图像生成的延迟降低了53倍。当结合NVFP4 SVDQuant技术后,DC-Gen-FLUX在单张NVIDIA 5090 GPU上仅用3.5秒即可生成一张4K图像,相较原始FLUX.1-Krea模型总体延迟降低达138倍。代码地址:https://github.com/dc-ai-projects/DC-Gen。


53. LOVE-R1: Advancing Long Video Understanding with an Adaptive Zoom-in

Mechanism via Multi-Step Reasoning

作者: Shenghao Fu, Qize Yang, Yuan-Ming Li, Xihan Wei, Xiaohua Xie, Wei-Shi Zheng

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-29 | 👍 点赞数: 5

摘要:

论文标题:LOVE-R1:通过多步推理与自适应缩放机制推进长视频理解

中文摘要:
由于长时间序列理解与精细空间感知之间的固有矛盾,长视频理解对当前的大型视频-语言模型(LVLMs)而言仍具挑战性。现有的LVLMs通常采用统一的帧采样机制,即以固定的分辨率和采样频率提取视频帧,这种策略不可避免地会牺牲时间线索或空间细节,导致性能受限。为缓解这一困境,我们提出了LOVE-R1,一种具备自适应视频片段“放大”能力的模型。该模型首先接收高密度但低分辨率采样的视频帧;当需要更丰富的空间信息时,模型可通过自身推理,对感兴趣的视频片段进行高分辨率“放大”,直至获取关键视觉信息。整个过程被建模为一个多步推理流程。为了训练模型的推理能力,我们首先在自行收集的38,000条高质量思维链(CoT)数据上对模型进行微调,并引入解耦的强化学习微调策略进一步提升性能。由于最终结果奖励无法提供细粒度的推理过程监督,我们将多步推理分解为多个单步推理过程,从而显式优化模型内部的“放大”决策能力。在多个长视频理解基准上的实验表明,得益于所提出的快慢结合的自适应帧采样机制,LOVE-R1在采样密度与帧分辨率之间实现了良好的平衡,在四个主流长视频理解基准上的平均表现优于基线模型Qwen2.5-VL达3.1个百分点。


54. Rethinking JEPA: Compute-Efficient Video SSL with Frozen Teachers

作者: Xianhang Li, Chen Huang, Chun-Liang Li, Eran Malach, Josh Susskind, Vimal Thilak, Etai Littwin

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-29 | 👍 点赞数: 5

摘要:

论文标题:重新思考JEPA:基于冻结教师模型的计算高效的视频自监督学习

中文摘要:
视频联合嵌入预测架构(V-JEPA)通过在潜在空间中预测被掩码区域,并借助指数移动平均(EMA)更新的教师模型,来学习可泛化的即插即用视频表征。尽管EMA机制能够防止表征崩溃,但它使模型的可扩展性选择变得复杂,并且将教师与学生模型的结构紧密耦合。我们重新审视了潜在空间中的掩码预测方法,发现仅需一个固定的(冻结的)教师模型即可达成良好性能。具体而言,我们首先(i)在V-JEPA的掩码设置下,使用简单的像素重建目标训练一个目标编码器;然后(ii)将其冻结,并训练学生模型去预测该教师模型在被掩码区域的潜在表征。由此提出一种两阶段、无正则化的训练方案,称为SALT(静态教师非对称潜在训练,Static-teacher Asymmetric Latent Training)。SALT将优化过程解耦为两个阶段:像素重建(教师)和掩码潜在预测(学生),从而提升了方法的透明性、计算效率和可扩展性,同时保持了表征在冻结评估下的泛化能力。

实验表明,在多种基准任务中,我们的学生模型在主干网络冻结的评估设置下,性能优于近期提出的V-JEPA 2编码器。同时,我们的方法在计算资源利用上更具优势:在相同的预训练浮点运算量(FLOPs)下,本方法实现了更高的探针准确率,其扩展曲线在准确率-FLOPs的帕累托前沿上优于V-JEPA。最后,我们发现学生模型的性能对学生质量表现出显著的鲁棒性:即使使用较小且次优的教师模型,也能训练出高性能的学生模型。这表明在计算资源分配中应优先向学生模型倾斜。这些结果确立了SALT作为一种简单、可扩展且计算高效的替代方案,可用于取代基于EMA的视频表征自蒸馏方法。


55. Alignment through Meta-Weighted Online Sampling: Bridging the Gap

between Data Generation and Preference Optimization

作者: Junming Yang, Ning Xu, Biao Liu, Shiqi Qiao, Xin Geng

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-27 | 👍 点赞数: 5

摘要:

论文标题:通过元加权在线采样实现对齐:弥合数据生成与偏好优化之间的差距

中文摘要:
偏好优化对于将大语言模型(LLMs)与人类价值观和意图对齐至关重要。该过程中的一个重大挑战在于预先收集的离线偏好数据与不断演化的模型策略之间存在的分布不匹配问题。现有方法尝试通过静态启发式策略或解耦的在线采样策略来缩小这一差距,但往往难以适应模型动态的学习状态。为弥合这一差距,我们提出了元加权自适应偏好优化(Meta-Weighted Adaptive Preference Optimization, MetaAPO),这是一种新颖的框架,能够将数据生成与模型训练进行动态耦合。MetaAPO引入一个轻量级的元学习器作为“对齐差距估计器”,用于评估在策略内采样相对于离线数据的潜在收益。该估计器指导有针对性的在线数据生成,并为优化目标赋予样本级别的元权重,从而动态平衡在线与离线数据的质量与分布。在AlpacaEval 2、Arena-Hard和MT-Bench上的实验表明,MetaAPO在多种设置下均持续优于现有的偏好优化方法,同时将在线标注成本降低了42%。


56. PixelCraft: A Multi-Agent System for High-Fidelity Visual Reasoning on

Structured Images

作者: Shuoshuo Zhang, Zijian Li, Yizhen Zhang, Jingjing Fu, Lei Song, Jiang Bian, Jun Zhang, Yujiu Yang, Rui Wang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-29 | 👍 点赞数: 4

摘要:

论文标题:PixelCraft:一种面向结构化图像的高保真视觉推理多智能体系统

中文摘要:
结构化图像(例如图表和几何图形)对多模态大语言模型(MLLMs)而言仍具有挑战性,因为微小的感知错误可能引发连锁反应,导致错误结论。中间视觉线索有助于引导推理过程;然而,现有的基于线索的方法受限于低保真的图像处理能力和线性、僵化的推理模式,难以有效应对复杂的结构化图像任务。本文提出 PixelCraft,一种全新的多智能体系统,支持对结构化图像进行高保真处理与灵活的视觉推理。该系统由调度器(dispatcher)、规划器(planner)、推理器(reasoner)、批评者(critics)以及一组视觉工具智能体构成。为实现高保真处理,我们构建了一个高质量语料库,并据此微调一个多模态大语言模型,使其成为具备像素级定位能力的 grounding 模型,该模型的定位结果与工具智能体中的传统计算机视觉(CV)算法相结合。在此基础上,PixelCraft 通过一个动态的三阶段工作流——工具选择、智能体讨论和自我批评——实现灵活的视觉推理。此外,不同于以往简单地附加历史图像的线性推理模式,PixelCraft 引入了图像记忆机制,使规划器能够自适应地回溯先前的视觉步骤,探索不同的推理路径,并在讨论过程中动态调整推理轨迹。在多个具有挑战性的图表与几何推理基准上的大量实验表明,PixelCraft 显著提升了先进 MLLMs 在视觉推理任务上的表现,为结构化图像推理树立了新的标准。我们的代码将公开发布于 https://github.com/microsoft/PixelCraft。


57. Advantage Weighted Matching: Aligning RL with Pretraining in Diffusion

Models

作者: Shuchen Xue, Chongjian Ge, Shilong Zhang, Yichen Li, Zhi-Ming Ma

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-29 | 👍 点赞数: 4

摘要:

论文标题:优势加权匹配:在扩散模型中对齐强化学习与预训练

中文摘要:
强化学习(Reinforcement Learning, RL)已成为推动大语言模型(Large Language Models, LLMs)发展的重要范式,其中预训练与RL后训练共享相同的对数似然目标形式。相比之下,当前针对扩散模型的主流RL方法——尤其是去噪扩散策略优化(Denoising Diffusion Policy Optimization, DDPO)——所优化的目标函数不同于预训练阶段的目标,即得分/流匹配损失(score/flow matching loss)。在本研究中,我们提出了一种新颖的理论分析:DDPO 实质上是一种带有噪声目标的隐式得分/流匹配方法,这会增加估计方差并减缓收敛速度。基于这一分析,我们提出了优势加权匹配(Advantage Weighted Matching, AWM),一种面向扩散模型的策略梯度方法。AWM 采用与预训练相同的得分/流匹配损失,从而获得更低方差的优化目标,并通过每个样本的优势值对其进行加权。本质上,AWM 提高了高奖励样本的影响,抑制了低奖励样本的作用,同时保持建模目标与预训练完全一致。该方法在概念和实践上统一了预训练与强化学习,符合策略梯度理论,降低了方差,并实现了更快的收敛。这种简洁而高效的设计带来了显著收益:在 GenEval、OCR 和 PickScore 基准测试中,当应用于 Stable Diffusion 3.5 Medium 和 FLUX 模型时,AWM 相较于基于 DDPO 的 Flow-GRPO 方法实现了最高达 24 倍的加速,且不牺牲生成质量。代码地址:https://github.com/scxue/advantage_weighted_matching。


58. Evolution Strategies at Scale: LLM Fine-Tuning Beyond Reinforcement

Learning

作者: Xin Qiu, Yulu Gan, Conor F. Hayes, Qiyao Liang, Elliot Meyerson, Babak Hodjat, Risto Miikkulainen

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-29 | 👍 点赞数: 4

摘要:

论文标题:大规模进化策略:超越强化学习的LLM微调方法

中文摘要:
针对下游任务对预训练大语言模型(LLMs)进行微调,是人工智能部署流程中的关键步骤。强化学习(RL)无疑是目前最主流的微调方法,推动了众多先进大语言模型的发展。相比之下,进化策略(ES)虽然在参数量为数百万的小规模模型上曾展现出与强化学习相当的性能,但由于人们普遍认为其难以扩展到更大规模的模型,因而长期被忽视。在本研究中,我们报告了首次成功将进化策略扩展应用于大语言模型全参数微调的工作,揭示了一个令人惊讶的事实:进化策略能够高效地在数十亿参数空间中进行搜索,并在多个方面优于现有的强化学习微调方法,包括更高的样本效率、对长时程奖励信号更强的容忍能力、对不同基础LLM更强的鲁棒性、更少出现奖励博弈(reward hacking)现象,以及跨实验运行更加稳定的表现。因此,本工作为突破当前强化学习技术局限、开辟LLM微调的新方向提供了基础。源代码发布于:https://github.com/VsonicV/es-fine-tuning-paper。


59. PARROT: A Benchmark for Evaluating LLMs in Cross-System SQL Translation

作者: Wei Zhou, Guoliang Li, Haoyu Wang, Yuxing Han, Xufei Wu, Fan Wu, Xuanhe Zhou

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-27 | 👍 点赞数: 4

摘要:

论文标题:PARROT:面向跨系统SQL翻译的大语言模型评测基准

中文摘要:
大语言模型(LLMs)在文本到SQL(Text-to-SQL)任务中已展现出日益显著的效果。然而,另一个密切相关且具有重要实际意义的问题——跨系统SQL翻译(又称SQL-to-SQL),即将为某一数据库系统(如MySQL)编写的查询语句转换为另一系统(如ClickHouse)中的等效形式,却尚未得到充分研究。现有的SQL基准数据集并不适用于SQL-to-SQL任务的评估:其一,它们主要集中在少数数据库系统上(通常仅为SQLite);其二,难以涵盖大量系统特有的SQL方言(例如定制函数、数据类型和语法规则)。为此,本文提出了PARROT——一个用于跨系统SQL翻译的实用且真实的评测基准。PARROT包含来自38个开源基准和真实商业服务的598个翻译对,专门设计用于挑战模型对系统特定SQL语义的理解能力(例如,当前大语言模型在该基准上的平均准确率低于38.53%)。我们还提供了多个基准变体,包括包含28,003个翻译样本的PARROT-Diverse(用于广泛的语法测试)和包含5,306个代表性样本的PARROT-Simple(用于聚焦的压力测试),覆盖了22种工业级数据库系统。为促进后续研究,我们已公开发布排行榜及源代码,详见:https://code4db.github.io/parrot-bench/。


60. MathBode: Frequency-Domain Fingerprints of LLM Mathematical Reasoning

作者: Charles L. Wang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-27 | 👍 点赞数: 4

摘要:

论文标题:MathBode:大语言模型数学推理的频域指纹分析

中文摘要:
本文提出了MathBode,一种针对大语言模型(LLM)数学推理能力的动态诊断方法。与传统的一次性准确率评估不同,MathBode将每个含参数的问题视为一个系统:通过正弦调制单一参数,并拟合模型输出与精确解的一阶谐波响应,从而获得可解释的、频率分辨的指标——增益(幅度跟踪能力)和相位(响应滞后),形成类似伯德图(Bode plot)的“指纹”特征。在五类闭式问题族(线性求解、比例/饱和、复利计算、2×2线性系统、相似三角形)上的实验表明,该方法揭示了模型在推理过程中普遍存在的低通特性及随频率增加而加剧的相位滞后现象,这些动态行为是单纯准确率指标所难以察觉的。我们对比了多个模型,并引入符号计算系统作为基准(其增益G ≈ 1,相位φ ≈ 0),用于校准诊断工具。结果表明,该方法能有效区分前沿模型与中等水平模型在推理动态上的差异,提供了一种简洁、可复现的评估协议,补充了标准基准测试,实现了对推理保真度与一致性的可操作化测量。我们已开源数据集与代码,以支持后续研究与广泛应用。


61. ChatInject: Abusing Chat Templates for Prompt Injection in LLM Agents

作者: Hwan Chang, Yonghyun Jun, Hwanhee Lee

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-26 | 👍 点赞数: 4

摘要:

论文标题:ChatInject:利用聊天模板对大语言模型代理实施提示注入攻击

中文摘要:
随着能够与外部环境交互的大语言模型(LLM)代理系统日益广泛部署,新的攻击面也随之出现,为对抗性操纵提供了可乘之机。其中一项主要威胁是间接提示注入(indirect prompt injection),即攻击者将恶意指令嵌入外部环境的输出内容中,诱使代理将其误解为合法提示并加以执行。尽管先前的研究主要集中于纯文本形式的注入攻击,我们却发现了一个重要但尚未充分探索的漏洞:大语言模型对结构化聊天模板的依赖性,以及其在具有说服力的多轮对话中易受上下文操控的弱点。基于此,我们提出了ChatInject攻击方法,该方法通过将恶意载荷格式化为模仿原生聊天模板的形式,从而利用模型固有的遵循指令特性实现攻击。在此基础上,我们进一步设计了一种以说服为导向的多轮变体攻击,通过连续对话轮次逐步引导代理,使其接受并执行原本可疑的操作。通过对前沿大语言模型进行广泛的实验验证,我们得出三项关键发现:(1)相比传统提示注入方法,ChatInject显著提升了攻击成功率,在AgentDojo上从5.18%提高至32.05%,在InjecAgent上从15.13%提升至45.90%;其中多轮对话变体表现尤为突出,在InjecAgent上的平均攻击成功率达到52.33%;(2)基于聊天模板的攻击载荷在不同模型之间展现出强迁移能力,即使面对模板结构未知的闭源大语言模型仍保持有效;(3)现有的基于提示的防御机制对此类攻击普遍无效,尤其是难以抵御多轮变体攻击。这些发现揭示了当前代理系统中存在的严重安全漏洞。


62. Scalable GANs with Transformers

作者: Sangeek Hyun, MinKyu Lee, Jae-Pil Heo

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-29 | 👍 点赞数: 3

摘要:

论文标题:基于Transformer的可扩展生成对抗网络

中文摘要:
可扩展性推动了生成模型领域的近期进展,但其在对抗学习中的应用原则仍缺乏深入探索。本文通过两种在其他类型生成模型中已被证明有效的设计选择,研究生成对抗网络(GANs)的可扩展性:一是在紧凑的变分自编码器(VAE)潜在空间中进行训练,二是采用完全基于Transformer结构的生成器和判别器。在潜在空间中训练能够在保持感知质量的同时实现高效计算,而这种效率与纯Transformer架构天然契合——后者性能随计算资源增加而提升。基于这些设计,我们分析了在直接扩展GAN时出现的若干失败模式,特别是生成器早期层利用不足以及网络扩展时的优化不稳定性问题。针对这些问题,我们提出了简单且利于扩展的解决方案:轻量级的中间监督机制和考虑网络宽度的学习率调整策略。实验表明,GAT(一种完全基于Transformer并在潜在空间中运行的GAN)能够在广泛的模型容量(从S到XL)下稳定可靠地训练。此外,GAT-XL/2仅用40个训练周期即在ImageNet-256上实现了当前最优的单步、类别条件图像生成性能(FID为2.96),相比强基线方法减少了6倍的训练周期。


63. IWR-Bench: Can LVLMs reconstruct interactive webpage from a user

interaction video?

作者: Yang Chen, Minghao Liu, Yufan Shen, Yunwen Li, Tianyuan Huang, Xinyu Fang, Tianyu Zheng, Wenxuan Huang, Cheng Yang, Daocheng Fu, Jianbiao Mei, Rong Wu, Licheng Wen, Xuemeng Yang, Song Mao, Qunshu Lin, Zhi Yu, Yongliang Shen, Yu Qiao, Botian Shi

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-29 | 👍 点赞数: 3

摘要:

论文标题:IWR-Bench:大视觉语言模型能否从用户交互视频中重建交互式网页?

中文摘要:
网页到代码任务要求模型理解网页的视觉呈现,并生成相应的代码。然而,现有的基准数据集主要关注静态截图到代码的转换,忽略了现实世界网页应用中至关重要的动态交互过程。为解决这一局限性,本文提出了IWR-Bench——一个用于评估大视觉语言模型(LVLMs)从用户交互视频中重建交互式网页能力的新基准。IWR-Bench包含来自100个真实网站的113个精心整理的任务,涵盖1,001个操作,涉及多样的交互复杂性(如网页游戏)、视觉风格和应用领域。遵循标准的网页开发实践,每个任务不仅包含用户交互视频,还提供所有爬取的静态资源(如图像、视频)。该基准测试聚焦于两个核心挑战:一是综合性的多模态推理能力,即从视频和静态资源中推断出交互逻辑;二是高级代码生成能力,即将该逻辑转化为可运行的功能代码。我们设计了一个“以智能体为评判者”(agent-as-a-judge)的评估框架,并配备完整的指标体系,自动评估生成网页的功能正确性和视觉保真度。在28种LVLM上的大量实验表明,当前模型仍面临严峻挑战:表现最佳的模型总体得分仅为36.35%,其中功能正确性(24.39% IFS)显著落后于视觉保真度(64.25% VFS)。这些结果揭示了现有模型在理解时间动态和生成事件驱动逻辑方面的关键缺陷,确立了IWR-Bench作为视觉-语言研究中的一个具有挑战性的新前沿。本基准数据集及评估代码将公开发布,代码地址为 https://github.com/L-O-I/IWR-Bench。


64. AdvChain: Adversarial Chain-of-Thought Tuning for Robust Safety

Alignment of Large Reasoning Models

作者: Zihao Zhu, Xinyu Wu, Gehan Hu, Siwei Lyu, Ke Xu, Baoyuan Wu

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-29 | 👍 点赞数: 3

摘要:

论文标题:AdvChain:面向鲁棒安全对齐的大规模推理模型对抗性思维链调优

中文摘要: 大规模推理模型(Large Reasoning Models, LRMs)通过思维链(Chain-of-Thought, CoT)推理在复杂问题求解中展现出卓越的能力。然而,CoT的多步骤特性引入了超越传统语言模型对齐范畴的新安全挑战。我们发现当前安全导向的CoT调优方法存在一种失效模式:雪球效应,即微小的推理偏差在推理过程中逐步放大,最终导致产生有害响应或过度拒绝。这一现象的根源在于模型被训练去模仿完美的推理过程,却未能学会自我纠正。为解决这一局限,我们提出AdvChain——一种通过对抗性思维链调优来教授模型动态自我纠正能力的对齐范式。该方法构建了一个包含“诱惑-纠正”(Temptation-Correction)和“迟疑-纠正”(Hesitation-Correction)样本的数据集,使模型能够从有害的推理偏移和不必要的谨慎中恢复。大量实验表明,AdvChain显著增强了模型对越狱攻击(jailbreak attacks)和思维链劫持(CoT hijacking)的鲁棒性,同时大幅减少了对良性提示的过度拒绝,在不损害推理能力的前提下实现了更优的安全性与实用性平衡。本研究为构建更加鲁棒、可靠的推理模型开辟了新的方向。


65. UniVid: The Open-Source Unified Video Model

作者: Jiabin Luo, Junhui Lin, Zeyu Zhang, Biao Wu, Meng Fang, Ling Chen, Hao Tang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-29 | 👍 点赞数: 3

摘要:

论文标题:UniVid:开源的统一视频模型

中文摘要:
融合生成与理解能力的统一视频建模日益重要,但面临两大关键挑战:其一,在基于扩散流(flow-based)的生成过程中,由于文本与视觉token的数量不平衡,以及跨流轨迹的均匀跨模态注意力机制存在局限性,导致语义保真度难以维持;其二,如何在无需昂贵重训练的前提下,高效地将以图像为中心的多模态大语言模型(MLLM)扩展到视频任务。本文提出UniVid,一种通过轻量级适配器将多模态大语言模型(MLLM)与扩散解码器耦合的统一架构,实现视频理解与生成的双重能力。我们引入温度调节模态对齐(Temperature Modality Alignment)方法以提升生成对提示词的忠实度,并提出金字塔反射(Pyramid Reflection)机制,通过动态关键帧选择实现高效的时序推理。在多个标准基准上的大量实验表明,UniVid达到最先进的性能:相较于EasyAnimateV5.1,在VBench-Long总体得分上提升了2.2%;在MSVD-QA和ActivityNet-QA数据集上,分别比此前最优的7B基线模型提高了1.0%和3.3%的准确率。


66. TENET: Leveraging Tests Beyond Validation for Code Generation

作者: Yiran Hu, Nan Jiang, Shanchao Liang, Yi Wu, Lin Tan

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-29 | 👍 点赞数: 3

摘要:

论文标题:TENET:超越验证,充分利用测试进行代码生成

中文摘要:
测试驱动开发(Test-Driven Development, TDD)是一种广泛采用的软件工程实践,要求开发者在编写代码的同时创建并执行测试,以持续验证和优化软件行为。在“氛围编程”(vibe coding)时代,开发者越来越多地通过描述高层意图,将代码编写任务委托给大语言模型(LLM),此时TDD变得更加关键,因为测试用例作为可执行的规范,能够明确界定并验证自然语言描述和代码上下文所无法充分表达的功能需求。尽管在TDD框架下进行氛围编程具有潜力,但仍面临三大挑战:(1)如何选择小而有效的测试套件,以提升生成准确性并控制执行开销;(2)如何高效检索相关代码等上下文信息;(3)如何系统性地利用测试反馈实现有效的代码精炼。为应对这些挑战,我们提出了TENET——一种在TDD环境下针对复杂真实代码仓库生成函数的LLM智能体。TENET包含三个核心组件:(1)一种新颖的测试驱动机制,通过选取简洁但覆盖目标使用场景多样性的测试套件,最大化测试效能;(2)一套定制化的智能体工具集,支持高效检索相关代码,并结合交互式调试获取上下文;(3)基于反思(reflection)的迭代精炼流程,能够持续分析失败原因、补充缺失上下文,并实施代码改进。实验表明,TENET在RepoCod和RepoEval两个基准测试上分别取得了69.08%和81.77%的Pass@1成绩,较最优的智能体基线方法分别提升了9.49和2.17个百分点。此外,本研究是首个在仓库级上下文背景下探索测试驱动代码生成的工作,系统考察了测试套件不同特性对LLM智能体在TDD环境下性能的影响。


67. UniMIC: Token-Based Multimodal Interactive Coding for Human-AI

Collaboration

作者: Qi Mao, Tinghan Yang, Jiahao Li, Bin Li, Libiao Jin, Yan Lu

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-26 | 👍 点赞数: 3

摘要:

论文标题:UniMIC:基于令牌的多模态交互式编码用于人机协同

中文摘要:
大型多模态模型(LMMs)与基于云的AI智能体的快速发展,正在将人机协作转变为双向、多模态的交互模式。 然而,现有的编解码技术仍主要针对单向、单模态通信进行优化,导致在传统的“压缩-传输-重建”流程中出现反复的质量退化。 为解决这一局限,我们提出了UniMIC一种基于令牌的统一多模态交互式编码框架,旨在连接边缘设备与云端AI智能体。 UniMIC不直接传输原始像素或纯文本,而是采用紧凑的令牌化表示作为通信媒介,在保持与大型多模态模型兼容性的同时,实现高效低比特率传输。 为进一步提升压缩效率,UniMIC设计了轻量级基于Transformer的熵模型,并针对不同场景提出三种特定结构:通用型、掩码型和文本条件型,有效减少了令牌间的冗余信息。 在文本生成图像、文本引导的图像修复(inpainting)、扩展(outpainting)以及视觉问答等任务上的大量实验表明,UniMIC显著降低了传输比特率,即使在极低比特率(<0.05 bpp)下仍保持稳健性能,且不影响下游任务效果。 这些结果确立了UniMIC作为下一代多模态交互通信的一种实用且具有前瞻性的范式。


68. Cogito, Ergo Ludo: An Agent that Learns to Play by Reasoning and

Planning

作者: Sai Wang, Yu Wu, Zhongwen Xu

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-29 | 👍 点赞数: 2

摘要:

论文标题:我思,故我玩:一种通过推理与规划学习游戏的智能体

中文摘要:
构建能够通过学习掌握复杂环境的人工智能体一直是研究热点,并已取得显著成果。然而,当前主流的深度强化学习方法通常依赖海量交互经验,并将知识隐式地编码于神经网络权重之中。本文提出了一种不同的范式——让智能体通过推理与规划来学习游戏。我们提出了“Cogito, ergo ludo”(CEL),这是一种新颖的智能体架构,利用大语言模型(LLM)建立对环境机制及自身策略的显式、基于语言的理解。CEL从零开始(tabula rasa),除可执行的动作集合外不依赖任何先验知识,通过“交互—反思”循环进行学习。在每次任务结束后,该智能体会分析其完整的轨迹,同步进行两项学习过程:一是规则归纳(Rule Induction),即不断优化其对环境动态的显式模型;二是策略与战术手册总结(Strategy and Playbook Summarization),即将经验提炼为可操作的战略指南。我们在多种网格世界任务(如扫雷、冰冻湖面和推箱子)上对CEL进行了评估,结果表明,该智能体能够自主发现游戏规则并从稀疏奖励中发展出有效的策略,成功掌握这些游戏。消融实验验证了这种迭代学习机制对于持续提升性能至关重要。本研究展示了一条通往更通用且可解释性强的智能体的发展路径:这类智能体不仅能有效决策,还能通过对原始经验的显式推理,构建一个透明且不断改进的世界模型。


69. Learning Goal-Oriented Language-Guided Navigation with Self-Improving

Demonstrations at Scale

作者: Songze Li, Zun Wang, Gengze Zhou, Jialu Li, Xiangyu Zeng, Limin Wang, Yu Qiao, Qi Wu, Mohit Bansal, Yi Wang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-29 | 👍 点赞数: 2

摘要:

论文标题:基于大规模自提升演示的面向目标的语言导航学习

中文摘要:
面向目标的语言导航要求智能体具备强大的探索能力,以便在未知环境中导航至指定目标,而无需依赖逐步指令。现有方法通常仅使用最短路径轨迹进行训练,缺乏有效的探索先验来提升导航智能体的性能。为应对上述挑战,我们提出了SID(Self-Improving Demonstrations,自提升演示)方法——一种结合自提升演示的面向目标语言导航学习框架。具体而言,SID首先在从环境中采样的最短路径数据上训练初始智能体,然后利用该智能体生成新的探索轨迹。这些新生成的 rollout 轨迹提供了更具探索性的示范数据,用于训练更优的智能体;而更新后的智能体又能为下一轮训练生成质量更高的示范。我们证明,这种迭代式自提升流程可有效扩展到新环境中,且所生成的示范可迁移到多种语言导航任务中,显著提升了各类面向目标导航任务的性能上限。大量实验表明,SID显著增强了导航智能体的探索能力和泛化性能。最终得到的智能体在多个面向目标的语言导航任务(如REVERIE、SOON)上达到了新的最先进水平,尤其在SOON数据集的未见验证集上取得了50.9%的成功率,超越此前最优方法达13.9个百分点。


70. ThermalGen: Style-Disentangled Flow-Based Generative Models for

RGB-to-Thermal Image Translation

作者: Jiuhong Xiao, Roshan Nayak, Ning Zhang, Daniel Tortei, Giuseppe Loianno

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-29 | 👍 点赞数: 2

摘要:

论文标题:ThermalGen:基于流的风格解耦生成模型用于RGB到热成像图像转换

中文摘要:
配对的RGB-热成像数据对于视觉-热传感器融合及跨模态任务至关重要,涵盖多模态图像配准与检索等重要应用。然而,同步且标定良好的RGB-热成像图像对的稀缺性,严重制约了这些领域的发展。为应对这一挑战,RGB到热成像(RGB-T)图像转换技术应运而生,成为一种有前景的解决方案,能够利用丰富的RGB数据集合成热成像图像,从而支持模型训练。在本研究中,我们提出了ThermalGen——一种基于流的自适应生成模型,用于RGB-T图像转换,该模型引入了RGB图像条件化架构以及风格解耦机制。为了支持大规模训练,我们整理了八个公开的卫星-航空、航空和地面RGB-T配对数据集,并发布了三个新的大规模卫星-航空RGB-T数据集——DJI-day、Bosonplus-day 和 Bosonplus-night,这些数据集在不同时间段、传感器类型和地理区域下采集,具有广泛的多样性。在多个RGB-T基准上的大量实验表明,ThermalGen在图像转换性能上达到或优于现有的基于生成对抗网络(GAN)和扩散模型的方法。据我们所知,ThermalGen是首个能够合成反映显著视角变化、传感器特性和环境条件差异的热成像图像的RGB-T转换模型。项目主页:http://xjh19971.github.io/ThermalGen


71. RHYTHM: Reasoning with Hierarchical Temporal Tokenization for Human

Mobility

作者: Haoyu He, Haozheng Luo, Yan Chen, Qi R. Wang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-27 | 👍 点赞数: 2

摘要:

论文标题:RHYTHM:基于分层时间标记化的人类移动性推理

中文摘要:
由于人类移动行为存在复杂长距离依赖性和多尺度周期性模式,预测人类移动轨迹具有固有的挑战性。为此,我们提出了RHYTHM(Reasoning with Hierarchical Temporal Tokenization for Human Mobility),这是一个统一的框架,利用大语言模型(LLMs)作为通用的时空预测器和轨迹推理器。在方法上,RHYTHM采用时间标记化(temporal tokenization)技术,将每条轨迹划分为按日划分的片段,并通过分层注意力机制将其编码为离散标记,从而同时捕捉日级和周级的依赖关系,在显著降低序列长度的同时保留了周期性信息。此外,我们通过一个冻结的大语言模型预计算轨迹片段和预测目标的提示嵌入(prompt embeddings),并将其与原始标记结合后重新输入LLM主干网络,以增强标记表征并捕获复杂的相互依赖关系。在计算层面,RHYTHM冻结预训练LLM的主干网络,以降低注意力计算复杂度和内存开销。我们在三个真实世界数据集上将该模型与当前最先进的方法进行了比较。实验结果表明,RHYTHM在整体准确率上提升了2.4%,在周末预测准确率上提高了5.0%,同时训练时间减少了24.6%。代码已公开发布于 https://github.com/he-h/rhythm。


72. REMA: A Unified Reasoning Manifold Framework for Interpreting Large

Language Model

作者: Bo Li, Guanzhi Deng, Ronghao Chen, Junrong Yue, Shuo Zhang, Qinghua Zhao, Linqi Song, Lijie Wen

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-26 | 👍 点赞数: 2

摘要:

论文标题:REMA:一种用于解释大语言模型的统一推理流形框架

中文摘要:
理解大语言模型(Large Language Models, LLMs)如何执行复杂推理及其失败机制,是可解释性研究中的一项挑战。为了提供一种可量化的几何分析视角,本文提出了“推理流形”(Reasoning Manifold)的概念,即由所有正确推理生成结果所对应内部表征构成的一种潜在低维几何结构。该结构可被视为模型为成功完成特定任务而学习到的有效思维路径的具体体现。基于这一概念,我们构建了REMA框架,通过定量比较错误与正确推理样本在模型内部表征空间中的几何关系,揭示推理失败的根源。具体而言,REMA首先通过计算每个错误表征相对于由正确表征构建的近似流形的k近邻距离,来量化其几何偏差,从而提供一个统一的失败信号;随后,通过追踪该偏差指标在模型各层的变化,并与正确推理样本内部波动的基线进行对比,定位此类偏差首次显著出现的分歧点,进而识别推理链何时开始偏离正轨。我们在多种语言与多模态模型及任务上进行了广泛实验,结果验证了推理流形的低维特性以及错误与正确推理表征之间的高可分性,同时也证明了REMA框架在分析推理失败源头方面的有效性。本研究将抽象的推理失败现象与表征空间中可测量的几何偏差联系起来,为深入理解与诊断黑箱模型内部计算过程提供了新的途径。


73. Combinatorial Creativity: A New Frontier in Generalization Abilities

作者: Samuel Schapiro, Sumuk Shashidhar, Alexi Gladstone, Jonah Black, Royce Moon, Dilek Hakkani-Tur, Lav R. Varshney

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-25 | 👍 点赞数: 2

摘要:

论文标题:组合式创造性:泛化能力的新前沿

中文摘要:
人工智能(AI)系统,尤其是大语言模型(Large Language Models, LLMs),正越来越多地被用于科学创意生成等创造性任务,这类能力体现了一种从训练数据中进行泛化的形式,而现有概念框架尚未对此充分探讨。尽管这种能力与组合泛化(compositional generalization, CG)具有相似性,但组合式创造性(combinatorial creativity, CC)本质上是一种开放性的能力。与其针对固定目标评估输出的准确性或正确性——这将违背CC的开放性本质——我们提出了一种理论框架和算法化任务,通过生成结果的新颖性(novelty)和实用性(utility)程度来对其进行评估。在此基础上,我们做出了若干重要的实证贡献:(1)首次揭示了LLMs在创造性能力方面的规模扩展规律;(2)发现对于固定的计算资源预算,存在最优的模型深度与宽度以最大化创造性表现;(3)我们发现,“构想-执行鸿沟”(ideation-execution gap)——即LLMs擅长生成新颖的科学构想,但在确保其实际可行性方面表现不佳——可能源于创造力算法普遍存在的更基本的新颖性与实用性之间的权衡(tradeoff)。尤为重要的是,这种权衡即使在模型规模扩大时依然持续存在,这对我们当前形式下LLMs长期创造性潜力提出了质疑。综上所述,我们的理论框架与实证发现为理解并提升现代AI模型的创造性奠定了基础,有助于弥合人类智能与机器智能之间的差距。


Decrees and Notifications

作者: Andrés Fernández García, Javier de la Rosa, Julio Gonzalo, Roser Morante, Enrique Amigó, Alejandro Benito-Santos, Jorge Carrillo-de-Albornoz, Víctor Fresno, Adrian Ghajari, Guillermo Marco, Laura Plaza, Eva Sánchez Salido

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-29 | 👍 点赞数: 1

摘要:

论文标题:BOE-XSUM:西班牙法律法令与通知的极简清晰语言摘要

中文摘要:
由于信息过载,简洁地总结长篇文档的能力在日常生活中日益重要。然而,目前普遍缺乏针对西班牙语文档的此类摘要,尤其是在法律领域。本文提出了 BOE-XSUM,这是一个精心整理的数据集,包含 3,648 条来自西班牙《国家官方公报》(Boletín Oficial del Estado, BOE)文件的简明、通俗语言摘要。数据集中的每条记录均包含一个简短摘要、原始文本以及对应的文档类型标签。我们评估了在 BOE-XSUM 上微调过的中等规模大语言模型(LLMs)的表现,并将其与零样本设置下的通用生成式模型进行比较。结果表明,经过微调的模型显著优于未经专业训练的对应模型。其中表现最佳的模型——BERTIN GPT-J 6B(32 位精度)——相较于最优的零样本模型 DeepSeek-R1 实现了 24% 的性能提升(准确率分别为 41.6% 和 33.5%)。


75. BPMN Assistant: An LLM-Based Approach to Business Process Modeling

作者: Josip Tomo Licardo, Nikola Tankovic, Darko Etinger

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-29 | 👍 点赞数: 1

摘要:

论文标题:BPMN助手:一种基于大语言模型的业务流程建模方法

中文摘要:
本文提出了BPMN Assistant(BPMN助手),一种利用大语言模型(LLMs)通过自然语言进行BPMN图创建与编辑的工具。为提高流程修改的准确性,本文引入了一种基于JSON的专用表示方法,作为直接处理XML格式的结构化替代方案。在流程生成质量评估方面,采用了图编辑距离(Graph Edit Distance, GED)和相对图编辑距离(Relative Graph Edit Distance, RGED)作为指标;而在编辑性能方面,则采用二元成功度量进行评估。实验结果表明,在流程生成任务中,JSON与XML方法的相似性得分相近,但JSON在可靠性、处理速度以及编辑成功率方面表现更优,显著提升了编辑操作的成功率。本文还讨论了关键的权衡因素、局限性以及未来的改进方向。该工具的实现代码可在 https://github.com/jtlicardo/bpmn-assistant 获取。


76. Detecting Corpus-Level Knowledge Inconsistencies in Wikipedia with Large

Language Models

作者: Sina J. Semnani, Jirayu Burapacheep, Arpandeep Khatua, Thanawan Atchariyachanvanit, Zheng Wang, Monica S. Lam

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-27 | 👍 点赞数: 1

摘要:

论文标题:利用大语言模型检测维基百科语料库级别的知识不一致性

中文摘要:
维基百科是全球使用最广泛的开放知识语料库,也是训练大语言模型(LLMs)和检索增强生成(RAG)系统的关键资源。因此,确保其准确性至关重要。但维基百科究竟有多准确?我们又该如何改进它?本文聚焦于“不一致性”这一特定类型的事实错误,提出“语料库级别不一致性检测”这一新任务。我们提出了CLAIRE——一种结合大语言模型推理与检索能力的智能代理系统,能够发现潜在的知识不一致陈述,并提供上下文证据以供人工审核。在针对资深维基百科编辑开展的用户研究中,87.5%的参与者表示使用CLAIRE后判断信心更高,且在相同时间内识别出的不一致性数量增加了64.7%。

结合CLAIRE与人工标注,我们构建了WIKICOLLIDE——首个真实维基百科知识不一致性的基准数据集。通过CLAIRE辅助的随机抽样分析,我们发现至少3.3%的英文维基百科事实与其他事实存在矛盾;这些不一致性进一步传播至7.3%的FEVEROUS样本和4.0%的AmbigQA样本中。在此数据集上评估多个强基线方法的结果表明,当前仍有较大提升空间:表现最佳的全自动化系统的AUROC仅为75.1%。

我们的研究结果表明,矛盾现象是维基百科中可量化的组成部分,而CLAIRE等基于大语言模型的系统可为编辑者提供实用工具,从而大规模提升知识的一致性。


77. ADAM: A Diverse Archive of Mankind for Evaluating and Enhancing LLMs in

Biographical Reasoning

作者: Jasin Cekinmez, Omid Ghahroodi, Saad Fowad Chandle, Dhiman Gupta, Ehsaneddin Asgari

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-26 | 👍 点赞数: 1

摘要:

论文标题:ADAM:用于评估与增强大语言模型在传记推理能力方面的人类多样性档案

中文摘要:
本文提出ADAM(A Diverse Archive of Mankind,人类多样性档案),一个用于评估和提升多模态大语言模型(MLLMs)在传记推理任务中表现的框架。据我们所知,这是首个系统性考察大语言模型在传记领域——这一至关重要但尚未充分探索的事实性知识维度——能力的研究工作。ADAM的核心包括AdamDB和AdamBench:前者是一个涵盖全球地理、历史时期和职业领域的多语言、多模态数据集,包含超过400万个人物的信息;后者则基于布鲁姆认知分类学(Bloom's taxonomy),构建了认知结构化的评估体系,覆盖英语及各人物母语环境下的六个推理层级。为应对模型在面对知名度较低人物时易产生幻觉的问题,我们提出了AdamRAG,一种专为传记场景定制的检索增强生成系统。实验结果表明,AdamRAG显著提升了开源模型的表现,并对闭源模型也有一定改善,尤其在低阶推理任务上增益最为明显。人物知名度对模型准确性具有显著调节作用,而通过人脸图像引入的多模态输入所带来的性能提升相对较小且不够稳定。ADAM建立了首个融合认知层次、文化多样性和多模态特征的传记评估基准与框架,推动了多语言、高准确率、抗幻觉的多模态大语言模型的发展。


78. The Photographer Eye: Teaching Multimodal Large Language Models to See

and Critique like Photographers

作者: Daiqing Qi, Handong Zhao, Jing Shi, Simon Jenni, Yifei Fan, Franck Dernoncourt, Scott Cohen, Sheng Li

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-23 | 👍 点赞数: 1

摘要:

论文标题:摄影师之眼:教会多模态大语言模型像摄影师一样观察与评判

中文摘要:
摄影师在直接从现实生活中进行创作时,常常难以同时关注“蓝色”与“天空”。摄影师兼策展人斯扎尔科夫斯基(Szarkowski)深刻指出了一般性视觉理解与审美性视觉理解之间的一个显著差异:前者侧重于识别图像中的事实元素(如“天空”),而后者则超越了这种物体识别,将其视为一种美学构成要素——一个纯粹的色块(“蓝色”)。这种一般性视觉理解(如检测、定位等)与审美性视觉理解(如色彩、光影、构图等)之间的根本区别,为多模态大语言模型(MLLMs)带来了重大挑战。尽管近期一些研究进行了初步探索,但它们通常局限于一般性或基础的审美常识,因此在需要广泛专业知识的真实场景中(见图1)往往表现不足——这些场景要求具备摄影技术、拍摄前后处理知识等专业能力,才能进行细致的分析与描述。为了从根本上提升MLLMs对审美的理解能力,我们首先提出一个全新的数据集PhotoCritique,该数据集源自专业摄影师和摄影爱好者的大量讨论,具有规模大、专业性强、多样性丰富的特点。接着,为了更好地从PhotoCritique中学习视觉美学,我们进一步提出了一种新模型PhotoEye,其核心是一种语言引导的多视角视觉融合机制,能够从多个维度理解图像的美学特征。最后,我们构建了一个全新的评测基准PhotoBench,这是一个面向审美视觉理解的全面且专业的评估平台。在现有基准以及PhotoBench上的实验结果表明,我们的模型显著优于当前主流模型。


79. TR2-D2: Tree Search Guided Trajectory-Aware Fine-Tuning for Discrete

Diffusion

作者: Sophia Tang, Yuchen Zhu, Molei Tao, Pranam Chatterjee

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-29

摘要:

论文标题:TR2-D2:基于树搜索引导的轨迹感知离散扩散模型微调方法

中文摘要:
结合随机最优控制的强化学习为扩散模型微调提供了一个有前景的框架,该框架通过优化预训练的扩散模型,使其生成趋向于高奖励分布的路径。尽管这类方法无需显式获取最优分布的样本即可进行优化,但它们依赖于当前微调模型下的 rollout 进行训练,因而容易强化那些导致低奖励的次优轨迹。为解决这一问题,我们提出了“树搜索引导的轨迹感知离散扩散微调”(TR2-D2),这是一种新颖的框架,利用树搜索优化奖励引导下的离散扩散轨迹,并构建用于轨迹感知微调的回放缓冲区。该缓冲区通过蒙特卡洛树搜索(MCTS)生成,随后用于在随机最优控制目标下微调预训练的离散扩散模型。我们在生物序列扩散模型的单目标与多目标微调任务上验证了该框架的有效性,结果表明 TR2-D2 在离散序列生成中实现了可靠且高效的奖励引导微调。


80. Generalized Correctness Models: Learning Calibrated and Model-Agnostic

Correctness Predictors from Historical Patterns

作者: Hanqi Xiao, Vaidehi Patil, Hyunji Lee, Elias Stengel-Eskin, Mohit Bansal

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-29

摘要:

论文标题:广义正确性模型:从历史模式中学习校准且与模型无关的正确性预测器

中文摘要:
生成准确且经过良好校准的置信度估计,对于在高风险或面向用户的应用中部署大语言模型(LLMs)至关重要,但这一问题仍属开放挑战。以往研究通常将置信度视为激发模型“自我认知”能力的问题,即大语言模型判断自身输出答案是否正确的本领;这种思路隐含地假设了模型自身能够访问到关于答案正确性的某种特权信息。然而,我们的实验表明,一个大语言模型在预测自身输出正确性时的表现,通常并不优于另一个无关的模型。此外,我们提出假设:构建“正确性模型”(Correctness Model, CM)的关键因素在于接触目标模型的历史预测记录。为此,我们提出了多种方法来注入此类历史正确性信息,从而构建出“广义正确性模型”(Generalized Correctness Model, GCM)。我们首先证明,GCM 可以基于多个大语言模型的正确性数据进行训练,并学习到适用于不同数据集和模型的通用正确性预测模式。接着,我们利用 CM 作为分析工具,系统控制其训练数据,探究正确性预测能力的来源及其泛化特性,发现答案的表述方式是预测正确性的一个强信号。进一步地,我们探索了无需训练大语言模型即可注入历史信息的替代方法,发现将历史记录作为上下文示例纳入输入可以提升正确性预测性能,而事后校准(post-hoc calibration)则能进一步降低校准误差。我们在五个模型家族以及 MMLU 和 TriviaQA 数据集上,基于 Qwen3-8B 对 GCM 进行了评估,并将其应用于下游的选择性预测任务。结果表明,可靠的大语言模型置信度估计是一种可通过系统编码正确性历史而习得的、可泛化的、与具体模型无关的能力,而非依赖于模型自我内省的特定技能。


81. Charting a Decade of Computational Linguistics in Italy: The CLiC-it

Corpus

作者: Chiara Alzetta, Serena Auriemma, Alessandro Bondielli, Luca Dini, Chiara Fazzone, Alessio Miaschi, Martina Miliani, Marta Sartor

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-23

摘要:

论文标题:意大利计算语言学十年发展图景:CLiC-it语料库

中文摘要: 在过去十年中,计算语言学(CL)和自然语言处理(NLP)领域发展迅速,尤其是随着基于Transformer的大语言模型(LLMs)的出现,研究目标和重点已从词汇与语义资源转向语言建模和多模态研究。在本研究中,我们通过分析CLiC-it会议的论文贡献,追踪了意大利计算语言学与自然语言处理领域的研究趋势。CLiC-it被公认为该领域内意大利最重要的学术会议。我们将CLiC-it会议前10届(2014年至2024年)的会议论文集整理为“CLiC-it语料库”,并对其中的元数据(包括作者来源、性别、所属机构等)以及论文内容本身进行了全面分析,涵盖多个研究主题。本研究旨在为意大利及国际学术界提供关于该领域随时间演变的新兴趋势与关键进展的深入洞察,助力研究决策并指引未来发展方向。


82. Advancing Reference-free Evaluation of Video Captions with Factual

Analysis

作者: Shubhashis Roy Dipta, Tz-Ying Wu, Subarna Tripathi

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-20

摘要:

论文标题:通过事实分析推进无参考视频描述评价

中文摘要:
视频描述通过对视频中的人物、物体和动作提供简洁的概述,在问答和事件定位等应用中具有重要价值。然而,获取视频描述的人工标注成本高昂,甚至在某些情况下难以实现,尤其是在面对多样化的视频领域时。现有基于监督数据集训练的模型在跨领域性能评估方面面临挑战,因其依赖需要真实描述(ground truth captions)的基于参考的评估协议。这一假设在对真实场景中的视频进行评估时往往不切实际。为克服这些局限,本文提出一种无需真实描述的无参考评估框架,聚焦于事实性支撑,以确保对描述质量进行准确评估。我们提出了VC-Inspector——一种新颖的、无需参考且基于事实的描述质量评估模型。该方法利用大语言模型,基于监督数据生成不同质量水平的伪描述,并以此训练一个多模态模型(即Qwen2.5-VL)作为评估器。在VATEX-Eval数据集上的实验表明,我们的方法在与人类判断的一致性方面显著优于现有方法。此外,当将图像视为单帧视频时,该方法在图像描述数据集Flickr8K-Expert和Flickr8K-CF上也展现出良好的泛化能力。总体而言,VC-Inspector为评估视频描述的事实准确性提供了一种可扩展且具有良好泛化性的解决方案,为多样化视频领域的更有效、更客观的评估方法奠定了基础。