Skip to main content
目录

每日论文 - 2025年09月23日

论文总数: 41

1. Qwen3-Omni Technical Report

作者: Jin Xu, Zhifang Guo, Hangrui Hu, Yunfei Chu, Xiong Wang, Jinzheng He, Yuxuan Wang, Xian Shi, Ting He, Xinfa Zhu, Yuanjun Lv, Yongqi Wang, Dake Guo, He Wang, Linhan Ma, Pei Zhang, Xinyu Zhang, Hongkun Hao, Zishan Guo, Baosong Yang, Bin Zhang, Ziyang Ma, Xipin Wei, Shuai Bai, Keqin Chen, Xuejing Liu, Peng Wang, Mingkun Yang, Dayiheng Liu, Xingzhang Ren, Bo Zheng, Rui Men, Fan Zhou, Bowen Yu, Jianxin Yang, Le Yu, Jingren Zhou, Junyang Lin

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-22 | 👍 点赞数: 115

摘要:

我们推出了Qwen3-Omni,这是首个在文本、图像、音频和视频模态上均保持最先进性能的单一多模态模型,且相较于单模态模型没有任何性能损失。Qwen3-Omni在Qwen系列中与同规模的单模态模型性能相当,并在音频任务上表现尤为突出。在36项音频及音视频基准测试中,Qwen3-Omni在32项上达到了开源领域的最先进水平(SOTA),在22项上实现了整体最先进水平,超越了Gemini-2.5-Pro、Seed-ASR和GPT-4o-Transcribe等强大的闭源模型。

Qwen3-Omni采用“思考-表达”混合专家架构(Thinker-Talker MoE),统一了文本、图像、音频和视频的感知与生成能力,能够输出流畅的文本和自然的实时语音。该模型支持119种语言的文本交互、19种语言的语音理解以及10种语言的语音生成。为了降低流式合成中的首包延迟,Talker模块采用多码本方案自回归地预测离散语音编解码单元。借助这些码本的表征能力,我们用轻量级因果卷积网络(causal ConvNet)替代了计算密集的分块扩散模型,从而实现从第一个语音码本帧开始即可流式输出。在冷启动场景下,Qwen3-Omni的理论端到端首包延迟低至234毫秒。

为进一步增强多模态推理能力,我们引入了一个“思考”模型(Thinking model),可对任意模态输入进行显式推理。鉴于当前研究社区缺乏通用的音频描述生成模型,我们对Qwen3-Omni-30B-A3B进行了微调,得到了Qwen3-Omni-30B-A3B-Captioner,该模型能够为任意音频输入生成详细且幻觉较少的描述文本。

Qwen3-Omni-30B-A3B、Qwen3-Omni-30B-A3B-Thinking 和 Qwen3-Omni-30B-A3B-Captioner 均已根据 Apache 2.0 许可证公开发布。


2. LIMI: Less is More for Agency

作者: Yang Xiao, Mohan Jiang, Jie Sun, Keyu Li, Jifan Lin, Yumin Zhuang, Ji Zeng, Shijie Xia, Qishuo Hua, Xuefeng Li, Xiaojie Cai, Tongyu Wang, Yue Zhang, Liming Liu, Xia Wu, Jinlong Hou, Yuan Cheng, Wenjie Li, Xiang Wang, Dequan Wang, Pengfei Liu

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-22 | 👍 点赞数: 91

摘要:

论文标题:LIMI:越少越好,赋能智能体自主性

中文摘要:
我们将“自主性”(Agency)定义为人工智能系统的一种涌现能力,即作为自主智能体,能够主动发现难题、提出假设,并通过与环境和工具的自我驱动式交互来执行解决方案。这一基础性能力标志着“人工智能自主时代”的到来,其背后是产业界的一个关键转变:迫切需要不仅能“思考”,更能“做事”的人工智能系统。尽管当前的人工智能在推理和生成回应方面表现出色,但各行业更亟需能够执行任务、操作工具并推动现实世界成果的自主智能体。随着“智能体式智能”成为区分认知系统与生产型工作者的核心特征,高效培育机器自主性变得至关重要。

目前的主流方法沿用语言建模中的传统扩展规律,认为数据越多,自主性越强。我们从根本上挑战了这一范式。本文提出的LIMI(“越少越好,赋能智能体自主性”,Less Is More for Intelligent Agency)表明,自主性的成长遵循截然不同的发展原则。通过聚焦协作式软件开发与科学研宄工作流,我们证明:复杂而高级的智能体行为,可以从数量极少但经过战略性筛选的自主行为示范中涌现。仅使用78个精心设计的训练样本,LIMI在综合性自主性基准测试中达到了73.5%的表现,显著超越了当前最先进的模型:Kimi-K2-Instruct(24.1%)、DeepSeek-V3.1(11.9%)、Qwen3-235B-A22B-Instruct(27.5%)以及GLM-4.5(45.1%)。尤为引人注目的是,LIMI相比在10,000个样本上训练的模型提升了53.7%——仅用不到其1/128的样本量,便实现了更优越的智能体能力。

我们的研究确立了“自主性效率原则”:机器自主性的涌现并非源于数据的海量堆积,而是来自对高质量智能体行为示范的战略性精选与构建。


3. OmniInsert: Mask-Free Video Insertion of Any Reference via Diffusion

Transformer Models

作者: Jinshu Chen, Xinghui Li, Xu Bai, Tianxiang Ma, Pengze Zhang, Zhuowei Chen, Gen Li, Lijie Liu, Songtao Zhao, Bingchuan Li, Qian He

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-22 | 👍 点赞数: 63

摘要:

论文标题:OmniInsert:基于扩散Transformer模型的免掩码任意参考视频插入

中文摘要:
近年来,基于扩散模型的视频插入技术取得了显著进展。然而,现有方法依赖复杂的控制信号,却在主体一致性方面表现不佳,限制了其实际应用。本文聚焦于免掩码视频插入任务,旨在解决三个关键挑战:数据稀缺性、主体与场景的平衡性,以及插入内容的和谐性。为应对数据稀缺问题,我们提出了一种新的数据构建流程InsertPipe,可自动构建多样化的跨配对数据。基于该数据流程,我们开发了OmniInsert——一种新颖的统一框架,支持从单个或多个参考主体中进行免掩码视频插入。具体而言,为保持主体与场景之间的平衡,我们引入了一种简单而有效的“条件特异性特征注入”机制,以区分并注入多源条件信息,并提出一种新的渐进式训练策略,使模型能够平衡来自主体和源视频的特征注入。同时,我们设计了“主体聚焦损失”(Subject-Focused Loss),以提升主体细节的呈现质量。为进一步增强插入内容的和谐性,我们提出了“插入偏好优化”方法,通过模拟人类偏好来优化模型,并在参考过程中引入“上下文感知重表述”(Context-Aware Rephraser)模块,实现主体与原始场景的无缝融合。针对该领域缺乏标准评测基准的问题,我们构建了InsertBench——一个包含多样化场景和精心挑选主体的综合性评测基准。在InsertBench上的实验表明,OmniInsert优于当前最先进的闭源商业方案。代码将公开发布。


4. OnePiece: Bringing Context Engineering and Reasoning to Industrial

Cascade Ranking System

作者: Sunhao Dai, Jiakai Tang, Jiahua Wu, Kun Wang, Yuxuan Zhu, Bingjun Chen, Bangyang Hong, Yu Zhao, Cong Fu, Kangle Wu, Yabo Ni, Anxiang Zeng, Wenjie Wang, Xu Chen, Jun Xu, See-Kiong Ng

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-22 | 👍 点赞数: 32

摘要:

论文标题:OnePiece:将上下文工程与推理引入工业级级联排序系统

中文摘要:
尽管在工业搜索与推荐系统中复制大规模语言模型(LLMs)成功应用的兴趣日益增长,但目前大多数工业实践仍局限于移植Transformer架构,其相较于强大的深度学习推荐模型(DLRMs)仅带来有限的性能提升。从第一性原理出发,LLMs的突破不仅源于其模型架构,更得益于两种相辅相成的机制:上下文工程(context engineering),即通过上下文线索丰富原始输入查询,以更好地激发模型能力;以及多步推理(multi-step reasoning),即通过中间推理路径迭代优化模型输出。然而,这两种机制及其在工业排序系统中释放显著性能提升的潜力,至今仍未被充分探索。

本文提出OnePiece,一种统一框架,能够将LLM风格的上下文工程与推理机制无缝集成到工业级级联检索-排序系统的检索与排序模型中。OnePiece基于纯Transformer架构构建,并进一步引入三项关键技术创新:(1)结构化上下文工程,通过融合用户交互历史中的偏好信号与场景信号,并将其统一编码为结构化的、可分词的输入序列,用于检索与排序阶段;(2)块状隐式推理(block-wise latent reasoning),赋予模型多步表征优化能力,并通过调整块大小来扩展推理带宽;(3)渐进式多任务训练,利用用户反馈链对训练过程中的推理步骤进行有效监督。OnePiece已部署于Shopee主站个性化搜索场景,持续在多个关键业务指标上取得在线正向收益,包括每用户GMV提升超过+2%,广告收入增长+2.90%。


5. ARE: Scaling Up Agent Environments and Evaluations

作者: Pierre Andrews, Amine Benhalloum, Gerard Moreno-Torres Bertran, Matteo Bettini, Amar Budhiraja, Ricardo Silveira Cabral, Virginie Do, Romain Froger, Emilien Garreau, Jean-Baptiste Gaya, Hugo Laurençon, Maxime Lecanu, Kunal Malkan, Dheeraj Mekala, Pierre Ménard, Grégoire Mialon, Ulyana Piterbarg, Mikhail Plekhanov, Mathieu Rita, Andrey Rusakov, Thomas Scialom, Vladislav Vorotilov, Mengjue Wang, Ian Yu

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-21 | 👍 点赞数: 29

摘要:

论文标题:ARE:扩展智能体环境与评估

中文摘要:
我们提出Meta Agents Research Environments(ARE),这是一个用于可扩展地构建环境、集成合成或真实应用程序以及执行智能体协同操作的研究平台。ARE 提供了简洁的抽象机制,用于构建复杂且多样化的环境,每个环境均可拥有独立的规则、工具、内容和验证器,有助于弥合模型开发与实际部署之间的鸿沟。我们还提出了 Gaia2,一个在 ARE 中构建的基准测试,旨在衡量智能体的通用能力。Gaia2 不仅要求智能体具备搜索与执行能力,还需应对模糊性与噪声、适应动态环境、与其他智能体协作,并在时间约束下运行。与以往的基准不同,Gaia2 以异步方式运行,揭示了在静态设置中无法察觉的新类型失败模式。我们的实验表明,在智能谱系中尚无系统能够全面占优:更强的推理能力往往以效率为代价,而随着预算增加,性能提升曲线趋于平缓,凸显出对新型架构和自适应计算策略的需求。更为重要的是,ARE 的抽象设计使得 Gaia2 能够持续扩展至其他环境,使研究社区能够快速创建针对特定领域的新型基准。在人工智能发展的下半场,进步将 increasingly 取决于定义有意义的任务和构建稳健的评估体系,以推动前沿能力的持续发展。


6. TempSamp-R1: Effective Temporal Sampling with Reinforcement Fine-Tuning

for Video LLMs

作者: Yunheng Li, Jing Cheng, Shaoyong Jia, Hangyi Kuang, Shaohui Jiao, Qibin Hou, Ming-Ming Cheng

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-22 | 👍 点赞数: 26

摘要:

论文标题:TempSamp-R1:基于强化微调的有效时间采样方法用于视频大语言模型

中文摘要:
本文提出了TempSamp-R1,一种新的强化微调框架,旨在提升多模态大语言模型(MLLMs)在视频时间定位任务中的适应效率。我们发现,现有的强化学习方法(如组相对策略优化GRPO)依赖于on-policy采样进行策略更新。然而,在具有较大时间搜索空间的任务中,该策略效率低下且性能受限,往往难以找到时间上精确的解。为克服这一局限,TempSamp-R1利用真实标注作为off-policy监督信号,提供时间上精准的指导,有效弥补了on-policy解中存在的稀疏性和错位问题。为进一步稳定训练过程并降低基于奖励更新的方差,TempSamp-R1提出了一种非线性的软优势计算方法,通过非对称变换动态调整奖励反馈。此外,通过采用混合的思维链(Chain-of-Thought, CoT)训练范式,TempSamp-R1优化了一个统一的模型,可同时支持CoT与非CoT两种推理模式,从而高效应对不同复杂程度的推理需求。实验结果表明,TempSamp-R1优于基于GRPO的基线方法,在多个基准数据集上实现了新的最先进性能:Charades-STA(R1@0.7:52.9%,+2.7%)、ActivityNet Captions(R1@0.5:56.0%,+5.3%)和QVHighlights(mAP:30.0%,+3.0%)。此外,TempSamp-R1在数据有限的情况下展现出强大的少样本泛化能力。代码地址:https://github.com/HVision-NKU/TempSamp-R1


7. VideoFrom3D: 3D Scene Video Generation via Complementary Image and Video

Diffusion Models

作者: Geonung Kim, Janghyeok Han, Sunghyun Cho

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-22 | 👍 点赞数: 23

摘要:

论文标题:VideoFrom3D:通过互补的图像与视频扩散模型生成三维场景视频

中文摘要:
本文提出VideoFrom3D,一种从粗略几何结构、相机轨迹和参考图像出发生成高质量三维场景视频的新框架。我们的方法简化了三维图形设计流程,支持灵活的设计探索与交付成果的快速生成。一种直接从粗略几何结构生成视频的方法是将视频扩散模型以几何结构为条件进行建模。然而,由于在视觉质量、运动表现和时间一致性之间联合建模的困难,现有视频扩散模型在复杂场景下难以生成高保真结果。为解决这一问题,我们提出了一种利用图像扩散模型与视频扩散模型互补优势的生成框架。具体而言,该框架包含稀疏锚点视图生成(Sparse Anchor-view Generation, SAG)模块和几何引导的生成式中间帧插值(Geometry-guided Generative Inbetweening, GGI)模块。SAG模块借助稀疏外观引导采样(Sparse Appearance-guided Sampling),利用图像扩散模型生成高质量且跨视角一致的锚点视图;GGI模块则在此基础上,通过增强的基于光流的相机控制和结构引导,使用视频扩散模型准确地插值生成中间帧。值得注意的是,这两个模块均无需依赖任何配对的三维场景模型与自然图像数据集——这类数据集极难获取。大量实验表明,我们的方法在多种多样且具有挑战性的场景下均能生成高质量、风格一致的场景视频,性能优于简单的以及扩展后的基线方法。


8. SWE-Bench Pro: Can AI Agents Solve Long-Horizon Software Engineering

Tasks?

作者: Xiang Deng, Jeff Da, Edwin Pan, Yannis Yiming He, Charles Ide, Kanak Garg, Niklas Lauffer, Andrew Park, Nitin Pasari, Chetan Rane, Karmini Sampath, Maya Krishnan, Srivatsa Kundurthy, Sean Hendryx, Zifan Wang, Chen Bo Calvin Zhang, Noah Jacobson, Bing Liu, Brad Kenstler

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-21 | 👍 点赞数: 19

摘要:

论文标题:SWE-Bench Pro:AI智能体能否解决长周期的软件工程任务?

中文摘要:
我们提出了SWE-Bench Pro,这是一个更具挑战性的基准测试,它在SWE-BENCH[25]最佳实践的基础上构建,但明确旨在捕捉超出SWE-BENCH范围的真实、复杂的企业级软件工程问题。SWE-Bench Pro包含1,865个问题,来源于41个持续维护的多样化代码仓库,涵盖商业应用、企业级服务(B2B)和开发者工具。该基准被划分为三个部分:一个公开集,包含来自11个开源仓库的问题,可公开访问;一个保留集,包含来自12个仓库的问题;以及一个商业集,包含来自18个专有仓库的问题,我们与早期创业公司就这些仓库建立了正式的合作关系。保留集和商业集中的问题不对外公开,但我们会在商业集上发布评估结果。本基准中的任务具有较长的解决周期,专业软件工程师通常需要数小时乃至数天才能完成,往往涉及跨多个文件的代码修改和大规模的代码重构。所有任务均经过人工验证,并补充了充足的上下文信息,以确保其可解性。在对当前广泛使用的代码生成模型进行评估时,采用统一的代理框架(scaffold),我们发现它们在SWE-Bench Pro上的表现仍低于25%(Pass@1),其中GPT-5目前达到最高分23.3%。为了更深入理解这些模型的局限性,我们对收集到的智能体执行轨迹中的失败模式进行了聚类分析,以更清晰地刻画当前模型的典型错误模式。总体而言,SWE-Bench Pro提供了一个抗数据污染的测试平台,能够更真实地反映现实世界软件开发的复杂性与多样性,推动实现真正具备专业水平的自主式软件工程智能体的研究进程。


9. DiffusionNFT: Online Diffusion Reinforcement with Forward Process

作者: Kaiwen Zheng, Huayu Chen, Haotian Ye, Haoxiang Wang, Qinsheng Zhang, Kai Jiang, Hang Su, Stefano Ermon, Jun Zhu, Ming-Yu Liu

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-19 | 👍 点赞数: 19

摘要:

论文标题:DiffusionNFT:基于前向过程的在线扩散强化学习

中文摘要:
在线强化学习(RL)在语言模型的后训练中发挥了核心作用,但将其扩展到扩散模型仍面临挑战,主要由于似然函数难以处理。近期研究通过对反向采样过程进行离散化,实现了类似GRPO的训练方式,但这些方法继承了若干根本性缺陷,包括求解器限制、前向与反向过程不一致,以及与无分类器引导(CFG)复杂集成的问题。本文提出扩散负感知微调(Diffusion Negative-aware FineTuning, DiffusionNFT),这是一种全新的在线强化学习范式,通过流匹配(flow matching)直接在前向过程中优化扩散模型。DiffusionNFT通过对比正向生成与负向生成结果,定义了一种隐式的策略改进方向,从而将强化信号自然地融入监督学习目标中。该框架支持任意黑箱求解器进行训练,无需进行似然估计,且策略优化仅需干净图像,而无需采样轨迹。在直接对比中,DiffusionNFT的训练效率最高可达FlowGRPO的25倍,且无需使用CFG。例如,在1千步内,DiffusionNFT将GenEval分数从0.24提升至0.98,而FlowGRPO在超过5千步且额外使用CFG的情况下才达到0.95。通过结合多个奖励模型,DiffusionNFT在所有测试基准上均显著提升了SD3.5-Medium模型的性能。


10. EpiCache: Episodic KV Cache Management for Long Conversational Question

Answering

作者: Minsoo Kim, Arnav Kundu, Han-Byul Kim, Richa Dixit, Minsik Cho

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-22 | 👍 点赞数: 18

摘要:

论文标题:EpiCache:面向长对话问答的 episodic KV 缓存管理

中文摘要:
近年来,大语言模型(LLMs)在上下文长度方面的进展使得智能助手能够维护较长的对话历史,从而生成连贯且个性化的回复。然而,这一能力依赖于键值(Key-Value, KV)缓存机制,其内存消耗随对话长度线性增长,在资源受限的情况下迅速成为主要瓶颈。当前降低该开销的一个重要研究方向是KV缓存压缩,旨在限制缓存规模的同时保持模型准确性。然而,现有方法存在两个主要局限:(i)在完成全上下文预填充后才进行条目淘汰,导致峰值内存无界增长;(ii)基于查询的淘汰策略使缓存过度聚焦于单个查询,导致多轮对话中的准确率显著下降。本文提出EpiCache,一种无需训练的KV缓存管理框架,专为固定内存预算下的长对话问答(LongConvQA)任务设计。EpiCache通过分块式预填充控制缓存增长,并借助“情景化KV压缩”(episodic KV compression)保留与主题相关的上下文信息——该方法将对话历史聚类为连贯的情景单元,并针对不同情景实施特定的KV缓存淘汰策略。此外,我们设计了一种自适应的逐层预算分配策略,通过衡量各层对缓存淘汰的敏感度,动态地在不同网络层之间分配内存预算。在三个LongConvQA基准测试上的实验表明,EpiCache相较于近期基线方法最高可提升40%的准确率,在4至6倍压缩比下仍能保持接近完整KV缓存的性能,同时最高可降低2.4倍延迟和3.5倍内存占用,从而在严格资源约束下实现高效的多轮交互。


11. GeoPQA: Bridging the Visual Perception Gap in MLLMs for Geometric

Reasoning

作者: Guizhen Chen, Weiwen Xu, Hao Zhang, Hou Pong Chan, Deli Zhao, Anh Tuan Luu, Yu Rong

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-22 | 👍 点赞数: 17

摘要:

论文标题:GeoPQA:弥合多模态大语言模型在几何推理中的视觉感知差距

中文摘要:
近年来,强化学习(RL)的进展提升了大语言模型(LLMs)的推理能力,但其对多模态大语言模型(MLLMs)的影响仍较为有限。特别是在依赖视觉的任务(如几何推理)中,MLLMs 频繁出现幻觉,导致推理结果不准确。我们认为这源于 MLLMs 中存在的感知瓶颈,限制了推理训练所能带来的收益。为量化这一问题,我们设计了一个面向基本几何概念和空间关系的“几何感知问答”(Geo-Perception Question-Answering, GeoPQA)基准测试。在 GeoPQA 上的实验表明,MLLMs 在视觉感知方面存在显著缺陷,从而制约了强化学习奖励信号的有效性。为解决这一瓶颈,我们提出一种两阶段强化学习训练框架:第一阶段增强模型对几何结构的视觉感知能力,第二阶段再发展其推理能力。在 Qwen2.5-VL-3B-Instruct 模型上的应用结果显示,与直接进行推理训练的方法相比,我们的两阶段训练使几何推理能力提升了 9.7%,几何问题解决能力提升了 9.1%。此外,该方法还能推广至图表理解等其他视觉密集型任务,凸显了感知基础在实现有效 MLLM 推理中的关键作用。


12. ByteWrist: A Parallel Robotic Wrist Enabling Flexible and

Anthropomorphic Motion for Confined Spaces

作者: Jiawen Tian, Liqun Huang, Zhongren Cui, Jingchao Qiao, Jiafeng Xu, Xiao Ma, Zeyu Ren

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-22 | 👍 点赞数: 13

摘要:

论文标题:ByteWrist:一种可实现狭小空间灵活类人运动的并联机器人腕关节

中文摘要:
本文提出了一种新型高灵活性、类人化的并联机器人腕关节——ByteWrist。该设计通过集成弧形末端连杆的紧凑型三级并联驱动机构,克服了现有串联与并联腕关节在狭窄空间操作中的关键局限性。该结构在保持极高紧凑性的同时,实现了精确的RPY(横滚-俯仰-偏航)运动,特别适用于家庭服务、医疗辅助和精密装配等复杂非结构化环境中的机器人操作任务。其主要创新点包括:(1)嵌套式三级电机驱动连杆结构,在减小整体体积的同时实现多自由度的独立控制;(2)弧形末端连杆设计,优化了力传递效率并扩展了运动范围;(3)中心支撑球作为球面关节,显著提升了结构刚度而不牺牲灵活性。同时,本文建立了完整的运动学模型,包括正向/逆向运动学分析,并提出了用于精确控制的数值雅可比矩阵解法。实验结果表明,ByteWrist在狭小空间内的灵巧操作以及双臂协同操作任务中表现出优异性能,优于基于Kinova系统的现有方案。与传统设计相比,ByteWrist在紧凑性、效率和刚度方面均展现出显著提升,成为面向受限环境中下一代机器人操作的一项极具前景的技术解决方案。


13. FlagEval Findings Report: A Preliminary Evaluation of Large Reasoning

Models on Automatically Verifiable Textual and Visual Questions

作者: Bowen Qin, Chen Yue, Fang Yin, Hui Wang, JG Yao, Jiakang Liu, Jing-Shu Zheng, Miguel Hu Chen, Richeng Xuan, Shibei Meng, Shiqi Zhou, Teng Dai, Tong-Shuai Ren, Wei Cui, Xi Yang, Xialin Du, Xiaojing Xu, Xue Sun, Xuejing Li, Yaming Liu, Yesheng Liu, Ying Liu, Yonghua Lin, Yu Zhao, Yunduo Zhang, Yuwen Luo, Zheqi He, Zhiyuan He, Zhongyuan Wang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-21 | 👍 点赞数: 13

摘要:

论文标题:FlagEval 研究报告:基于可自动验证的文本与视觉问题对大推理模型的初步评估

中文摘要:
我们对当前的大推理模型(LRMs)进行了一次中等规模、在一定程度上无数据污染的评估,并得出了一些初步发现。同时,我们发布了ROME——一个面向视觉语言模型的评测基准,旨在检验模型基于视觉线索进行推理的能力。相关基准数据、评测结果及其他更新信息的链接均已发布于以下网站:https://flageval-baai.github.io/LRM-Eval/


14. Analyzing the Effects of Supervised Fine-Tuning on Model Knowledge from

Token and Parameter Levels

作者: Junjie Ye, Yuming Yang, Yang Nan, Shuo Li, Qi Zhang, Tao Gui, Xuanjing Huang, Peng Wang, Zhongchao Shi, Jianping Fan

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-20 | 👍 点赞数: 12

摘要:

论文标题:从词元与参数层面分析监督微调对模型知识的影响

中文摘要:
大语言模型(LLMs)在预训练过程中获得了大量的世界知识,而后续的训练技术(如监督微调(SFT))会进一步塑造这些知识。然而,目前对SFT如何影响模型知识的研究仍较为有限,这限制了我们对微调后模型知识变化行为的控制能力。为填补这一空白,本文在LLaMA-2和LLaMA-3系列的五种大语言模型上,评估其在闭卷问答(CBQA)任务中的表现。令人意外的是,在仅使用240个样本进行微调的模型,其性能反而比使用1,920个样本微调的模型最高高出14%。此外,当微调数据中知识掌握程度不同时,模型性能波动超过12%。为探究这些现象,我们从词元(token)和参数(parameter)两个层面分析模型的行为。分析发现,在SFT过程中高达90%的参数更新并未对知识增强产生贡献。根据微调数据的特性,恢复这些更新可提升模型在CBQA任务上的表现。这些发现为设计更有效地强化模型知识的微调策略提供了实用指导。


15. Strategic Dishonesty Can Undermine AI Safety Evaluations of Frontier LLM

作者: Alexander Panfilov, Evgenii Kortukov, Kristina Nikolić, Matthias Bethge, Sebastian Lapuschkin, Wojciech Samek, Ameya Prabhu, Maksym Andriushchenko, Jonas Geiping

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-22 | 👍 点赞数: 9

摘要:

论文标题:战略性欺骗可能破坏前沿大语言模型的安全性评估

中文摘要:
大语言模型(LLM)开发者希望其模型具备诚实、有益且无害的特性。然而,当面对恶意请求时,模型通常被训练为直接拒绝响应,从而牺牲了一定的有用性。我们发现,前沿的大语言模型可能发展出一种对“不诚实”的偏好,将其作为一种新的应对策略,即使存在其他可行选择也是如此。受影响的模型在面对有害请求时,会生成听起来具有危害性但实际上存在细微错误或实质上无害的回应。这种行为在同一家族的不同模型中也呈现出难以预测的变异。我们尚未发现导致此类欺骗倾向的明显原因,但我们发现能力更强的模型更善于执行这一策略。

战略性欺骗已经对当前的安全性评估产生了实际影响:我们发现,在所测试的所有基于输出的监测机制中,不诚实的回应均能成功欺骗这些系统,从而检测不到“越狱”(jailbreak)行为,导致基准测试结果不可靠。此外,战略性欺骗还可能像“蜜罐”一样误导恶意用户,显著干扰和掩盖先前已知的越狱攻击。尽管基于输出的监测方法失效,但我们表明,利用内部激活状态上的线性探测器(linear probes)可以可靠地检测到这种战略性欺骗行为。我们通过具有可验证结果的数据集以及将探测器特征用作引导向量的方法,验证了该技术的有效性。

总体而言,我们认为战略性欺骗是更广泛担忧的一个具体体现:即大语言模型的对齐(alignment)难以控制,尤其是在“有益性”与“无害性”发生冲突的情况下。


16. QWHA: Quantization-Aware Walsh-Hadamard Adaptation for

Parameter-Efficient Fine-Tuning on Large Language Models

作者: Hyesung Jeon, Seojune Lee, Beomseok Kang, Yulhwa Kim, Jae-Joon Kim

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-22 | 👍 点赞数: 9

摘要:

论文标题:QWHA:面向大语言模型参数高效微调的量化感知Walsh-Hadamard自适应方法

中文摘要:
大规模语言模型(LLMs)的高效部署需求推动了量化技术(可降低推理成本)和参数高效微调(PEFT,可减少训练开销)的发展。这促使研究者提出量化感知的PEFT方法,以构建既精确又高效的量化模型。在此背景下,微调前有效降低量化误差对于提升模型精度至关重要。然而,现有基于低秩适配的方法受限于表示能力不足的问题。近期提出的基于傅里叶相关变换(FT)的适配器虽具备更强的表示能力,但其直接集成到量化模型中时常导致误差抑制效果不佳且计算开销增加。为克服上述局限,本文提出QWHA方法,该方法采用Walsh-Hadamard变换(WHT)作为变换核,结合一种新颖的适配器初始化方案(包含自适应参数选择与数值优化机制),将基于FT的适配器有效融入量化模型。我们证明,QWHA能有效缓解量化误差并促进微调过程,其结构设计显著降低了计算成本。实验结果表明,QWHA在低比特量化的准确性方面 consistently 优于基线方法,并在训练速度上相较现有的基于FT的适配器实现显著提升。代码已公开发布于 https://github.com/vantaa89/qwha。


17. Mano Report

作者: Tianyu Fu, Anyang Su, Chenxu Zhao, Hanning Wang, Minghui Wu, Zhe Yu, Fei Hu, Mingjia Shi, Wei Dong, Jiayao Wang, Yuyang Chen, Ruiyang Yu, Siran Peng, Menglin Li, Nan Huang, Haitian Wei, Jiawei Yu, Yi Xin, Xilin Zhao, Kai Gu, Ping Jiang, Sifan Zhou, Shuo Wang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-22 | 👍 点赞数: 8

摘要:

论文标题:Mano 报告

中文摘要:
图形用户界面(GUI)是人机交互的主要媒介,但由于视觉元素的复杂性、环境的动态性以及多步骤推理的需求,实现GUI交互的自动化仍然具有挑战性。现有的基于视觉-语言模型(Vision-Language Models, VLMs)的方法常常受限于分辨率不足、领域不匹配以及序列化决策能力薄弱等问题。为解决这些挑战,我们提出了Mano——一种建立在多模态基础模型之上的鲁棒性GUI智能体,该模型在大量网页和计算机系统数据上进行了预训练。我们的方法结合了一种新颖的高保真模拟环境用于数据生成、一个三阶段的训练流程(监督微调、离线强化学习和在线强化学习),以及一个用于错误恢复的验证模块。Mano在多个GUI基准测试(如Mind2Web和OSWorld)上表现出最先进的性能,在任务成功率和操作准确性方面均实现了显著提升。本研究为将强化学习与视觉-语言模型有效结合以实现实际GUI智能体部署提供了新的见解,强调了领域特定数据、迭代式训练以及整体化奖励设计的重要性。


18. MetaEmbed: Scaling Multimodal Retrieval at Test-Time with Flexible Late

Interaction

作者: Zilin Xiao, Qi Ma, Mengting Gu, Chun-cheng Jason Chen, Xintao Chen, Vicente Ordonez, Vijai Mohan

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-22 | 👍 点赞数: 7

摘要:

论文标题:MetaEmbed:通过灵活的晚期交互在测试时扩展多模态检索

中文摘要:
通用多模态嵌入模型在捕捉查询与候选对象之间的语义相关性方面已取得显著成功。然而,现有方法要么将查询和候选对象压缩为单个向量,可能限制了对细粒度信息的表达能力;要么生成过多向量,导致多向量检索的计算开销过高而难以应用。本文提出MetaEmbed,一种全新的多模态检索框架,重新思考了多模态嵌入在大规模场景下的构建方式及其交互机制。在训练阶段,我们在输入序列中附加一组固定数量的可学习“元令牌”(Meta Tokens)。在测试阶段,这些元令牌的最后一层上下文化表示即作为紧凑且富有表达力的多向量嵌入。通过所提出的“套娃式多向量检索”(Matryoshka Multi-Vector Retrieval)训练策略,MetaEmbed能够跨多个向量按粒度组织信息。由此,我们实现了在测试阶段对多模态检索的灵活扩展:用户可根据效率需求,自主选择用于索引和检索交互的令牌数量,从而在检索质量与计算效率之间进行权衡。在大规模多模态嵌入基准(MMEB)和视觉文档检索基准(ViDoRe)上的大量实验表明,MetaEmbed在不同规模模型下均实现了最先进的检索性能,并可稳健扩展至参数量达320亿的大型模型。


19. ContextFlow: Training-Free Video Object Editing via Adaptive Context

Enrichment

作者: Yiyang Chen, Xuanhua He, Xiujun Ma, Yue Ma

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-22 | 👍 点赞数: 7

摘要:

论文标题:ContextFlow:基于自适应上下文增强的免训练视频对象编辑

中文摘要:
免训练视频对象编辑旨在实现精确的对象级操作,包括对象插入、替换和删除。然而,该任务在保持生成结果的保真度和时间一致性方面仍面临重大挑战。现有方法通常针对U-Net架构设计,存在两个主要局限:一是由于使用一阶求解器导致的不准确逆映射,二是因粗略的“硬性”特征替换引发的上下文冲突。这些问题在扩散Transformer(DiT)中尤为突出,因为先前的层选择启发式策略难以适用于DiT,导致有效引导变得困难。为解决上述问题,我们提出了ContextFlow——一种全新的基于DiT的免训练视频对象编辑框架。具体而言,我们首先采用高阶修正流(Rectified Flow)求解器,构建一个鲁棒的编辑基础。本框架的核心是自适应上下文增强机制(用于确定编辑内容),该机制旨在缓解上下文冲突问题。与直接替换特征不同,该方法通过将并行重建路径与编辑路径中的键值(Key-Value)对进行拼接,来丰富自注意力机制的上下文信息,使模型能够动态融合多源信息。此外,为了确定应在哪一层应用此种增强(即确定编辑位置),我们提出了一种系统化、数据驱动的分析方法,以识别任务相关的关键网络层。基于新提出的引导响应度量指标(Guidance Responsiveness Metric),我们的方法能够准确定位不同任务(如插入、替换)中最具有影响力的DiT模块,从而实现针对性且高效的引导。大量实验表明,ContextFlow显著优于现有的免训练方法,甚至超越多个最先进的需训练方法,在时间连贯性和生成保真度方面均取得了优异表现。


20. Synthetic bootstrapped pretraining

作者: Zitong Yang, Aonan Zhang, Hong Liu, Tatsunori Hashimoto, Emmanuel Candès, Chong Wang, Ruoming Pang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-17 | 👍 点赞数: 7

摘要:

论文标题:合成自举预训练(Synthetic Bootstrapped Pretraining)

中文摘要:
我们提出合成自举预训练(Synthetic Bootstrapped Pretraining, SBP),这是一种语言模型(LM)的预训练方法,首先从预训练数据集中学习文档之间的关系模型,然后利用该模型生成一个庞大的新语料库用于联合训练。标准的预训练方法使语言模型学习单个文档内词元之间的因果相关性,但并未针对丰富且可学习的跨文档相关性进行高效建模,而这些相关性可能带来性能提升。我们通过设计计算量匹配的预训练设置,在高达1万亿个词元的数据上从零开始预训练了一个30亿参数的模型,验证了SBP的有效性。实验结果表明,SBP始终优于强重复基线,并达到了在拥有20倍更多独特数据的Oracle上限条件下所能获得的性能提升的相当大一部分。定性分析显示,所生成的文档不仅仅是简单的改写;SBP首先从原始材料中抽象出核心概念,然后在此基础上构建全新的叙述。除了出色的实证表现外,SBP还具有自然的贝叶斯解释:合成器隐式地学习到相关文档之间共享的潜在概念的抽象表示。


21. Turk-LettuceDetect: A Hallucination Detection Models for Turkish RAG

Applications

作者: Selva Taş, Mahmut El Huseyni, Özay Ezerceli, Reyhan Bayraktar, Fatma Betül Terzioğlu

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-22 | 👍 点赞数: 6

摘要:

论文标题:Turk-LettuceDetect:面向土耳其语RAG应用的幻觉检测模型

摘要:
大语言模型(Large Language Models, LLMs)因其容易产生“幻觉”——即生成看似合理但事实错误的信息——而限制了其广泛应用。尽管检索增强生成(Retrieval-Augmented Generation, RAG)系统通过将回答建立在外部知识基础上试图缓解这一问题,幻觉现象仍持续存在,尤其在土耳其语等形态复杂且资源匮乏的语言中更为突出。本文提出了Turk-LettuceDetect,这是首个专为土耳其语RAG应用设计的幻觉检测模型套件。基于LettuceDetect框架,我们将幻觉检测建模为一种词元级(token-level)分类任务,并对三种不同的编码器架构进行微调:针对土耳其语优化的ModernBERT、TurkEmbed4STS以及多语言EuroBERT。这些模型在一个机器翻译版本的RAGTruth基准数据集上进行训练,该数据集包含17,790个样本,涵盖问答、数据到文本生成和摘要生成任务。实验结果表明,基于ModernBERT的模型在完整测试集上达到了0.7266的F1分数,在结构化任务中表现尤为出色。这些模型在支持长达8,192个词元的长上下文的同时保持了较高的计算效率,适合实际场景中的实时部署。对比分析显示,当前最先进的大语言模型虽然具有较高的召回率,但由于过度生成幻觉内容而导致精度偏低,这凸显了专用检测机制的必要性。通过公开我们的模型及翻译后的数据集,本研究填补了多语言自然语言处理领域的一项关键空白,为构建更可靠、可信的土耳其语及其他语言AI应用奠定了基础。


22. Cross-Attention is Half Explanation in Speech-to-Text Models

作者: Sara Papi, Dennis Fucci, Marco Gaido, Matteo Negri, Luisa Bentivogli

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-22 | 👍 点赞数: 5

摘要:

论文标题:在语音到文本模型中,交叉注意力仅能部分解释模型行为

中文摘要:
交叉注意力(cross-attention)是编码器-解码器架构中的核心机制,广泛应用于包括语音到文本(S2T)处理在内的多个领域。其注意力分数常被用于多种下游任务——例如时间戳估计和音频-文本对齐——其前提是这些分数能够反映输入语音表示与生成文本之间的依赖关系。尽管在更广泛的自然语言处理文献中,注意力机制的可解释性一直存在争议,但这一假设在语音领域内仍鲜有深入探讨。为填补这一空白,我们通过将交叉注意力分数与基于特征归因(feature attribution)生成的输入显著性图(saliency maps)进行比较,系统评估了S2T模型中交叉注意力的解释能力。我们的分析涵盖多种规模的单语与多语、单任务与多任务模型,结果表明,注意力分数与基于显著性的解释之间存在中等到较强的关联性,尤其是在跨注意力头和网络层进行聚合时表现更佳。然而,我们也发现,交叉注意力仅能捕捉约50%的输入相关性,在最佳情况下也只能部分反映解码器对编码器表示的关注方式,对显著性模式的解释覆盖率仅为52%至75%。这些发现揭示了将交叉注意力作为解释性代理指标的根本局限性,表明它虽能提供有价值的信息,但仅呈现了驱动S2T模型预测因素的部分图景。


23. Understanding Embedding Scaling in Collaborative Filtering

作者: Zhuangzhuang He, Zhou Kaiyu, Haoyue Bai, Fengbin Zhu, Yonghui Yang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-19 | 👍 点赞数: 5

摘要:

论文标题:理解协同过滤中的嵌入缩放

中文摘要:
将推荐模型扩展为大规模推荐模型已成为当前最受关注的话题之一。近期的研究主要聚焦于嵌入维度之外的模型组件,因为人们普遍认为,单纯扩大嵌入维度可能导致性能下降。尽管已有部分关于嵌入的初步观察,但其不可扩展性的根本原因仍不明确。此外,性能下降是否在不同类型的模型和数据集上普遍存在,仍是尚未探索的领域。针对嵌入维度对模型性能的影响,我们在10个具有不同稀疏程度和规模的数据集上,采用4种典型的经典架构进行了大规模实验。我们意外地观察到两个新颖现象:双峰现象(double-peak)和对数规律(logarithmic)。对于前者,随着嵌入维度的增加,性能先上升,随后下降,之后再次上升,最终趋于下降;对于后者,性能变化呈现出近乎完美的对数曲线。本文的贡献有三点:第一,我们在扩展协同过滤模型时发现了两种新的现象;第二,我们揭示了双峰现象背后的成因;第三,我们从理论上分析了协同过滤模型对噪声的鲁棒性,理论结果与实证观察高度一致。


24. Reasoning Core: A Scalable RL Environment for LLM Symbolic Reasoning

作者: Valentin Lacombe, Valentin Quesnel, Damien Sileo

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-22 | 👍 点赞数: 4

摘要:

论文标题:推理核心:一种面向大语言模型符号推理的可扩展强化学习环境

中文摘要:
我们提出了“推理核心”(Reasoning Core),一种全新的可扩展强化学习与可验证奖励(RLVR)环境,旨在推动大语言模型(LLM)在基础性符号推理能力方面的发展。与现有主要聚焦于游戏或孤立谜题的基准测试不同,“推理核心”通过程序化生成方式,在多个核心形式化领域中构建问题,涵盖PDDL规划、一阶逻辑、上下文无关文法解析、因果推理以及系统方程求解等任务。该环境基于三大设计原则构建:高通用性的问题分布、借助外部工具进行答案验证,以及连续可控的难度调节。这些特性共同提供了近乎无限的新颖训练样本。对前沿大语言模型进行的初步零样本评估结果表明,“推理核心”中的任务具有较高挑战性,验证了其作为提升未来模型推理能力的潜力资源的价值。


25. UniPixel: Unified Object Referring and Segmentation for Pixel-Level

Visual Reasoning

作者: Ye Liu, Zongyang Ma, Junfu Pu, Zhongang Qi, Yang Wu, Ying Shan, Chang Wen Chen

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-22 | 👍 点赞数: 3

摘要:

论文标题:UniPixel:面向像素级视觉推理的统一目标指代与分割

中文摘要:
近年来,大型多模态模型(Large Multi-modal Models, LMMs)作为通用多模态助手已展现出显著的成功,研究主要集中在图像和视频层面的整体语义理解。然而,对于细粒度的像素级理解能力的拓展却较少受到关注,这类能力要求模型实现视觉信号与语言语义之间的像素级对齐。先前的一些研究尝试将LMM应用于区域级描述生成和指代表达式分割等任务,但这些模型通常只能独立完成指代或分割任务,难以将此类细粒度感知能力整合到视觉推理过程中。为填补这一空白,我们提出了UniPixel——一种能够灵活理解视觉提示输入并生成基于掩码(mask)响应的大型多模态模型。本模型的独特之处在于,能够无缝融合像素级感知能力与通用视觉理解功能。具体而言,UniPixel可根据需求处理视觉提示并生成相应的掩码,在推理过程中以这些中间掩码作为指针进行后续的条件化推理,从而实现细粒度的像素级视觉推理。我们在涵盖多种任务的10个基准上验证了所提方法的有效性,包括图像和视频中的像素级指代/分割以及以对象为中心的理解任务。此外,我们还设计了一个新的PixelQA任务,联合考察指代、分割与问答能力,以验证本方法的灵活性与通用性。


26. V2V-GoT: Vehicle-to-Vehicle Cooperative Autonomous Driving with

Multimodal Large Language Models and Graph-of-Thoughts

作者: Hsu-kuang Chiu, Ryo Hachiuma, Chien-Yi Wang, Yu-Chiang Frank Wang, Min-Hung Chen, Stephen F. Smith

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-22 | 👍 点赞数: 3

摘要:

论文标题:V2V-GoT:基于多模态大语言模型与思维图的车对车协同自动驾驶

中文摘要:
当前最先进的自动驾驶车辆在道路附近存在大型遮挡物导致其局部传感器观测受限时,可能面临危及安全的场景。车对车(V2V)协同自动驾驶被提出作为解决该问题的一种手段,近期已有研究引入了一种融合多模态大语言模型(MLLM)的框架,以整合协同感知与规划过程。然而,尽管将思维图(Graph-of-Thoughts)推理方法应用于MLLM具有潜在优势,此思路尚未被先前的协同自动驾驶研究所考虑。本文提出一种专为基于MLLM的协同自动驾驶设计的新型思维图框架。该思维图融入了我们提出的两项创新理念:遮挡感知的感知机制(occlusion-aware perception)和规划感知的预测机制(planning-aware prediction)。我们构建了V2V-GoT-QA数据集,并开发了V2V-GoT模型,用于训练和测试协同驾驶思维图方法。实验结果表明,我们的方法在协同感知、预测和规划任务中均优于其他基线方法。


27. AuditoryBench++: Can Language Models Understand Auditory Knowledge

without Hearing?

作者: Hyunjong Ok, Suho Yoo, Hyeonjun Kim, Jaeho Lee

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-22 | 👍 点赞数: 3

摘要:

论文标题:AuditoryBench++:语言模型能否在不依赖听觉的情况下理解听觉知识?

中文摘要:
即使没有直接听到声音,人类也能轻松地对声音的音高、响度或声源关联等听觉属性进行推理,这得益于听觉常识的积累。相比之下,语言模型通常缺乏这种能力,限制了其在多模态交互中的有效性。作为解决这一问题的初步尝试,我们提出了AuditoryBench++,这是一个全面的基准评测工具,用于评估纯文本环境下语言模型对听觉知识的理解与推理能力。该基准涵盖从基本的听觉比较到基于上下文的复杂推理任务,能够对模型如何处理和整合听觉概念进行细粒度分析。此外,我们提出了一种新的听觉想象推理方法——AIR-CoT(Auditory Imagination via Chain-of-Thought),该方法通过特殊标记的片段检测和知识注入机制,在推理过程中生成并整合听觉信息。大量针对近期大语言模型(LLMs)和多模态大模型(Multimodal LLMs)的实验表明,AIR-CoT在性能上普遍优于未经调整的原始模型以及通过外部听觉知识增强的模型。项目主页位于 https://auditorybenchpp.github.io。


28. D-REX: A Benchmark for Detecting Deceptive Reasoning in Large Language

Models

作者: Satyapriya Krishna, Andy Zou, Rahul Gupta, Eliot Krzysztof Jones, Nick Winter, Dan Hendrycks, J. Zico Kolter, Matt Fredrikson, Spyros Matsoukas

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-22 | 👍 点赞数: 2

摘要:

论文标题:D-REX:一种用于检测大语言模型中欺骗性推理的基准

中文摘要:
大语言模型(Large Language Models, LLMs)的安全性与对齐性对其负责任部署至关重要。当前的评估方法主要集中在识别和防止明显有害的输出上,然而,这些方法往往忽视了一种更为隐蔽的失效模式:模型在内部进行恶意或欺骗性推理的同时,却生成表面上无害的输出。这种漏洞通常由复杂的系统提示注入(system prompt injections)所触发,使模型能够绕过传统的安全过滤机制,构成一项尚未充分研究但影响重大的风险。为填补这一空白,我们提出了“欺骗性推理暴露套件”(Deceptive Reasoning Exposure Suite, D-REX),这是一种新颖的数据集,旨在评估模型内部推理过程与其最终输出之间的一致性差异。D-REX 通过一场竞争性的红队测试(red-teaming exercise)构建而成,参与者设计对抗性的系统提示以诱导此类欺骗行为。D-REX 中的每个样本包含:对抗性系统提示、终端用户的测试查询、模型看似无害的响应,以及关键部分——模型的内部思维链(chain-of-thought),揭示其潜在的恶意意图。该基准支持一项全新的、至关重要的评估任务:欺骗性对齐(deceptive alignment)的检测。我们证明,D-REX 对现有模型和安全机制构成了重大挑战,凸显出亟需发展新的技术手段,以深入审查大语言模型的内部推理过程,而不仅仅局限于其最终输出。


29. Accurate and Efficient Low-Rank Model Merging in Core Space

作者: Aniello Panariello, Daniel Marczak, Simone Magistri, Angelo Porrello, Bartłomiej Twardowski, Andrew D. Bagdanov, Simone Calderara, Joost van de Weijer

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-22 | 👍 点赞数: 2

摘要:

论文标题:核心空间中的精确高效低秩模型融合

中文摘要:
本文针对大型神经网络低秩适配模型融合过程中存在的挑战展开研究。随着低秩适应(Low-Rank Adaptation, LoRA)等参数高效适配技术的兴起,模型微调变得更加便捷。尽管使用LoRA进行模型微调具有极高的效率,但现有的模型融合方法通常通过合并完整尺寸的权重矩阵而牺牲了这一优势。为此,我们提出了“核心空间”(Core Space)融合框架,该框架能够在共享的对齐基底中实现LoRA适配模型的融合,从而在保持低秩结构计算效率的同时,显著提升跨任务的模型精度。我们进一步从理论上证明,向核心空间的投影能够保证信息无损,并通过复杂度分析展示了该方法在计算效率上的优势。大量实验结果表明,核心空间融合方法显著优于现有模型融合技术,在视觉与语言任务上均达到了最先进的性能,且仅需消耗少量计算资源。代码已开源,地址为:https://github.com/apanariello4/core-space-merging。


30. From Uniform to Heterogeneous: Tailoring Policy Optimization to Every

Token's Nature

作者: Zheng Liu, Mengjie Liu, Siwei Wen, Mengzhang Cai, Bin Cui, Conghui He, Wentao Zhang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-20 | 👍 点赞数: 2

摘要:

论文标题:从统一到差异化:根据每个令牌的特性定制策略优化

中文摘要:
强化学习已成为提升大语言模型(LLM)推理能力的基础技术。然而,现有算法对所有令牌采用统一的优化方式,忽视了它们在推理过程中所扮演的不同角色。为解决这一问题,我们提出了异构自适应策略优化(Heterogeneous Adaptive Policy Optimization, HAPO),这是一种全面感知令牌特性的算法,能够根据令牌的熵值动态调整优化过程。在 rollout 采样阶段,我们提出自适应温度采样(Adaptive Temperature Sampling),实时调节采样温度,在高熵令牌处促进探索,同时在低熵令牌处保持生成的一致性。在优势值计算方面,我们引入令牌级组平均(Token Level Group Average),在令牌级别对优势进行归一化处理,既像令牌均值损失那样联合考虑序列长度,又保持无偏的优化处理。接着,我们设计了差异化的优势重分配机制(Differential Advantage Redistribution),利用熵值和重要性比率来调节具有明确信号令牌的奖励调整更新。对于裁剪损失函数,我们提出了非对称自适应裁剪(Asymmetric Adaptive Clipping),允许对噪声较多的低熵令牌进行更激进的概率缩减,同时支持高熵令牌的探索。通过对熵值与训练动态之间关系的系统性研究,我们将令牌级别的差异化处理嵌入到优化的各个阶段,实现细粒度的控制。大量实验表明,HAPO 在多种模型规模下均持续优于 DAPO。我们的代码可在 https://github.com/starriver030515/HAPO 获取。


31. From Hugging Face to GitHub: Tracing License Drift in the Open-Source AI

Ecosystem

作者: James Jewitt, Hao Li, Bram Adams, Gopi Krishnan Rajbahadur, Ahmed E. Hassan

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-11 | 👍 点赞数: 2

摘要:

论文标题:从 Hugging Face 到 GitHub:追踪开源人工智能生态中的许可证演变

中文摘要:
开源人工智能生态中存在的隐性许可证冲突带来了严重的法律与伦理风险,使组织面临潜在的诉讼威胁,用户则承受未披露的风险。然而,目前尚缺乏基于数据的研究来揭示此类冲突的发生频率、来源路径以及受影响最严重的社区。本文首次对 Hugging Face 平台上的数据集和模型的许可证使用情况进行了端到端的审计,并追踪其向开源软件应用的下游集成过程,覆盖了 36.4 万个数据集、160 万个模型以及 14 万个 GitHub 项目。我们的实证分析揭示出系统性的合规缺失问题:在模型向应用程序转化的过程中,有 35.5% 的案例通过重新授权为宽松许可条款,去除了原有的限制性条款。此外,我们构建了一个可扩展的规则引擎原型,编码了近 200 条 SPDX 标准及模型特定的许可证条款,用于检测许可证冲突,该引擎可解决软件应用中 86.4% 的许可证冲突问题。为支持后续研究,我们公开了所构建的数据集和原型引擎。本研究凸显了许可证合规性在开源人工智能治理中的关键挑战,并提供了实现大规模自动化、具备人工智能感知能力的合规机制所需的数据基础与工具支持。


32. DEXOP: A Device for Robotic Transfer of Dexterous Human Manipulation

作者: Hao-Shu Fang, Branden Romero, Yichen Xie, Arthur Hu, Bo-Ruei Huang, Juan Alvarez, Matthew Kim, Gabriel Margolis, Kavya Anbarasu, Masayoshi Tomizuka, Edward Adelson, Pulkit Agrawal

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-04 | 👍 点赞数: 2

摘要:

论文标题:DEXOP:一种用于机器人灵巧操作技能迁移的装置

中文摘要:
本文提出“围操作”(perioperation)这一机器人数据采集新范式,该范式在记录人类操作行为的同时对操作过程进行传感化,旨在最大化所采集数据向真实机器人的可迁移性。我们基于该范式设计实现了DEXOP——一种被动式手部外骨骼装置,专为在自然环境中高效采集丰富的感官数据(视觉+触觉)而开发,适用于多种灵巧操作任务。DEXOP通过机械结构将人类手指与机器人手指相连,使用户能够通过本体感觉获得直接的接触反馈,并将人手的姿态实时映射到被动式机器人手上,从而最大程度地实现操作技能向机器人的迁移。由于具备力反馈和姿态镜像功能,相较于传统遥操作方式,DEXOP使人类在执行任务示范时更加自然,显著提升了操作的速度与精度。我们在一系列灵巧性强、接触交互丰富的任务中对DEXOP进行了评估,验证了其大规模采集高质量示范数据的能力。使用DEXOP采集的数据所训练出的策略,在单位数据采集时间下的任务性能显著优于遥操作方法,表明DEXOP是提升机器人灵巧操作能力的有力工具。本项目主页位于 https://dex-op.github.io。


33. Adaptive Kernel Design for Bayesian Optimization Is a Piece of CAKE with

LLMs

作者: Richard Cornelius Suwandi, Feng Yin, Juntao Wang, Renjie Li, Tsung-Hui Chang, Sergios Theodoridis

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-22 | 👍 点赞数: 1

摘要:

论文标题:利用大语言模型,自适应核设计在贝叶斯优化中不过是小菜一碟(CAKE)

中文摘要:
贝叶斯优化(Bayesian Optimization, BO)的效率在很大程度上依赖于高斯过程(Gaussian Process, GP)核函数的选择,该核函数在评估预算有限的情况下,对探索与利用之间的平衡起着核心作用。传统的BO方法通常采用固定或启发式的核函数选择策略,当所选核函数与目标函数特性不匹配时,可能导致收敛速度慢或得到次优解。为克服这一局限性,本文提出了一种全新的“上下文感知核进化”(Context-Aware Kernel Evolution, CAKE)方法,结合大语言模型(Large Language Models, LLMs)来增强贝叶斯优化。具体而言,CAKE利用LLM作为交叉和变异操作符,根据优化过程中观测到的数据自适应地生成并优化GP核函数。为进一步发挥CAKE的潜力,我们还提出了BIC-采集核排序(BIC-Acquisition Kernel Ranking, BAKER)机制,通过在每轮BO迭代中平衡由贝叶斯信息准则(BIC)衡量的模型拟合优度与期望改进量,来选择最优核函数。大量实验表明,我们提出的基于CAKE的贝叶斯优化方法在多种真实世界任务中均显著优于现有基线方法,包括超参数优化、控制器调参以及光子芯片设计。我们的代码已公开发布于 https://github.com/cake4bo/cake。


34. DIWALI - Diversity and Inclusivity aWare cuLture specific Items for

India: Dataset and Assessment of LLMs for Cultural Text Adaptation in Indian Context

作者: Pramit Sahoo, Maharaj Brahma, Maunendra Sankar Desarkar

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-22 | 👍 点赞数: 1

摘要:

论文标题:DIWALI——面向印度文化的多样性与包容性感知的文化特定项目:用于印度语境下文化文本适配的大型语言模型评估数据集

中文摘要:
大型语言模型(LLMs)已被广泛应用于各类任务与实际场景中。然而,尽管其能力强大,现有研究显示,这些模型在文化对齐方面仍存在明显不足(ryan-etal-2024-unintended;alkhamissi-etal-2024-investigating),并因缺乏足够的文化知识与文化能力而产生带有偏见的生成内容(naous-etal-2024-beer)。对LLMs在文化意识与文化对齐方面的评估尤为困难,主要原因在于缺乏合适的评估指标,以及缺少能够反映区域和次区域层面复杂文化背景的、基于真实文化情境的数据集。现有的文化特定项目(CSIs)数据集主要聚焦于区域层级的文化概念,且可能存在较多假阳性问题。为解决上述挑战,本文提出一个全新的印度文化CSI数据集,涵盖17个文化维度,包含来自36个次区域的约8,000个文化概念。为了评估LLMs在文化文本适配任务中的文化能力,我们结合所构建的CSIs、基于LLM的评判(LLM as Judge)以及来自不同社会人口学背景的人工评估进行综合测评。此外,我们还进行了定量分析,揭示了当前主流LLMs在次区域覆盖上的选择性偏差以及文化适配停留在表层的问题。本数据集已公开发布,获取地址为:https://huggingface.co/datasets/nlip/DIWALI;项目主页见:https://nlip-lab.github.io/nlip/publications/diwali/;相关代码及模型输出可在以下地址找到:https://github.com/pramitsahoo/culture-evaluation。


35. BeepBank-500: A Synthetic Earcon Mini-Corpus for UI Sound Research and

Psychoacoustics Research

作者: Mandip Goswami

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-21 | 👍 点赞数: 1

摘要:

论文标题:BeepBank-500:一个用于界面声音研究与心理声学研究的合成耳标小型语料库

中文摘要:
本文介绍 BeepBank-500,一个紧凑型、完全合成的耳标/提示音数据集(包含 300 至 500 段音频片段),专为人在计算机交互和音频机器学习领域的快速、无版权争议的实验而设计。每个音频片段均由参数化配方生成,控制波形类型(正弦波、方波、三角波、调频波)、基频、时长、振幅包络、振幅调制(AM)以及轻量级的 Schroeder 风格混响效果。我们采用三种混响设置:干声(无混响),以及两种合成房间环境,分别在全文及元数据中标记为“rir small”(“小房间”)和“rir medium”(“中等房间”)。我们公开发布单声道 48 kHz WAV 音频(16 位)、包含丰富信号与频谱特征的元数据表,以及两个轻量级可复现基线模型:(i) 波形类型分类;(ii) 单音基频回归。该语料库适用于耳标分类、音色分析和起始点检测等任务,并明确声明了授权方式与局限性。音频内容通过 CC0-1.0 许可协议贡献于公共领域;代码采用 MIT 许可证。数据 DOI: https://doi.org/10.5281/zenodo.17172015;代码地址:https://github.com/mandip42/earcons-mini-500。


36. VaseVQA: Multimodal Agent and Benchmark for Ancient Greek Pottery

作者: Jinchao Ge, Tengfei Cheng, Biao Wu, Zeyu Zhang, Shiya Huang, Judith Bishop, Gillian Shepherd, Meng Fang, Ling Chen, Yang Zhao

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-21 | 👍 点赞数: 1

摘要:

论文标题:VaseVQA:用于古希腊陶器的多模态代理与基准

中文摘要:
对于多模态大语言模型(MLLM)而言,分析文化遗产类文物仍然面临挑战:通用模型缺乏领域专业知识,而监督微调(SFT)方法往往过度拟合表面模式,导致在真伪鉴定和历史归属等任务中推理能力脆弱。这引发了一个关键问题:如何赋予MLLM在古希腊陶器领域具备稳健且达到专家水平的推理能力?我们提出了VaseVL,一种“先SFT后强化学习(RL)”的系统框架,将评估过程转化为监督信号:我们构建了问题类型的分类体系,通过探测SFT模型来定位各类问题上的性能短板,并设计了基于问题类型、面向组合性的奖励机制,针对性地优化这些薄弱环节。同时,我们发布了VaseVQA——一个包含31,773张图像的综合性基准数据集,旨在检验对古希腊陶器的深层理解能力。实验结果表明,该方法在风格分类与历史归属任务上达到了当前最优性能,相较于仅使用SFT的基线模型,在组合泛化鲁棒性方面有显著提升,验证了基于诊断分析、按类别定制奖励工程的有效性,也为后续研究提供了可复用的资源。代码与数据集将发布于 https://github.com/AIGeeksGroup/VaseVQA。


37. When Big Models Train Small Ones: Label-Free Model Parity Alignment for

Efficient Visual Question Answering using Small VLMs

作者: Abhirama Subramanyam Penamakuri, Navlika Singh, Piyush Arora, Anand Mishra

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-20 | 👍 点赞数: 1

摘要:

论文标题:当大模型训练小模型时:基于无标签模型对齐的高效视觉问答小规模视觉语言模型优化方法

中文摘要:
大规模视觉语言模型(L-VLMs)在多种视觉与语言任务(包括视觉问答,VQA)中展现出卓越性能。然而,其高昂的计算成本使其在资源受限场景以及推理密集型应用中难以实际部署。相比之下,小型视觉语言模型(S-VLMs)虽具备较高的运行效率,但在性能上与大型模型存在显著差距。本文提出“模型对齐器”(Model Parity Aligner, MPA),这是一种新颖的框架,旨在通过利用无标注图像数据以及从L-VLMs中进行有效的知识迁移,系统性地提升S-VLMs的性能。不同于依赖标注训练数据的传统知识蒸馏方法,MPA采用一种基于“对齐”的策略性方法,精确识别S-VLMs与L-VLMs之间的知识差异,并仅针对这些差异进行训练优化。我们在四个具有代表性的VQA基准——TextVQA、ST-VQA、ChartQA 和 OKVQA 上进行了广泛的实验,这些任务分别要求模型具备文本识别、图表理解、常识推理和事实理解等特定推理能力。实验结果表明,MPA在所有基准上均持续提升S-VLMs的性能,在保持计算高效性的同时显著缩小了与大模型之间的性能差距。我们已将代码公开发布。


38. StereoAdapter: Adapting Stereo Depth Estimation to Underwater Scenes

作者: Zhengri Wu, Yiran Wang, Yu Wen, Zeyu Zhang, Biao Wu, Hao Tang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-19 | 👍 点赞数: 1

摘要:

论文标题:StereoAdapter:面向水下场景的双目深度估计自适应方法

中文摘要:
水下双目深度估计可为机器人导航、检测与建图等任务提供精确的三维几何信息,利用低成本被动相机即可输出具有度量尺度的深度结果,同时避免了单目方法存在的尺度模糊问题。然而,现有方法面临两个关键挑战:(i)如何在缺乏大量标注数据的情况下,以参数高效的方式将大型视觉基础模型编码器适配至水下领域;(ii)如何紧密融合具有全局一致性但尺度模糊的单目先验信息,与局部具备度量尺度但对光度变化敏感的双目匹配关系。为应对上述挑战,本文提出StereoAdapter——一种参数高效的自监督框架,该框架结合了基于LoRA(低秩适应)的单目基础模型编码器与循环式双目优化模块。我们进一步引入动态LoRA自适应机制以实现高效的秩选择,并在合成的UW-StereoDepth-40K数据集上进行预训练,从而提升模型在多种水下环境下的鲁棒性。在模拟和真实世界基准上的综合实验表明,本方法相较于当前最先进方法在TartanAir数据集上提升了6.11%,在SQUID数据集上提升了5.12%;此外,通过在BlueROV2机器人上的实际部署,进一步验证了本方法在真实场景中的一致性与鲁棒性。代码地址:https://github.com/AIGeeksGroup/StereoAdapter。项目网站:https://aigeeksgroup.github.io/StereoAdapter。


39. FocalCodec-Stream: Streaming Low-Bitrate Speech Coding via Causal

Distillation

作者: Luca Della Libera, Cem Subakan, Mirco Ravanelli

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-19 | 👍 点赞数: 1

摘要:

论文标题:FocalCodec-Stream:基于因果蒸馏的流式低比特率语音编码

中文摘要:
神经音频编解码器是现代生成式音频处理流程中的基础组件。尽管近年来的编解码器在低比特率下实现了优异的重建性能,并为下游任务提供了强大的表示能力,但大多数编解码器不具备流式处理能力,限制了其在实时应用中的使用。本文提出 FocalCodec-Stream,一种基于焦点调制(focal modulation)的混合式编解码器,可在理论延迟仅为 80 毫秒的情况下,将语音压缩至单一二值码本,码率为 0.55–0.80 kbps。我们的方法结合了 WavLM 的多阶段因果蒸馏与针对性的架构改进,包括一个轻量级的精修模块(refiner module),在满足低延迟约束的同时提升了重建质量。实验结果表明,FocalCodec-Stream 在相近比特率下优于现有的流式编解码器,同时保留了语音的语义和声学信息。该方法在重建质量、下游任务性能、延迟和效率之间实现了良好的权衡。代码与预训练模型将在 https://github.com/lucadellalib/focalcodec 公开发布。


40. CodeFuse-CR-Bench: A Comprehensiveness-aware Benchmark for End-to-End

Code Review Evaluation in Python Projects

作者: Hanyang Guo, Xunjin Zheng, Zihan Liao, Hang Yu, Peng DI, Ziyin Zhang, Hong-Ning Dai

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-18 | 👍 点赞数: 1

摘要:

论文标题:CodeFuse-CR-Bench:一种面向全面性的端到端代码评审评估基准(适用于Python项目)

中文摘要:
自动化代码评审(CR)是大语言模型(LLMs)的重要应用之一,但其发展受到“现实差距”(reality gap)的制约:现有基准通常在上下文匮乏、经过简化的数据上评估模型对孤立子任务的表现,无法反映真实世界中代码评审所依赖的丰富、整体性上下文。为弥合这一差距,我们提出了CodeFuse-CR-Bench,这是首个面向全面性的、针对仓库级别代码评审的评估基准。CodeFuse-CR-Bench包含来自70个Python项目的601个高质量实例,覆盖九类Pull Request(PR)问题领域,每个实例均提供丰富的多维度上下文信息,包括相关的问题描述、PR细节以及仓库状态,从而支持端到端的评估。除了表层指标外,我们还提出了一种新颖的评估框架,将基于规则的位置与语法检查,与基于模型的评审质量判断相结合。我们在该综合性代码评审任务上首次开展了针对当前主流大语言模型的大规模评估。实验结果建立了关键的基线,并揭示了以下发现:(1)没有单一LLM在所有评审方面均占据主导地位;(2)Gemini 2.5 Pro在综合表现上最佳;(3)不同LLM对冗余上下文的鲁棒性存在差异。这些发现凸显了进行整体性、多维度评估的必要性,并为构建真正智能且实用的代码评审助手提供了可操作的洞见。


41. SCAN: Self-Denoising Monte Carlo Annotation for Robust Process Reward

Learning

作者: Yuyang Ding, Xinyu Shi, Juntao Li, Xiaobo Liang, Zhaopeng Tu, Min Zhang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-20

摘要:

论文标题:SCAN:用于鲁棒过程奖励学习的自去噪蒙特卡洛标注

中文摘要:
过程奖励模型(PRMs)提供细粒度、步骤级别的评估,有助于增强大语言模型(LLMs)的深层推理能力,在数学推理等复杂任务中表现出色。然而,由于人工标注数据成本高昂且难以扩展,PRMs 的开发面临挑战。基于蒙特卡洛(MC)估计生成的合成数据是一种有前景的替代方案,但其噪声比例较高,容易导致过拟合并阻碍大规模训练。在本研究中,我们对 MC 估计产生的合成数据中的噪声分布进行了初步分析,发现标注模型由于自身能力限制,往往倾向于低估或高估步骤的正确性。基于这些发现,我们提出了自去噪蒙特卡洛标注(Self-Denoising Monte Carlo Annotation, SCAN),一种高效的数据合成与抗噪学习框架。我们的主要结果表明:(1)即使轻量级模型(例如,15亿参数)也能通过自去噪策略生成高质量标注,使 PRM 在仅需传统 MC 估计 6% 推理成本的情况下实现更优性能;(2)结合我们提出的鲁棒学习策略,PRM 能有效从这种弱监督信号中学习,在 ProcessBench 上 F1 分数提升达 39.2(从 19.9 提升至 59.1)。尽管仅使用紧凑的合成数据集,我们的模型仍超越了多个强基线模型,包括在大规模人工标注数据集(如 PRM800K)上训练的模型。此外,随着合成数据规模的扩大,模型性能持续提升,凸显了 SCAN 在可扩展、低成本且鲁棒的 PRM 训练中的巨大潜力。