Skip to main content

每日论文 - 2025年09月10日

论文总数: 18

1. Sharing is Caring: Efficient LM Post-Training with Collective RL

Experience Sharing

作者: Jeffrey Amico, Gabriel Passamani Andrade, John Donaghy, Ben Fielding, Tristin Forbus, Harry Grieve, Semih Kara, Jari Kolehmainen, Yihua Lou, Christopher Nies, Edward Phillip Flores Nuño, Diogo Ortega, Shikhar Rastogi, Austin Virts, Matthew J. Wright

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-10 | 👍 点赞数: 438

摘要:

后训练语言模型(LMs)结合强化学习(RL)可以在无需监督微调的情况下提升其复杂推理能力,这一点已在DeepSeek-R1-Zero中得到验证。然而,为了扩展推理规模,有效利用RL进行LM训练需要大量并行化,这带来了显著的技术挑战(例如延迟、内存和可靠性问题),同时伴随着日益增长的财务成本。我们提出Swarm sAmpling Policy Optimization(SAPO),这是一种完全去中心化且异步的RL后训练算法。SAPO专为异构计算节点的去中心化网络设计,每个节点管理自己的策略模型,并在网络中与其他节点“共享”rollout数据;该算法不依赖于对延迟、模型同构性或硬件的明确假设,节点可根据需要独立运行。因此,该算法避免了扩展RL后训练中的常见瓶颈,同时开辟了(甚至鼓励了)新的可能性。通过在网络中采样“共享”的rollout数据,SAPO能够传播“顿悟时刻”,从而加速学习过程。本文展示了SAPO在受控实验中实现了高达94%的累积奖励提升。我们还分享了来自Gensyn社区成员在开源演示中使用不同硬件和模型运行该算法的数千节点网络测试中的见解。


2. Parallel-R1: Towards Parallel Thinking via Reinforcement Learning

作者: Tong Zheng, Hongming Zhang, Wenhao Yu, Xiaoyang Wang, Xinyu Yang, Runpeng Dai, Rui Liu, Huiwen Bao, Chengsong Huang, Heng Huang, Dong Yu

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-09 | 👍 点赞数: 86

摘要:

Parallel-R1:通过强化学习实现并行思维

并行思维作为一种新颖的方法,通过同时探索多条推理路径来增强大语言模型(LLMs)的推理能力。然而,通过训练激活这种能力仍然具有挑战性,因为现有方法主要依赖于在合成数据上的监督微调(SFT),这鼓励的是教师强制式的模仿,而非探索和泛化。与这些方法不同,我们提出了Parallel-R1,这是首个能够实现复杂现实世界推理任务中并行思维行为的强化学习(RL)框架。我们的框架采用了一种渐进式课程策略,明确解决了使用RL训练并行思维时的冷启动问题。我们首先在较简单任务生成的提示轨迹上进行SFT,以培养并行思维能力,然后过渡到RL,在更复杂的问题上探索并泛化这一技能。在包括MATH、AMC23和AIME在内的多个数学基准测试中的实验表明,与直接在复杂任务上使用RL训练的顺序思维模型相比,Parallel-R1成功地培养了并行思维,准确率提升了8.4%。进一步的分析揭示了模型思维行为的明显转变:在早期阶段,并行思维被用作一种探索策略;而在后期阶段,该能力则被用于多视角验证。更重要的是,我们将并行思维验证为一种中期训练的探索性支架,这一临时探索阶段在RL训练后解锁了更高的性能上限,在AIME25上相较于基线模型提升了42.9%。 我们的模型和代码将开源:https://github.com/zhengkid/Parallel-R1


3. Visual Representation Alignment for Multimodal Large Language Models

作者: Heeji Yoon, Jaewoo Jung, Junwan Kim, Hyungyu Choi, Heeseong Shin, Sangbeom Lim, Honggyu An, Chaehyun Kim, Jisang Han, Donghyun Kim, Chanho Eom, Sunghwan Hong, Seungryong Kim

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-09 | 👍 点赞数: 66

摘要:

多模态大语言模型(MLLMs)通过视觉指令微调在各种任务中表现出色,但在以视觉为中心的任务(如物体计数或空间推理)中仍存在局限性。我们将这一差距归因于主流的仅文本监督范式,其仅对视觉路径提供间接指导,并常导致MLLM在训练过程中丢弃细粒度的视觉细节。本文提出了一种简单而有效的正则化策略——视觉表示对齐(VIsual Representation ALignment, VIRAL),该策略将MLLM内部的视觉表示与预训练视觉基础模型(vision foundation models, VFMs)的视觉表示进行对齐。通过显式地实施这种对齐,VIRAL不仅使模型能够保留来自输入视觉编码器的关键视觉细节,还能从VFMs中补充额外的视觉知识,从而增强其对复杂视觉输入的推理能力。我们的实验表明,在广泛使用的多模态基准任务上,该方法在所有任务中均带来一致性的提升。此外,我们进行了全面的消融实验以验证框架中关键设计选择的有效性。我们相信,这一简单发现为多模态大语言模型训练中视觉信息的有效整合开辟了一个重要的研究方向。


4. Mini-o3: Scaling Up Reasoning Patterns and Interaction Turns for Visual

Search

作者: Xin Lai, Junyi Li, Wei Li, Tao Liu, Tianjian Li, Hengshuang Zhao

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-09 | 👍 点赞数: 52

摘要:

近年来,大型多模态模型利用基于图像的工具和强化学习来解决视觉问题。然而,现有的开源方法通常表现出单调的推理模式,且仅允许有限次数的交互回合,使其难以胜任需要试错探索的复杂任务。为解决这一局限性,我们通过扩展基于工具的交互,提出了Mini-o3系统,该系统能够执行深层次、多回合的推理(涵盖数十个步骤),并在具有挑战性的视觉搜索任务上实现了最先进的性能。我们用于复现OpenAI o3风格行为的方法包含三个关键组成部分。首先,我们构建了Visual Probe Dataset,这是一个包含数千个具有挑战性的视觉搜索问题的数据集,旨在支持探索性推理。其次,我们开发了一个迭代数据收集流程,以获取表现出多样化推理模式(包括深度优先搜索、试错和目标保持)的冷启动轨迹。第三,我们提出了一种过回合掩码策略,在强化学习过程中避免对过回合响应(即达到最大回合数的响应)进行惩罚,从而在训练效率和测试时可扩展性之间取得平衡。尽管训练时设定的交互上限仅为六个回合,我们的模型在推理时能够自然地扩展至数十个回合,并且准确率随着回合数的增加而提高。大量实验表明,Mini-o3能够生成丰富的推理模式和深入的思考路径,有效解决具有挑战性的视觉搜索问题。


5. Reconstruction Alignment Improves Unified Multimodal Models

作者: Ji Xie, Trevor Darrell, Luke Zettlemoyer, XuDong Wang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-08 | 👍 点赞数: 37

摘要:

统一多模态模型(UMMs)在单一架构中融合了视觉理解和生成能力。然而,传统的训练方法依赖图像-文本对(或序列),其描述通常稀疏且缺乏细粒度的视觉细节——即使使用数百个词来描述一张简单的图像也是如此。我们提出重建对齐(Reconstruction Alignment,RecA),这是一种资源高效的后训练方法,利用视觉理解编码器的嵌入作为密集的“文本提示”,在无需文本描述的情况下提供丰富的监督信号。具体而言,RecA以UMM自身的视觉理解嵌入为条件,通过自监督重建损失优化模型以重建输入图像,从而实现理解与生成的重新对齐。尽管结构简单,RecA具有广泛适用性:在自回归、掩码自回归和基于扩散的UMMs中,均能持续提升生成和编辑的保真度。仅使用27个GPU小时进行后训练,RecA就在GenEval(0.73→0.90)和DPGBench(80.93→88.15)上显著提升了图像生成性能,同时在编辑任务上也有提升(ImgEdit 3.38→3.75,GEdit 6.94→7.25)。值得注意的是,RecA的表现超越了更大规模的开源模型,并适用于多种UMM架构,确立了其作为一种高效且通用的UMMs后训练对齐策略的地位。


6. UMO: Scaling Multi-Identity Consistency for Image Customization via

Matching Reward

作者: Yufeng Cheng, Wenxu Wu, Shaojin Wu, Mengqi Huang, Fei Ding, Qian He

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-08 | 👍 点赞数: 27

摘要:

近期在图像定制方面的进展因其更强的定制能力而展现出广泛的应用前景。然而,由于人类对人脸更为敏感,在使用多参考图像时,如何在保持身份一致性的同时避免身份混淆仍是一个重大挑战,这限制了定制模型的身份可扩展性。为解决此问题,我们提出了UMO(Unified Multi-identity Optimization,统一多身份优化框架),旨在保持高保真身份保留的同时,以可扩展性缓解身份混淆问题。UMO采用“多对多匹配”范式,将多身份生成重新表述为全局分配优化问题,并通过在扩散模型上的强化学习方法,为现有图像定制方法普遍提升多身份一致性。为促进UMO的训练,我们构建了一个包含合成与真实数据的可扩展定制数据集,其中包含多参考图像。此外,我们提出了一种新的度量指标以量化身份混淆程度。大量实验表明,UMO不仅显著提升了身份一致性,还减少了多种图像定制方法中的身份混淆问题,在身份保留维度上树立了开源方法的新标杆。 代码与模型:https://github.com/bytedance/UMO


7. F1: A Vision-Language-Action Model Bridging Understanding and Generation

to Actions

作者: Qi Lv, Weijie Kong, Hao Li, Jia Zeng, Zherui Qiu, Delin Qu, Haoming Song, Qizhi Chen, Xiang Deng, Jiangmiao Pang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-08 | 👍 点赞数: 26

摘要:

在动态视觉环境中执行语言条件任务仍然是具身人工智能的核心挑战。现有的视觉-语言-动作(Vision-Language-Action, VLA)模型主要采用反应式的状态到动作映射,通常在动态场景中表现出短视行为和较差的鲁棒性。本文中,我们提出F1,一种预训练的VLA框架,将视觉预见生成融入决策流程。F1采用混合Transformer架构,包含专门用于感知、预见生成和控制的模块,从而连接理解、生成与动作。其核心机制是“下一阶段预测”,用于合成以目标为条件的视觉预见作为显式规划目标。通过预测合理的未来视觉状态,F1将动作生成重新定义为一种预见引导的逆动力学问题,从而实现隐式达成视觉目标的动作。为了赋予F1鲁棒且可泛化的能力,我们在包含136种多样化任务、超过330k条轨迹的广泛数据集上提出了一种三阶段训练策略。该训练方案增强了模块化推理能力,并使模型具备可迁移的视觉预见能力,这对于复杂和动态环境至关重要。在真实世界任务和仿真基准上的大量评估表明,F1始终优于现有方法,在任务成功率和泛化能力方面均有显著提升。


8. Emergent Hierarchical Reasoning in LLMs through Reinforcement Learning

作者: Haozhe Wang, Qixin Xu, Che Liu, Junhong Wu, Fangzhen Lin, Wenhu Chen

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-03 | 👍 点赞数: 23

摘要:

摘要:强化学习(Reinforcement Learning, RL)已被证明在提升大语言模型(Large Language Models, LLMs)复杂推理能力方面非常有效,但推动这一成功的潜在机制仍 largely不透明。我们的分析表明,“顿悟时刻”(aha moments)、“长度扩展性”(length-scaling)和熵动态等令人困惑的现象并非独立事件,而是新兴推理层级结构的标志,类似于人类认知中高层战略规划与低层程序执行的分离。我们揭示了一个显著的两阶段动态:最初,模型受程序正确性的限制,必须提升其低层技能;随后,学习瓶颈发生决定性转变,性能提升主要由对高层战略规划的探索与掌握驱动。这一发现揭示了当前主流强化学习算法(如GRPO)中的一个核心低效问题:其优化压力缺乏针对性,导致学习信号在所有token上被稀释。为解决这一问题,我们提出层级感知信用分配算法(HIerarchy-Aware Credit Assignment, HICRA),该算法将优化重点集中在高影响力的战略规划token上。HICRA显著优于多个强基线方法,表明聚焦于这一战略瓶颈是释放高级推理能力的关键。此外,我们验证了语义熵作为衡量战略探索的指标优于诸如token级熵等具有误导性的度量标准。


9. Language Self-Play For Data-Free Training

作者: Jakub Grudzien Kuba, Mengting Gu, Qi Ma, Yuandong Tian, Vijai Mohan

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-09 | 👍 点赞数: 21

摘要:

大型语言模型(LLMs)近年来取得了快速进展,这主要得益于模型规模的扩大、高质量训练数据的丰富以及强化学习的应用。然而,这一进展面临一个根本性的瓶颈:模型需要越来越多的数据才能持续学习。在本研究中,我们提出了一种强化学习方法,通过使模型无需额外数据即可实现自我提升,从而消除这一依赖性。我们的方法基于博弈论中的自对弈(self-play)框架,将模型的能力体现为在竞争性游戏中的表现,并通过让模型与自身对弈来生成更强的策略。我们将这一过程称为语言自对弈(Language Self-Play, LSP)。在Llama-3.2-3B-Instruct模型上的实验表明,预训练模型不仅可以通过自对弈在具有挑战性的任务上提升性能,而且其提升效果优于基于数据驱动的基线方法。


10. Curia: A Multi-Modal Foundation Model for Radiology

作者: Corentin Dancette, Julien Khlaut, Antoine Saporta, Helene Philippe, Elodie Ferreres, Baptiste Callard, Théo Danielou, Léo Alberge, Léo Machado, Daniel Tordjman, Julie Dupuis, Korentin Le Floch, Jean Du Terrail, Mariam Moshiri, Laurent Dercle, Tom Boeken, Jules Gregory, Maxime Ronot, François Legou, Pascal Roux, Marc Sapoval, Pierre Manceron, Paul Hérent

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-08 | 👍 点赞数: 18

摘要:

摘要:
当前基于人工智能的放射学解读主要依赖于单一任务的窄领域模型。这种方法在覆盖广泛的成像模态、疾病和放射学发现方面并不实用。基础模型(Foundation Models, FMs)有望在不同模态和低数据条件下实现广泛泛化。然而,这一潜力在放射学领域尚未得到充分实现。我们提出了Curia,这是一种基础模型,训练数据涵盖某大型医院多年来积累的全部横断面影像数据,据我们所知,这是迄今为止规模最大的真实世界数据集,包含150,000次检查(130 TB)。在一套新构建的包含19项任务的外部验证基准上,Curia能够准确识别器官,检测脑出血和心肌梗死等疾病,并预测肿瘤分期中的临床结果。Curia的表现达到或超过了放射科医生和近期基础模型的水平,并在跨模态和低数据场景下展现出具有临床意义的新兴特性。为推动研究进展,我们已发布基础模型的权重,地址为https://huggingface.co/raidium/curia。


11. Staying in the Sweet Spot: Responsive Reasoning Evolution via

Capability-Adaptive Hint Scaffolding

作者: Ziheng Li, Zexu Sun, Jinman Zhao, Erxue Min, Yongcheng Zeng, Hui Wu, Hengyi Cai, Shuaiqiang Wang, Dawei Yin, Xu Chen, Zhi-Hong Deng

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-08 | 👍 点赞数: 17

摘要:

摘要:具有可验证奖励的强化学习(RLVR)在提升大语言模型(LLMs)的推理能力方面取得了显著成功。然而,现有的RLVR方法常常因训练数据难度与模型能力不匹配而导致探索效率低下。当问题过于困难时,LLMs无法发现可行的推理路径;而当问题过于简单时,模型又难以学习到新的能力。本研究通过量化损失下降速度与rollout准确率之间的关系,形式化地分析了问题难度的影响。基于这一分析,我们提出了SEELE,一种新颖的辅助监督RLVR框架,能够动态调整问题难度以保持在高效区域。SEELE通过在原始问题后附加一个提示(完整解法的一部分)来增强每个训练样本。与以往基于提示的方法不同,SEELE针对每个问题有意且自适应地调整提示长度以实现最优难度。为了确定最佳提示长度,SEELE采用多轮rollout采样策略。在每一轮中,它利用前几轮收集的准确率-提示对数据拟合项目反应理论模型,以预测下一轮所需的提示长度。这种面向实例且实时的难度调整机制使问题难度始终与不断演化的模型能力保持一致,从而提高了探索效率。实验结果表明,在六个数学推理基准任务上,SEELE分别比组相对策略优化(GRPO)和监督微调(SFT)提升了+11.8和+10.5个百分点,平均而言,其性能优于此前最佳的辅助监督方法达+3.6个百分点。


12. Causal Attention with Lookahead Keys

作者: Zhuoqing Song, Peng Sun, Huizhuo Yuan, Quanquan Gu

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-09 | 👍 点赞数: 15

摘要:

在标准的因果注意力机制中,每个token的查询(query)、键(key)和值(value)(QKV)是静态的,且仅编码其之前的上下文。我们提出了具有前瞻键的因果注意力机制(CAuSal aTtention with Lookahead kEys,简称CASTLE),该机制随着上下文的展开持续更新每个token的键。我们将这些更新后的键称为前瞻键(lookahead keys),因为它们属于较早的位置,但整合了相对于这些位置而言出现在后面的token的信息,同时严格保持了自回归性质。尽管该机制在表面上具有顺序性,我们推导出一种数学等价形式,避免在每个位置显式生成前瞻键,从而实现高效的并行训练。在语言建模基准测试中,CASTLE在不同规模的模型上均一致优于标准的因果注意力机制,降低了验证困惑度,并在一系列下游任务中提升了性能。


13. Directly Aligning the Full Diffusion Trajectory with Fine-Grained Human

Preference

作者: Xiangwei Shen, Zhimin Li, Zhantao Yang, Shiyi Zhang, Yingfang Zhang, Donghao Li, Chunyu Wang, Qinglin Lu, Yansong Tang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-08 | 👍 点赞数: 13

摘要:

近期研究已证明,使用可微奖励直接对齐扩散模型与人类偏好具有显著效果。然而,这些方法存在两个主要挑战:(1) 它们依赖于多步去噪过程并需计算梯度以进行奖励评分,计算成本较高,从而限制了优化仅能在少数扩散步骤中进行;(2) 为了实现理想的美学质量(如照片真实感或精确的光照效果),通常需要对奖励模型进行持续的离线适配。为解决多步去噪的局限性,我们提出了Direct-Align方法,该方法预定义了一个噪声先验,通过插值方式从任意时间步长中有效恢复原始图像,利用扩散状态在噪声与目标图像之间进行插值的等式关系,从而有效避免在后期时间步中的过度优化。此外,我们引入了语义相对偏好优化(Semantic Relative Preference Optimization, SRPO),其中奖励被建模为文本条件信号。该方法能够根据正向与负向提示增强在线调整奖励,从而降低对离线奖励微调的依赖。通过对FLUX.1.dev模型进行优化去噪与在线奖励调整的微调,我们在人类评估的现实感与美学质量方面提升了超过3倍。


14. SimpleQA Verified: A Reliable Factuality Benchmark to Measure Parametric

Knowledge

作者: Lukas Haas, Gal Yona, Giovanni D'Antonio, Sasha Goldshtein, Dipanjan Das

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-09 | 👍 点赞数: 9

摘要:

我们推出了SimpleQA Verified,这是一个基于OpenAI的SimpleQA构建的包含1,000个问题的基准测试,用于评估大语言模型(Large Language Model, LLM)在短格式回答中的事实性表现。该基准解决了OpenAI基准中的几个关键缺陷,包括标签噪声和错误、主题偏差以及问题冗余。SimpleQA Verified通过严格的多阶段过滤流程创建,包括去重、主题平衡和来源校准,从而生成一个更加可靠且具有挑战性的评估集,并对自动评分提示进行了改进。在这一新基准上,Gemini 2.5 Pro取得了最先进的55.6 F1分数,超过了包括GPT-5在内的其他前沿模型。本研究为学术界提供了一个高保真工具,以追踪参数化模型事实性能力的真实进展,并减少幻觉现象。基准数据集、评估代码及排行榜可在以下网址获取:https://www.kaggle.com/benchmarks/deepmind/simpleqa-verified。


15. Q-Sched: Pushing the Boundaries of Few-Step Diffusion Models with

Quantization-Aware Scheduling

作者: Natalia Frumkin, Diana Marculescu

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-01 | 👍 点赞数: 6

摘要:

Q-Sched:通过量化感知调度突破少步扩散模型的边界

文本到图像扩散模型计算密集,通常需要对大型Transformer主干网络进行数十次前向传播。例如,Stable Diffusion XL通过50次对26亿参数模型的评估生成高质量图像,即使单个批次的处理对计算资源要求也很高。少步扩散模型将这一成本降低至2-8个去噪步骤,但仍依赖于大型、未压缩的U-Net或扩散Transformer主干网络,在没有数据中心级GPU的情况下进行全精度推理通常过于昂贵。这些限制也影响了依赖全精度校准的现有训练后量化方法。我们提出Q-Sched,一种新的训练后量化范式,修改扩散模型调度器而非模型权重。通过调整少步采样轨迹,Q-Sched在实现全精度准确率的同时将模型尺寸减少了4倍。为了学习量化感知的预调节系数,我们提出了JAQ损失函数,该函数结合文本-图像兼容性和图像质量度量以实现细粒度优化。JAQ无需参考图像,仅需少量校准提示,避免在校准过程中进行全精度推理。Q-Sched带来了显著提升:相比FP16 4步隐空间一致性模型,FID改善了15.5%;相比FP16 8步阶段一致性模型,改善了16.6%,表明量化与少步蒸馏在高保真生成中是互补的。一项包含超过80,000条标注的大规模用户研究进一步验证了Q-Sched在FLUX.1[schnell]和SDXL-Turbo上的有效性。


16. ΔL Normalization: Rethink Loss Aggregation in RLVR

作者: Zhiyuan He, Xufang Luo, Yike Zhang, Yuqing Yang, Lili Qiu

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-09 | 👍 点赞数: 5

摘要:

ΔL 归一化:重新思考 RLVR 中的损失聚合方法

我们提出了 ΔL 归一化,这是一种简单而有效的损失聚合方法,专门针对在可验证奖励强化学习(RLVR)中动态生成长度的特性。最近,RLVR 在提升大语言模型(LLMs)推理能力方面展现出巨大潜力,但一个主要挑战在于训练过程中响应长度的大幅变化,这导致了较高的梯度方差和不稳定的优化过程。尽管先前的方法如 GRPO、DAPO 和 Dr. GRPO 引入了不同的损失归一化项来应对这一问题,但它们要么产生有偏估计,要么仍然面临较高的梯度方差。通过在理论和实证层面上分析变化长度对策略损失的影响,我们将该问题重新表述为寻找最小方差无偏估计量的问题。我们提出的 ΔL 归一化方法不仅能够对真实的策略损失提供无偏估计,理论上还能最小化梯度方差。大量实验表明,该方法在不同模型规模、最大生成长度和任务上均能持续取得优越的结果。 我们的代码将公开于 https://github.com/zerolllin/Delta-L-Normalization


17. Benchmarking Information Retrieval Models on Complex Retrieval Tasks

作者: Julian Killingback, Hamed Zamani

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-08 | 👍 点赞数: 3

摘要:

大型语言模型(Large language models, LLMs)是文本任务中令人惊叹且多功能的工具,使无数以前难以想象的应用成为可能。相比之下,检索模型尚未出现具备类似通用能力的模型。为了实现这一目标,检索模型必须能够处理复杂的检索任务,其中查询包含多个部分、约束或自然语言中的需求。这些任务代表了从现有大多数常用评估数据集中简单的单方面查询所进行的自然演进。随着用户期望搜索系统能够处理更具体且通常更复杂的查询需求,复杂查询自然地出现,这一点在用户使用LLM驱动的信息系统时得到了证明。尽管人们对检索模型在复杂检索任务中的能力扩展日益感兴趣,但目前仍缺乏资源来全面评估检索模型在多样化复杂任务中的表现。现有的少量资源通常范围有限,且常缺乏现实场景,使得难以了解检索模型在真实世界复杂检索任务中的实际能力。为弥补这一不足并推动下一代检索模型的创新,我们构建了一组多样化且贴近现实的复杂检索任务,并对一组具有代表性的最先进检索模型进行了基准测试。此外,我们还探讨了基于LLM的查询扩展和重写对检索质量的影响。我们的实验结果表明,即使是最先进的模型在这些任务中也难以产生高质量的检索结果,所有任务的平均nDCG@10仅为0.346,R@100仅为0.587。尽管LLM增强对较弱模型有所帮助,但最强模型在所有重写技术下在所有指标上均表现出性能下降。


18. From Noise to Narrative: Tracing the Origins of Hallucinations in

Transformers

作者: Praneet Suresh, Jack Stanley, Sonia Joseph, Luca Scimeca, Danilo Bzdok

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-08 | 👍 点赞数: 2

摘要:

随着生成式AI系统在科学、商业和政府领域的应用日益广泛且趋于普及,深入了解其失效模式已成为迫切需求。生成式AI行为的偶尔波动性,例如Transformer模型容易产生幻觉(hallucinate)的倾向,阻碍了高风险领域新兴AI解决方案的信任与采纳。本研究通过使用稀疏自编码器(sparse autoencoders)捕获的概念表征,在输入空间中实验性控制不确定性的场景下,系统地揭示了预训练Transformer模型中幻觉的产生时机与机制。我们的实验表明,当输入信息变得越来越非结构化时,Transformer模型所使用的语义概念数量随之增加。面对输入空间中不断增强的不确定性,Transformer模型倾向于激活那些具有一致性但对输入不敏感的语义特征,从而导致输出幻觉。极端情况下,对于纯噪声输入,我们在预训练Transformer模型的中间激活中识别出大量稳定触发且具有意义的概念,并通过定向引导(targeted steering)验证了这些概念的功能完整性。我们还展示了,Transformer模型输出中的幻觉可以从其各层激活中嵌入的概念模式可靠预测。这一系列关于Transformer内部处理机制的见解,对于实现AI模型与人类价值观的对齐、提升AI安全性、防范潜在对抗攻击(adversarial attacks)的威胁,以及为模型幻觉风险的自动量化提供了基础。