跳到主要内容
目录

每日论文 - 2025年08月20日

论文总数: 28

1. Chain-of-Agents: End-to-End Agent Foundation Models via Multi-Agent

Distillation and Agentic RL

作者: Weizhen Li, Jianbo Lin, Zhuosong Jiang, Jingyi Cao, Xinpeng Liu, Jiayu Zhang, Zhenqiang Huang, Qianben Chen, Weichen Sun, Qiexiang Wang, Hongxuan Lu, Tianrui Qin, Chenghao Zhu, Yi Yao, Shuying Fan, Xiaowan Li, Tiannan Wang, Pai Liu, King Zhu, He Zhu, Dingfeng Shi, Piaohong Wang, Yeyi Guan, Xiangru Tang, Minghao Liu, Yuchen Eleanor Jiang, Jian Yang, Jiaheng Liu, Ge Zhang, Wangchunshu Zhou

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-06 | 👍 点赞数: 91

摘要:

摘要:
近年来,大语言模型(LLMs)和多智能体系统在复杂问题求解任务中表现出卓越的能力,例如深度研究、氛围编码和数学推理。然而,大多数现有的多智能体系统依赖于手动设计的提示/工作流工程和复杂的智能体框架,导致计算效率低下、能力受限,并且无法从以数据为中心的学习中受益。在本研究中,我们提出Chain-of-Agents(CoA),一种新颖的LLM推理范式,能够在单一模型内以端到端的方式实现原生的复杂问题求解,其方式与多智能体系统相同(即通过多个工具和多个智能体进行多轮问题求解)。在Chain-of-Agents的问题求解过程中,模型以端到端的方式动态激活不同的工具智能体和角色扮演智能体,从而模拟多智能体协作。为了激发LLMs的端到端Chain-of-Agents问题求解能力,我们提出了一种多智能体蒸馏框架,将最先进的多智能体系统蒸馏为Chain-of-Agents轨迹,用于智能体监督微调。随后,我们在可验证的智能体任务上应用智能体强化学习,以进一步提升模型在Chain-of-Agents问题求解方面的能力。我们将所得模型称为智能体基础模型(Agent Foundation Models, AFMs)。我们的实证研究表明,AFM在网页智能体和代码智能体设置下的多种基准测试中均达到了新的最先进性能。本研究的全部内容,包括模型权重、训练与评估代码以及训练数据,均已完全开源,为未来关于智能体模型和智能体强化学习的研究提供了坚实的基础。


2. LongSplat: Robust Unposed 3D Gaussian Splatting for Casual Long Videos

作者: Chin-Yang Lin, Cheng Sun, Fu-En Yang, Min-Hung Chen, Yen-Yu Lin, Yu-Lun Liu

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-19 | 👍 点赞数: 44

摘要:

LongSplat针对从随意拍摄的长视频中进行新视角合成(NVS)所面临的关键挑战,这些问题包括不规则的相机运动、未知的相机姿态以及广阔的场景。当前方法常常受到姿态漂移、几何初始化不准确以及严重的内存限制的影响。为了解决这些问题,我们提出了LongSplat,这是一种鲁棒的无姿态3D高斯点绘(Gaussian Splatting)框架,其核心要素包括:(1) 增量联合优化(Incremental Joint Optimization),同时优化相机姿态和3D高斯分布,以避免陷入局部极小值并确保全局一致性;(2) 基于学习的3D先验信息的鲁棒姿态估计模块(Pose Estimation Module);(3) 高效的八叉树锚点形成机制(Octree Anchor Formation),根据空间密度将稠密点云转换为锚点。在多个具有挑战性的基准数据集上的大量实验表明,与先前方法相比,LongSplat在渲染质量、姿态估计精度和计算效率方面均取得了显著提升。项目页面:https://linjohnss.github.io/longsplat/


3. Prompt Orchestration Markup Language

作者: Yuge Zhang, Nan Chen, Jiahang Xu, Yuqing Yang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-19 | 👍 点赞数: 29

摘要:

大型语言模型(LLMs)需要复杂的提示设计,但当前实践在结构组织、数据集成、格式敏感性和工具支持方面面临挑战。现有方法缺乏对涉及多种数据类型(如文档、表格、图像)的复杂提示以及系统化管理展示变化的全面解决方案。为解决这些问题,我们提出POML(Prompt Orchestration Markup Language,提示编排标记语言)。POML采用基于组件的标记方式,以实现逻辑结构(角色、任务、示例)的清晰表达,使用专用标签实现数据的无缝集成,并引入类似CSS的样式系统,以解耦内容与展示,降低格式敏感性。此外,POML支持动态提示的模板机制,以及完整的开发者工具包(IDE支持、SDK)以提升版本控制与协作效率。我们通过两个案例研究验证POML的有效性,分别展示了其在复杂应用集成(PomLink)和准确性能(TableQA)上的影响,以及通过用户研究评估其在实际开发场景中的实用性。


4. MultiRef: Controllable Image Generation with Multiple Visual References

作者: Ruoxi Chen, Dongping Chen, Siyuan Wu, Sinan Wang, Shiyun Lang, Petr Sushko, Gaoyang Jiang, Yao Wan, Ranjay Krishna

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-09 | 👍 点赞数: 16

摘要:

视觉设计师通常从多个视觉参考中汲取灵感,融合多样化的元素和美学原则来创作艺术作品。然而,当前的图像生成框架主要依赖单一来源的输入——文本提示或单个参考图像。本文聚焦于使用多个视觉参考进行可控图像生成的任务。我们提出了MultiRef-bench,这是一个严格的评估框架,包含990个合成样本和1,000个真实世界样本,均需要融合来自多个参考图像的视觉内容。合成样本通过我们的数据引擎RefBlend生成,涵盖10种参考类型和33种参考组合。基于RefBlend,我们进一步构建了一个包含38k张高质量图像的数据集MultiRef,以促进相关领域的研究。我们在三个图文交错模型(即OmniGen、ACE和Show-o)以及六个基于智能体的框架(例如ChatDiT和LLM + SD)上的实验表明,即使是当前最先进的系统在多参考条件生成任务上仍面临挑战,其中表现最佳的模型OmniGen在合成样本上的平均得分为66.6%,在真实世界样本上的平均得分为79.0%(相对于标准答案)。这些发现为开发更加灵活、类人化的创意工具提供了有价值的研究方向。该数据集已公开,访问地址为:https://multiref.github.io/。


5. MM-BrowseComp: A Comprehensive Benchmark for Multimodal Browsing Agents

作者: Shilong Li, Xingyuan Bu, Wenjie Wang, Jiaheng Liu, Jun Dong, Haoyang He, Hao Lu, Haozhe Zhang, Chenchen Jing, Zhen Li, Chuanhao Li, Jiayi Tian, Chenchen Zhang, Tianhao Peng, Yancheng He, Jihao Gu, Yuanxing Zhang, Jian Yang, Ge Zhang, Wenhao Huang, Wangchunshu Zhou, Zhaoxiang Zhang, Ruizhe Ding, Shilei Wen

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-14 | 👍 点赞数: 15

摘要:

MM-BrowseComp: 一个面向多模态浏览代理的综合基准

具有高级推理和工具使用能力的AI代理在深度搜索的网页浏览中表现出色。尽管现有的基准测试(如BrowseComp)对这些浏览能力进行了评估,但它们主要关注文本信息,而忽略了多模态内容的普遍存在。为填补这一空白,我们提出了MM-BrowseComp,这是一个新颖的基准,包含224个具有挑战性的手工设计问题,专门用于评估代理的多模态检索与推理能力。这些问题通常在提示中包含图像,并且在搜索和推理过程中遇到的关键信息也可能嵌入在网页的图像或视频中。因此,仅依赖文本的方法在我们的基准测试中表现不足。此外,我们为每个问题提供了经过验证的检查清单,以实现对多模态依赖性和推理路径的细粒度分析。我们在MM-BrowseComp上对当前最先进的模型进行了全面评估,结果表明,即使使用工具的OpenAI o3等顶级模型,准确率也仅为29.02%,突显了当前模型在多模态能力方面的不足以及缺乏原生的多模态推理能力。


6. Embodied-R1: Reinforced Embodied Reasoning for General Robotic

Manipulation

作者: Yifu Yuan, Haiqin Cui, Yaoting Huang, Yibin Chen, Fei Ni, Zibin Dong, Pengyi Li, Yan Zheng, Jianye Hao

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-19 | 👍 点赞数: 12

摘要:

Embodied-R1:用于通用机器人操作的强化具身推理

具身智能中的泛化能力受到“感知-行动鸿沟”(seeing-to-doing gap)的限制,这源于数据稀缺性和具身异质性。为解决这一问题,我们提出将“指向”作为统一的、与具身形式无关的中间表征,并定义了四项核心的具身指向能力,以连接高层视觉-语言理解与底层动作基元。我们引入Embodied-R1,这是一个专为具身推理和指向任务设计的30亿参数视觉-语言模型(VLM)。我们利用广泛的具身和通用视觉推理数据集作为来源,构建了一个大规模数据集Embodied-Points-200K,支持关键的具身指向能力。随后,我们采用两阶段强化微调(RFT)课程学习方法,并设计了专门的多任务奖励机制来训练Embodied-R1。该模型在11项具身空间和指向基准任务上达到了当前最先进的性能。尤为关键的是,Embodied-R1在零样本泛化方面表现出色,在SIMPLEREnv中实现了56.2%的成功率,在8项真实世界XArm任务中平均成功率达到87.5%,且无需任何任务特定的微调,相较强基线模型性能提升了62%。此外,该模型在面对多种视觉干扰时表现出高度鲁棒性。我们的研究表明,以指向为中心的表征结合RFT训练范式,为缩小机器人感知与行动之间的鸿沟提供了一条有效且具备泛化能力的路径。


7. Mind the Generation Process: Fine-Grained Confidence Estimation During

LLM Generation

作者: Jinyi Han, Tingyun Li, Shisong Chen, Jie Shi, Xinyi Wang, Guanglei Yue, Jiaqing Liang, Xin Lin, Liqian Wen, Zulong Chen, Yanghua Xiao

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-16 | 👍 点赞数: 11

摘要:

尽管大语言模型(LLMs)在各种任务中表现出色,但它们本质上缺乏自我认知能力,常常表现出过度自信,对错误预测分配较高的置信度。因此,准确的置信度估计对于提高LLM生成输出的可信度和可靠性至关重要。然而,现有方法受限于粗粒度的评分机制,无法在整个生成过程中提供细粒度、连续的置信度估计。为了解决这些局限性,我们提出了FineCE,一种新颖的置信度估计方法,能够在文本生成过程中提供准确且细粒度的置信度评分。具体而言,我们首先开发了一个全面的训练数据构建流程,以有效捕捉LLM响应的潜在概率分布;随后以监督学习方式训练模型,用于预测任意文本序列的置信度得分。此外,我们提出了一种反向置信度整合(Backward Confidence Integration, BCI)策略,利用后续文本的信息来增强推理过程中当前序列的置信度估计。我们还引入了三种策略,用于识别在生成过程中执行置信度估计的最佳位置。在多个基准数据集上的广泛实验证明,FineCE始终优于现有的经典置信度估计方法。本文所使用的代码和所有基线模型均可在GitHub上获取。


8. Training-Free Text-Guided Color Editing with Multi-Modal Diffusion

Transformer

作者: Zixin Yin, Xili Dai, Ling-Hao Chen, Deyu Zhou, Jianan Wang, Duomin Wang, Gang Yu, Lionel M. Ni, Lei Zhang, Heung-Yeung Shum

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-12 | 👍 点赞数: 11

摘要:

文本引导的图像和视频颜色编辑是一个基础但尚未解决的问题,需要在保持几何结构、材质属性和光物质相互作用物理一致性的前提下,对颜色属性(包括反照率、光源颜色和环境光照)进行细粒度的操控。现有的无需训练的方法在各类编辑任务中具有广泛适用性,但在精确的颜色控制方面存在困难,且常常在编辑区域和非编辑区域引入视觉不一致性。本文提出了一种无需训练的颜色编辑方法ColorCtrl,该方法利用现代多模态扩散Transformer(Multi-Modal Diffusion Transformer, MM-DiT)的注意力机制。通过有针对性地操控注意力图和值(value)令牌,实现结构与颜色的解耦,从而实现准确且一致的颜色编辑,并支持对属性强度的词级控制。我们的方法仅修改由提示(prompt)指定的目标区域,而保持其他无关区域不变。在SD3和FLUX.1-dev上的大量实验表明,ColorCtrl在编辑质量和一致性方面均优于现有的无需训练方法,达到最先进的性能。此外,我们的方法在一致性方面还优于FLUX.1 Kontext Max和GPT-4o图像生成等强大的商用模型。当扩展至视频模型(如CogVideoX)时,我们的方法展现出更大的优势,尤其在保持时间连贯性和编辑稳定性方面。最后,我们的方法还可推广至基于指令编辑的扩散模型(如Step1X-Edit和FLUX.1 Kontext dev),进一步验证了其通用性。


9. Leveraging Large Language Models for Predictive Analysis of Human Misery

作者: Bishanka Seal, Rahul Seetharaman, Aman Bansal, Abhilash Nandy

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-18 | 👍 点赞数: 10

摘要:

本研究探讨了利用大语言模型(Large Language Models, LLMs)从对现实场景的自然语言描述中预测人类感知的痛苦评分。该任务被定义为一个回归问题,模型为每条输入语句分配一个0到100之间的标量值。我们评估了多种提示策略,包括零样本(zero-shot)、固定上下文小样本(fixed-context few-shot)以及基于BERT句子嵌入的检索提示方法。结果表明,小样本方法始终优于零样本基线,突显了在情感预测中上下文示例的重要性。为了超越静态评估,我们引入了“痛苦游戏秀”(Misery Game Show)这一新颖的游戏化框架,灵感来源于电视节目形式。该框架通过包含序数比较、二分类、标量估计和反馈驱动推理的结构化轮次测试LLMs。这种设置不仅评估了预测准确性,还检验了模型根据纠正性反馈进行调整的能力。游戏化评估突出了LLMs在动态情感推理任务中的广泛潜力,超越了传统的回归任务。代码和数据链接:https://github.com/abhi1nandy2/Misery_Data_Exps_GitHub


10. Evaluating Podcast Recommendations with Profile-Aware LLM-as-a-Judge

作者: Francesco Fabbri, Gustavo Penha, Edoardo D'Amico, Alice Wang, Marco De Nadai, Jackie Doremus, Paul Gigioli, Andreas Damianou, Oskar Stal, Mounia Lalmas

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-12 | 👍 点赞数: 10

摘要:

评估个性化推荐仍然是一个核心挑战,尤其是在播客等长格式音频领域,传统的离线评估指标存在曝光偏差问题,而在线方法如A/B测试则成本高昂且在操作上受限。本文中,我们提出了一种新颖的框架,该框架利用大语言模型(Large Language Models, LLMs)作为离线评估者,以可扩展且可解释的方式评估播客推荐的质量。我们的两阶段、用户画像感知的方法首先基于90天的收听历史构建自然语言形式的用户画像。这些画像总结了用户的主题兴趣和行为模式,作为用户偏好的紧凑且可解释的表示。与直接向LLM输入原始数据不同,我们使用这些画像提供高层、语义丰富的上下文,使LLM能够更有效地推理用户兴趣与推荐剧集之间的匹配程度。这降低了输入复杂性并提高了可解释性。随后,我们引导LLM根据用户画像与推荐剧集的匹配程度,提供细粒度的逐点和逐对评估。在一项包含47名参与者的对照研究中,我们的用户画像感知评估者以高保真度匹配人类判断结果,并且优于或等同于使用原始收听历史的变体方法。该框架支持高效的、用户画像感知的评估,从而促进推荐系统的迭代测试和模型选择。


11. OmniTry: Virtual Try-On Anything without Masks

作者: Yutong Feng, Linlin Zhang, Hengyuan Cao, Yiming Chen, Xiaoduan Feng, Jian Cao, Yuxiong Wu, Bin Wang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-19 | 👍 点赞数: 9

摘要:

虚拟试穿(Virtual Try-ON, VTON)是一项实用且广泛应用的任务,现有大多数研究集中于服装类物体。本文提出OmniTry,一个统一的框架,将VTON扩展至包括首饰和配饰等各类可穿戴物体,且在无需掩码(mask-free)的设置下实现更实际的应用场景。在扩展至多种类型的物体时,获取成对图像(即物体图像和对应的试穿结果图像)的数据整理面临挑战。为解决这一问题,我们提出一个两阶段的流程:第一阶段,我们利用大规模的非成对图像(即包含任意可穿戴物品的人像)训练模型以实现无掩码的定位。具体而言,我们将修复(inpainting)模型重新用于在给定空白掩码的情况下自动将物体绘制在合适的位置。第二阶段,模型进一步使用成对图像进行微调,以迁移物体外观的一致性。我们发现,即使使用少量成对样本,第一阶段后的模型也能快速收敛。OmniTry在一个包含12种常见可穿戴物体类别的全面基准数据集上进行了评估,涵盖店内和真实场景(in-the-wild)图像。实验结果表明,与现有方法相比,OmniTry在物体定位和身份保持(ID-preservation)方面均表现出更优的性能。OmniTry的代码、模型权重和评估基准将在https://omnitry.github.io/公开发布。


12. A Stitch in Time Saves Nine: Proactive Self-Refinement for Language

Models

作者: Jinyi Han, Xinyi Wang, Haiquan Zhao, Tingyun li, Zishang Jiang, Sihang Jiang, Jiaqing Liang, Xin Lin, Weikang Zhou, Zeye Sun, Fei Yu, Yanghua Xiao

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-18 | 👍 点赞数: 9

摘要:

及时一针,千金不弃:语言模型的主动自我优化

近期自我优化方法的进展表明,通过迭代优化可以显著提升大语言模型(LLMs)的输出质量。然而,大多数现有的自我优化方法依赖于固定迭代次数的被动过程,难以根据生成过程中的动态上下文确定最佳的优化时机和内容。受人类在执行过程中动态完善思维的启发,我们提出了主动自我优化(ProActive Self-Refinement, PASR)方法,使LLMs能够在生成过程中主动优化其输出。与重新生成整个响应的方法不同,PASR基于模型的内部状态和不断演化的上下文,主动判断是否、何时以及如何进行优化。我们在多样化的10项任务上进行了广泛的实验,以评估PASR的有效性。实验结果表明,PASR显著提升了问题解决性能。特别是在Qwen3-8B模型上,与标准生成方法相比,PASR将平均token消耗降低了41.6%,同时准确率提高了8.2%。本文所使用的代码和所有基线模型均可在GitHub上获取。


作者: Kai Li, Guo Chen, Wendi Sang, Yi Luo, Zhuo Chen, Shuai Wang, Shulin He, Zhong-Qiu Wang, Andong Li, Zhiyong Wu, Xiaolin Hu

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-14 | 👍 点赞数: 9

摘要:

语音分离领域(解决“鸡尾酒会问题”)随着深度神经网络(DNNs)的应用取得了革命性进展。语音分离技术能够提升复杂声学环境中的语音清晰度,并作为语音识别和说话人识别的重要预处理步骤。然而,当前的研究文献多集中于特定网络架构或孤立的方法,导致该领域的理解较为碎片化。为弥补这一不足,本文对基于深度神经网络的语音分离技术进行了系统性综述。本文的主要贡献体现在以下几个方面:(I) 全面视角:系统探讨了学习范式、已知/未知说话人场景下的语音分离任务,并对监督/自监督/无监督框架进行对比分析,同时涵盖从编码器到估计策略的各类网络组件;(II) 时效性强:综述内容覆盖最新前沿进展,确保读者掌握当前创新成果与基准测试数据;(III) 独到见解:不仅总结已有工作,还评估技术演进路径,识别新兴趋势,重点指出具有前景的研究方向,包括领域鲁棒性框架、高效网络架构、多模态融合以及新型自监督范式;(IV) 公正评估:在标准数据集上提供定量实验评估,揭示各类方法的真实能力与局限性。本综述旨在为语音分离领域的研究者和初学者提供一份全面且易于理解的参考指南。


14. CAMAR: Continuous Actions Multi-Agent Routing

作者: Artem Pshenitsyn, Aleksandr Panov, Alexey Skrynnik

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-18 | 👍 点赞数: 6

摘要:

CAMAR: 连续动作多智能体路径规划

多智能体强化学习(MARL)是一种解决合作与竞争决策问题的强大范式。尽管已有许多MARL基准问题被提出,但很少有基准同时结合连续状态空间和动作空间,并包含具有挑战性的协调与规划任务。我们提出了CAMAR,这是一个新的MARL基准问题,专门用于在具有连续动作的环境中进行多智能体路径规划。CAMAR支持智能体之间的合作与竞争交互,并且运行效率高,每秒可执行高达100,000个环境步骤。我们还提出了一种三级评估协议,以更好地跟踪算法进展并实现对性能的深入分析。此外,CAMAR允许将诸如RRT和RRT等经典规划方法集成到MARL流程中。我们将这些方法作为独立基线,并将RRT与流行的MARL算法结合以创建混合方法。我们提供了一套测试场景和基准工具,以确保结果的可重复性和公平比较。实验表明,CAMAR为MARL社区提供了一个具有挑战性和现实意义的测试平台。


15. TempFlow-GRPO: When Timing Matters for GRPO in Flow Models

作者: Xiaoxuan He, Siming Fu, Yuke Zhao, Wanli Li, Jian Yang, Dacheng Yin, Fengyun Rao, Bo Zhang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-06 | 👍 点赞数: 6

摘要:

近期的流匹配模型在文本到图像生成方面已取得显著质量提升,但其与强化学习在人类偏好对齐方面的整合仍不理想,限制了基于奖励的细粒度优化效果。我们发现,现有方法在时间均匀性假设上的局限性是阻碍流模型进行有效GRPO训练的关键障碍:稀疏终端奖励与均匀的信用分配无法捕捉生成过程中各时间步决策重要性的差异,导致探索效率低下和收敛效果欠佳。为解决这一问题,我们提出了TempFlow-GRPO(时间流GRPO),一种能够捕捉并利用基于流生成过程中内在时间结构的GRPO框架。TempFlow-GRPO包含两项核心创新:(i)轨迹分支机制,通过在指定的分支点集中随机性来提供过程奖励,从而实现精确的信用分配,而无需专门的中间奖励模型;(ii)噪声感知加权方案,根据每个时间步固有的探索潜力调节策略优化,在早期高影响阶段优先学习,同时确保后期阶段的稳定优化。这些创新赋予模型具备时间感知能力的优化机制,使其更贴合底层生成动态,从而在人类偏好对齐和标准文本到图像生成基准任务中达到最先进的性能。


Challenges, and Trends

作者: Zhenhua Xu, Xubin Yue, Zhebo Wang, Qichen Liu, Xixiang Zhao, Jingxuan Zhang, Wenjun Zeng, Wengpeng Xing, Dezhang Kong, Changting Lin, Meng Han

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-15 | 👍 点赞数: 5

摘要:

大语言模型的版权保护至关重要,因其开发成本高昂、具有专有价值且存在被滥用的潜在风险。现有综述主要聚焦于追踪大语言模型生成内容的技术,即文本水印,而对模型本身(即模型水印和模型指纹)保护方法的系统性探讨仍属空白。此外,文本水印、模型水印与模型指纹之间的关系与区别尚未得到全面厘清。本文对当前大语言模型版权保护技术的研究现状进行了全面综述,重点涵盖模型指纹技术,内容包括以下几个方面:(1)阐明从文本水印到模型水印及模型指纹的概念演进关系,并采用统一术语体系,将模型水印纳入更广泛的指纹识别框架中;(2)综述并比较多种文本水印技术,突出其中可作为模型指纹应用的案例;(3)对现有大语言模型指纹技术进行系统分类与比较;(4)首次提出指纹迁移与指纹移除技术;(5)总结模型指纹的评估指标,包括有效性、无害性、鲁棒性、隐蔽性和可靠性;(6)讨论当前面临的挑战与未来研究方向。本综述旨在为研究人员提供在大语言模型时代全面理解文本水印与模型指纹技术的基础,以促进对大语言模型知识产权保护的进一步发展。


17. MMAU-Pro: A Challenging and Comprehensive Benchmark for Holistic

Evaluation of Audio General Intelligence

作者: Sonal Kumar, Šimon Sedláček, Vaibhavi Lokegaonkar, Fernando López, Wenyi Yu, Nishit Anand, Hyeonggon Ryu, Lichang Chen, Maxim Plička, Miroslav Hlaváček, William Fineas Ellingwood, Sathvik Udupa, Siyuan Hou, Allison Ferner, Sara Barahona, Cecilia Bolaños, Satish Rahi, Laura Herrera-Alarcón, Satvik Dixit, Siddhi Patil, Soham Deshmukh, Lasha Koroshinadze, Yao Liu, Leibny Paola Garcia Perera, Eleni Zanou, Themos Stafylakis, Joon Son Chung, David Harwath, Chao Zhang, Dinesh Manocha, Alicia Lozano-Diez, Santosh Kesiraju, Sreyan Ghosh, Ramani Duraiswami

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-19 | 👍 点赞数: 4

摘要:

音频理解(包括语音、非语音声音和音乐)对于实现类人智能至关重要。因此,人工智能代理必须展现出整体性的音频理解能力,才能被视为具备通用智能。然而,对听觉智能进行全面评估仍然是一项挑战。为填补这一空白,我们提出了MMAU-Pro,这是目前最全面且经过严格筛选的人工智能系统音频智能评估基准。MMAU-Pro包含5,305个实例,每个实例包含一个或多个音频,与由人类专家生成的问题-答案对相匹配,涵盖语音、声音、音乐及其组合。与现有基准不同,MMAU-Pro在49种独特技能及多个复杂维度上评估听觉智能,包括长音频理解、空间音频推理、多音频理解等。所有问题经过精心设计,要求进行有意识的多跳推理,包含选择题和开放式回答两种形式。重要的是,音频数据直接来源于“真实世界”,而非来自已知分布的现有数据集。我们评估了22种领先的开源和专有多模态人工智能模型,结果揭示了显著的局限性:即使是Gemini 2.5 Flash和Audio Flamingo 3等最先进的模型,其准确率也分别仅为59.2%和51.7%,在多个类别中接近随机猜测的表现。我们进行了深入分析,指出了具体不足之处,并提供了新颖的见解,为社区提升未来人工智能系统向音频通用智能发展的方向提供了可行视角。该基准和代码可在https://sonalkum.github.io/mmau-pro 获取。


18. Describe What You See with Multimodal Large Language Models to Enhance

Video Recommendations

作者: Marco De Nadai, Andreas Damianou, Mounia Lalmas

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-13 | 👍 点赞数: 4

摘要:

现有视频推荐系统主要依赖用户定义的元数据或由专用编码器提取的低级视觉和声学信号。这些低级特征能够描述屏幕上呈现的内容,但遗漏了更深层次的语义信息,例如意图、幽默和常识,而这些信息使视频片段与观众产生共鸣。例如,一个30秒的片段仅仅是一位歌手在屋顶上演唱,还是在土耳其卡帕多基亚的童话烟囱间拍摄的一部讽刺模仿作品?这类区别对于个性化推荐至关重要,但却无法被传统编码流程识别。本文介绍了一种简单、与推荐系统无关且无需微调的框架,通过提示现成的多模态大语言模型(Multimodal Large Language Model, MLLM)将每个视频片段总结为丰富的自然语言描述(例如“一部包含滑稽打斗和管弦乐突强的超级英雄模仿视频”),从而在原始内容与用户意图之间架起桥梁,将高层语义注入推荐流程。我们将MLLM输出与最先进的文本编码器结合,并输入至标准的协同、基于内容和生成式推荐模型中。在模拟用户与TikTok风格视频交互的MicroLens-100K数据集上,该框架在五个代表性模型中均持续超越传统的视频、音频和元数据特征。我们的研究结果表明,利用MLLM作为即时知识提取器,构建更具意图感知能力的视频推荐系统具有广阔前景。


19. Motion2Motion: Cross-topology Motion Transfer with Sparse Correspondence

作者: Ling-Hao Chen, Yuhong Zhang, Zixin Yin, Zhiyang Dou, Xin Chen, Jingbo Wang, Taku Komura, Lei Zhang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-18 | 👍 点赞数: 3

摘要:

本文研究了骨骼拓扑结构差异较大的角色之间的动画迁移挑战。尽管数十年来许多技术推动了运动重定向领域的发展,但跨不同拓扑结构的运动迁移仍鲜有探索。主要障碍在于源骨架与目标骨架之间固有的拓扑不一致性,这限制了直接的一一对应骨骼关系的建立。此外,目前缺乏涵盖不同拓扑结构的大规模配对运动数据集,严重制约了数据驱动方法的发展。为解决上述局限性,我们提出了Motion2Motion,一种新颖的无需训练的框架。Motion2Motion简单而高效,仅需目标骨架上的一个或少量示例动作,即可通过访问源骨架与目标骨架之间的一组稀疏骨骼对应关系完成迁移。通过全面的定性和定量评估,我们证明了Motion2Motion在相似骨架和跨物种骨架迁移任务中均能实现高效且可靠的表现。该方法在下游应用和用户界面中的成功集成进一步证明了其实用价值,展示了其在工业应用中的潜力。代码和数据可在https://lhchen.top/Motion2Motion获取。


20. Beyond Human Judgment: A Bayesian Evaluation of LLMs' Moral Values

Understanding

作者: Maciej Skorski, Alina Landowska

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-19 | 👍 点赞数: 2

摘要:

与人类相比,大语言模型如何理解道德维度?这项首次针对市场领先语言模型的大规模贝叶斯评估研究给出了答案。不同于以往使用确定性真实标签(多数规则或包容规则)的研究,我们对标注者分歧进行建模,以同时捕捉偶然不确定性(固有人类分歧)和认知不确定性(模型领域敏感性)。我们在涵盖社交媒体、新闻和论坛的10万条文本上,利用约700名标注者的25万条标注,对当前主流语言模型(Claude Sonnet 4, DeepSeek-V3, Llama 4 Maverick)进行了系统评估。

通过GPU优化的贝叶斯框架,我们处理了超过100万次模型查询。研究显示,AI模型通常位列人类标注者前25%,在平衡准确率上显著优于平均水平。更重要的是,我们发现AI产生的假阴性结果远少于人类,凸显了其更为敏感的道德识别能力。


21. Atom-Searcher: Enhancing Agentic Deep Research via Fine-Grained Atomic

Thought Reward

作者: Yong Deng, Guoqing Wang, Zhenzhe Ying, Xiaofeng Wu, Jinzhen Lin, Wenwen Xiong, Yuqin Dai, Shuo Yang, Zhanwei Zhang, Qiwen Wang, Yang Qin, Changhua Meng

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-18 | 👍 点赞数: 2

摘要:

Atom-Searcher:通过细粒度原子思维奖励增强代理深度研究

大型语言模型(LLMs)展现出卓越的问题解决能力,但由于内部知识静态,难以处理复杂任务。检索增强生成(RAG)扩展了对外部信息的访问能力,但由于流程僵化,在多跳推理和策略搜索方面仍受限。近期在代理深度研究方面的进展使LLMs能够自主推理、搜索和综合信息。然而,当前依赖结果导向的强化学习(RL)方法面临诸如梯度冲突和奖励稀疏等关键问题,限制了性能提升和训练效率。为解决这些问题,我们首先提出“原子思维”(Atomic Thought),一种新的LLM思维范式,将推理分解为细粒度的功能单元。这些单元由推理奖励模型(RRMs)监督,并通过原子思维奖励(ATR)提供细粒度指导。在此基础上,我们提出Atom-Searcher,一种用于代理深度研究的新型RL框架,整合了原子思维与ATR。Atom-Searcher采用受课程学习启发的奖励调度机制,早期优先使用过程级ATR,随后过渡到结果奖励,从而加速在有效推理路径上的收敛。在七个基准任务上的实验表明,Atom-Searcher始终优于当前最先进的方法。其主要优势包括:(1)Atom-Searcher在推理时可扩展计算资源;(2)原子思维为RRMs提供监督锚点,弥合深度研究任务与RRMs之间的鸿沟;(3)Atom-Searcher展现出更具可解释性、更接近人类的推理模式。


22. CorrSteer: Steering Improves Task Performance and Safety in LLMs through

Correlation-based Sparse Autoencoder Feature Selection

作者: Seonglae Cho, Zekun Wu, Adriano Koshiyama

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-18 | 👍 点赞数: 2

摘要:

CorrSteer: 基于相关性的稀疏自编码器特征选择提升大语言模型的任务性能与安全性

稀疏自编码器(Sparse Autoencoders, SAEs)能够在无监督条件下从大语言模型(Large Language Models, LLMs)中提取可解释的特征。然而,其在下游引导任务中的有效性受到对比数据集需求或大规模激活存储的限制。为解决这些限制,我们提出了CorrSteer,该方法通过在推理过程中将样本正确性与生成token的SAE激活值进行相关性分析来选择特征。该方法仅使用推理时的激活值提取更相关的特征,从而避免虚假相关性。此外,该方法通过平均激活值计算引导系数,实现了整个流程的自动化。我们的方法在Gemma 2 2B和LLaMA 3.1 8B模型上展示了在问答(QA)、偏差缓解、越狱防御和推理基准任务中的性能提升,特别是在仅使用4000个样本的情况下,MMLU性能提升了+4.1%,HarmBench性能提升了+22.9%。所选特征展现出与各任务需求一致的语义上有意义的模式,揭示了驱动性能的关键能力。我们的研究表明,基于相关性的特征选择是一种在语言模型应用中有效且可扩展的自动化SAE引导方法。


23. Retrieval-augmented reasoning with lean language models

作者: Ryan Sze-Yin Chan, Federico Nanni, Tomas Lazauskas, Rosie Wood, Penelope Yong, Lionel Tarassenko, Mark Girolami, James Geddes, Andrew Duncan

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-15 | 👍 点赞数: 2

摘要:

本技术报告详细介绍了一种在单一精简语言模型架构中融合推理与检索增强生成(RAG)的创新方法。现有的RAG系统通常依赖大规模模型和外部API,而我们的研究旨在满足在资源受限或安全性要求较高的环境中部署高效且隐私保护解决方案的日益增长的需求。基于测试时扩展和小规模推理模型的最新进展,我们开发了一种检索增强型对话代理,能够使用轻量级骨干模型解释复杂的领域特定查询。我们的系统将密集检索器与微调后的Qwen2.5-Instruct模型相结合,通过在精选语料库(在此案例中为NHS疾病百科全书页面)上生成的合成查询和来自前沿模型(例如DeepSeek-R1)的推理轨迹进行训练。我们探讨了基于摘要的文档压缩、合成数据设计以及推理感知微调对模型性能的影响。与非推理模型和通用精简模型的对比评估表明,我们的领域特定微调方法在答案准确性和一致性方面实现了显著提升,其性能接近前沿模型水平,同时仍适合本地部署。为支持结果复现和跨领域应用,我们公开了所有实现细节和代码。


24. MedSAMix: A Training-Free Model Merging Approach for Medical Image

Segmentation

作者: Yanwu Yang, Guinan Su, Jiesi Hu, Francesco Sammarco, Jonas Geiping, Thomas Wolfers

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-14 | 👍 点赞数: 2

摘要:

MedSAMix:一种无需训练的医学图像分割模型融合方法

通用医学图像分割模型因其在不同任务中的强大泛化能力而成为一种有前景的范式,显示出在广泛临床应用中的潜力。这种潜力部分得益于通用视觉模型(如Segment Anything Model,SAM)的成功,这些模型启发了多种针对医学分割任务的微调变体的发展。然而,像MedSAM这样的微调变体通常在相对有限的医学图像数据上进行训练,而这些数据往往存在异质性、标注稀缺以及分布偏移的问题。这些挑战限制了它们在广泛医学分割任务中的泛化能力。为此,我们提出了MedSAMix,一种无需训练的模型融合方法,旨在整合通用模型(例如SAM)和专用模型(例如MedSAM)的优势,用于医学图像分割。与依赖手动配置且通常导致次优结果的传统模型融合方法不同,我们提出了一种零阶优化方法,以自动发现最优的逐层模型融合方案。此外,针对临床应用,我们分别通过单任务优化和多目标优化开发了两种策略,以满足不同场景下对领域特异性与泛化能力的需求。在25个医学分割任务上的广泛评估表明,MedSAMix能够有效缓解模型偏差,在领域特定准确性和泛化能力方面均实现持续提升,在专用任务和多任务评估中分别取得了6.67%和4.37%的性能提升。


25. Semantic IDs for Joint Generative Search and Recommendation

作者: Gustavo Penha, Edoardo D'Amico, Marco De Nadai, Enrico Palumbo, Alexandre Tamborrino, Ali Vardasbi, Max Lefarov, Shawn Lin, Timothy Heath, Francesco Fabbri, Hugues Bouchard

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-14 | 👍 点赞数: 2

摘要:

生成式模型依托大型语言模型(LLMs),正逐渐成为统一解决推荐与搜索任务的方案。这类模型的一个关键设计选择是如何表示物品,传统方法使用唯一标识符(IDs),而近期则采用由离散编码构成的语义标识符(Semantic IDs),这些编码来源于嵌入(embeddings)。尽管针对特定任务的嵌入模型可以提升单个任务的性能,但在联合设置中可能泛化能力不足。本文探讨了在使用统一模型的情况下,如何构建在搜索和推荐任务中均具有良好表现的语义标识符。我们比较了多种构建语义标识符的策略,研究了任务专用与跨任务方法,并分析了在联合搜索与推荐生成模型中,每个任务是否应拥有独立的语义标识符标记。结果表明,使用在一个统一的双编码器模型上对搜索和推荐任务共同微调后获得的物品嵌入,并在此基础上构建统一的语义标识符空间,能够在两个任务中均实现良好的性能平衡。我们希望这些发现能够激发后续关于可泛化、语义驱动的标识符方案的研究,并为下一代统一生成式推荐架构的设计提供参考。


26. Radiance Fields in XR: A Survey on How Radiance Fields are Envisioned

and Addressed for XR Research

作者: Ke Li, Mana Masuda, Susanne Schmidt, Shohei Mori

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-06 | 👍 点赞数: 2

摘要:

辐射场在扩展现实中的研究:关于辐射场在XR研究中的构想与应对的综述

辐射场(Radiance Fields,RF)的发展,例如三维高斯点绘(3D Gaussian Splatting,3DGS)和神经辐射场(Neural Radiance Fields,NeRF),彻底改变了交互式照片级真实感视图合成,并为扩展现实(XR)研究与应用带来了巨大的机遇。然而,尽管辐射场的研究呈现指数级增长,与辐射场相关的对XR社区的贡献仍然较少。为了更好地理解这一研究缺口,我们对当前辐射场文献进行了系统性综述,以分析(i)辐射场在XR应用中的构想方式,(ii)它们已被实现的方式,以及(iii)尚未解决的研究空白。我们从计算机视觉、计算机图形学、机器人学、多媒体、人机交互以及XR相关领域中收集了365篇与XR相关的辐射场研究工作,以回答上述研究问题。在这些论文中,我们对其中已针对XR场景下的辐射场研究进行了深入探讨的66篇论文进行了详细分析。通过本次综述,我们将XR特定的辐射场研究主题扩展并定位到更广泛的辐射场研究领域中,为XR社区提供了一份有价值的参考资料,以帮助其在辐射场研究快速发展的背景下进行探索与应用。


27. Rapidly Adapting to New Voice Spoofing: Few-Shot Detection of

Synthesized Speech Under Distribution Shifts

作者: Ashi Garg, Zexin Cai, Henry Li Xinyuan, Leibny Paola García-Perera, Kevin Duh, Sanjeev Khudanpur, Matthew Wiesner, Nicholas Andrews

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-18 | 👍 点赞数: 1

摘要:

我们研究了在分布偏移(distribution shifts)条件下检测合成语音的挑战——这种偏移来源于训练数据中未见过的语音合成方法、说话人、语言或音频条件。少样本学习(few-shot learning)方法通过基于少量同分布样本进行快速适应,为解决分布偏移问题提供了有前景的途径。为此,我们提出了一种自注意力原型网络(self-attentive prototypical network),以实现更鲁棒的少样本适应。为了评估我们提出的方法,我们系统地比较了传统零样本检测器(zero-shot detectors)和所提出的少样本检测器(few-shot detectors)的性能,并在训练条件上进行严格控制,以在评估时引入分布偏移。在分布偏移影响零样本检测性能的条件下,我们提出的少样本适应技术仅需使用10个同分布样本即可快速适应——在日本语深伪语音检测任务中实现了最高32%的相对EER(Equal Error Rate)降低,在ASVspoof 2021 Deepfake数据集上实现了20%的相对EER降低。


28. ZARA: Zero-shot Motion Time-Series Analysis via Knowledge and Retrieval

Driven LLM Agents

作者: Zechen Li, Baiyu Chen, Hao Xue, Flora D. Salim

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-06 | 👍 点赞数: 1

摘要:

ZARA:基于知识与检索驱动的LLM智能体实现零样本运动时间序列分析

运动传感器时间序列在人类活动识别(HAR)中起着核心作用,广泛应用于健康监测、体育运动和智能设备领域。然而,现有方法通常针对固定的活动集合进行训练,当出现新的行为或传感器设置时需要耗费大量资源重新训练。近期有研究尝试将大语言模型(LLMs)应用于HAR任务,通常通过将信号转换为文本或图像表示,但这些方法在准确性和可解释性方面仍存在明显不足。本文提出ZARA,首个基于智能体的零样本、可解释HAR框架,可直接处理原始运动时间序列数据。ZARA整合了自动构建的成对特征知识库(捕捉每对活动之间的判别统计信息)、多传感器检索模块(提取相关证据),以及分层智能体流水线(引导LLM迭代选择特征、利用证据生成活动预测和自然语言解释)。ZARA无需任何微调或任务特定分类器即可实现灵活且可解释的HAR。在8个HAR基准数据集上的大量实验表明,ZARA在零样本设置下达到最先进的性能,在macro F1指标上超过最强基线模型2.53倍,并提供清晰的推理过程。消融实验进一步验证了各模块的必要性,标志着ZARA向可信、即插即用的运动时间序列分析迈出了有希望的一步。代码地址:https://github.com/zechenli03/ZARA。