每日论文 - 2025年08月20日
论文总数: 28
1. Chain-of-Agents: End-to-End Agent Foundation Models via Multi-Agent
Distillation and Agentic RL
作者: Weizhen Li, Jianbo Lin, Zhuosong Jiang, Jingyi Cao, Xinpeng Liu, Jiayu Zhang, Zhenqiang Huang, Qianben Chen, Weichen Sun, Qiexiang Wang, Hongxuan Lu, Tianrui Qin, Chenghao Zhu, Yi Yao, Shuying Fan, Xiaowan Li, Tiannan Wang, Pai Liu, King Zhu, He Zhu, Dingfeng Shi, Piaohong Wang, Yeyi Guan, Xiangru Tang, Minghao Liu, Yuchen Eleanor Jiang, Jian Yang, Jiaheng Liu, Ge Zhang, Wangchunshu Zhou
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-06 | 👍 点赞数: 91
摘要:
摘要:
近年来,大语言模型(LLMs)和多智能体系统在复杂问题求解任务中表现出卓越的能力,例如深度研究、氛围编码和数学推理。然而,大多数现有的多智能体系统依赖于手动设计的提示/工作流工程和复杂的智能体框架,导致计算效率低下、能力受限,并且无法从以数据为中心的学习中受益。在本研究中,我们提出Chain-of-Agents(CoA),一种新颖的LLM推理范式,能够在单一模型内以端到端的方式实现原生的复杂问题求解,其方式与多智能体系统相同(即通过多个工具和多个智能体进行多轮问题求解)。在Chain-of-Agents的问题求解过程中,模型以端到端的方式动态激活不同的工具智能体和角色扮演智能体,从而模拟多智能体协作。为了激发LLMs的端到端Chain-of-Agents问题求解能力,我们提出了一种多智能体蒸馏框架,将最先进的多智能体系统蒸馏为Chain-of-Agents轨迹,用于智能体监督微调。随后,我们在可验证的智能体任务上应用智能体强化学习,以进一步提升模型在Chain-of-Agents问题求解方面的能力。我们将所得模型称为智能体基础模型(Agent Foundation Models, AFMs)。我们的实证研究表明,AFM在网页智能体和代码智能体设置下的多种基准测试中均达到了新的最先进性能。本研究的全部内容,包括模型权重、训练与评估代码以及训练数据,均已完全开源,为未来关于智能体模型和智能体强化学习的研究提供了坚实的基础。
2. LongSplat: Robust Unposed 3D Gaussian Splatting for Casual Long Videos
作者: Chin-Yang Lin, Cheng Sun, Fu-En Yang, Min-Hung Chen, Yen-Yu Lin, Yu-Lun Liu
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-19 | 👍 点赞数: 44
摘要:
LongSplat针对从随意拍摄的长视频中进行新视角合成(NVS)所面临的关键挑战,这些问题包括不规则的相机运动、未知的相机姿态以及广阔的场景。当前方法常常受到姿态漂移、几何初始化不准确以 及严重的内存限制的影响。为了解决这些问题,我们提出了LongSplat,这是一种鲁棒的无姿态3D高斯点绘(Gaussian Splatting)框架,其核心要素包括:(1) 增量联合优化(Incremental Joint Optimization),同时优化相机姿态和3D高斯分布,以避免陷入局部极小值并确保全局一致性;(2) 基于学习的3D先验信息的鲁棒姿态估计模块(Pose Estimation Module);(3) 高效的八叉树锚点形成机制(Octree Anchor Formation),根据空间密度将稠密点云转换为锚点。在多个具有挑战性的基准数据集上的大量实验表明,与先前方法相比,LongSplat在渲染质量、姿态估计精度和计算效率方面均取得了显著提升。项目页面:https://linjohnss.github.io/longsplat/
3. Prompt Orchestration Markup Language
作者: Yuge Zhang, Nan Chen, Jiahang Xu, Yuqing Yang
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-19 | 👍 点赞数: 29
摘要:
大型语言模型(LLMs)需要复杂的提示设计,但当前实践在结构组织、数据集成、格式敏感性和工具支持方面面临挑战。现有方法缺乏对涉及多种数据类型(如文档、表格、图像)的复杂提示以及系统化管理展示变化的全面解决方案。 为解决这些问题,我们提出POML(Prompt Orchestration Markup Language,提示编排标记语言)。POML采用基于组件的标记方式,以实现逻辑结构(角色、任务、示例)的清晰表达,使用专用标签实现数据的无缝集成,并引入类似CSS的样式系统,以解耦内容与展示,降低格式敏感性。此外,POML支持动态提示的模板机制,以及完整的开发者工具包(IDE支持、SDK)以提升版本控制与协作效率。我们通过两个案例研究验证POML的有效性,分别展示了其在复杂应用集成(PomLink)和准确性能(TableQA)上的影响,以及通过用户研究评估其在实际开发场景中的实用性。
4. MultiRef: Controllable Image Generation with Multiple Visual References
作者: Ruoxi Chen, Dongping Chen, Siyuan Wu, Sinan Wang, Shiyun Lang, Petr Sushko, Gaoyang Jiang, Yao Wan, Ranjay Krishna
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-09 | 👍 点赞数: 16
摘要:
视觉设计师通常从多个视觉参考中汲取灵感,融合多样化的元素和美学原则来创作艺术作品。然而,当前的图像生成框架主要依赖单一来源的输入——文本提示或单个参考图像。本文聚焦 于使用多个视觉参考进行可控图像生成的任务。我们提出了MultiRef-bench,这是一个严格的评估框架,包含990个合成样本和1,000个真实世界样本,均需要融合来自多个参考图像的视觉内容。合成样本通过我们的数据引擎RefBlend生成,涵盖10种参考类型和33种参考组合。基于RefBlend,我们进一步构建了一个包含38k张高质量图像的数据集MultiRef,以促进相关领域的研究。我们在三个图文交错模型(即OmniGen、ACE和Show-o)以及六个基于智能体的框架(例如ChatDiT和LLM + SD)上的实验表明,即使是当前最先进的系统在多参考条件生成任务上仍面临挑战,其中表现最佳的模型OmniGen在合成样本上的平均得分为66.6%,在真实世界样本上的平均得分为79.0%(相对于标准答案)。这些发现为开发更加灵活、类人化的创意工具提供了有价值的研究方向。该数据集已公开,访问地址为:https://multiref.github.io/。
5. MM-BrowseComp: A Comprehensive Benchmark for Multimodal Browsing Agents
作者: Shilong Li, Xingyuan Bu, Wenjie Wang, Jiaheng Liu, Jun Dong, Haoyang He, Hao Lu, Haozhe Zhang, Chenchen Jing, Zhen Li, Chuanhao Li, Jiayi Tian, Chenchen Zhang, Tianhao Peng, Yancheng He, Jihao Gu, Yuanxing Zhang, Jian Yang, Ge Zhang, Wenhao Huang, Wangchunshu Zhou, Zhaoxiang Zhang, Ruizhe Ding, Shilei Wen
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-14 | 👍 点赞数: 15
摘要:
MM-BrowseComp: 一个面向多模态浏览代理的综合基准
具有高级推理和工具使用能力的AI代理在深度搜索的网页浏览中表现出色。尽管现有的基准测试(如BrowseComp)对这些浏览能力进行了评估,但它们主要关注文本信息,而忽略了多模态内容的普遍存在。为填补这一空白,我们提出了MM-BrowseComp,这是一个新颖的基准,包含224个具有挑战性的手工设计问题,专门用于评估代理的多模态检索与推理能力。这些问题通常在提示中包含图像,并且在搜索和推理过程中遇到的关键信息也可能嵌入在网页的图像或视频中。因此,仅依赖文本的方法在我们的基准测试中表现不足。此外,我们为每个问题提供了经过验证的检查清单,以实现对多模态依赖性和推理路径的细粒度分析。我们在MM-BrowseComp上对当前最先进的模型进行了全面评估,结果表明,即使使用工具的OpenAI o3等顶级模型,准确率也仅为29.02%,突显了当前模型在多模态能力方面的不足以及缺乏原生的多模态推理能力。
6. Embodied-R1: Reinforced Embodied Reasoning for General Robotic
Manipulation
作者: Yifu Yuan, Haiqin Cui, Yaoting Huang, Yibin Chen, Fei Ni, Zibin Dong, Pengyi Li, Yan Zheng, Jianye Hao
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-19 | 👍 点赞数: 12
摘要:
Embodied-R1:用于通用机器人操作的强化具身推理
具身智能中的泛化能力受到“感知-行动鸿沟”(seeing-to-doing gap)的限制,这源于数据稀缺性和具身异质性。为解决这一问题,我们提出将“指向”作为统一的、与具身形式无关的中间表征,并定义了四项核心的具身指向能力,以连接高层视觉-语言理解与底层动作基元。我们引入Embodied-R1,这是一个专为具身推理和指向任务设计的30亿参数视觉-语言模型(VLM)。我们利用广泛的具身和通用视觉推理数据集作为来源,构建了一个大规模数据集Embodied-Points-200K,支持关键的具身指向能力。随后,我们采用两阶段强化微调(RFT)课程学习方法,并设计了专门的多任务奖励机制来训练Embodied-R1。该模型在11项具身空间和指向基准任务上达到了当前最先进的性能。尤为关键的是,Embodied-R1在零样本泛化方面表现出色,在SIMPLEREnv中实现了56.2%的成功率,在8项真实世界XArm任务中平均成功率达到87.5%,且无需任何任务特定的微调,相较强基线模型性能提升了62%。此外,该模型在面对多种视觉干扰时表现出高度鲁棒性。我们的研究表明,以指向为中心的表征结合RFT训练范式,为缩小机器人感知与行动之间的鸿沟提供了一条有效且具备泛化能力的路径。
7. Mind the Generation Process: Fine-Grained Confidence Estimation During
LLM Generation
作者: Jinyi Han, Tingyun Li, Shisong Chen, Jie Shi, Xinyi Wang, Guanglei Yue, Jiaqing Liang, Xin Lin, Liqian Wen, Zulong Chen, Yanghua Xiao
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-16 | 👍 点赞数: 11
摘要:
尽管大语言模型(LLMs)在各种任务中表现出色,但它们本质上缺乏自我认知能力,常常表现出过度自信,对错误预测分配较高的置信度。因此,准确的置信度估计对于提高LLM生成输出的可信度和可靠性至关重要。然而,现有方法受限于粗粒度的评分机制,无法在整个生成过程中提供细粒度、连续的置信度估计。为了解决这些局限性,我们提出了FineCE,一种新颖的置信度估计方法,能够在文本生成过程中提供准确且细粒度的置信度评分。具体而言,我们首先开发了一个全面的训练数据构建流程,以有效捕捉LLM响应的潜在概率分布;随后以监督学习方式训练模型,用于预测任意文本序列的置信度得分。此外,我们提出了一种反向置信度整合(Backward Confidence Integration, BCI)策略,利用后续文本的信息来增强推理过程中当前序列的置信度估计。我们还引入了三种策略,用于识别在生成过程中执行置信度估计的最佳位置。在多个基准数据集上的广泛实验证明,FineCE始终优于现有的经典置信度估计方法。本文所使用的代码和所有基线模型均可在GitHub上获取。
8. Training-Free Text-Guided Color Editing with Multi-Modal Diffusion
Transformer
作者: Zixin Yin, Xili Dai, Ling-Hao Chen, Deyu Zhou, Jianan Wang, Duomin Wang, Gang Yu, Lionel M. Ni, Lei Zhang, Heung-Yeung Shum
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-12 | 👍 点赞数: 11
摘要:
文本引导的图像和视频颜色编辑是一个基础但尚未解决的问题,需要在保持几何结构、材质属性和光物质相互作用物理一致性的前提下,对颜色属性(包括反照率、光源颜色和环境光照)进行细粒度的操控。现有的无需训练的方法在各类编辑任务中具有广泛适用性,但在精确的颜色控制方面存在困难,且常常在编辑区域和非编辑区域引入视觉不一致性。本文提出了一种无需训练的颜色编辑方法ColorCtrl,该方法利用现代多模态扩散Transformer(Multi-Modal Diffusion Transformer, MM-DiT)的注意力机制。通过有针对性地操控注意力图和值(value)令牌,实现 结构与颜色的解耦,从而实现准确且一致的颜色编辑,并支持对属性强度的词级控制。我们的方法仅修改由提示(prompt)指定的目标区域,而保持其他无关区域不变。在SD3和FLUX.1-dev上的大量实验表明,ColorCtrl在编辑质量和一致性方面均优于现有的无需训练方法,达到最先进的性能。此外,我们的方法在一致性方面还优于FLUX.1 Kontext Max和GPT-4o图像生成等强大的商用模型。当扩展至视频模型(如CogVideoX)时,我们的方法展现出更大的优势,尤其在保持时间连贯性和编辑稳定性方面。最后,我们的方法还可推广至基于指令编辑的扩散模型(如Step1X-Edit和FLUX.1 Kontext dev),进一步验证了其通用性。
9. Leveraging Large Language Models for Predictive Analysis of Human Misery
作者: Bishanka Seal, Rahul Seetharaman, Aman Bansal, Abhilash Nandy
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-18 | 👍 点赞数: 10
摘要:
本研究探讨了利用大语言模型(Large Language Models, LLMs)从对现实场景的自然语言描述中预测人类感知的痛苦评分。该任务被定义为一个回归问题,模型为每条输入语句分配 一个0到100之间的标量值。我们评估了多种提示策略,包括零样本(zero-shot)、固定上下文小样本(fixed-context few-shot)以及基于BERT句子嵌入的检索提示方法。结果表明,小样本方法始终优于零样本基线,突显了在情感预测中上下文示例的重要性。为了超越静态评估,我们引入了“痛苦游戏秀”(Misery Game Show)这一新颖的游戏化框架,灵感来源于电视节目形式。该框架通过包含序数比较、二分类、标量估计和反馈驱动推理的结构化轮次测试LLMs。这种设置不仅评估了预测准确性,还检验了模型根据纠正性反馈进行调整的能力。游戏化评估突出了LLMs在动态情感推理任务中的广泛潜力,超越了传统的回归任务。代码和数据链接:https://github.com/abhi1nandy2/Misery_Data_Exps_GitHub
10. Evaluating Podcast Recommendations with Profile-Aware LLM-as-a-Judge
作者: Francesco Fabbri, Gustavo Penha, Edoardo D'Amico, Alice Wang, Marco De Nadai, Jackie Doremus, Paul Gigioli, Andreas Damianou, Oskar Stal, Mounia Lalmas
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-12 | 👍 点赞数: 10
摘要:
评估个性化推荐仍然是一个核心挑战,尤其是在播客等长格式音频领域,传统的离线评估指标存在曝光偏差问题,而在线方法如A/B测试则成本高昂且在操作上受限。本文中,我们提出了一种新颖的框架,该框架利用大语言模型(Large Language Models, LLMs)作为离线评估者,以可扩展且可解释的方式评估播客推荐的质量。我们的两阶段、用户画像感知的方法首先基于90天的收听历史构建自然语言形式的用户画像。这些画像总结了用户的主题兴趣和行为模式,作为用户偏好的紧凑且可解释的表示。与直接向LLM输入原始数据不同,我们使用这些画像提供高层、语义丰富的上下文,使LLM能够更有效地推理用户兴趣与推荐剧集之间的匹配程度。这降低了输入复杂性并提高了可解释性。随后,我们引导LLM根据用户画像与推荐剧集的匹配程度,提供细粒度的逐点和逐对评估。在一项包含47名参与者的对照研究中,我们的用户画像感知评估者以高保真度匹配人类判断结果,并且优于或等同于使用原始收听历史的变体方法。该框架支持高效的、用户画像感知的评估,从而促进推荐系统的迭代测试和模型选择。
11. OmniTry: Virtual Try-On Anything without Masks
作者: Yutong Feng, Linlin Zhang, Hengyuan Cao, Yiming Chen, Xiaoduan Feng, Jian Cao, Yuxiong Wu, Bin Wang
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-19 | 👍 点赞数: 9
摘要:
虚拟试穿(Virtual Try-ON, VTON)是一项实用且广泛应用的任务,现有大多数研究集中于服装类物体。本文提出OmniTry,一个统一的框架,将VTON扩展至包括首饰和配饰等各类可穿戴物体,且在无需掩码(mask-free)的设置下实现更实际的应用场景。在扩展至多种类型的物体时,获取成对图像(即物体图像和对应的试穿结果图像)的数据整理面临挑战。为解决这一问题,我们提出一个两阶段的流程:第一阶段,我们利用大规模的非成对图像(即包含任意可穿戴物品的人像)训练模型以实现无掩码的定位。具体而言,我们将修复(inpainting)模型重新用于在给定空白掩码的情况下自动将物体绘制在合适的位置。第二阶段,模型进一步使用成对图像进行微调,以迁移物体外观的一致性。我们发现,即使使用少量成对样本,第一阶段后的模型也能快速收敛。OmniTry在一个包含12种常见可穿戴物体类别的全面基准数据集上进行了评估,涵盖店内和真实场景(in-the-wild)图像。实验结果表明,与现有方法相比,OmniTry在物体定位和身份保持(ID-preservation)方面均表现出更优的性能。OmniTry的代码、模型权重和评估基准将在https://omnitry.github.io/公开发布。
12. A Stitch in Time Saves Nine: Proactive Self-Refinement for Language
Models
作者: Jinyi Han, Xinyi Wang, Haiquan Zhao, Tingyun li, Zishang Jiang, Sihang Jiang, Jiaqing Liang, Xin Lin, Weikang Zhou, Zeye Sun, Fei Yu, Yanghua Xiao
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-18 | 👍 点赞数: 9
摘要:
及时一针,千金不弃:语言模型的主动自我优化
近期自我优化方法的进展表明,通过迭代优化可以显著提升大语言模型(LLMs)的输出质量。然而,大多数现有的自我优化方法依赖于固定迭代次数的被动过程,难以根据生成过程中的动态上下文确定最佳的优化时机和内容。受人类在执行过程中动态完善思维的启发,我们提出了主动自我优化(ProActive Self-Refinement, PASR)方法,使LLMs能够在生成过程中主动优化其输出。与重新生成整个响应的方法不同,PASR基于模型的内部状态和不断演化的上下文,主动判断是否、何时以及如何进行优化。我们在多样化的10项任务上进行了广泛的实验,以评估PASR的有效性。实验结果表明,PASR显著提升了问题解决性能。特别是在Qwen3-8B模型上,与标准生成方法相比,PASR将平均token消耗降低了41.6%,同时准确率提高了8.2%。本文所使用的代码和所有基线模型均可在GitHub上获取。
13. Advances in Speech Separation: Techniques, Challenges, and Future Trends
作者: Kai Li, Guo Chen, Wendi Sang, Yi Luo, Zhuo Chen, Shuai Wang, Shulin He, Zhong-Qiu Wang, Andong Li, Zhiyong Wu, Xiaolin Hu
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-14 | 👍 点赞数: 9
摘要:
语音分离领域(解决“鸡尾酒会问题”)随着深度神经网络(DNNs)的应用取得了革命性进展。语音分离技术能够提升复杂声学环境中的语音清晰度,并作为语音识别和说话人识别的重要预处理步骤。然而,当前的研究文献多集中于特定网络架构或孤立的方法,导致该领域的理解较为碎片化。为弥补这一不足,本文对基于深度神经网络的语音分离技术进行了系统性综述。本文的主要贡献体现在以下几个方面:(I) 全面视角:系统探讨了学习范式、已知/未知说话人场景下的语音分离任务,并对监督/自监督/无监督框架进行对比分析,同时涵盖从编码器到估计策略的各类网络组件;(II) 时效性强:综述内容覆盖最新前沿进展,确保读者掌握当前创新成果与基准测试数据;(III) 独到见解:不仅总结已有工作,还评估技术演进路径,识别新兴趋势,重点指出具有前景的研究方向,包括领域鲁棒性框架、高效网络架构、多模态融合以及新型自监督范式;(IV) 公正评估:在标准数据集上提供定量实验评估,揭示各类方法的真实能力与局限性。本综述旨在为语音分离领域的研究者和初学者提供一份全面且易于理解的参考指南。
14. CAMAR: Continuous Actions Multi-Agent Routing
作者: Artem Pshenitsyn, Aleksandr Panov, Alexey Skrynnik
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-18 | 👍 点赞数: 6
摘要:
CAMAR: 连续动作多智能体路径规划
多智能体强化学习(MARL)是一种解决合作与竞争决策问题的强大范式。尽管已有许多MARL基准问题被提出,但很少有基准同时结合连续状态空间和动作空间,并包含具有挑战性的协调与规划任务。我们提出了CAMAR,这是一个新的MARL基准问题,专门用于在具有连续动作的环境中进行多智能体路径规划。CAMAR支持智能体之间的合作与竞争交互,并且运行效率高,每秒可执行高达100,000个环境步骤。我们还提出了一种三级评估协议,以更好地跟踪算法进展并实现对性能的深入分析。此外,CAMAR允许将诸如RRT和RRT等经典规划方法集成到MARL流程中。我们将这些方法作为独立基线,并将RRT与流行的MARL算法结合以创建混合方法。我们提供了一套测试场景和基准工具,以确保结果的可重复性和公平比较。实验表明,CAMAR为MARL社区提供了一个具有挑战性和现实意义的测试平台。
15. TempFlow-GRPO: When Timing Matters for GRPO in Flow Models
作者: Xiaoxuan He, Siming Fu, Yuke Zhao, Wanli Li, Jian Yang, Dacheng Yin, Fengyun Rao, Bo Zhang
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-06 | 👍 点赞数: 6
摘要:
近期的流匹配模型在文本到图像生成方面已取得显著质量提升,但其与强化学习在人类偏好对齐方面的整合仍不理想,限制了基于奖励的细粒度优化效果。我们发现,现有方法在时间均匀性假设上的局限性是阻碍流模型进行有效GRPO训练的关键障碍:稀疏终端奖励与均匀的信用分配无法捕捉生成过程中各时间步决策重要性的差异,导致探索效率低下和收敛效果欠佳。为解决这一问题,我们提出了TempFlow-GRPO(时间流GRPO),一种能够捕捉并利用基于流生成过程中内在时间结构的GRPO框架。TempFlow-GRPO包含两项核心创新:(i)轨迹分支机制,通过在指定的分支点集中随机性来提供过程奖励,从而实现精确的信用分配,而无需专门的中间奖励模型;(ii)噪声感知加权方案,根据每个时间步固有的探索潜力调节策略优化,在早期高影响阶段优先学习,同时确保后期阶段的稳定优化。这些创新赋予模型具备时间感知能力的优化机制,使其更贴合底层生成动态,从而在人类偏好对齐和标准文本到图像生成基准任务中达到最先进的性能。
16. Copyright Protection for Large Language Models: A Survey of Methods,
Challenges, and Trends
作者: Zhenhua Xu, Xubin Yue, Zhebo Wang, Qichen Liu, Xixiang Zhao, Jingxuan Zhang, Wenjun Zeng, Wengpeng Xing, Dezhang Kong, Changting Lin, Meng Han
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-15 | 👍 点赞数: 5
摘要:
大语言模型的版权保护至关重要,因其开发成本高昂、具有专有价值且存在被滥用的潜在风险。现有综述主要聚焦于追踪大语言模型生成内容的技术,即文本水印,而对模型本身(即模型水印和模型指纹)保护方法的系统性探讨仍属空白。此外,文本水印、模型水印与模型指纹之间的关系与区别尚未得到全面厘清。本文对当前大语言模型版权保护技术的研究现状进行了全面综述,重点涵盖模型指纹技术,内容包括以下几个方 面:(1)阐明从文本水印到模型水印及模型指纹的概念演进关系,并采用统一术语体系,将模型水印纳入更广泛的指纹识别框架中;(2)综述并比较多种文本水印技术,突出其中可作为模型指纹应用的案例;(3)对现有大语言模型指纹技术进行系统分类与比较;(4)首次提出指纹迁移与指纹移除技术;(5)总结模型指纹的评估指标,包括有效性、无害性、鲁棒性、隐蔽性和可靠性;(6)讨论当前面临的挑战与未来研究方向。本综述旨在为研究人员提供在大语言模型时代全面理解文本水印与模型指纹技术的基础,以促进对大语言模型知识产权保护的进一步发展。
17. MMAU-Pro: A Challenging and Comprehensive Benchmark for Holistic
Evaluation of Audio General Intelligence
作者: Sonal Kumar, Šimon Sedláček, Vaibhavi Lokegaonkar, Fernando López, Wenyi Yu, Nishit Anand, Hyeonggon Ryu, Lichang Chen, Maxim Plička, Miroslav Hlaváček, William Fineas Ellingwood, Sathvik Udupa, Siyuan Hou, Allison Ferner, Sara Barahona, Cecilia Bolaños, Satish Rahi, Laura Herrera-Alarcón, Satvik Dixit, Siddhi Patil, Soham Deshmukh, Lasha Koroshinadze, Yao Liu, Leibny Paola Garcia Perera, Eleni Zanou, Themos Stafylakis, Joon Son Chung, David Harwath, Chao Zhang, Dinesh Manocha, Alicia Lozano-Diez, Santosh Kesiraju, Sreyan Ghosh, Ramani Duraiswami