每日论文 - 2025年08月20日
论文总数: 28
1. Chain-of-Agents: End-to-End Agent Foundation Models via Multi-Agent
Distillation and Agentic RL
作者: Weizhen Li, Jianbo Lin, Zhuosong Jiang, Jingyi Cao, Xinpeng Liu, Jiayu Zhang, Zhenqiang Huang, Qianben Chen, Weichen Sun, Qiexiang Wang, Hongxuan Lu, Tianrui Qin, Chenghao Zhu, Yi Yao, Shuying Fan, Xiaowan Li, Tiannan Wang, Pai Liu, King Zhu, He Zhu, Dingfeng Shi, Piaohong Wang, Yeyi Guan, Xiangru Tang, Minghao Liu, Yuchen Eleanor Jiang, Jian Yang, Jiaheng Liu, Ge Zhang, Wangchunshu Zhou
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-06 | 👍 点赞数: 91
摘要:
摘要:
近年来,大语言模型(LLMs)和多智能体系统在复杂问题求解任务中表现出卓越的能力,例如深度研究、氛围编码和数学推理。然而,大多数现有的多智能体系统依赖于手动设计的提示/工作流工程和复杂的智能体框架,导致计算效率低下、能力受限,并且无法从以数据为中心的学习中受益。在本研究中,我们提出Chain-of-Agents(CoA),一种新颖的LLM推理范式,能够在单一模型内以端到端的方式实现原生的复杂问题求解,其方式与多智能体系统相同(即通过多个工具和多个智能体进行多轮问题求解)。在Chain-of-Agents的问题求解过程中,模型以端到端的方式动态激活不同的工具智能体和角色扮演智能体,从而模拟多智能体协作。为了激发LLMs的端到端Chain-of-Agents问题求解能力,我们提出了一种多智能体蒸馏框架,将最先进的多智能体系统蒸馏为Chain-of-Agents轨迹 ,用于智能体监督微调。随后,我们在可验证的智能体任务上应用智能体强化学习,以进一步提升模型在Chain-of-Agents问题求解方面的能力。我们将所得模型称为智能体基础模型(Agent Foundation Models, AFMs)。我们的实证研究表明,AFM在网页智能体和代码智能体设置下的多种基准测试中均达到了新的最先进性能。本研究的全部内容,包括模型权重、训练与评估代码以及训练数据,均已完全开源,为未来关于智能体模型和智能体强化学习的研究提供了坚实的基础。
2. LongSplat: Robust Unposed 3D Gaussian Splatting for Casual Long Videos
作者: Chin-Yang Lin, Cheng Sun, Fu-En Yang, Min-Hung Chen, Yen-Yu Lin, Yu-Lun Liu
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-19 | 👍 点赞数: 44
摘要:
LongSplat针对从随意拍摄的长视频中进行新视角合成(NVS)所面临的关键挑战,这些问题包括不规则的相机运动、未知的相机姿态以及广阔的场景。当前方法常常受到姿态漂移、几何初始化不准确以及严重的内存限制的影响。为了解决这些问题,我们提出了LongSplat,这是一种鲁棒的无姿态3D高斯点绘(Gaussian Splatting)框架,其核心要素包括:(1) 增量联合优化(Incremental Joint Optimization),同时优化相机姿态和3D高斯分布,以避免陷入局部极小值并确保全局一致性;(2) 基于学习的3D先验信息的鲁棒姿态估计模块(Pose Estimation Module);(3) 高效的八叉树锚点形成机制(Octree Anchor Formation),根据空间密度将稠密点云转换为锚点。在多个具有挑战性的基准数据集上的大量实验表明,与先前方法相比,LongSplat在渲染质量、姿态估计精度和计算效率方面均取得了显著提升。项目页面:https://linjohnss.github.io/longsplat/
3. Prompt Orchestration Markup Language
作者: Yuge Zhang, Nan Chen, Jiahang Xu, Yuqing Yang
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-19 | 👍 点赞数: 29
摘要:
大型语言模型(LLMs)需要复杂的提示设计,但当前实践在结构组织、数据集成、格式敏感性和工具支持方面面临挑战。现有方法缺乏对涉及多种数据类型(如文档、表格、图像)的复杂提示以及系统化管理展示变化的全面解决方案。为解决这些问题,我们提出POML(Prompt Orchestration Markup Language,提示编排标记语言)。POML采用基于组件的标记方式,以实现逻辑结构(角色、任务、示例)的清晰表达,使用专用标签实现数据的无缝集成,并引入类似CSS的样式系统,以解耦内容与展示,降低格式敏感性。此外,POML支持动态提示的模板机制,以及完整的开发者工具包(IDE支持、SDK)以提升版本控制与协作效率。我们通过两个案例研究验证POML的有效性,分别展示了其在复杂应用集成(PomLink)和准确性能(TableQA)上的影响,以及通过用户研究评估其在实际开发场景中的实用性。
4. MultiRef: Controllable Image Generation with Multiple Visual References
作者: Ruoxi Chen, Dongping Chen, Siyuan Wu, Sinan Wang, Shiyun Lang, Petr Sushko, Gaoyang Jiang, Yao Wan, Ranjay Krishna
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-09 | 👍 点赞数: 16
摘要:
视觉设计师通常从多个视觉参考中汲取灵感,融合多样化的元素和美学原则来创作艺术作品。然而,当前的图像生成框架主要依赖单一来源的输入——文本提示或单个参考图像。本文聚焦于使用多个视觉参考进行可控图像生成的任务。我们提出了MultiRef-bench,这是一个严格的评估框架,包含990个合成样本 和1,000个真实世界样本,均需要融合来自多个参考图像的视觉内容。合成样本通过我们的数据引擎RefBlend生成,涵盖10种参考类型和33种参考组合。基于RefBlend,我们进一步构建了一个包含38k张高质量图像的数据集MultiRef,以促进相关领域的研究。我们在三个图文交错模型(即OmniGen、ACE和Show-o)以及六个基于智能体的框架(例如ChatDiT和LLM + SD)上的实验表明,即使是当前最先进的系统在多参考条件生成任务上仍面临挑战,其中表现最佳的模型OmniGen在合成样本上的平均得分为66.6%,在真实世界样本上的平均得分为79.0%(相对于标准答案)。这些发现为开发更加灵活、类人化的创意工具提供了有价值的研究方向。该数据集已公开,访问地址为:https://multiref.github.io/。
5. MM-BrowseComp: A Comprehensive Benchmark for Multimodal Browsing Agents
作者: Shilong Li, Xingyuan Bu, Wenjie Wang, Jiaheng Liu, Jun Dong, Haoyang He, Hao Lu, Haozhe Zhang, Chenchen Jing, Zhen Li, Chuanhao Li, Jiayi Tian, Chenchen Zhang, Tianhao Peng, Yancheng He, Jihao Gu, Yuanxing Zhang, Jian Yang, Ge Zhang, Wenhao Huang, Wangchunshu Zhou, Zhaoxiang Zhang, Ruizhe Ding, Shilei Wen
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-14 | 👍 点赞数: 15
摘要:
MM-BrowseComp: 一个面向多模态浏览代理的综合基准
具有高级推理和工具使用能力的AI代理在深度搜索的网页浏览中表现出色。尽管现有的基准测试(如BrowseComp)对这些浏览能力进行了评估,但它们主要关注文本信息,而忽略了多模态内容的普遍存在。为填补这一空白,我们提出了MM-BrowseComp,这是一个新颖的基准,包含224个具有挑战性的手工设计问题,专门用于评估代理的多模态检索与推理能力。这些问题通常在提示中包含图像,并且在搜索和推理过程中遇到的关键信息也可能嵌入在网页的图像或视频中。因此,仅依赖文本的方法在我们的基准测试中表现不足。此外,我们为每个问题提供了经过验证的检查清单,以实现对多模态依赖性和推理路径的细粒度分析。我们在MM-BrowseComp上对当前最先进的模型进行了全面评估,结果表明,即使使用工具的OpenAI o3等顶级模型,准确率也仅为29.02%,突显了当前模型在多模态能力方面的不足以及缺乏原生的多模态推理能力。
6. Embodied-R1: Reinforced Embodied Reasoning for General Robotic
Manipulation
作者: Yifu Yuan, Haiqin Cui, Yaoting Huang, Yibin Chen, Fei Ni, Zibin Dong, Pengyi Li, Yan Zheng, Jianye Hao
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-19 | 👍 点赞数: 12
摘要:
Embodied-R1:用于通用机器人操作的强化具身推理
具身智能中的泛化能力受到“感知-行动鸿沟”(seeing-to-doing gap)的限制,这源于数据稀缺性和具身异质性。为解决这一问题,我们提出将“指向”作为统一的、与具身形式无关的中间表征,并定义了四项核心的具身指向能力,以连接高层视觉-语言理解与底层动作基元。我们引入Embodied-R1,这是一个专为具身推理和指向任务设计的30亿参数视觉-语言模型(VLM)。我们利用广泛的具身和通用视觉推理数据集作为来源,构建了一个大规模数据集Embodied-Points-200K,支持关键的具身指向能力。随后,我们采用两阶段强化微调(RFT)课程学习方法,并设计了专门的多任务奖励机制来训练Embodied-R1。该模型在11项具身空间和指向基准任务上达到了当前最先进的性能。尤为关键的是,Embodied-R1在零样本泛化方面表现出色,在SIMPLEREnv中实现了56.2%的成功率,在8项真实世界XArm任务中平均成功率达到87.5%,且无需任何任务特定的微调,相较强基线模型性能提升了62%。此外,该模型在面对多种视觉干扰时表现出高度鲁棒性。我们的研究表明,以指向为中心的表征结合RFT训练范式,为缩小机器人感知与行动之间的鸿沟提供了一条有效且具备泛化能力的路径。
7. Mind the Generation Process: Fine-Grained Confidence Estimation During
LLM Generation
作者: Jinyi Han, Tingyun Li, Shisong Chen, Jie Shi, Xinyi Wang, Guanglei Yue, Jiaqing Liang, Xin Lin, Liqian Wen, Zulong Chen, Yanghua Xiao
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-16 | 👍 点赞数: 11
摘要:
尽管大语言模型(LLMs)在各种任务中表现出色,但它们本质上缺乏自我认知能力,常常表现出过度自信,对错误预测分配较高的置信度。因此,准确的置信度估计对于提高LLM生成输出的可信度和可靠性至关重要。然而,现有方法受限于粗粒度的评分机制,无法在整个生成过程中提供细粒度、连续的置信度估计。为了解决这些局限性,我们提出了FineCE,一种新颖的置信度估计方法,能够在文本生成过程中提供准确且细粒度的置信度评分。具体而言,我们首先开发了一个全面的训练数据构建流程,以有效捕捉LLM响应的潜在概率分布;随后以监督学习方式训练模型,用于预测任意文本序列的置信度得分。此外,我们提出了一种反向置信度整合(Backward Confidence Integration, BCI)策略,利用后续文本的信息来增强推理过程中当前序列的置信度估计。我们还引入了三种策略,用于识别在生成过程中执行置信度估计的最佳位置。在多个基准数据集上的广泛实验证明,FineCE始终优于现有的经典置信度估计方 法。本文所使用的代码和所有基线模型均可在GitHub上获取。
8. Training-Free Text-Guided Color Editing with Multi-Modal Diffusion
Transformer
作者: Zixin Yin, Xili Dai, Ling-Hao Chen, Deyu Zhou, Jianan Wang, Duomin Wang, Gang Yu, Lionel M. Ni, Lei Zhang, Heung-Yeung Shum
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-12 | 👍 点赞数: 11
摘要:
文本引导的图像和视频颜色编辑是一个基础但尚未解决的问题,需要在保持几何结构、材质属性和光物质相互作用物理一致性的前提下,对颜色属性(包括反照率、光源颜色和环境光照)进行细粒度的操控。现有的无需训练的方法在各类编辑任务中具有广泛适用性,但在精确的颜色控制方面存在困难,且常常在编辑区域和非编辑区域引入视觉不一致性。本文提出了一种无需训练的颜色编辑方法ColorCtrl,该方法利用现代多模态扩散Transformer(Multi-Modal Diffusion Transformer, MM-DiT)的注意力机制。通过有针对性地操控注意力图和值(value)令牌,实现结构与颜色的解耦,从而实现准确且一致的颜色编辑,并支持对属性强度的词级控制。我们的方法仅修改由提示(prompt)指定 的目标区域,而保持其他无关区域不变。在SD3和FLUX.1-dev上的大量实验表明,ColorCtrl在编辑质量和一致性方面均优于现有的无需训练方法,达到最先进的性能。此外,我们的方法在一致性方面还优于FLUX.1 Kontext Max和GPT-4o图像生成等强大的商用模型。当扩展至视频模型(如CogVideoX)时,我们的方法展现出更大的优势,尤其在保持时间连贯性和编辑稳定性方面。最后,我们的方法还可推广至基于指令编辑的扩散模型(如Step1X-Edit和FLUX.1 Kontext dev),进一步验证了其通用性。
9. Leveraging Large Language Models for Predictive Analysis of Human Misery
作者: Bishanka Seal, Rahul Seetharaman, Aman Bansal, Abhilash Nandy
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-18 | 👍 点赞数: 10
摘要:
本研究探讨了利用大语言模型(Large Language Models, LLMs)从对现实场景的自然语言描述中预测人类感知的痛苦评分。该任务被定义为一个回归问题,模型为每条输入语句分配一个0到100之间的标量值。我们评估了多种提示策略,包括零样本(zero-shot)、固定上下文小样本(fixed-context few-shot)以及基于BERT句子嵌入的检索提示方法。结果表明,小样本方法始终优于零样本基线,突显了在情感预测中上下文示例的重要性。为了超越静态评估,我们引入了“痛苦游戏秀”(Misery Game Show)这一新颖的游戏化框架,灵感来源于电视节目形式。该框架通过包含序数比较、二分类、标量估计和反馈驱动推理的结构化轮次测试LLMs。这种设置不仅评估了预测准确性,还检验了模型根据纠正性反馈进行调整的能力。游戏化评估突出了LLMs在动态情感推理任务中的广泛潜力,超越了传统的回归任务。代码和数据链接:https://github.com/abhi1nandy2/Misery_Data_Exps_GitHub
10. Evaluating Podcast Recommendations with Profile-Aware LLM-as-a-Judge
作者: Francesco Fabbri, Gustavo Penha, Edoardo D'Amico, Alice Wang, Marco De Nadai, Jackie Doremus, Paul Gigioli, Andreas Damianou, Oskar Stal, Mounia Lalmas
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-12 | 👍 点赞数: 10
摘要:
评估个性化推荐仍然是一个核心挑战,尤其是在播客等长格式音频领域,传统的离 线评估指标存在曝光偏差问题,而在线方法如A/B测试则成本高昂且在操作上受限。本文中,我们提出了一种新颖的框架,该框架利用大语言模型(Large Language Models, LLMs)作为离线评估者,以可扩展且可解释的方式评估播客推荐的质量。我们的两阶段、用户画像感知的方法首先基于90天的收听历史构建自然语言形式的用户画像。这些画像总结了用户的主题兴趣和行为模式,作为用户偏好的紧凑且可解释的表示。与直接向LLM输入原始数据不同,我们使用这些画像提供高层、语义丰富的上下文,使LLM能够更有效地推理用户兴趣与推荐剧集之间的匹配程度。这降低了输入复杂性并提高了可解释性。随后,我们引导LLM根据用户画像与推荐剧集的匹配程度,提供细粒度的逐点和逐对评估。在一项包含47名参与者的对照研究中,我们的用户画像感知评估者以高保真度匹配人类判断结果,并且优于或等同于使用原始收听历史的变体方法。该框架支持高效的、用户画像感知的评估,从而促进推荐系统的迭代测试和模型选择。
11. OmniTry: Virtual Try-On Anything without Masks
作者: Yutong Feng, Linlin Zhang, Hengyuan Cao, Yiming Chen, Xiaoduan Feng, Jian Cao, Yuxiong Wu, Bin Wang
链接: 📄 ArXiv | 🤗 HuggingFace