每日论文 - 2025年09月17日
论文总数: 21
1. WebWeaver: Structuring Web-Scale Evidence with Dynamic Outlines for
Open-Ended Deep Research
作者: Zijian Li, Xin Guan, Bo Zhang, Shen Huang, Houquan Zhou, Shaopeng Lai, Ming Yan, Yong Jiang, Pengjun Xie, Fei Huang, Jun Zhang, Jingren Zhou
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-16 | 👍 点赞数: 94
摘要:
论文标题:WebWeaver:通过动态大纲整合网络规模证据以支持开放式深度研究
中文摘要:
本文研究开放式深度研究(OEDR)这一复杂挑战,即AI代理需将海量的网络级信息综合成具有洞察力的研究报告。现有方法存在双重局限:一是静态的研究流程,将规划与证据获取过程割裂;二是单次生成范式,容易出现长上下文失效问题,如“中间信息丢失”和幻觉现象。为应对这些挑战,我们提出了WebWeaver——一种新颖的双智能体框架,模拟人类研究过程。其中,规划智能体(planner)采用动态循环机制,迭代地将证据获取与大纲优化交织进行,逐步生成一个全面、基于来源支撑的大纲,并链接至一个证据记忆库。写作智能体(writer)则执行分层检索与撰写流程,逐节生成报告内容。通过仅从记忆库中针对性检索每部分所需的关键证据,有效缓解了长上下文带来的问题。我们的框架在多个主流OEDR基准测试上取得了新的最先进性能,包括DeepResearch Bench、DeepConsult和DeepResearchGym。实验结果验证了我们以人类为中心、迭代式研究方法的有效性,表明自适应规划与聚焦式综合对于生成高质量、可靠且结构良好的研究报告至关重要。
2. Scaling Agents via Continual Pre-training
作者: Liangcai Su, Zhen Zhang, Guangyu Li, Zhuo Chen, Chenxi Wang, Maojia Song, Xinyu Wang, Kuan Li, Jialong Wu, Xuanzhong Chen, Zile Qiao, Zhongwang Zhang, Huifeng Yin, Shihao Cai, Runnan Fang, Zhengwei Tao, Wenbiao Yin, Chenxiong Qian, Yong Jiang, Pengjun Xie, Fei Huang, Jingren Zhou
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-16 | 👍 点赞数: 92
摘要:
论文标题:通过持续预训练扩展智能代理
中文摘要:
大型语言模型(LLMs)已逐步演变为具备自主使用工具和多步推理能力的智能代理系统,能够解决复杂问题。然而,基于通用基础模型的后训练方法在代理任务上表现始终欠佳,尤其在开源实现中更为明显。我们指出其根本原因在于:缺乏强大的代理型基础模型,导致后训练阶段的模型必须同时学习多种代理行为并将其与专家示范对齐,从而引发基本的优化冲突。为此,我们首次提出将“代理型持续预训练”(Agentic Continual Pre-training, Agentic CPT)引入深度研究代理的训练流程中,以构建强大的代理型基础模型。基于该方法,我们开发了一款名为 AgentFounder 的深度研究代理模型。我们在10个基准测试上评估了 AgentFounder-30B,取得了当前最优的性能,同时保持了出色的工具使用能力,其中在 BrowseComp-en 上达到 39.9%,在 BrowseComp-zh 上达到 43.3%,在 HLE 任务上的 Pass@1 得分为 31.5%。
3. WebSailor-V2: Bridging the Chasm to Proprietary Agents via Synthetic
Data and Scalable Reinforcement Learning
作者: Kuan Li, Zhongwang Zhang, Huifeng Yin, Rui Ye, Yida Zhao, Liwen Zhang, Litu Ou, Dingchu Zhang, Xixi Wu, Jialong Wu, Xinyu Wang, Zile Qiao, Zhen Zhang, Yong Jiang, Pengjun Xie, Fei Huang, Jingren Zhou
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-16 | 👍 点赞数: 72
摘要:
论文标题:WebSailor-V2:通过合成数据与可扩展强化学习弥合与专有智能体之间的鸿沟
中文摘要:
突破人类认知局限是大语言模型(LLM)训练中的一个关键前沿。诸如DeepResearch等专有的智能体系统已在极为复杂的信息获取基准任务(如BrowseComp)上展现出超越人类的能力,这一成就此前尚无法实现。我们认为,其成功的关键在于一种在开源模型中尚未具备的复杂推理模式:即在面对海量信息空间时,能够系统性地降低极端不确定性的能力。基于这一 洞察,我们提出了WebSailor——一种完整的后训练方法论,旨在赋予模型这一关键能力。我们的方法包括通过结构化采样与信息模糊化生成新颖的高不确定性任务、RFT冷启动,以及一种高效的智能体强化学习算法——复制采样策略优化(Duplicating Sampling Policy Optimization, DUPO)。通过这一集成化流程,WebSailor在复杂信息检索任务中显著优于所有现有的开源智能体,性能上已媲美专有智能体,有效缩小了能力差距。
4. Towards General Agentic Intelligence via Environment Scaling
作者: Runnan Fang, Shihao Cai, Baixuan Li, Jialong Wu, Guangyu Li, Wenbiao Yin, Xinyu Wang, Xiaobin Wang, Liangcai Su, Zhen Zhang, Shibin Wu, Zhengwei Tao, Yong Jiang, Pengjun Xie, Fei Huang, Jingren Zhou
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-16 | 👍 点赞数: 65
摘要:
论文标题:通过环境扩展实现通用智能体智能
中文摘要:
先进的智能体智能(agentic intelligence)是将大语言模型应用于实际现实场景的前提条件。多样化的现实世界API要求精确且鲁棒的函数调用能力,这需要智能体通过在多样化环境中的交互来发展此类能力。函数调用能力的广度与 智能体所训练环境的多样性密切相关。在本研究中,我们通过扩展环境规模来推动通用智能体智能的发展。这一思路引出了两个核心挑战:(i)如何以系统化的方式扩展环境规模;(ii)如何从智能体与这些环境交互所产生的经验中有效训练其智能体能力。为应对这些问题,我们设计了一个可扩展的框架,能够自动构建异构的、完全模拟的环境,从而系统性地拓展函数调用场景的覆盖范围。此外,我们采用了一种两阶段的智能体微调策略:首先赋予智能体基础的智能体能力,然后针对特定领域情境进行专业化优化。在多个智能体基准测试(包括tau-bench、tau2-Bench和ACEBench)上的大量实验表明,我们训练的模型AgentScaler显著提升了模型的函数调用能力。
5. WebResearcher: Unleashing unbounded reasoning capability in Long-Horizon
Agents
作者: Zile Qiao, Guoxin Chen, Xuanzhong Chen, Donglei Yu, Wenbiao Yin, Xinyu Wang, Zhen Zhang, Baixuan Li, Huifeng Yin, Kuan Li, Rui Min, Minpeng Liao, Yong Jiang, Pengjun Xie, Fei Huang, Jingren Zhou
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-16 | 👍 点赞数: 62
摘要: