每日论文 - 2025年09月04日
论文总数: 9
1. Open Data Synthesis For Deep Research
作者: Ziyi Xia, Kun Luo, Hongjin Qian, Zheng Liu
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-30 | 👍 点赞数: 43
摘要:
论文标题:Open Data Synthesis For Deep Research
英文摘要翻译: 大型语言模型(LLMs)被期望超越简 单的事实性问题,执行深度研究任务——这类任务要求将问题分解为子问题,协调多步骤推理,并从多种来源综合证据。我们将具有可验证答案的深度研究任务形式化为分层约束满足问题(Hierarchical Constraint Satisfaction Problems, HCSPs),这类问题本质上不同于单约束、多跳或扁平CSP的表述。然而,现有的基准测试(例如Natural Questions、HotpotQA)未能捕捉到这种复杂性,而近期的合成数据集往往引入了捷径推理、知识泄露或缺乏足够的结构深度。为弥补这一差距,我们引入了InfoSeek,这是一种可扩展的框架,用于合成复杂的深度研究任务。InfoSeek使用双代理系统,从大规模网页中递归构建研究树,将中间节点模糊为有效的子问题,并将这些树转换为需要遍历整个层级结构的自然语言问题。它还支持快速扩展,生成超过50K个训练示例、一个精选的测试集以及通过拒绝采样生成的推理轨迹。实验表明,在InfoSeek上训练的模型始终优于强大的基线模型。在具有挑战性的基准测试BrowseComp-Plus上,经过InfoSeek优化的3B LLM超越了更大的32B模型和轻量级商业API(例如Gemini2.5-Flash),同时达到了与更强的API(例如Gemini2.5-Pro)相当的性能。通过保留中间步骤和检索标签等元信息,InfoSeek进一步支持包括复合奖励设计和轨迹级别探索在内的高级优化策略。 我们提供了代码和数据集,详见https://github.com/VectorSpaceLab/InfoSeek。
2. Robix: A Unified Model for Robot Interaction, Reasoning and Planning
作者: Huang Fang, Mengxi Zhang, Heng Dong, Wei Li, Zixuan Wang, Qifeng Zhang, Xueyun Tian, Yucheng Hu, Hang Li
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-01 | 👍 点赞数: 34
摘要:
我们提出Robix,这是一种统一模型,将机器人推理、任务规划和自然语言交互集成在一个视觉-语言架构中。作为分层机器人系统中的高层认知层,Robix动态生成用于低层控制器的原子命令和用于人类交互的口头回应,使机器人能够在端到端框架内遵循复杂指令、规划长视野任务并与人类自然交互。Robix进一步引入了若干新功能,包括主动对话、实时中断处理以及任务执行过程中的上下文感知常识推理。Robix的核心依赖于思维链推理,并采用三阶段训练策略:(1)持续预训练以增强基础具身推理能力,包括3D空间理解、视觉基础和任务中心推理;(2)监督微调,将人机交互与任务规划建模为统一的推理-动作序列;(3)强化学习以提升推理-动作一致性及长视野任务连贯性。大量实验表明,Robix在交互式任务执行方面优于开源和商业基线模型(如GPT-4o和Gemini 2.5 Pro),并在多种指令类型(例如开放型、多阶段型、受限型、无效型和被中断型)及涉及用户的各类任务(如清理餐桌、杂货购物和饮食筛选)中展现出强大的泛化能力。
3. LMEnt: A Suite for Analyzing Knowledge in Language Models from
Pretraining Data to Representations
作者: Daniela Gottesman, Alon Gilae-Dotan, Ido Cohen, Yoav Gur-Arieh, Marius Mosbach, Ori Yoran, Mor Geva
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-03 | 👍 点赞数: 17
摘要:
LMEnt:一套用于分析语言模型从预训练数据到知识表示的知识获取工具集
语言模型(Language Models, LMs)在越来越多需要世界知识的实际应用中发挥着关键作用。然而,模型如何通过内部机制将数据转化为对世界的知识和信念,这一过程尚不清晰。深入理解这些机制有助于开发出知识表示更加一致、鲁棒和完整的语言模型。为促进对这些问题的研究,我们提出了LMEnt,一套用于分析语言模型在预训练过程中知识获取的工具集。LMEnt包含:(1)一个基于维基百科构建的、完全标注实体提及的知识丰富的预训练语料库;(2)一种在预训练数据上基于实体的检索方法,其性能优于先前方法多达80.4%;(3)12个参数量最高达10亿、包含4000个中间检查点的预训练模型,其在知识基准任务上的表现与流行的开源模型相当。上述资源共同提供了一个受控环境,用于分析预训练中实体提及与下游任务性能之间的关联,以及预训练数据中因果干预的影响。我们通过研究不同检查点下的知识获取过程,展示了LMEnt的实用性,发现事实频率是影响知识学习的关键因素,但并不能完全解释学习趋势。我们公开发布LMEnt,以支持关于语言模型中知识的研究,包括知识表示、可塑性、编辑、归因以及学习动态等方面的研究。
4. Beyond Correctness: Harmonizing Process and Outcome Rewards through RL
Training
作者: Chenlu Ye, Zhou Yu, Ziji Zhang, Hao Chen, Narayanan Sadagopan, Jing Huang, Tong Zhang, Anurag Beniwal
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-03 | 👍 点赞数: 17
摘要:
摘要:
带有可验证奖励的强化学习(Reinforcement Learning with Verifiable Rewards, RLVR)已成为数学推理任务中的主流范式,并在提升推理能力方面表现出稳定的性能增益。然而,RLVR中的结果奖励模型(Outcome Reward Models, ORMs)过于粗糙,无法区分正确答案中的错误推理或错误答案中的有效推理。这种粒度缺失显著引入了噪声和误导性的梯度,阻碍了推理过程质量的进一步提升。尽管过程奖励模型(Process Reward Models, PRMs)能够对中间步骤提供细粒度指 导,但其本身常存在不准确性,并容易受到奖励黑客(reward hacking)的影响。
为解决这一困境,我们提出了过程一致性过滤器(PRocess cOnsistency Filter, PROF),一种能够有效协调噪声细粒度过程奖励与准确粗粒度结果奖励的数据处理方法。PROF并非简单地在目标函数中融合PRM和ORM(arXiv:archive/2506.18896),而是通过一致性驱动的样本选择机制,充分发挥两者的互补优势。该方法保留平均过程奖励值较高的正确响应和平均过程奖励值较低的错误响应,同时维持正负训练样本的平衡。大量实验表明,与融合方法相比,我们的方法不仅在最终准确率上稳定提升了超过4%,还显著增强了中间推理步骤的质量。
代码和训练方案可在以下链接获取:https://github.com/Chenluye99/PROF。
5. Planning with Reasoning using Vision Language World Model
作者: Delong Chen, Theo Moutakanni, Willy Chung, Yejin Bang, Ziwei Ji, Allen Bolourchi, Pascale Fung
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-02 | 👍 点赞数: 11
摘要:
有效的规划需要强大的世界模型,但能够以 语义和时间抽象来理解和推理动作的高层次世界模型仍发展不足。我们提出视觉语言世界模型(Vision Language World Model, VLWM),这是一种基于自然视频的语言世界建模基础模型。给定视觉观察结果,VLWM首先推断整体目标的实现情况,然后预测由交替的动作和世界状态变化组成的轨迹。这些目标是通过基于“未来观察的树状描述”(Tree of Captions)压缩表示进行条件化的迭代LLM自优化(LLM Self-Refine)提取的。VLWM同时学习动作策略和动态模型,分别用于通过系统-1反应式解码规划和通过成本最小化的系统-2反思式规划。该成本评估由VLWM展开生成的假设未来状态与预期目标状态之间的语义距离,并通过我们以自监督方式训练的评判模型(critic model)进行度量。在基准评估以及我们提出的PlannerArena人类评估中,VLWM在视觉辅助规划(Visual Planning for Assistance, VPA)任务上均达到了最先进的性能,其中系统-2相比系统-1将Elo评分提高了+27%。此外,VLWM模型在RoboVQA和WorldPrediction基准测试中也优于强大的视觉语言模型(VLM)基线方法。
6. Mixture of Global and Local Experts with Diffusion Transformer for
Controllable Face Generation
作者: Xuechao Zou, Shun Zhang, Xing Fu, Yue Li, Kai Li, Yushe Cao, Congyan Lang, Pin Tao, Junliang Xing