Skip to main content

每日论文 - 2025年09月04日

论文总数: 9

1. Open Data Synthesis For Deep Research

作者: Ziyi Xia, Kun Luo, Hongjin Qian, Zheng Liu

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-30 | 👍 点赞数: 43

摘要:

论文标题:Open Data Synthesis For Deep Research

英文摘要翻译: 大型语言模型(LLMs)被期望超越简单的事实性问题,执行深度研究任务——这类任务要求将问题分解为子问题,协调多步骤推理,并从多种来源综合证据。我们将具有可验证答案的深度研究任务形式化为分层约束满足问题(Hierarchical Constraint Satisfaction Problems, HCSPs),这类问题本质上不同于单约束、多跳或扁平CSP的表述。然而,现有的基准测试(例如Natural Questions、HotpotQA)未能捕捉到这种复杂性,而近期的合成数据集往往引入了捷径推理、知识泄露或缺乏足够的结构深度。为弥补这一差距,我们引入了InfoSeek,这是一种可扩展的框架,用于合成复杂的深度研究任务。InfoSeek使用双代理系统,从大规模网页中递归构建研究树,将中间节点模糊为有效的子问题,并将这些树转换为需要遍历整个层级结构的自然语言问题。它还支持快速扩展,生成超过50K个训练示例、一个精选的测试集以及通过拒绝采样生成的推理轨迹。实验表明,在InfoSeek上训练的模型始终优于强大的基线模型。在具有挑战性的基准测试BrowseComp-Plus上,经过InfoSeek优化的3B LLM超越了更大的32B模型和轻量级商业API(例如Gemini2.5-Flash),同时达到了与更强的API(例如Gemini2.5-Pro)相当的性能。通过保留中间步骤和检索标签等元信息,InfoSeek进一步支持包括复合奖励设计和轨迹级别探索在内的高级优化策略。 我们提供了代码和数据集,详见https://github.com/VectorSpaceLab/InfoSeek


2. Robix: A Unified Model for Robot Interaction, Reasoning and Planning

作者: Huang Fang, Mengxi Zhang, Heng Dong, Wei Li, Zixuan Wang, Qifeng Zhang, Xueyun Tian, Yucheng Hu, Hang Li

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-01 | 👍 点赞数: 34

摘要:

我们提出Robix,这是一种统一模型,将机器人推理、任务规划和自然语言交互集成在一个视觉-语言架构中。作为分层机器人系统中的高层认知层,Robix动态生成用于低层控制器的原子命令和用于人类交互的口头回应,使机器人能够在端到端框架内遵循复杂指令、规划长视野任务并与人类自然交互。Robix进一步引入了若干新功能,包括主动对话、实时中断处理以及任务执行过程中的上下文感知常识推理。Robix的核心依赖于思维链推理,并采用三阶段训练策略:(1)持续预训练以增强基础具身推理能力,包括3D空间理解、视觉基础和任务中心推理;(2)监督微调,将人机交互与任务规划建模为统一的推理-动作序列;(3)强化学习以提升推理-动作一致性及长视野任务连贯性。大量实验表明,Robix在交互式任务执行方面优于开源和商业基线模型(如GPT-4o和Gemini 2.5 Pro),并在多种指令类型(例如开放型、多阶段型、受限型、无效型和被中断型)及涉及用户的各类任务(如清理餐桌、杂货购物和饮食筛选)中展现出强大的泛化能力。


3. LMEnt: A Suite for Analyzing Knowledge in Language Models from

Pretraining Data to Representations

作者: Daniela Gottesman, Alon Gilae-Dotan, Ido Cohen, Yoav Gur-Arieh, Marius Mosbach, Ori Yoran, Mor Geva

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-03 | 👍 点赞数: 17

摘要:

LMEnt:一套用于分析语言模型从预训练数据到知识表示的知识获取工具集

语言模型(Language Models, LMs)在越来越多需要世界知识的实际应用中发挥着关键作用。然而,模型如何通过内部机制将数据转化为对世界的知识和信念,这一过程尚不清晰。深入理解这些机制有助于开发出知识表示更加一致、鲁棒和完整的语言模型。为促进对这些问题的研究,我们提出了LMEnt,一套用于分析语言模型在预训练过程中知识获取的工具集。LMEnt包含:(1)一个基于维基百科构建的、完全标注实体提及的知识丰富的预训练语料库;(2)一种在预训练数据上基于实体的检索方法,其性能优于先前方法多达80.4%;(3)12个参数量最高达10亿、包含4000个中间检查点的预训练模型,其在知识基准任务上的表现与流行的开源模型相当。上述资源共同提供了一个受控环境,用于分析预训练中实体提及与下游任务性能之间的关联,以及预训练数据中因果干预的影响。我们通过研究不同检查点下的知识获取过程,展示了LMEnt的实用性,发现事实频率是影响知识学习的关键因素,但并不能完全解释学习趋势。我们公开发布LMEnt,以支持关于语言模型中知识的研究,包括知识表示、可塑性、编辑、归因以及学习动态等方面的研究。


4. Beyond Correctness: Harmonizing Process and Outcome Rewards through RL

Training

作者: Chenlu Ye, Zhou Yu, Ziji Zhang, Hao Chen, Narayanan Sadagopan, Jing Huang, Tong Zhang, Anurag Beniwal

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-03 | 👍 点赞数: 17

摘要:

摘要:
带有可验证奖励的强化学习(Reinforcement Learning with Verifiable Rewards, RLVR)已成为数学推理任务中的主流范式,并在提升推理能力方面表现出稳定的性能增益。然而,RLVR中的结果奖励模型(Outcome Reward Models, ORMs)过于粗糙,无法区分正确答案中的错误推理或错误答案中的有效推理。这种粒度缺失显著引入了噪声和误导性的梯度,阻碍了推理过程质量的进一步提升。尽管过程奖励模型(Process Reward Models, PRMs)能够对中间步骤提供细粒度指导,但其本身常存在不准确性,并容易受到奖励黑客(reward hacking)的影响。
为解决这一困境,我们提出了过程一致性过滤器(PRocess cOnsistency Filter, PROF),一种能够有效协调噪声细粒度过程奖励与准确粗粒度结果奖励的数据处理方法。PROF并非简单地在目标函数中融合PRM和ORM(arXiv:archive/2506.18896),而是通过一致性驱动的样本选择机制,充分发挥两者的互补优势。该方法保留平均过程奖励值较高的正确响应和平均过程奖励值较低的错误响应,同时维持正负训练样本的平衡。大量实验表明,与融合方法相比,我们的方法不仅在最终准确率上稳定提升了超过4%,还显著增强了中间推理步骤的质量。 代码和训练方案可在以下链接获取:https://github.com/Chenluye99/PROF


5. Planning with Reasoning using Vision Language World Model

作者: Delong Chen, Theo Moutakanni, Willy Chung, Yejin Bang, Ziwei Ji, Allen Bolourchi, Pascale Fung

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-02 | 👍 点赞数: 11

摘要:

有效的规划需要强大的世界模型,但能够以语义和时间抽象来理解和推理动作的高层次世界模型仍发展不足。我们提出视觉语言世界模型(Vision Language World Model, VLWM),这是一种基于自然视频的语言世界建模基础模型。给定视觉观察结果,VLWM首先推断整体目标的实现情况,然后预测由交替的动作和世界状态变化组成的轨迹。这些目标是通过基于“未来观察的树状描述”(Tree of Captions)压缩表示进行条件化的迭代LLM自优化(LLM Self-Refine)提取的。VLWM同时学习动作策略和动态模型,分别用于通过系统-1反应式解码规划和通过成本最小化的系统-2反思式规划。该成本评估由VLWM展开生成的假设未来状态与预期目标状态之间的语义距离,并通过我们以自监督方式训练的评判模型(critic model)进行度量。在基准评估以及我们提出的PlannerArena人类评估中,VLWM在视觉辅助规划(Visual Planning for Assistance, VPA)任务上均达到了最先进的性能,其中系统-2相比系统-1将Elo评分提高了+27%。此外,VLWM模型在RoboVQA和WorldPrediction基准测试中也优于强大的视觉语言模型(VLM)基线方法。


6. Mixture of Global and Local Experts with Diffusion Transformer for

Controllable Face Generation

作者: Xuechao Zou, Shun Zhang, Xing Fu, Yue Li, Kai Li, Yushe Cao, Congyan Lang, Pin Tao, Junliang Xing

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-30 | 👍 点赞数: 9

摘要:

可控人脸生成在生成建模中提出了关键挑战,因为需要在语义可控性和照片真实感之间取得复杂平衡。尽管现有方法在将语义控制从生成流程中解耦方面存在困难,我们通过专家专业化视角重新审视扩散变换器(Diffusion Transformers, DiTs)的架构潜力。本文提出Face-MoGLE,一种新颖的框架,包含以下三个特点:(1)通过掩码条件空间分解实现语义解耦的潜在建模,从而实现精确的属性操控;(2)融合全局与局部专家的混合结构,以捕捉整体结构和区域级语义,实现细粒度可控性;(3)动态门控网络生成随扩散步骤和空间位置变化的时间依赖系数。Face-MoGLE为高质量、可控的人脸生成提供了强大而灵活的解决方案,在生成建模和安全应用中展现出巨大潜力。大量实验表明,其在多模态与单模态人脸生成任务中均表现出色,并具备强大的零样本泛化能力。 项目页面详见 https://github.com/XavierJiezou/Face-MoGLE


7. MOSAIC: Multi-Subject Personalized Generation via Correspondence-Aware

Alignment and Disentanglement

作者: Dong She, Siming Fu, Mushui Liu, Qiaoqiao Jin, Hualiang Wang, Mu Liu, Jidong Jiang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-02 | 👍 点赞数: 8

摘要:

MOSAIC:通过语义对应感知的对齐与解耦实现多主体个性化生成

在基于多个参考主体合成图像时,多主体个性化生成在保持身份保真度和语义连贯性方面面临独特挑战。现有方法由于未能充分建模不同主体在共享表示空间中的交互方式,常常出现身份混合和属性泄露的问题。我们提出MOSAIC,这是一种以表示为中心的框架,通过显式的语义对应和正交特征解耦重新思考多主体生成问题。我们的核心见解是,多主体生成在表示层面上需要精确的语义对齐——明确生成图像中的哪些区域应关注每个参考主体的哪些部分。为此,我们引入了SemAlign-MS,这是一个经过精心标注的数据集,首次在该领域提供了多个参考主体与目标图像之间的细粒度语义对应关系。在此基础上,我们提出了语义对应注意力损失,以强制实现精确的点对点语义对齐,确保每个参考主体与其对应区域之间保持高度一致性。此外,我们还设计了多参考解耦损失,将不同主体映射到正交的注意力子空间中,在防止特征干扰的同时保留个体身份特征。大量实验表明,MOSAIC在多个基准测试中达到了最先进的性能。值得注意的是,当参考主体数量超过3个时,现有方法性能通常显著下降,而MOSAIC在使用4个及以上参考主体时仍能保持高保真度,为复杂多主体合成应用开辟了新的可能性。


8. Manipulation as in Simulation: Enabling Accurate Geometry Perception in

Robots

作者: Minghuan Liu, Zhengbang Zhu, Xiaoshen Han, Peng Hu, Haotong Lin, Xinyao Li, Jingxiao Chen, Jiafeng Xu, Yichu Yang, Yunfeng Lin, Xinghang Li, Yong Yu, Weinan Zhang, Tao Kong, Bingyi Kang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-02 | 👍 点赞数: 4

摘要:

现代机器人操作主要依赖于2D颜色空间中的视觉观察来进行技能学习,但其泛化能力较差。相比之下,人类生活在3D世界中,在与物体交互时更依赖于距离、大小和形状等物理属性,而非纹理。由于这种3D几何信息可以从广泛使用的深度相机中获取,因此赋予机器人类似的感知能力似乎是可行的。我们的初步研究发现,使用深度相机进行操作具有挑战性,主要原因是其精度有限且容易受到多种噪声的影响。在本研究中,我们提出了相机深度模型(Camera Depth Models, CDMs),作为日常使用的深度相机上的一个简单插件,该模型以RGB图像和原始深度信号作为输入,输出去噪后的、精确的度量深度信息。为实现这一目标,我们开发了一种神经数据引擎,通过模拟深度相机的噪声模式,从仿真中生成高质量的配对数据。我们的结果表明,CDMs在深度预测中几乎达到了仿真的精度水平,有效弥合了操作任务中仿真到实际应用(sim-to-real)的差距。值得注意的是,我们的实验首次证明,一个仅基于原始仿真深度训练的策略,无需添加噪声或在真实世界中进行微调,便能够无缝泛化到真实机器人上,成功完成两个涉及关节型、反光和细长物体的复杂长视野任务,且几乎没有性能下降。我们希望本研究的发现能够激发未来在通用机器人策略中更广泛地利用仿真数据和3D信息的研究。


9. SATQuest: A Verifier for Logical Reasoning Evaluation and Reinforcement

Fine-Tuning of LLMs

作者: Yanxiao Zhao, Yaqian Li, Zihao Bo, Rinyoichi Takezoe, Haojia Hui, Mo Guang, Lei Ren, Xiaolin Qin, Kaiwen Long

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-31 | 👍 点赞数: 1

摘要:

SATQuest: 一种用于逻辑推理评估和强化微调的验证器

近年来,大语言模型(LLMs)在通用推理能力方面表现出色。然而,由于缺乏可控且可扩展的工具进行细粒度分析,对这些推理能力进行系统评估和提升仍然具有挑战性。现有的基准测试和数据集通常缺乏进行多维度、系统性分析和训练所需的变量控制,或存在问题类型和格式单一的问题。为了解决这些局限性,我们提出了SATQuest,这是一种系统验证器,通过从合取范式(CNF)实例直接生成基于可满足性(Satisfiability)的多样化逻辑推理问题,用于评估和增强LLMs的逻辑推理能力。SATQuest沿着三个正交维度(实例规模、问题类型和问题格式)构建这些问题,利用基于PySAT的随机化可满足性(SAT)问题生成技术和客观答案验证机制。该设计减轻了记忆问题,提供了对推理性能的细致洞察,并支持有效的强化微调。我们使用SATQuest对多种LLMs进行了广泛评估,发现其在逻辑推理方面存在显著局限,特别是在熟悉数学格式之外的泛化能力方面。此外,我们展示了通过SATQuest奖励进行的强化微调能够显著提升目标任务性能,并泛化到更复杂的问题实例,同时也揭示了跨格式适应方面仍存在的挑战。通过这些实验,我们展示了SATQuest作为基础工具和推动LLMs逻辑推理能力发展的起点所具有的巨大潜力。