每日论文 - 2025年09月09日
论文总数: 25
1. Reverse-Engineered Reasoning for Open-Ended Generation
作者: Haozhe Wang, Haoran Que, Qixin Xu, Minghao Liu, Wangchunshu Zhou, Jiazhan Feng, Wanjun Zhong, Wei Ye, Tong Yang, Wenhao Huang, Ge Zhang, Fangzhen Lin
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-07 | 👍 点赞数: 136
摘要:
尽管“深度推理”范式在数学等可验证领域推动了显著进展,但其在开放性、创造性生成任务中的应用仍是一个关键挑战。目前用于灌输推理能力的两种主流方法——强化学习(Reinforcement Learning, RL)与指令蒸馏(instruction distillation)——在这一领域表现不佳:强化学习面临明确奖励信号缺失和高质量奖励模型匮乏的问题,而指令蒸馏则成本高昂,并且受限于教师模型的能力上限。为克服这些局限性,我们提出了REverse-Engineered Reasoning(REER,反向工程推理)这一新范式,从根本上改变了推理方法的构建方式。REER并非通过试错或模仿“正向”构建推理过程,而是从已知优质解出发“反向”推导出潜在的、逐步深入的深度推理过程。借助这一可扩展、无梯度的方法,我们整理并开源了DeepWriting-20K数据集,其中包含20,000条面向开放性任务的深度推理轨迹。基于该数据集训练的模型DeepWriter-8B不仅超越了多个强大的开源基线模型,还在某些任务上实现了与GPT-4o和Claude 3.5等领先闭源模型相当甚至更优的性能。
2. WebExplorer: Explore and Evolve for Training Long-Horizon Web Agents
作者: Junteng Liu, Yunji Li, Chi Zhang, Jingyang Li, Aili Chen, Ke Ji, Weiyu Cheng, Zijia Wu, Chengyu Du, Qidi Xu, Jiayuan Song, Zhengmao Zhu, Wenhu Chen, Pengyu Zhao, Junxian He
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-08 | 👍 点赞数: 72
摘要:
WebExplorer: 探索与演进以训练长视野网络代理
摘要: 大型语言模型(LLMs)的研究范式正日益转向代理式应用,其中网络浏览能力对于从多样化的在线来源中检索信息至关重要。然而,现有的开源网络代理在复杂任务中的信息检索能力有限,或缺乏 透明的实现方式。本研究发现,关键挑战在于缺乏具有挑战性的信息检索数据。为解决这一问题,我们提出了WebExplorer:一种基于模型探索和迭代长到短查询演化的系统性数据生成方法。该方法生成需要多步推理和复杂网络导航的具有挑战性的查询-答案对。通过利用我们构建的高质量数据集,我们通过监督微调结合强化学习成功开发了先进的网络代理WebExplorer-8B。我们的模型支持128K的上下文长度和最多100次工具调用轮次,实现了长视野问题求解能力。在多种信息检索基准测试中,WebExplorer-8B在其规模模型中达到了最先进的性能。值得注意的是,作为一个8B参数量的模型,在强化学习训练后,WebExplorer-8B能够在平均16轮对话内有效完成搜索,在BrowseComp-en/zh任务上的准确率超过了WebSailor-72B,并在WebWalkerQA和FRAMES任务上超越了所有100B参数量以内的模型。除了这些信息检索任务外,尽管仅在知识密集型问答数据上进行训练,我们的模型在HLE基准测试中也表现出强大的泛化能力。这些结果表明,我们的方法是实现长视野网络代理的可行路径。
3. Revolutionizing Reinforcement Learning Framework for Diffusion Large
Language Models
作者: Yinjie Wang, Ling Yang, Bowen Li, Ye Tian, Ke Shen, Mengdi Wang
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-08 | 👍 点赞数: 50
摘要:
我们提出了TraceRL,这是一种轨迹感知的强化学习框架,适用于扩散语言模型(Diffusion Language Models, DLMs),其在后训练过程中引入了优选的推理轨迹,并可应用于不同的模型架构。通过配备基于扩散的价值模型以增强训练稳定性,我们在复杂的数学和编程任务上展示了更优的推理性能。此外,TraceRL还可用于将特定块(block-specific)模型适配到更大的块上,从而提高采样灵活性。基于TraceRL,我们开发了一系列最先进的扩散语言模型,统称为TraDo。尽管TraDo-4B-Instruct的参数规模小于7B级别的自回归模型,但其在复杂数学推理任务中始终表现更优。TraDo-8B-Instruct在数学推理基准测试中相较Qwen2.5-7B-Instruct提升了6.1%,相较Llama3.1-8B-Instruct则提升了51.3%。通过课程学习(curriculum learning),我们还首次构建了支持长思维链(long-CoT)的DLM,在MATH500数据集上相较Qwen2.5-7B-Instruct实现了18.1%的相对准确率提升。为了促进可复现的研究和实际应用,我们发布了一个全面的开源框架,支持在多种架构上构建、训练和部署扩散大语言模型。该框架集成了加速KV缓存技术以及用于推理和强化学习的推理引擎,并实现了多种面向数学、编程和通用任务的监督微调与强化学习方法。 代码和模型地址:https://github.com/Gen-Verse/dLLM-RL