每日论文 - 2025年09月28日
论文总数: 35
1. VCRL: Variance-based Curriculum Reinforcement Learning for Large
Language Models
作者: Guochao Jiang, Wenfeng Feng, Guofeng Quan, Chuzhan Hao, Yuewei Zhang, Guohua Liu, Hao Wang
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-24 | 👍 点赞数: 115
摘要:
论文标题:VCRL:基于方差的课程强化学习用于大语言模型
中文摘要:
基于策略的强化学习目前在提升大语言模型(LLM)数学推理能力方面发挥着重要作用。然而,现有的基于 rollout 的强化学习方法(如 GRPO、DAPO、GSPO 等)未能显式地考虑大语言模型对不同难度样本的学习能力,这与人类在数学推理任务中从易到难的认知过程相违背。直观上,我们发现强化学习中的 rollout 组奖励方差在一定程度上反映了 当前样本对大语言模型而言的难度:过于简单或过于困难的样本具有较低的方差,而中等难度的样本则表现出较高的方差。基于这一观察,我们提出了 VCRL——一种基于组奖励方差的课程式强化学习框架,能够根据奖励方差动态调控训练样本的难度。在五个数学推理基准数据集和两种大语言模型上的实验结果表明,VCRL 相较于当前主流的大语言模型强化学习基线方法具有显著优势。
2. MMR1: Enhancing Multimodal Reasoning with Variance-Aware Sampling and
Open Resources
作者: Sicong Leng, Jing Wang, Jiaxi Li, Hao Zhang, Zhiqiang Hu, Boqiang Zhang, Yuming Jiang, Hang Zhang, Xin Li, Lidong Bing, Deli Zhao, Wei Lu, Yu Rong, Aixin Sun, Shijian Lu
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-25 | 👍 点赞数: 98
摘要:
论文标题:MMR1:基于方差感知采样与开放资源的多模态推理能力增强
中文摘要:
大型多模态推理模型已取得快速进展,但其发展受到两个主要限制:一是缺乏公开的大规模、高质量的长链式思维(chain-of-thought, CoT)数据;二是在后训练阶段强化学习(reinforcement learning, RL)算法存在不 稳定性。当前RL微调的标准框架——组相对策略优化(Group Relative Policy Optimization, GRPO),在奖励方差较低时容易出现梯度消失问题,从而削弱优化信号并影响收敛效果。本文作出三项贡献:(1)我们提出方差感知采样(Variance-Aware Sampling, VAS),这是一种基于方差促进得分(Variance Promotion Score, VPS)的数据选择策略,结合输出结果的方差与推理路径的多样性,以提升奖励方差,稳定策略优化过程;(2)我们发布了一套大规模、精心筛选的资源,包含约160万条长CoT冷启动数据和约1.5万组RL问答对,并配套提供完整可复现的端到端训练代码库,确保数据在质量、难度和多样性方面的高标准;(3)我们开源了一系列多种规模的多模态推理模型,为学术界建立了标准化的基准模型。在多个数学推理基准上的实验验证了所构建数据集和提出的VAS方法的有效性。全面的消融研究与分析进一步揭示了各组件的贡献。此外,我们在理论上证明了奖励方差是策略梯度期望大小的下界,而VAS正是实现该理论保证的一种实用机制。我们的代码、数据及模型检查点已公开于 https://github.com/LengSicong/MMR1。
3. SciReasoner: Laying the Scientific Reasoning Ground Across Disciplines
作者: Yizhou Wang, Chen Tang, Han Deng, Jiabei Xiao, Jiaqi Liu, Jianyu Wu, Jun Yao, Pengze Li, Encheng Su, Lintao Wang, Guohang Zhuang, Yuchen Ren, Ben Fei, Ming Hu, Xin Chen, Dongzhan Zhou, Junjun He, Xiangyu Yue, Zhenfei Yin, Jiamin Wu, Qihao Zheng, Yuhao Zhou, Huihui Xu, Chenglong Ma, Yan Lu, Wenlong Zhang, Chunfeng Song, Philip Torr, Shixiang Tang, Xinzhu Ma, Wanli Ouyang, Lei Bai
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-25 | 👍 点赞数: 94
摘要:
论文标题:SciReasoner:构建跨学科的科学推理基础
中文摘要:
我们提出了一种科学推理基础模型,能够将自然语言与异构的科学表示形式进行对齐。该模型在一个包含2060亿token的语料库上进行了预训练,涵盖科学文本、纯序列以及序列-文本配对数据;随后通过监督微调(SFT)在4000万条指令上进行对齐,并采用退火冷启动自举方法激发长篇幅的思维链推理,结合任务特定奖励塑形的强化学习,从而内化严谨的科学推理能力。模型支持四大类功能,覆盖工作流中的多达103项任务:(i)文本与科学格式之间的忠实转换,(ii)文本/知识提取,(iii)性质预测,(iv)性质分类,(v)无条件与条件序列生成及设计。与专用系统相比,我们的方法扩展了指令覆盖范围,提升了跨领域泛化能力,并增强了输出的准确性。我们详细介绍了数据整理与训练过程,并证明跨学科学习显著增强了知识迁移能力和下游任务的可靠性。该模型、指令微调数据集及评估代码已开源,发布地址为 https://huggingface.co/SciReason 和 https://github.com/open-sciencelab/SciReason。
4. Tree Search for LLM Agent Reinforcement Learning
作者: Yuxiang Ji, Ziyu Ma, Yong Wang, Guanhua Chen, Xiangxiang Chu, Liaoni Wu
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-25 | 👍 点赞数: 84
摘要:
论文标题:面向大语言模型智能体强化学习的树搜索方法
中文摘要:
近年来,强化学习(Reinforcement Learning, RL)的进展显著提升了大语言模型(Large Language Models, LLMs)作为智能体的能力。在长期、多轮交互的智能体任务中,现有仅依赖结果奖励的方法常常面临监督信号稀疏的问题。为应对这一挑战,本文提出基于树搜索的分组相对策略优化方法(Tree-based Group Relative Policy Optimization, Tree-GRPO),这是一种基于树搜索的分组智能体强化学习方法,其中每个树节点代表一个完整的智能体交互步骤。通过共享共同前缀,树搜索采样能够在固定的token或工具调用预算内显著增加可实现的 rollout 数量。此外,我们发现树状结构的轨迹即使仅使用结果奖励,也能自然地构建出逐步骤的过程监督信号。基于此,Tree-GRPO 在树内和树间两个层次上估计分组相对优势。通过理论分析,我们证明树内层级的分组相对策略优化目标等价于逐步骤的直接偏好学习目标。在11个数据集和3类问答任务上的实验结果表明,所提出的基于树结构的强化学习方法优于基于链式结构的强化学习方法。
5. Seedream 4.0: Toward Next-generation Multimodal Image Generation
作者: Team Seedream, Yunpeng Chen, Yu Gao, Lixue Gong, Meng Guo, Qiushan Guo, Zhiyao Guo, Xiaoxia Hou, Weilin Huang, Yixuan Huang, Xiaowen Jian, Huafeng Kuang, Zhichao Lai, Fanshi Li, Liang Li, Xiaochen Lian, Chao Liao, Liyang Liu, Wei Liu, Yanzuo Lu, Zhengxiong Luo, Tongtong Ou, Guang Shi, Yichun Shi, Shiqi Sun, Yu Tian, Zhi Tian, Peng Wang, Rui Wang, Xun Wang, Ye Wang, Guofeng Wu, Jie Wu, Wenxu Wu, Yonghui Wu, Xin Xia, Xuefeng Xiao, Shuang Xu, Xin Yan, Ceyuan Yang, Jianchao Yang, Zhonghua Zhai, Chenlin Zhang, Heng Zhang, Qi Zhang, Xinyu Zhang, Yuwei Zhang, Shijia Zhao, Wenliang Zhao, Wenjia Zhu
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-24 | 👍 点赞数: 69
摘要:
论文标题:Seedream 4.0:迈向下一代多模态图像生成
中文摘要:
本文提出 Seedream 4.0,一种高效且高性能的多模态图像生成系统,能够在统一框架下实现文本到图像(T2I)合成、图像编辑以及多图像组合。我们设计了一种高效的扩散变换器(diffusion transformer),并配备了一个功能强大的变分自编码器(VAE),可显著减少图像 token 的数量。这不仅提升了模型训练效率,还使其能够快速生成原生高分辨率图像(例如 1K–4K)。Seedream 4.0 在涵盖多种分类体系和知识导向概念的数十亿文本-图像对数据上进行了预训练。通过覆盖数百个垂直场景的全面数据采集,结合优化的训练策略,确保了大规模训练的稳定性,并具备出色的泛化能力。通过引入精心微调的视觉语言模型(VLM),我们实现了面向 T2I 和图像编辑任务的多模态后训练(multi-modal post-training),联合优化两项任务。在推理加速方面,我们融合了对抗性蒸馏、分布匹配、量化技术以及推测解码(speculative decoding),在不依赖大语言模型/视觉语言模型作为位置编码(PE)模型的情况下,生成一张 2K 图像的推理时间最快可达 1.8 秒。综合评估结果表明,Seedream 4.0 在文本到图像生成和多模态图像编辑任务上均达到了业界领先水平。尤其在复杂任务中展现出卓越的多模态能力,包括精确的图像编辑、上下文推理、多图像参考支持,以及多张图像输出生成。该系统将传统的 T2I 模型拓展为更具交互性和多维度的创作工具,推动了生成式人工智能在创意表达与专业应用领域的边界。Seedream 4.0 现已可通过 https://www.volcengine.com/experience/ark?launch=seedream 访问体验。
6. Hunyuan3D-Omni: A Unified Framework for Controllable Generation of 3D
Assets
作者: Team Hunyuan3D, Bowen Zhang, Chunchao Guo, Haolin Liu, Hongyu Yan, Huiwen Shi, Jingwei Huang, Junlin Yu, Kunhong Li, Linus, Penghao Wang, Qingxiang Lin, Sicong Liu, Xianghui Yang, Yixuan Tang, Yunfei Zhao, Zeqiang Lai, Zhihao Liang, Zibo Zhao
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-25 | 👍 点赞数: 36
摘要:
论文标题:Hunyuan3D-Omni:一种用于可控生成三维资产的统一框架
中文摘要:
近年来,原生三维生成模型的进展显著加快了游戏、电影和设计领域的资产创建过程。然而,现有大多数方法仍主要依赖图像或文本作为条件输入,缺乏细粒度的跨模态控制能力,限制了生成过程的可控性及实际应用。为弥补这一不足,我们提出了Hunyuan3D-Omni——一个基于Hunyuan3D 2.1构建的、支持细粒度可控三维资产生成的统一框架。除了图像外,Hunyuan3D-Omni还支持点云、体素、边界框以及骨骼姿态先验等多种条件信号输入,从而实现对几何形状、拓扑结构和姿态的精确控制。与为不同模态设计独立输出头的传统方法不同,我们的模型在单一的跨模态架构中实现了所有输入信号的统一处理。我们采用一种渐进式、难度感知的采样策略进行训练:在每个训练样本中仅选择一种控制模态,并倾向于更多地采样较难的信号(如骨骼姿态),同时降低简单信号(如点云)的采样权重。该策略有助于提升多模态融合的鲁棒性,并能优雅地处理输入缺失的情况。实验结果表明,这些额外的控制机制不仅提高了生成精度,支持几何感知的变换操作,还增强了在实际生产流程中的稳健性和可用性。
7. AutoIntent: AutoML for Text Classification
作者: Ilya Alekseev, Roman Solomatin, Darina Rustamova, Denis Kuznetsov
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-25 | 👍 点赞数: 29
摘要:
论文标题:AutoIntent:面向文本分类的自动化机器学习
中文摘要:
AutoIntent 是一个用于文本分类任务的自动化机器学习工具。与现有解决方案不同,AutoIntent 提供了端到端的自动化功能,包括嵌入模型选择、分类器优化以及决策阈值调优,且全部集成于一个模块化、类似 scikit-learn 的接口中。该框架设计支持多标签分类和超出范围(out-of-scope)意图检测。在标准的意图分类数据集上,AutoIntent 表现出优于现有自动化机器学习工具的性能,同时使用户能够有效平衡模型效果与资源消耗。
8. TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them
作者: Yidong Wang, Yunze Song, Tingyuan Zhu, Xuanwang Zhang, Zhuohao Yu, Hao Chen, Chiyu Song, Qiufeng Wang, Cunxiang Wang, Zhen Wu, Xinyu Dai, Yue Zhang, Wei Ye, Shikun Zhang
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-25 | 👍 点赞数: 27
摘要:
论文标题:TrustJudge:大模型作为评判者的不一致性及其缓解方法
中文摘要:
将大语言模型(Large Language Models, LLMs)用作自动评估工具(即“LLM-as-a-judge”)的做法,暴露出当前评估框架中存在的严重不一致性问题。本文识别出两类根本性的不一致现象:(1)评分比较不一致性,即在成对比较中得分较低的回复反而优于得分较高的回复;(2)成对传递性不一致性,表现为出现循环偏好链(如 A > B > C > A)以及等价关系矛盾(如 A = B = C ≠ A)。我们认为,这些问题源于离散评分系统中的信息丢失,以及成对比较过程中对平局判断的模糊性。为此,我们提出了 TrustJudge——一种概率化评估框架,通过两项关键技术改进现有方法:1)分布敏感评分机制,从离散评分的概率分布中计算连续期望值,保留信息熵以实现更精确的打分;2)基于似然的聚合机制,利用 双向偏好概率或困惑度(perplexity)来解决传递性违背问题。我们还形式化地分析了当前 LLM-as-a-judge 框架的理论局限,并展示了 TrustJudge 如何克服这些限制。在使用 Llama-3.1-70B-Instruct 作为评判模型并基于我们构建的数据集进行评估时,TrustJudge 将评分比较不一致性降低了 8.43%(从 23.32% 降至 14.89%),将成对传递性不一致性降低了 10.82%(从 15.22% 降至 4.40%),同时保持了更高的评估准确性。本研究首次对 LLM-as-a-judge 范式中的评估框架不一致性进行了系统性分析,提供了兼具理论深度与实践价值的解决方案,从而实现更可靠的自动化评估。该框架在多种模型架构和规模下均表现出稳定提升,无需额外训练或人工标注即可提升 LLM 评估的可信度。代码地址:https://github.com/TrustJudge/TrustJudge。
9. Thinking Augmented Pre-training
作者: Liang Wang, Nan Yang, Shaohan Huang, Li Dong, Furu Wei
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-24 | 👍 点赞数: 22
摘要:
论文标题:思维增强预训练
中文摘要:
本文提出了一种简单且可扩展的方法,通过在现有文本数据中增补“思维轨迹”(thinking trajectories)来提升大语言模型(LLM)训练的数据效率。近年来,大语言模型预训练所需的计算资源正以前所未有的速度增长,而高质量训练数据的获取却依然有限。因此,如何最大化利用已有数据成为一项重要的研究挑战。一个主要难点在于,在模型容量固定的情况下,某些高质量token难以被有效学习,因为单个token背后的推理逻辑可能极为复杂和深层。为解决这一问题,我们提出了“思维增强预训练”(Thinking augmented Pre-Training, TPT),这是一种通用方法,通过自动生动生成的思维轨迹来增强原始文本数据。这种数据增强方式不仅有效增加了训练数据量,还通过逐步推理与分解过程,使原本难以学习的高质量token变得更易被模型掌握。我们在多种训练配置下应用了TPT方法,累计训练量达1000亿token,涵盖数据受限和数据充足两种情况下的预训练,以及从强大的开源检查点出发的中期训练。实验结果表明,该方法在不同规模和架构的模型上均显著提升了大语言模型的性能。值得注意的是,TPT将大语言模型预训练的数据效率提高了3倍。对于一个30亿参数的模型,其在多个高难度推理基准测试上的训练后性能提升了超过10%。
10. CE-GPPO: Controlling Entropy via Gradient-Preserving Clipping Policy
Optimization in Reinforcement Learning
作者: Zhenpeng Su, Leiyu Pan, Minxuan Lv, Yuntao Li, Wenping Hu, Fuzheng Zhang, Kun Gai, Guorui Zhou
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-25 | 👍 点赞数: 17
摘要:
论文标题:CE-GPPO:通过梯度保持裁剪策略优化实现强化学习中的熵控制
中文摘要:
强化学习(Reinforcement Learning, RL)已成为优化大语言模型(Large Language Models, LLMs)以处理复杂推理任务的一种强大范式。该过程中的一个核心挑战在于对策略熵的管理,因为策略熵反映了训练过程中探索与利用之间的平衡。现有方法(如近端策略优化PPO及其变体)由于采用裁剪机制,会丢弃来自低概率词元(token)的宝贵梯度信号。我们系统地分析了熵的动态演化过程,揭示出这些被裁剪的词元在调节熵演变过程中扮演着关键但被忽视的角色。为此,我们提出了“通过梯度保持的策略优化实现熵控制”(Controlling Entropy via Gradient-Preserving Policy Optimization, CE-GPPO),这是一种新颖的算法,能够以温和且有界的方式将原始PPO中被裁剪词元的梯度信息重新引入优化过程。通过控制裁剪区间之外词元的梯度幅度,CE-GPPO 能够有效实现探索与利用之间的权衡。我们提供了理论分析和实验证据,表明 CE-GPPO 能有效缓解熵的不稳定性。在多个数学推理基准上的大量实验结果表明,CE-GPPO 在不同规模的模型上均持续优于强基线方法。