每日论文 - 2025年08月17日
论文总数: 13
1. We-Math 2.0: A Versatile MathBook System for Incentivizing Visual
Mathematical Reasoning
作者: Runqi Qiao, Qiuna Tan, Peiqing Yang, Yanzi Wang, Xiaowan Wang, Enhui Wan, Sitong Zhou, Guanting Dong, Yuchen Zeng, Yida Xu, Jie Wang, Chong Sun, Chen Li, Honggang Zhang
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-14 | 👍 点赞数: 141
摘要:
We-Math 2.0: 一种激励视觉数学推理的多功能MathBook系统
多模态大语言模型(Multimodal Large Language Models, MLLMs)在多种任务中展现出卓越的能力,但在复杂的数学推理方面仍存在困难。现有研究主要关注数据集构建与方法优化,往往忽略了两个关键方面:全面的知识驱动设计和以模型为中心的数据空间建模。本文中,我们提出We-Math 2.0,一个统一的系统,集成了结构化数学知识体系、以模型为中心的数据空间建模以及基于强化学习(Reinforcement Learning, RL)的训练范式,以全面提升MLLMs的数学推理能力。We-Math 2.0的核心贡献包括四个方面:(1)MathBook知识体系:我们构建了一个包含491个知识点和1,819个基本原理的五层分级体系;(2)MathBook-Standard与MathBook-Pro:我们开发了通过双重扩展确保广泛概念覆盖度与灵活性的MathBook-Standard数据集,并定义了一个三维难度空间,通过为每个问题生成7个渐进变体,构建了用于强化训练的挑战性数据集MathBook-Pro;(3)MathBook-RL:我们提出一个两阶段强化学习框架,包括:(i) 冷启动微调(Cold-Start Fine-tuning),使模型与知识导向的思维链推理对齐;(ii) 渐进对齐强化学习(Progressive Alignment RL),利用平均回报学习和动态数据调度实现跨难度层级的渐进对齐;(4)MathBookEval:我们引入一个涵盖全部491个知识点并具有多样化推理步骤分布的综合基准测试。实验结果表明,MathBook-RL在四个广泛使用的基准测试中表现优异,并在MathBookEval上取得显著成果,显示出在数学推理方面的良好泛化能力。
2. NextStep-1: Toward Autoregressive Image Generation with Continuous
Tokens at Scale
作者: NextStep Team, Chunrui Han, Guopeng Li, Jingwei Wu, Quan Sun, Yan Cai, Yuang Peng, Zheng Ge, Deyu Zhou, Haomiao Tang, Hongyu Zhou, Kenkun Liu, Ailin Huang, Bin Wang, Changxin Miao, Deshan Sun, En Yu, Fukun Yin, Gang Yu, Hao Nie, Haoran Lv, Hanpeng Hu, Jia Wang, Jian Zhou, Jianjian Sun, Kaijun Tan, Kang An, Kangheng Lin, Liang Zhao, Mei Chen, Peng Xing, Rui Wang, Shiyu Liu, Shutao Xia, Tianhao You, Wei Ji, Xianfang Zeng, Xin Han, Xuelin Zhang, Yana Wei, Yanming Xu, Yimin Jiang, Yingming Wang, Yu Zhou, Yucheng Han, Ziyang Meng, Binxing Jiao, Daxin Jiang, Xiangyu Zhang, Yibo Zhu
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-14 | 👍 点赞数: 133
摘要:
现有用于文本到图像生成的自回归(AR)模型要么依赖于计算密集的扩散模型来处理连续图像标记,要么使用矢量量化(VQ)以获得带有量化损失的离散标记。本文中,我们提出了NextStep-1,推动了自回归范式的发展。NextStep-1是一个包含140亿参数的自回归模型,配有一个1.57亿参数的流匹配头,训练时采用离散文本标记和连续图像标记,并以预测下一个标记为目标。NextStep-1在文本到图像生成任务中实现了自回归模型中的最先进性能,展现出强大的高保真图像合成能力。此外,我们的方法在图像编辑任务中也表现出色,突显了我们统一方法的强大功能和多功能性。为促进开放性研究,我们将向社区发布代码和模型。
3. PRELUDE: A Benchmark Designed to Require Global Comprehension and
Reasoning over Long Contexts
作者: Mo Yu, Tsz Ting Chung, Chulun Zhou, Tong Li, Rui Lu, Jiangnan Li, Liyan Xu, Haoshu Lu, Ning Zhang, Jing Li, Jie Zhou
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-13 | 👍 点赞数: 65
摘要:
我们推出了PRELUDE,这是一个通过判断角色前传故事是否与原著的正典叙事一致来评估长上下文理解能力的基准。与现有基准相比,我们的任务对全局理解与深度推理提出了更高的要求——由于前传并非原著故事的一部分,评估其合理性通常需要查找并整合仅间接相关的信息。实证结果显示,88%的实例需要来自叙事多个部分的证据。实验结果突显了该任务的挑战性:基于上下文学习、RAG方法、使用最先进的LLM进行领域内训练以及商业DeepResearch服务的表现均落后于人类超过15%。进一步的人类 研究表明,模型常常通过错误的推理得出正确的答案,导致推理准确率与人类相比存在超过30%的差距。这些发现强调了在长上下文理解与推理方面仍存在巨大的提升空间。
4. ToonComposer: Streamlining Cartoon Production with Generative
Post-Keyframing
作者: Lingen Li, Guangzhi Wang, Zhaoyang Zhang, Yaowei Li, Xiaoyu Li, Qi Dou, Jinwei Gu, Tianfan Xue, Ying Shan
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-14 | 👍 点赞数: 49
摘要:
传统卡通和动画制作包括关键帧绘制、中间帧生成和上色等阶段,需要大量手工操作。尽管人工智能技术取得了最新进展,现有方法通常将这些阶段分开处理,导致误差累积和伪影产生。例如,中间帧生成方法在处理大范围运动时存在困难,而上色方法则需要密集的逐帧草图。为解决这些问题,我们提出了ToonComposer,一种生成模型,将中间帧生成和上色统一到一个后关键帧阶段。ToonComposer采用稀疏草图注入机制,利用关键帧草图实现精确控制。此外,它还使用了一种卡通适配方法,并结合空间低秩适配器(spatial low-rank adapter),在保留现代视频基础模型时间先验的同时,将其适配到卡 通领域。ToonComposer仅需少量输入,如单张草图和一张上色参考帧即可生成高质量结果,同时也支持在任意时间位置输入多张草图,以实现更精确的运动控制。这种双重能力减少了手工工作量并提高了灵活性,从而在实际场景中增强了艺术家的创作能力。为了评估我们的模型,我们还创建了PKBench,一个包含手绘草图的基准数据集,用于模拟真实应用场景。评估结果表明,ToonComposer在视觉质量、运动一致性和制作效率方面均优于现有方法,为人工智能辅助的卡通制作提供了一个更优且更具灵活性的解决方案。
5. UI-Venus Technical Report: Building High-performance UI Agents with RFT
作者: Zhangxuan Gu, Zhengwen Zeng, Zhenyu Xu, Xingran Zhou, Shuheng Shen, Yunfei Liu, Beitong Zhou, Changhua Meng, Tianyu Xia, Weizhi Chen, Yue Wen, Jingya Dou, Fei Tang, Jinzhen Lin, Yulin Liu, Zhenlin Guo, Yichen Gong, Heng Jia, Changlong Gao, Yuan Guo, Yong Deng, Zhenyu Guo, Liang Chen, Weiqiang Wang
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-14 | 👍 点赞数: 38
摘要:
我们提出UI-Venus,这是一种原生的UI智能体,仅以屏幕截图作为输入,基于多模态大语 言模型构建。UI-Venus通过基于Qwen2.5-VL的强化微调(RFT),仅使用数十万高质量训练样本,在UI理解(grounding)和导航任务上均达到了SOTA性能。具体而言,UI-Venus的7B和72B版本在标准理解基准测试Screenspot-V2 / Pro上分别取得94.1% / 50.8%和95.3% / 61.9%的成绩,超越了包括开源的GTA1和闭源的UI-TARS-1.5在内的先前SOTA基线模型。为了展示UI-Venus的总结和规划能力,我们还在AndroidWorld这一在线UI导航测试平台上对其进行了评估,其中7B和72B版本分别实现了49.1%和65.9%的成功率,同样优于现有模型。为实现上述性能,我们为UI理解和导航任务分别设计了精心构造的奖励函数以及相应的高效数据清洗策略。为进一步提升导航性能,我们提出了Self-Evolving Trajectory History Alignment(自演进轨迹历史对齐)和Sparse Action Enhancement(稀疏动作增强),以优化历史推理轨迹并平衡稀疏但关键动作的分布,从而在复杂UI任务中实现更连贯的规划和更好的泛化能力。我们的贡献包括发布SOTA的开源UI智能体、全面的数据清洗协议以及一种新颖的自演进框架,旨在推动社区在该领域的进一步研究与开发。代码地址:https://github.com/antgroup/UI-Venus。
6. A Survey on Diffusion Language Models
作者: Tianyi Li, Mingda Chen, Bowei Guo, Zhiqiang Shen
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-14 | 👍 点赞数: 31
摘要:
扩散语言模型(Diffusion Language Models, DLMs)正迅速成为主导的自回归(autoregressive, AR)范式的一种强大且有前景的替代方案。通过在迭代去噪过程中并行生成标记(token),DLMs 在降低推理延迟和捕捉双向上下文方面具有固有优势,从而实现对生成过程的细粒度控制。在实现数倍加速的同时,最近的进展使得 DLMs 能够展现出与自回归模型相当的性能,使其成为各种自然语言处理任务中具有吸引力的选项。本综述全面概述了当前 DLM 的研究现状。我们追溯了其与自回归模型和掩码语言模型等其他范式之间的演化关系,并涵盖了基础理论和最先进模型两方面的内容。本文提出了最新的、全面的分类体系,并对当前技术进行了深入分析,从预训练策略到高级后训练方法均有涉及。此外,本综述的另一贡献是对 DLM 推理策略和优化方法的详尽回顾,包括解码并行性、缓存机制以及生成质量的改进。我们也综述了 DLM 在多模态扩展方面的最新方法,并阐明了其在多种实际应用场景中的用途。此外,我们还讨论了 DLMs 在效率、长序列处理和基础设施需求方面存在的局限性和挑战,并展望了未来研究方向,以推动这一快速发展的领域持续进步。项目 GitHub 地址为 https://github.com/VILA-Lab/Awesome-DLMs。
7. Puppeteer: Rig and Animate Your 3D Models
作者: Chaoyue Song, Xiu Li, Fan Yang, Zhongcong Xu, Jiacheng Wei, Fayao Liu, Jiashi Feng, Guosheng Lin, Jianfeng Zhang
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-14 | 👍 点赞数: 30
摘要:
Puppeteer:为您的3D模型建立骨骼并进行动画处理
现代交互式应用日益需要动态的3D内容,然而将静态3D模型转化为可动画化的资源在内容创作流程中仍是一个显著的瓶颈。尽管生成式AI的最新进展彻底改变了静态3D模型的创建,但骨骼绑定(rigging)和动画制作仍然在很大程度上依赖专家的介入。我们提出了Puppeteer,一个全面的框架,旨在应对各种3D对象的自动骨骼绑定和动画处理问题。我们的系统首先通过一种自回归Transformer模型预测合理的骨骼结构,该模型引入了一种基于关节的标记化策略以实现紧凑表示,并采用一种带有随机扰动的分层排序方法增强双向学习能力。随后,系统通过一种基于注意力机制的架构推断蒙皮权重(skinning weights),该架构融合了拓扑感知的关节注意力机制,能够根据骨骼图距离显式编码关节间的相互关系。最后,我们在骨骼绑定的基础上,补充了一种基于可微优化的动画生成流程,该流程在生成稳定、高保真动画的同时,计算效率也优于现有方法。在多个基准测试中的广泛评估表明,我们的方法在骨骼预测精度和蒙皮质量方面均显著优于当前最先进的技术。该系统能够稳健地处理各种3D内容,从专业设计的游 戏资源到AI生成的形状,均能生成时间上连贯的动画,有效消除现有方法中常见的抖动问题。
8. STream3R: Scalable Sequential 3D Reconstruction with Causal Transformer
作者: Yushi Lan, Yihang Luo, Fangzhou Hong, Shangchen Zhou, Honghua Chen, Zhaoyang Lyu, Shuai Yang, Bo Dai, Chen Change Loy, Xingang Pan
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-14 | 👍 点赞数: 30
摘要:
我们提出STream3R,一种将点云图预测重新定义为仅解码器Transformer问题的新型三维重建方法。当前最先进的多视角重建方法要么依赖于计算成本高昂的全局优化,要么采用简单的内存机制,在序列长度增加时扩展性较差。相比之下,受现代语言建模进展的启发,STream3R引入了一种流式框架,利用因果注意力机制高效处理图像序列。通过从大规模三维数据集中学习几何先验知识,STream3R能够很好地推广到各种具有挑战性的场景,包括传统方法经常失效的动态场景。大量实验表明,我们的方法在静态和动态场景基准测试中均持续优于先前的工作。此外,STream3R本质上兼容类似大语言模型(LLM)的训练基础设施,能够高效地进行大规模预训练和针对各种下游三维任务的微调。我们的研究结果强调了因果Transformer模型在在线三维感知中的潜力,为流式环境中实现实时三维理解铺平了道路。更多细节请访问我们的项目页面:https://nirvanalan.github.io/projects/stream3r。
9. Pass@k Training for Adaptively Balancing Exploration and Exploitation of
Large Reasoning Models
作者: Zhipeng Chen, Xiaobo Qin, Youbin Wu, Yue Ling, Qinghao Ye, Wayne Xin Zhao, Guang Shi
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-14 | 👍 点赞数: 24
摘要:
Pass@k训练用于自适应平衡大规模推理模型的探索与利用
摘要:采用可验证奖励(RLVR)的强化学习方法通常以Pass@1作为奖励函数,在平衡探索与利用方面面临挑战,导致策略倾向于保守行为并收敛于局部最优。因此,选择合适的奖励度量至关重要。在先前的研究中,尽管Pass@k已被广泛用于模型评估,但其与RLVR中大语言模型探索能力之间的关联仍未受到足够关注。为探讨这一问题,我们首先将Pass@k作为奖励函数用于策略模型的训练(即Pass@k训练),并观察到模型探索能力的提升。接着,我们推导了Pass@k训练优势函数的解析解,实现了高效且有效的训练过程。在此基础上,我们的分析揭示了探索与利用并非本质上相互冲突的目标,二者实际上可以相互促进。此外,通过解析推导的Pass@k训练本质上涉及优势函数的直接设计。受此启发,我们初步探索了RLVR中的优势函数设计,取得了有前景的结果,凸显了这一方向在未来研究中的潜力。
10. HumanSense: From Multimodal Perception to Empathetic Context-Aware
Responses through Reasoning MLLMs
作者: Zheng Qin, Ruobing Zheng, Yabing Wang, Tianqi Li, Yi Yuan, Jingdong Chen, Le Wang
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-14 | 👍 点赞数: 11
摘要:
HumanSense:通过推理多模态大语言模型实现从多模态感知到共情且情境感知的响应
尽管多模态大语言模型(Multimodal Large Language Models, MLLMs)在实现真正类人交互方面展现出巨大潜力,但进展却因缺乏针对以人为本场景的细粒度评估框架而受到阻碍,这些场景既包括对复杂人类意图的理解,也包括提供富有共情且具有情境感知的响应。在此,我们提出了HumanSense,这是一个全面的基准,旨在评估MLLMs在以人为本的感知与交互能力,特别关注对扩展多模态情境的深入理解以及理性反馈的生成。我们的评估结果显示,当前领先的MLLMs在面向交互的高级任务上仍有显著提升空间。将音频与文本信息补充到视觉输入中可显著提升性能,全模态(Omni-modal)模型在这些任务中展现出优势。此外,我们认为适当的反馈源于对对话者需求与情绪的情境化分析,而推理能力是实现这一点的关键。为此,我们采用多阶段、模态渐进式的强化学习方法来增强全模态模型的推理能力,在评估结果上取得了显著提升。此外,我们观察到成功的推理过程表现出高度一致的思维模式。通过设计相应的提示(prompt),我们还以无需训练的方式提升了非推理模型的表现。项目页面:brightpinkhttps://digital-avatar.github.io/ai/HumanSense/
11. Processing and acquisition traces in visual encoders: What does CLIP
know about your camera?
作者: Ryan Ramos, Vladan Stojnić, Giorgos Kordopatis-Zilos, Yuta Nakashima, Giorgos Tolias, Noa Garcia
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-14 | 👍 点赞数: 7
摘要:
已有研究分析了视觉编码器对图像变换和损坏的鲁棒性,特别是在训练过程中未见过此类修改的情况下。此时,这些修改在测试阶段引入了一种分布偏移,通常会导致性能下降。研究的主要关注点是那些在强加作用下会严重扭曲对准确语义预测所需有用信号的严重损坏。
我们则从一个不同的视角出发,分析图像获取过程中的参数以及可能对人眼而言细微甚至不可察觉的变换。我们发现,这些参数会被系统地编码进所学习的视觉表示中,并且可以轻易地被恢复出来。更值得注意的是,它们的存在会对语义预测产生显著影响,这种影响可能是正面的,也可能是负面的。该效应取决于语义标签与这些基于获取或基于处理的标签之间是否存在强相关性或负相关性。我们的代码和数据可在以下网址获取:https://github.com/ryan-caesar-ramos/visual-encoder-traces
12. From Black Box to Transparency: Enhancing Automated Interpreting
Assessment with Explainable AI in College Classrooms
作者: Zhaokun Jiang, Ziyin Zhang
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-14 | 👍 点赞数: 3
摘要:
摘要:
近年来,机器学习的发展激发了人们对自动口译质量评估的兴趣。然而,现有研究在语言使用质量的考察上仍显不足,由于数据稀缺和不平衡导致建模效果不理想,且缺乏对模型预测的解释性探索。为弥补这些不足,我们提出了一种融合特征工程、数据增强和可解释机器学习的多维度建模框架。该方法通过仅使用与测评构念相关的透明特征,并结合Shapley值(SHAP)分析,优先实现模型的可解释性,而非“黑箱”预测。实验结果表明,在一个全新的英汉交替传译数据集上,该方法表现出优异的预测性能,识别出BLEURT和CometKiwi得分是衡量忠实度的最重要特征,与停顿时长相关的特征对流利度具有显著影响,而汉语特有短语多样性指标则对语言使用质量具有较强解释力。总体而言,通过强调可解释性,我们提供了一种可扩展、可靠且透明的传统人工评估替代方案,能够为学习者提供详细的诊断性反馈,并支持仅靠自动化评分无法实现的自主学习优势。
13. When Explainability Meets Privacy: An Investigation at the Intersection
of Post-hoc Explainability and Differential Privacy in the Context of Natural Language Processing
作者: Mahdi Dhaini, Stephen Meisenbacher, Ege Erdogan, Florian Matthes, Gjergji Kasneci
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-14
摘要:
在可信自然语言处理(Natural Language Processing, NLP)的研究中,涌现出多个重要的研究领域,其中包括可解释性与隐私保护。尽管近年来对可解释性与隐私保护NLP的研究兴趣显著增加,但两者交汇处的研究仍存在较大空白。这导致我们尚不清楚同时实现可解释性与隐私保护是否可能,或者两者是否相互矛盾。本文以差分隐私(Differential Privacy, DP)和事后可解释性(Post-hoc Explainability)这两种主流方法为指导,对自然语言处理背景下隐私与可解释性之间的权衡进行了实证研究。我们的研究揭示了隐私与可解释性之间复杂的相互关系,这种关系受到下游任务的性质、文本隐私保护方法以及可解释性方法选择等多种因素的影响。在此基础上,我们强调了隐私与可解释性共存的潜力,并总结研究结果,提出一系列针对这一重要交叉领域的未来工作建议。