跳到主要内容

每日论文 - 2025年08月16日

论文总数: 13

1. We-Math 2.0: A Versatile MathBook System for Incentivizing Visual

Mathematical Reasoning

作者: Runqi Qiao, Qiuna Tan, Peiqing Yang, Yanzi Wang, Xiaowan Wang, Enhui Wan, Sitong Zhou, Guanting Dong, Yuchen Zeng, Yida Xu, Jie Wang, Chong Sun, Chen Li, Honggang Zhang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-14 | 👍 点赞数: 141

摘要:

We-Math 2.0:一种激励视觉数学推理的通用MathBook系统

多模态大语言模型(Multimodal Large Language Models, MLLMs)在多种任务中展现出令人印象深刻的能力,但在复杂的数学推理方面仍存在困难。现有研究主要关注数据集构建和方法优化,常常忽略了两个关键方面:全面的知识驱动设计和以模型为中心的数据空间建模。本文中,我们提出了We-Math 2.0,一个统一的系统,整合了结构化的数学知识系统、以模型为中心的数据空间建模以及基于强化学习(Reinforcement Learning, RL)的训练范式,以全面提升MLLMs的数学推理能力。We-Math 2.0的主要贡献包括以下四个方面:(1)MathBook知识系统:我们构建了一个包含491个知识点和1,819个基本原理的五层层次化系统。(2)MathBook-Standard与MathBook-Pro:我们开发了MathBook-Standard数据集,通过双重扩展确保广泛的概念覆盖和灵活性。此外,我们定义了一个三维难度空间,并为每个问题生成7个渐进变体,构建了用于强化训练的挑战性数据集MathBook-Pro。(3)MathBook-RL:我们提出了一种两阶段强化学习框架,包括:(i) 冷启动微调(Cold-Start Fine-tuning),使模型与知识导向的思维链推理对齐;(ii) 渐进对齐强化学习(Progressive Alignment RL),利用平均回报学习和动态数据调度实现跨难度层级的渐进对齐。(4)MathBookEval:我们引入了一个覆盖全部491个知识点并具有多样化推理步骤分布的综合基准测试集。实验结果表明,MathBook-RL在四个广泛使用的基准测试中表现与现有基线方法相当,并在MathBookEval上取得了优异成绩,显示出在数学推理任务中良好的泛化能力。


2. NextStep-1: Toward Autoregressive Image Generation with Continuous

Tokens at Scale

作者: NextStep Team, Chunrui Han, Guopeng Li, Jingwei Wu, Quan Sun, Yan Cai, Yuang Peng, Zheng Ge, Deyu Zhou, Haomiao Tang, Hongyu Zhou, Kenkun Liu, Ailin Huang, Bin Wang, Changxin Miao, Deshan Sun, En Yu, Fukun Yin, Gang Yu, Hao Nie, Haoran Lv, Hanpeng Hu, Jia Wang, Jian Zhou, Jianjian Sun, Kaijun Tan, Kang An, Kangheng Lin, Liang Zhao, Mei Chen, Peng Xing, Rui Wang, Shiyu Liu, Shutao Xia, Tianhao You, Wei Ji, Xianfang Zeng, Xin Han, Xuelin Zhang, Yana Wei, Yanming Xu, Yimin Jiang, Yingming Wang, Yu Zhou, Yucheng Han, Ziyang Meng, Binxing Jiao, Daxin Jiang, Xiangyu Zhang, Yibo Zhu

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-14 | 👍 点赞数: 133

摘要:

现有用于文本到图像生成的自回归(AR)模型要么依赖于计算密集型的扩散模型来处理连续图像标记,要么采用向量量化(VQ)以获得带有量化损失的离散标记。本文中,我们提出了NextStep-1,推动了自回归范式的发展。NextStep-1是一个包含140亿参数的自回归模型,配有一个1.57亿参数的流匹配头,通过离散文本标记和连续图像标记进行训练,以预测下一个标记为目标。NextStep-1在文本到图像生成任务中达到了自回归模型的最先进水平,展现出强大的高保真图像生成能力。此外,我们的方法在图像编辑任务中也表现出色,突显了我们统一方法的强大功能和广泛适用性。为了促进开放研究,我们将向社区发布代码和模型。


3. PRELUDE: A Benchmark Designed to Require Global Comprehension and

Reasoning over Long Contexts

作者: Mo Yu, Tsz Ting Chung, Chulun Zhou, Tong Li, Rui Lu, Jiangnan Li, Liyan Xu, Haoshu Lu, Ning Zhang, Jing Li, Jie Zhou

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-13 | 👍 点赞数: 65

摘要:

我们推出了PRELUDE,这是一个通过判断角色前传故事是否与原著正典叙事一致的任务来评估长上下文理解能力的基准。我们的任务相较于现有基准对全局理解与深度推理提出了更高的要求——由于前传并非原著故事的一部分,评估其合理性通常需要查找并整合仅间接相关的信息。实证结果显示,88%的实例需要来自叙事多个部分的证据。实验结果突显了该任务的挑战性:基于上下文学习、RAG方法、使用最先进的LLM进行的领域内训练以及商业DeepResearch服务的表现均落后于人类超过15%。进一步的人类研究表明,模型常常通过错误的推理得出正确的答案,导致推理准确率相较于人类存在超过30%的差距。这些发现强调了在长上下文理解与推理方面仍存在显著的提升空间。


4. ToonComposer: Streamlining Cartoon Production with Generative

Post-Keyframing

作者: Lingen Li, Guangzhi Wang, Zhaoyang Zhang, Yaowei Li, Xiaoyu Li, Qi Dou, Jinwei Gu, Tianfan Xue, Ying Shan

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-14 | 👍 点赞数: 49

摘要:

传统卡通和动画制作包括关键帧绘制、中间帧生成和上色等阶段,需要大量人工操作。尽管人工智能技术已有进展,但现有方法通常将这些阶段分开处理,导致误差累积和伪影产生。例如,中间帧生成方法在处理大动作时存在困难,而上色方法则需要密集的逐帧草图。为解决这些问题,我们提出了ToonComposer,一种将中间帧生成与上色统一在“后关键帧”阶段的生成模型。ToonComposer采用稀疏草图注入机制,通过关键帧草图实现精确控制。此外,它还使用结合空间低秩适配器(spatial low-rank adapter)的卡通适应方法,将现代视频基础模型适配到卡通领域,同时保留其时间先验信息。ToonComposer仅需少量输入,如单张草图和一张上色参考帧,即可实现高质量输出,并且支持在任意时间位置添加多个草图以实现更精确的动作控制。这种双重能力减少了人工工作量并提升了灵活性,从而在实际创作中为艺术家提供更强的支持。为了评估我们的模型,我们还构建了PKBench基准测试,包含模拟真实使用场景的人绘草图。评估结果显示,ToonComposer在视觉质量、动作一致性和制作效率方面均优于现有方法,提供了更优质且更具灵活性的AI辅助卡通制作解决方案。


5. UI-Venus Technical Report: Building High-performance UI Agents with RFT

作者: Zhangxuan Gu, Zhengwen Zeng, Zhenyu Xu, Xingran Zhou, Shuheng Shen, Yunfei Liu, Beitong Zhou, Changhua Meng, Tianyu Xia, Weizhi Chen, Yue Wen, Jingya Dou, Fei Tang, Jinzhen Lin, Yulin Liu, Zhenlin Guo, Yichen Gong, Heng Jia, Changlong Gao, Yuan Guo, Yong Deng, Zhenyu Guo, Liang Chen, Weiqiang Wang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-14 | 👍 点赞数: 38

摘要:

我们提出UI-Venus,这是一种原生的UI代理,仅以屏幕截图作为输入,基于多模态大语言模型构建。UI-Venus通过基于Qwen2.5-VL的强化微调(RFT),仅使用数十万高质量的训练样本,在UI理解(grounding)和导航任务上均达到了SOTA性能。具体而言,UI-Venus的7B和72B版本在标准理解基准(即Screenspot-V2 / Pro)上分别取得了94.1% / 50.8%和95.3% / 61.9%的表现,超越了包括开源的GTA1和闭源的UI-TARS-1.5在内的先前SOTA基线。为了展示UI-Venus的总结和规划能力,我们还在AndroidWorld这一在线UI导航测试平台对其进行评估,其中我们的7B和72B版本分别实现了49.1%和65.9%的成功率,同样优于现有模型。为实现上述性能,我们为UI理解和导航任务分别精心设计了奖励函数,并提出了相应的高效数据清洗策略。为进一步提升导航性能,我们提出了“自演进轨迹历史对齐与稀疏动作增强”(Self-Evolving Trajectory History Alignment & Sparse Action Enhancement)方法,优化历史推理轨迹,并平衡稀疏但关键动作的分布,从而实现更连贯的规划和更强的复杂UI任务泛化能力。我们的贡献包括发布SOTA的开源UI代理、全面的数据清洗协议以及一种新颖的自演进框架,以提升导航性能,从而推动社区的进一步研究与开发。代码地址为 https://github.com/antgroup/UI-Venus。


6. A Survey on Diffusion Language Models

作者: Tianyi Li, Mingda Chen, Bowei Guo, Zhiqiang Shen

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-14 | 👍 点赞数: 31

摘要:

扩散语言模型(Diffusion Language Models, DLMs)正迅速成为主导的自回归(autoregressive, AR)范式的一种强大且有前景的替代方案。通过在迭代去噪过程中并行生成标记(token),DLMs 在降低推理延迟和捕捉双向上下文方面具有固有优势,从而实现对生成过程的细粒度控制。在实现数倍加速的同时,最近的进展使得 DLMs 能够展现出与自回归模型相当的性能,使其成为各种自然语言处理任务中具有吸引力的选择。本综述对当前 DLM 领域进行了全面概述。我们追溯了其与其他范式(如自回归模型和掩码语言模型)之间的演化关系,并涵盖了基础理论与最先进模型的发展。本文提供了最新的系统分类和对现有技术的深入分析,内容从预训练策略到高级后训练方法均有涉及。此外,本综述的另一贡献在于对 DLM 推理策略与优化方法的详尽回顾,包括解码并行性、缓存机制以及生成质量的提升方法。我们还介绍了 DLM 在多模态扩展方面的最新进展,并阐述了其在多种实际应用场景中的用途。此外,本文还讨论了 DLMs 所面临的局限性与挑战,包括效率、长序列处理以及基础设施需求等方面,并指出了未来研究的方向,以推动这一快速发展的领域持续进步。项目 GitHub 地址为 https://github.com/VILA-Lab/Awesome-DLMs。


7. Puppeteer: Rig and Animate Your 3D Models

作者: Chaoyue Song, Xiu Li, Fan Yang, Zhongcong Xu, Jiacheng Wei, Fayao Liu, Jiashi Feng, Guosheng Lin, Jianfeng Zhang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-14 | 👍 点赞数: 30

摘要:

Puppeteer:为你的3D模型建立骨骼并实现动画效果

现代交互式应用日益需要动态的3D内容,然而将静态3D模型转化为可动画化的资源在内容创作流程中构成了显著的瓶颈。尽管生成式AI的最新进展彻底改变了静态3D模型的创建方式,但骨骼绑定(rigging)和动画生成仍然高度依赖专家的手动干预。我们提出了Puppeteer,一个全面的框架,旨在解决多种3D对象的自动骨骼绑定和动画生成问题。我们的系统首先通过一种自回归Transformer模型预测合理的骨骼结构,该模型引入了一种基于关节的标记化策略以实现紧凑表示,并采用一种结合随机扰动的层次化排序方法增强双向学习能力。随后,系统通过一种基于注意力机制的架构推断蒙皮权重(skinning weights),该架构集成了拓扑感知的关节注意力模块,能够根据骨骼图距离显式编码关节间的相互关系。最后,我们在骨骼绑定的基础上,补充了一个基于可微分优化的动画生成流程,在生成稳定、高保真动画的同时,计算效率也优于现有方法。在多个基准数据集上的广泛评估表明,我们的方法在骨骼预测精度和蒙皮质量方面均显著优于当前最先进的技术。该系统能够稳健地处理各种类型的3D内容,从专业设计的游戏资源到AI生成的形状,均可生成时间上连贯的动画,有效消除了现有方法中常见的抖动问题。


8. STream3R: Scalable Sequential 3D Reconstruction with Causal Transformer

作者: Yushi Lan, Yihang Luo, Fangzhou Hong, Shangchen Zhou, Honghua Chen, Zhaoyang Lyu, Shuai Yang, Bo Dai, Chen Change Loy, Xingang Pan

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-14 | 👍 点赞数: 30

摘要:

我们提出STream3R,一种将点云图预测重新表述为仅解码器Transformer问题的新型3D重建方法。现有的多视角重建最先进方法要么依赖于计算成本高昂的全局优化,要么采用简单的内存机制,在序列长度增加时扩展性较差。相比之下,STream3R引入了一种流式框架,受现代语言建模进展的启发,通过因果注意力机制高效处理图像序列。通过从大规模3D数据集中学习几何先验知识,STream3R能够很好地泛化到各种复杂且具有挑战性的场景,包括传统方法常常失效的动态场景。大量实验表明,我们的方法在静态和动态场景基准测试中均持续优于先前方法。此外,STream3R天然兼容LLM风格的训练基础设施,支持高效的大规模预训练和针对各种下游3D任务的微调。我们的结果强调了因果Transformer模型在在线3D感知中的潜力,为流式环境中实现实时3D理解铺平了道路。更多细节请参见我们的项目页面:https://nirvanalan.github.io/projects/stream3r。


9. Pass@k Training for Adaptively Balancing Exploration and Exploitation of

Large Reasoning Models

作者: Zhipeng Chen, Xiaobo Qin, Youbin Wu, Yue Ling, Qinghao Ye, Wayne Xin Zhao, Guang Shi

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-14 | 👍 点赞数: 24

摘要:

Pass@k训练用于自适应平衡大规模推理模型的探索与利用

摘要:采用可验证奖励(RLVR)的强化学习方法通常以Pass@1作为奖励函数,在平衡探索与利用方面面临挑战,导致策略倾向于保守行为并收敛到局部最优。因此,选择合适的奖励度量至关重要。在已有研究中,尽管Pass@k已被用于模型评估,但其与RLVR中大语言模型探索能力之间的关联仍缺乏关注。为探究这一问题,我们首先将Pass@k作为奖励函数用于策略模型训练(即Pass@k训练),并观察其在探索能力方面的提升。接着,我们推导了Pass@k训练优势函数的解析解,实现了高效且有效的训练过程。在此基础上,我们的分析揭示了探索与利用并非本质上相互冲突的目标,二者实际上可以相互促进。此外,通过解析推导的Pass@k训练本质上涉及优势函数的直接设计。受此启发,我们初步探索了RLVR中的优势函数设计,取得了有前景的结果,并指出了未来潜在的研究方向。


10. HumanSense: From Multimodal Perception to Empathetic Context-Aware

Responses through Reasoning MLLMs

作者: Zheng Qin, Ruobing Zheng, Yabing Wang, Tianqi Li, Yi Yuan, Jingdong Chen, Le Wang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-14 | 👍 点赞数: 11

摘要:

摘要:尽管多模态大语言模型(Multimodal Large Language Models, MLLMs)在实现真正类人交互方面展现出巨大潜力,但进展受到面向人类场景的细粒度评估框架缺乏的限制,尤其是在理解复杂人类意图和生成富有同理心、情境感知响应方面。在此,我们提出 HumanSense,这是一个全面的基准,旨在评估 MLLMs 在以人为本的感知与交互能力,特别关注对扩展多模态情境的深入理解以及理性反馈的生成。我们的评估结果显示,当前领先的 MLLMs 在面向高级交互任务方面仍有显著提升空间。在视觉输入的基础上补充音频和文本信息可显著提升性能,而全模态(Omni-modal)模型在这些任务中展现出优势。此外,我们认为恰当的反馈源于对对话者需求和情绪的情境化分析,而推理能力是实现这一目标的关键。为此,我们采用多阶段、模态渐进的强化学习方法来增强全模态模型的推理能力,在评估结果上取得了显著提升。此外,我们观察到成功的推理过程呈现出高度一致的思维模式。通过设计相应的提示(prompt),我们还以无需训练的方式提升了非推理模型的表现。项目页面:brightpinkhttps://digital-avatar.github.io/ai/HumanSense/


11. Processing and acquisition traces in visual encoders: What does CLIP

know about your camera?

作者: Ryan Ramos, Vladan Stojnić, Giorgos Kordopatis-Zilos, Yuta Nakashima, Giorgos Tolias, Noa Garcia

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-14 | 👍 点赞数: 7

摘要:

已有研究分析了视觉编码器对图像变换和损坏的鲁棒性,特别是在训练过程中未见过此类修改的情况下。此时,这些修改在测试阶段引入了一种分布偏移,通常会导致性能下降。研究的主要关注点集中在严重的损坏上,这些损坏在强烈应用时会扭曲准确语义预测所需的有用信号。

我们从一个不同的视角出发,分析图像获取过程中的参数以及可能细微甚至对人眼不可察觉的变换。我们发现,这些参数会被系统地编码在所学的视觉表征中,并且可以轻松恢复。更值得注意的是,它们的存在会对语义预测产生显著影响,这种影响可能是正面的,也可能是负面的。该效应取决于语义标签与这些基于获取或基于处理的标签之间是否存在强相关性或负相关性。我们的代码和数据可在以下网址获取:https://github.com/ryan-caesar-ramos/visual-encoder-traces


12. From Black Box to Transparency: Enhancing Automated Interpreting

Assessment with Explainable AI in College Classrooms

作者: Zhaokun Jiang, Ziyin Zhang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-14 | 👍 点赞数: 3

摘要:

近年来,机器学习的发展激发了人们对自动口译质量评估的浓厚兴趣。然而,现有研究在语言使用质量的考察上仍显不足,且由于数据稀缺和不平衡导致建模效果不理想,同时缺乏对模型预测结果的解释性探索。为弥补这些不足,我们提出了一种融合特征工程、数据增强和可解释机器学习的多维建模框架。该方法通过仅使用与测评构念相关的透明特征并进行Shapley值(SHAP)分析,优先考虑模型的可解释性,而非“黑箱”预测。实验结果表明,在一个全新的英汉交替传译数据集上,该方法表现出优异的预测性能,识别出BLEURT和CometKiwi得分是对准确性最重要的预测特征,与停顿时长相关的特征对流利度最为关键,而汉语特有的短语多样性指标则对语言使用质量具有显著预测力。总体而言,通过特别强调可解释性,我们提供了一种可扩展、可靠且透明的传统人工评估替代方案,能够为学习者提供详细的诊断性反馈,并支持仅靠自动化评分无法实现的自主学习优势。


13. When Explainability Meets Privacy: An Investigation at the Intersection

of Post-hoc Explainability and Differential Privacy in the Context of Natural Language Processing

作者: Mahdi Dhaini, Stephen Meisenbacher, Ege Erdogan, Florian Matthes, Gjergji Kasneci

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-14

摘要:

在可信自然语言处理(Natural Language Processing, NLP)的研究中,涌现出多个重要的研究领域,其中包括可解释性与隐私保护。尽管近年来对可解释性与隐私保护NLP的研究兴趣显著增加,但两者交汇处的研究仍存在明显空白。这导致我们对能否同时实现可解释性与隐私保护,或两者是否相互矛盾缺乏理解。本文以差分隐私(Differential Privacy, DP)和事后可解释性(Post-hoc Explainability)为主流方法,在NLP背景下对隐私与可解释性之间的权衡进行了实证研究。我们的研究揭示了隐私与可解释性之间复杂的相互关系,这种关系受到下游任务的性质、文本隐私保护方法以及可解释性方法选择等多种因素的影响。我们强调隐私与可解释性共存的可能性,并基于研究结果为未来在这一重要交叉领域的研究工作提供了若干实践建议。