跳到主要内容

每日论文 - 2025年08月29日

论文总数: 19

1. Pref-GRPO: Pairwise Preference Reward-based GRPO for Stable

Text-to-Image Reinforcement Learning

作者: Yibin Wang, Zhimin Li, Yuhang Zang, Yujie Zhou, Jiazi Bu, Chunyu Wang, Qinglin Lu, Cheng Jin, Jiaqi Wang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-28 | 👍 点赞数: 56

摘要:

Pref-GRPO: 基于成对偏好奖励的GRPO方法用于稳定的文本到图像强化学习

近期进展凸显了基于GRPO的强化学习方法及基准测试在提升文本到图像(T2I)生成方面的重要性。然而,当前使用逐点奖励模型(pointwise reward models, RM)对生成图像进行评分的方法容易受到奖励黑客(reward hacking)的影响。我们发现,当图像之间的评分差异在归一化后被放大时,会产生虚假的优势,导致模型过度优化微小收益,最终破坏图像生成过程的稳定性。为解决这一问题,我们提出了Pref-GRPO,一种基于成对偏好奖励的GRPO方法,将优化目标从最大化评分转换为拟合偏好,从而确保更稳定的训练过程。在Pref-GRPO中,通过在每组内使用偏好RM对图像进行两两比较,并以胜率作为奖励信号。大量实验表明,Pref-GRPO能够区分图像质量的细微差异,提供更稳定的增益并缓解奖励黑客问题。此外,现有的T2I基准测试受限于粗粒度的评估标准,难以全面评估模型性能。为此,我们引入了UniGenBench,一个统一的T2I基准测试,涵盖5个主要主题和20个子主题,共计600个提示词。该基准通过10项主要标准和27项子标准评估语义一致性,并利用多模态大语言模型(MLLM)进行构建与评估。我们的基准测试揭示了开源与闭源T2I模型的优劣势,并验证了Pref-GRPO的有效性。


2. rStar2-Agent: Agentic Reasoning Technical Report

作者: Ning Shang, Yifei Liu, Yi Zhu, Li Lyna Zhang, Weijiang Xu, Xinyu Guan, Buze Zhang, Bingcheng Dong, Xudong Zhou, Bowen Zhang, Ying Xin, Ziming Miao, Scarlett Li, Fan Yang, Mao Yang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-28 | 👍 点赞数: 41

摘要:

我们推出了rStar2-Agent,这是一款拥有140亿参数的数学推理模型,通过基于智能体的强化学习训练,实现了前沿水平的性能。除了当前的长链思维链(CoT)能力外,该模型还展示了高级认知行为,例如在使用Python编程工具前进行深思熟虑,并根据代码执行反馈进行反思,以自主探索、验证和优化复杂问题解决过程中的中间步骤。这一能力得益于三项关键创新,使得基于智能体的强化学习在大规模训练中变得高效:(i) 一种高效的强化学习基础设施,配备可靠的Python代码环境,支持高吞吐量执行并降低高 rollout 成本,从而可在有限的GPU资源(64块MI300X GPU)上进行训练;(ii) GRPO-RoC,一种基于智能体的强化学习算法,采用“正确重采样”(Resample-on-Correct)rollout策略,有效应对编程工具中固有的环境噪声,使模型能够在代码环境中更高效地推理;(iii) 一种高效的智能体训练方案,从非推理阶段的监督微调(SFT)开始,逐步过渡到多阶段强化学习,以极低的计算成本培养出高级认知能力。最终,rStar2-Agent仅在510个强化学习步骤内、一周时间内将一个预训练的140亿参数模型提升至当前最优水平,在AIME24和AIME25数据集上分别取得了平均80.6%和69.8%的pass@1得分,显著超越了DeepSeek-R1(6710亿参数),同时生成的响应更短。此外,rStar2-Agent-14B在对齐、科学推理以及智能体工具使用任务方面也展现出强大的泛化能力。代码和训练方案可在https://github.com/microsoft/rStar获取。


3. USO: Unified Style and Subject-Driven Generation via Disentangled and

Reward Learning

作者: Shaojin Wu, Mengqi Huang, Yufeng Cheng, Wenxu Wu, Jiahe Tian, Yiming Luo, Fei Ding, Qian He

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-26 | 👍 点赞数: 30

摘要:

现有研究通常将风格驱动生成和主体驱动生成视为两个相互独立的任务:前者强调风格相似性,而后者注重主体一致性,从而导致明显的对立关系。我们认为这两个目标可以在一个统一的框架下实现,因为它们本质上都涉及内容与风格的解耦与重组,这一直是风格驱动研究中的核心问题。为此,我们提出了USO(Unified Style-Subject Optimized),一种统一风格与主体优化的定制化生成模型。首先,我们构建了一个包含内容图像、风格图像及其对应风格化内容图像的大规模三元组数据集。其次,我们引入了一种解耦学习机制,通过两种互补的目标——风格对齐训练与内容-风格解耦训练,同时实现风格特征对齐并分离内容与风格。第三,我们引入一种风格奖励学习范式(SRL, Style Reward Learning),以进一步提升模型性能。最后,我们发布了USO-Bench,这是首个能够跨多个指标联合评估风格相似性与主体保真度的基准测试集。大量实验表明,USO在主体一致性和风格相似性两个维度上均取得了当前开源模型中的最先进性能。代码与模型地址:https://github.com/bytedance/USO


4. AWorld: Orchestrating the Training Recipe for Agentic AI

作者: Chengyue Yu, Siyuan Lu, Chenyi Zhuang, Dong Wang, Qintong Wu, Zongyue Li, Runsheng Gan, Chunfeng Wang, Siqi Hou, Gaochi Huang, Wenlong Yan, Lifeng Hong, Aohui Xue, Yanfeng Wang, Jinjie Gu, David Tsai, Tao Lin

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-28 | 👍 点赞数: 23

摘要:

摘要:实践学习范式对于开发强大的Agentic AI系统至关重要,但其发展严重受限于低效的经验生成过程,这一瓶颈在GAIA等复杂基准测试中尤为明显。为解决该问题,我们提出了AWorld,一个专为大规模智能体-环境交互设计的开源系统。通过在集群中分布任务,AWorld的经验收集效率相较于标准的单节点顺序执行提升了14.6倍。这一关键性的加速使得大规模强化学习变得可行且可扩展。基于此能力,我们训练了一个基于Qwen3-32B的智能体,其性能显著优于基础模型,将整体GAIA准确率从21.59%提升至32.23%。在该基准测试最具挑战性的层级上,我们的智能体得分达到16.33%,超越了主流闭源模型的表现。我们的开源系统及所取得的智能体为构建完整的Agentic AI训练流程提供了实用蓝图,实现了从高效交互到模型性能显著提升的端到端实践。


5. TCIA: A Task-Centric Instruction Augmentation Method for Instruction

Finetuning

作者: Simin Ma, Shujian Liu, Jun Tan, Yebowen Hu, Song Wang, Sathish Reddy Indurthi, Sanqiang Zhao, Liwei Wu, Jianbing Han, Kaiqiang Song

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-28 | 👍 点赞数: 15

摘要:

TCIA:一种面向任务的指令增强方法用于指令微调

多样化的指令数据对于大型语言模型的有效指令微调至关重要,因为它使模型能够在不同类型的输入之间进行泛化。构建这种多样化的指令数据集是这一过程中的关键步骤。现有方法通常利用大型语言模型自动生成多样化的指令,以确保数据的多样性与质量。然而,这些方法往往忽视了实际应用中的一个重要因素:任务相关性。在实际场景中,只有少数应用需要真正通用的模型;而大多数应用则更受益于针对特定使用场景定制的任务相关知识。因此,开发既能保持多样性又能针对特定实际场景优化的指令增强方法至关重要。

为此,我们提出任务中心指令增强(Task-Centric Instruction Augmentation, TCIA)框架,该框架在保持指令多样性的同时系统性地扩展指令,并确保其与目标任务的一致性。TCIA通过在离散的查询-约束空间中表示指令,生成丰富的任务相关指令集合,使模型能够在不牺牲整体性能的前提下泛化到这些任务特定的指令。实验结果表明,在四个实际任务导向的应用场景中,TCIA平均提升了开源大语言模型性能8.7%,在某些情况下甚至优于领先的闭源模型。这些改进并未影响模型对通用指令的遵循能力,使得TCIA成为一种可扩展且高效的方案,适用于将大语言模型适配到任务导向的实际应用场景中。


6. Mixture of Contexts for Long Video Generation

作者: Shengqu Cai, Ceyuan Yang, Lvmin Zhang, Yuwei Guo, Junfei Xiao, Ziyan Yang, Yinghao Xu, Zhenheng Yang, Alan Yuille, Leonidas Guibas, Maneesh Agrawala, Lu Jiang, Gordon Wetzstein

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-28 | 👍 点赞数: 12

摘要:

长视频生成本质上是一个长时程记忆问题:模型必须在长时间范围内保持并检索显著事件,而不会崩溃或漂移。然而,将扩散变换器(diffusion transformers)扩展到长时程视频生成受到自注意力机制二次计算成本的限制,这使得内存和计算在长序列上变得难以处理和优化。我们将长时程视频生成重新定义为一种内部信息检索任务,并提出一种简单且可学习的稀疏注意力路由模块——上下文混合(Mixture of Contexts, MoC),作为有效的长时记忆检索引擎。在MoC中,每个查询动态选择若干信息丰富的片段以及必要的锚点(描述文本、局部窗口)进行关注,通过因果路由机制防止循环闭合。随着我们扩展数据并逐渐稀疏化路由,模型将计算资源分配给显著的历史信息,在数分钟的内容中保持身份、动作和场景的一致性。效率作为检索机制的副产品得以实现(近线性扩展),从而支持实际的训练与合成,并在分钟级尺度上展现出记忆与一致性的能力。


7. MCP-Bench: Benchmarking Tool-Using LLM Agents with Complex Real-World

Tasks via MCP Servers

作者: Zhenting Wang, Qi Chang, Hemani Patel, Shashank Biju, Cheng-En Wu, Quan Liu, Aolin Ding, Alireza Rezazadeh, Ankit Shah, Yujia Bao, Eugene Siow

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-28 | 👍 点赞数: 7

摘要:

我们推出了MCP-Bench,这是一个用于评估大语言模型(LLMs)在真实、多步骤任务中表现的基准测试工具,这些任务需要使用工具、跨工具协调、精确的参数控制以及解决任务所需的规划/推理能力。MCP-Bench基于Model Context Protocol (MCP)构建,通过28个具有代表性的实时MCP服务器将LLMs与涵盖金融、旅行、科学计算和学术搜索等领域的250个工具相连接。与以往基于API的基准测试不同,每个MCP服务器提供一组设计为协同工作的互补工具,从而能够构建具有丰富输入输出耦合的真实多步骤任务。MCP-Bench中的任务测试代理从模糊指令中检索相关工具(不显式提供工具名称)、为复杂目标规划多跳执行路径、基于中间工具输出生成响应以及协调跨领域工作流的能力,而这些能力是现有依赖显式工具规范、浅层少步骤流程和孤立领域操作的基准测试无法充分评估的。我们提出了一个涵盖工具级模式理解与使用、路径级规划和任务完成的多维度评估框架。对20种先进LLMs的实验表明,MCP-Bench中仍存在持续性的挑战。代码和数据:https://github.com/Accenture/mcp-bench。


8. CogVLA: Cognition-Aligned Vision-Language-Action Model via

Instruction-Driven Routing & Sparsification

作者: Wei Li, Renshan Zhang, Rui Shao, Jie He, Liqiang Nie

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-28 | 👍 点赞数: 6

摘要:

CogVLA:通过指令驱动的路由与稀疏化实现认知对齐的视觉-语言-动作模型

基于预训练视觉-语言模型(VLMs)的最新视觉-语言-动作(VLA)模型需要大量的后训练,导致计算开销高,限制了其可扩展性和部署。我们提出了CogVLA,这是一种认知对齐的视觉-语言-动作框架,通过指令驱动的路由与稀疏化策略,提升了效率和性能。CogVLA借鉴了人类多模态协调机制,引入了一个三阶段渐进式架构。1)基于编码器-FiLM的聚合路由(EFA-Routing)将指令信息注入视觉编码器,以选择性地聚合和压缩双流视觉token,形成具有指令感知能力的潜在表征。2)在此紧凑的视觉编码基础上,基于LLM-FiLM的剪枝路由(LFP-Routing)通过剪除与指令无关的视觉相关token,将动作意图引入语言模型,从而实现token级别的稀疏性。3)为了确保压缩后的感知输入仍能支持准确且连贯的动作生成,我们引入了视觉-语言-动作耦合注意力机制(CAtten),该机制结合了因果视觉-语言注意力与双向动作并行解码。在LIBERO基准和真实机器人任务上的大量实验表明,CogVLA分别取得了97.4%和70.0%的成功率,达到当前最优性能,同时训练成本降低了2.5倍,推理延迟减少了2.8倍,相较于OpenVLA具有显著优势。CogVLA已开源,项目地址为https://github.com/JiuTian-VL/CogVLA。


9. OneReward: Unified Mask-Guided Image Generation via Multi-Task Human

Preference Learning

作者: Yuan Gong, Xionghui Wang, Jie Wu, Shiyin Wang, Yitong Wang, Xinglong Wu

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-28 | 👍 点赞数: 5

摘要:

本文中,我们提出OneReward,这是一种统一的强化学习框架,仅使用一个奖励模型即可在不同评估标准下的多个任务中增强模型的生成能力。通过采用单一的视觉-语言模型(vision-language model, VLM)作为生成奖励模型,该模型能够针对给定任务和评估标准区分优劣结果,从而有效地应用于多任务生成模型,尤其是在数据多样、任务目标各异的场景中。我们将OneReward应用于基于掩码引导的图像生成任务,该任务可进一步细分为图像填充、图像扩展、对象移除和文本渲染等子任务,均以二值掩码作为编辑区域。尽管这些特定领域的任务共享相同的条件生成范式,但它们在底层数据分布和评估指标上存在显著差异。现有方法通常依赖于任务特定的监督微调(supervised fine-tuning, SFT),限制了模型的泛化能力和训练效率。基于OneReward,我们开发了Seedream 3.0 Fill,这是一种通过多任务强化学习直接在预训练基础模型上训练的掩码引导生成模型,无需任务特定的SFT。实验结果表明,在多个评估维度上,我们的统一编辑模型始终优于包括Ideogram、Adobe Photoshop和FLUX Fill [Pro]在内的商业及开源竞品模型。代码和模型已公开,地址为:https://one-reward.github.io。


10. Turning the Spell Around: Lightweight Alignment Amplification via

Rank-One Safety Injection

作者: Harethah Abu Shairah, Hasan Abed Al Kader Hammoud, George Turkiyyah, Bernard Ghanem

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-28 | 👍 点赞数: 5

摘要:

安全对齐在大语言模型(LLMs)中通常涉及调节内部表征以拒绝有害请求。最近的研究表明,通过消融或移除模型中特定的表征方向,可以绕过这些安全机制。本文中,我们提出了一种相反的方法:秩一安全注入(Rank-One Safety Injection, ROSI),这是一种白盒方法,通过永久性地引导模型激活状态进入拒绝中介子空间,以放大模型的安全对齐能力。ROSI作为一种简单且无需微调的秩一权重修改方法,应用于所有残差流写入矩阵。所需的安全方向可以通过少量有害和无害指令对进行计算。我们证明,ROSI能够持续提高Llama Guard 3评估下的安全拒绝率,同时保持模型在MMLU、HellaSwag和Arc等标准基准任务中的性能。此外,我们还表明,ROSI可以通过放大“未经过滤”的模型自身潜在安全方向来重新对齐这些模型,从而展示其作为有效的最后一公里安全处理程序的实用性。我们的结果表明,有针对性且可解释的权重引导是一种低成本且高效提升LLM安全性的机制,可作为资源消耗更高的微调范式的有效补充。


11. Persuasion Dynamics in LLMs: Investigating Robustness and Adaptability

in Knowledge and Safety with DuET-PD

作者: Bryan Chen Zhengyu Tan, Daniel Wai Kit Chin, Zhengyuan Liu, Nancy F. Chen, Roy Ka-Wei Lee

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-24 | 👍 点赞数: 5

摘要:

论文标题:Persuasion Dynamics in LLMs: Investigating Robustness and Adaptability in Knowledge and Safety with DuET-PD

英文摘要的中文翻译:

在说服性对话中,大语言模型(Large Language Models, LLMs)可能难以在轻信错误信息与接受有效纠正之间取得平衡,这对实现可靠部署构成了关键挑战。我们提出了DuET-PD(Dual Evaluation for Trust in Persuasive Dialogues),该框架通过双重维度评估多轮对话中的立场变化动态:说服类型(纠错性/误导性)和领域(知识领域通过MMLU-Pro,安全领域通过SALAD-Bench)。我们发现,即使是GPT-4o这样的先进模型,在持续误导性说服下于MMLU-Pro中的准确率也仅为27.32%。此外,结果揭示了较新的开源模型中趋炎附势(sycophancy)倾向令人担忧的增长趋势。为应对这一问题,我们提出了整体DPO(Holistic DPO),一种平衡正向和负向说服样例的训练方法。与提示(prompting)或仅抵抗训练(resist-only training)不同,整体DPO同时增强了对错误信息的鲁棒性和对正确纠正的接受能力,使Llama-3.1-8B-Instruct在安全场景下受误导性说服影响时的准确率从4.21%提升至76.54%。这些贡献为开发更可靠、更具适应性的多轮对话LLMs提供了可行路径。代码可在https://github.com/Social-AI-Studio/DuET-PD获取。


12. Dress&Dance: Dress up and Dance as You Like It - Technical Preview

作者: Jun-Kun Chen, Aayush Bansal, Minh Phuoc Vo, Yu-Xiong Wang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-28 | 👍 点赞数: 3

摘要:

我们提出Dress&Dance,这是一种视频扩散框架,能够生成高质量的5秒长、24帧/秒(FPS)的虚拟试穿视频,分辨率为1152x720,视频中用户穿着目标服装并按照给定参考视频中的动作进行移动。我们的方法仅需一张用户的单张图像,支持多种上装、下装、连体装,以及单次生成中同时试穿上装和下装。本框架的核心是CondNet,这是一种新颖的条件网络,通过注意力机制统一处理多模态输入(文本、图像和视频),从而提升服装配准精度和动作还原的真实性。CondNet采用多阶段渐进式训练策略,利用有限的视频数据和更大规模、更易获取的图像数据集进行异构训练。Dress&Dance在性能上优于现有的开源和商业解决方案,实现了高质量且灵活的虚拟试穿体验。


13. OnGoal: Tracking and Visualizing Conversational Goals in Multi-Turn

Dialogue with Large Language Models

作者: Adam Coscia, Shunan Guo, Eunyee Koh, Alex Endert

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-28 | 👍 点赞数: 2

摘要:

摘要:随着用户与大型语言模型(LLMs)之间的多轮对话变得越来越长且复杂,用户应如何更好地评估和回顾其对话目标的进展?我们提出了OnGoal,这是一个帮助用户更好地管理目标进展的LLM聊天界面。OnGoal通过LLM辅助评估提供关于目标一致性的实时反馈、对评估结果的示例解释,以及目标进展的时序概览,使用户能够更有效地进行复杂的对话。通过对20名参与者进行写作任务的研究,我们将OnGoal与一个没有目标追踪功能的基线聊天界面进行了对比评估。使用OnGoal时,参与者花费更少的时间和精力达成目标,并探索了新的提示策略以克服沟通障碍,这表明目标的追踪与可视化能够增强用户在LLM对话中的参与度和适应力。我们的研究结果为未来LLM聊天界面的设计提供了启示,包括改进目标沟通、降低认知负荷、增强交互性,以及通过反馈提升LLM性能。


14. Multi-View 3D Point Tracking

作者: Frano Rajič, Haofei Xu, Marko Mihajlovic, Siyuan Li, Irem Demir, Emircan Gündoğdu, Lei Ke, Sergey Prokudin, Marc Pollefeys, Siyu Tang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-28 | 👍 点赞数: 2

摘要:

我们提出了首个数据驱动的多视角3D点跟踪方法,旨在使用多个相机视角跟踪动态场景中的任意点。与现有的单目跟踪器不同,后者在深度模糊和遮挡情况下表现较差,而之前的多相机方法则需要超过20个相机并依赖繁琐的逐序列优化,我们的前馈模型仅使用实用数量的相机(例如四个)即可直接预测3D对应点,从而实现鲁棒且精确的在线跟踪。在已知相机位姿以及多视角深度(来自传感器或估计)的条件下,我们的跟踪器将多视角特征融合为统一的点云,并结合k近邻相关性与基于Transformer的更新策略,可靠地估计长距离3D对应关系,即使在存在遮挡的情况下也能保持性能。我们在5000条合成的多视角Kubric序列上进行训练,并在两个真实世界基准数据集(Panoptic Studio和DexYCB)上进行评估,分别取得了3.1厘米和2.0厘米的中位轨迹误差。我们的方法能够很好地泛化到1至8视角的多种相机配置,适用于不同视角和24至150帧长度的视频序列。通过公开发布我们的跟踪器以及训练和评估数据集,我们希望为多视角3D跟踪研究设立新的标准,并为实际应用提供一个实用工具。项目页面详见:https://ethz-vlg.github.io/mvtracker。


15. FakeParts: a New Family of AI-Generated DeepFakes

作者: Gaetan Brison, Soobash Daiboo, Samy Aimeur, Awais Hussain Sani, Xi Wang, Gianni Franchi, Vicky Kalogeiton

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-28 | 👍 点赞数: 2

摘要:

我们提出了一类新的深度伪造视频——FakeParts,其特征是对原本真实的视频在特定空间区域或时间片段上进行细微的局部篡改。与完全合成的内容不同,这些局部篡改包括面部表情修改、物体替换和背景改动等,能够与真实内容无缝融合,因而更具欺骗性且难以检测。为填补检测能力方面的关键空白,我们构建了FakePartsBench,这是首个大规模基准数据集,专门用于全面捕捉局部深度伪造的多样性。该数据集包含超过25,000个视频,标注了像素级和帧级的篡改信息,能够对检测方法进行全面评估。我们的用户研究表明,与传统深度伪造相比,FakeParts使人类检测准确率降低了超过30%,同时在当前最先进的检测模型中也观察到类似的性能下降。本研究揭示了现有深度伪造检测方法中亟需解决的漏洞,并提供了针对局部视频篡改开发更鲁棒检测技术所需的资源。


16. Provable Benefits of In-Tool Learning for Large Language Models

作者: Sam Houliston, Ambroise Odonnat, Charles Arnal, Vivien Cabannes

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-28 | 👍 点赞数: 2

摘要:

摘要:工具增强型语言模型(配备检索、记忆或外部API)正在重塑人工智能领域,但其理论优势仍有待深入探索。本文通过展示工具内学习(外部检索)在事实回忆方面相较于权重内学习(记忆)的优势,回答了这一问题。我们证明,模型仅通过参数权重所能记忆的事实数量本质上受到参数数量的限制。相比之下,我们通过一个简单且高效的电路构造方法证明,使用工具能够实现无限的事实回忆能力。这一结论在受控实验中得到了验证,使用工具的模型始终优于依赖记忆的模型。进一步地,我们发现对于预训练的大语言模型而言,教授其使用工具和通用规则比将事实微调进记忆更为有效。我们的研究为工具增强型工作流提供了理论与实证基础,表明其不仅实用,而且具有可证明的更高可扩展性。


17. Collaborative Multi-Modal Coding for High-Quality 3D Generation

作者: Ziang Cao, Zhaoxi Chen, Liang Pan, Ziwei Liu

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-21 | 👍 点赞数: 2

摘要:

3D内容本质上具有多模态特性,并可以投影到不同的模态(例如,RGB图像、RGBD和点云)。每种模态在3D资产建模中都表现出不同的优势:RGB图像包含丰富的3D纹理信息,而点云则定义了精细的3D几何结构。然而,现有的大多数3D原生生成模型要么主要在单一模态范式下运行,从而忽略了多模态数据之间的互补优势,要么局限于3D结构,导致可用训练数据集的规模受限。为了全面利用多模态信息进行3D建模,我们提出了TriMM,这是首个基于前馈机制的3D原生生成模型,能够从基本的多模态数据(例如RGB、RGBD和点云)中进行学习。具体而言,1)TriMM首次引入了协同多模态编码机制,在融合模态特有特征的同时保留了各模态独特的表征优势;2)此外,我们引入了辅助的2D和3D监督信号,以提升多模态编码的鲁棒性与性能;3)基于嵌入的多模态编码,TriMM采用三平面潜在扩散模型生成高质量的3D资产,同时增强纹理与几何细节。在多个知名数据集上的广泛实验表明,TriMM通过有效利用多模态信息,在使用少量训练数据的情况下,依然能够达到与基于大规模数据集训练的模型相媲美的性能。此外,我们还在最新的RGB-D数据集上进行了额外实验,验证了将其他多模态数据集引入3D生成的可行性。


18. ROSE: Remove Objects with Side Effects in Videos

作者: Chenxuan Miao, Yutong Feng, Jianshu Zeng, Zixiang Gao, Hantang Liu, Yunfeng Yan, Donglian Qi, Xi Chen, Bin Wang, Hengshuang Zhao

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-26 | 👍 点赞数: 1

摘要:

视频目标去除由于视频生成模型的最新进展而取得了优异的性能。然而,当处理目标的副作用(如阴影和反射)时,现有方法因缺乏配对视频数据作为监督而难以消除这些效应。本文提出ROSE(Remove Objects with Side Effects),该框架系统性地研究了目标对环境的影响,这些影响可分为五种常见情况:阴影、反射、光照、半透明和镜像。鉴于收集展现上述效应的配对视频数据的挑战性,我们利用3D渲染引擎生成合成数据。我们精心构建了一个全自动的数据准备流程,模拟了一个包含多样化场景、目标、拍摄角度和相机轨迹的大规模配对数据集。ROSE基于扩散变换器实现了一种视频修复模型。为了定位所有与目标相关联的区域,模型通过基于参考的擦除方法处理整个视频。此外,我们引入了额外的监督信号,以显式预测受副作用影响的区域,这些区域可通过配对视频之间的差异掩码揭示。为了全面评估模型在各种副作用去除任务中的性能,我们提出了一个新的基准测试数据集ROSE-Bench,涵盖了常见场景和五种特定副作用的综合评估。实验结果表明,ROSE在性能上优于现有的视频目标擦除模型,并且在真实世界视频场景中具有良好的泛化能力。项目主页为https://rose2025-inpaint.github.io/。


19. Social-MAE: A Transformer-Based Multimodal Autoencoder for Face and

Voice

作者: Hugo Bohy, Minh Tran, Kevin El Haddad, Thierry Dutoit, Mohammad Soleymani

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-24

摘要:

摘要:人类的社会行为本质上是多模态的,这需要开发强大的音视频模型来感知这些行为。本文中,我们提出了Social-MAE,这是一种基于对比音视频掩码自编码器(CAV-MAE)扩展版本的预训练音视频掩码自编码器,该模型在音视频社会数据上进行了预训练。具体而言,我们修改了CAV-MAE以接收更多帧作为输入,并在一个大规模的人类社会交互数据集(VoxCeleb2)上以自监督的方式对其进行预训练。我们通过在不同的情感和社会相关下游任务(包括情感识别、笑声检测和表观人格估计)上对模型进行微调和评估,验证了该模型的有效性。该模型在多模态情感识别和笑声识别任务中达到了最先进的性能,在表观人格估计任务中也取得了具有竞争力的结果,证明了领域内自监督预训练的有效性。代码和模型权重可通过以下链接获取:https://github.com/HuBohy/SocialMAE。