Skip to main content

每日论文 - 2025年08月31日

论文总数: 19

1. rStar2-Agent: Agentic Reasoning Technical Report

作者: Ning Shang, Yifei Liu, Yi Zhu, Li Lyna Zhang, Weijiang Xu, Xinyu Guan, Buze Zhang, Bingcheng Dong, Xudong Zhou, Bowen Zhang, Ying Xin, Ziming Miao, Scarlett Li, Fan Yang, Mao Yang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-28 | 👍 点赞数: 95

摘要:

我们推出了rStar2-Agent,这是一款经过代理强化学习训练的14B数学推理模型,旨在实现前沿水平的性能。除了当前的长链思维链(CoT)能力外,该模型还展示了先进的认知行为,例如在使用Python编码工具之前进行深思熟虑,并根据代码执行反馈进行反思,以自主探索、验证和优化复杂问题解决中的中间步骤。这一能力得益于三项关键创新,使得代理强化学习在大规模应用中更加有效:(i) 一种高效的强化学习基础设施,配备可靠的Python代码环境,支持高吞吐量执行并降低高rollout成本,从而在有限的GPU资源(64 MI300X GPUs)上进行训练;(ii) GRPO-RoC,一种具有“正确重采样”(Resample-on-Correct)rollout策略的代理强化学习算法,能够应对编码工具带来的固有环境噪声,使模型在代码环境中更有效地进行推理;(iii) 一种高效的代理训练方案,从非推理的监督微调(SFT)开始,并逐步过渡到多阶段的强化学习阶段,在最小计算成本下培养出高级认知能力。最终,rStar2-Agent仅在一周内通过510步强化学习,将一个预训练的14B模型提升至当前最先进的水平,在AIME24和AIME25上分别实现了平均pass@1得分80.6%和69.8%,显著超越了DeepSeek-R1(671B),同时生成的响应更短。此外,rStar2-Agent-14B在对齐、科学推理和代理工具使用任务中也展现出强大的泛化能力。 代码和训练方案可在https://github.com/microsoft/rStar获取。


2. Pref-GRPO: Pairwise Preference Reward-based GRPO for Stable

Text-to-Image Reinforcement Learning

作者: Yibin Wang, Zhimin Li, Yuhang Zang, Yujie Zhou, Jiazi Bu, Chunyu Wang, Qinglin Lu, Cheng Jin, Jiaqi Wang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-28 | 👍 点赞数: 85

摘要:

Pref-GRPO: 基于成对偏好奖励的GRPO方法实现稳定的文本到图像强化学习

近期研究进展凸显了基于GRPO的强化学习方法及基准测试在提升文本到图像(T2I)生成方面的重要性。然而,当前方法使用逐点奖励模型(pointwise reward model, RM)对生成图像进行评分时容易受到奖励黑客(reward hacking)的影响。我们发现,当图像间细微的评分差异在归一化后被放大时,会形成虚假的优势,促使模型过度优化微小收益,最终导致图像生成过程的不稳定。为解决这一问题,我们提出了Pref-GRPO,一种基于成对偏好奖励的GRPO方法,将优化目标从评分最大化转变为偏好拟合,从而实现更稳定的训练过程。在Pref-GRPO中,通过偏好RM在每组内对图像进行成对比较,并以胜率作为奖励信号。大量实验表明,Pref-GRPO能够区分图像质量的细微差异,提供更稳定的增益,缓解奖励黑客问题。此外,现有的T2I基准测试受限于粗粒度的评估标准,难以全面评估模型性能。为此,我们引入了UniGenBench,一个统一的T2I基准测试集,涵盖5个主要主题和20个子主题,共计600个提示词。该基准通过10项主要标准和27项子标准评估语义一致性,并利用多模态大语言模型(MLLM)进行构建与评估。我们的基准测试揭示了开源与闭源T2I模型的优劣势,并验证了Pref-GRPO的有效性。


3. MCP-Bench: Benchmarking Tool-Using LLM Agents with Complex Real-World

Tasks via MCP Servers

作者: Zhenting Wang, Qi Chang, Hemani Patel, Shashank Biju, Cheng-En Wu, Quan Liu, Aolin Ding, Alireza Rezazadeh, Ankit Shah, Yujia Bao, Eugene Siow

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-28 | 👍 点赞数: 56

摘要:

我们推出了MCP-Bench,这是一个用于评估大语言模型(LLMs)在现实多步骤任务中表现的基准测试工具,这些任务需要使用工具、跨工具协调、精确参数控制以及任务求解所需的规划/推理能力。MCP-Bench基于Model Context Protocol(MCP)构建,通过28个具有代表性的实时MCP服务器将LLMs与涵盖金融、旅行、科学计算和学术搜索等多个领域的250个工具连接起来。与以往基于API的基准测试不同,每个MCP服务器提供一组设计为协同工作的互补工具,从而能够构建具有丰富输入输出耦合的真实多步骤任务。MCP-Bench中的任务测试代理从模糊指令中检索相关工具(无需明确工具名称)、为复杂目标规划多步骤执行路径、基于中间工具输出生成响应,以及协调跨领域工作流的能力,而这些能力在现有依赖明确工具规范、浅层少步骤流程和孤立领域操作的基准测试中未能得到充分评估。我们提出了一个涵盖工具级模式理解与使用、路径级规划和任务完成的多维度评估框架。针对20种先进LLMs的实验表明,MCP-Bench仍存在持续挑战。 代码和数据:https://github.com/Accenture/mcp-bench


4. USO: Unified Style and Subject-Driven Generation via Disentangled and

Reward Learning

作者: Shaojin Wu, Mengqi Huang, Yufeng Cheng, Wenxu Wu, Jiahe Tian, Yiming Luo, Fei Ding, Qian He

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-26 | 👍 点赞数: 54

摘要:

现有研究通常将风格驱动生成和主体驱动生成视为两个互斥的任务:前者强调风格相似性,而后者注重主体一致性,导致两者之间存在明显的对立关系。我们认为这两个目标可以在一个统一的框架下实现,因为它们本质上都涉及内容与风格的解耦与重组,这一直是风格驱动研究中的核心问题。为此,我们提出了USO(Unified Style-Subject Optimized),一种统一风格与主体优化的定制化生成模型。首先,我们构建了一个包含内容图像、风格图像及其对应风格化内容图像的大规模三元组数据集。其次,我们引入了一种解耦学习策略,通过两种互补的目标——风格对齐训练和内容-风格解耦训练,同时实现风格特征的对齐以及内容与风格的分离。第三,我们引入了一种风格奖励学习范式(SRL, Style Reward Learning),以进一步提升模型性能。最后,我们发布了USO-Bench,这是首个能够同时在多个指标上联合评估风格相似性与主体保真度的基准测试集。大量实验表明,USO在主体一致性和风格相似性两个维度上均取得了优于现有开源模型的性能。 代码与模型地址:https://github.com/bytedance/USO


5. AWorld: Orchestrating the Training Recipe for Agentic AI

作者: Chengyue Yu, Siyuan Lu, Chenyi Zhuang, Dong Wang, Qintong Wu, Zongyue Li, Runsheng Gan, Chunfeng Wang, Siqi Hou, Gaochi Huang, Wenlong Yan, Lifeng Hong, Aohui Xue, Yanfeng Wang, Jinjie Gu, David Tsai, Tao Lin

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-28 | 👍 点赞数: 37

摘要:

摘要:实践学习范式对于开发强大的Agentic AI系统至关重要,但其在复杂基准(如GAIA)中受到经验生成效率低下的严重制约。为解决这一问题,我们提出了AWorld,一个专为大规模智能体-环境交互设计的开源系统。通过在集群上分布任务,AWorld的经验收集速度相较于标准的单节点顺序执行提升了14.6倍。这一关键性的加速使强化学习变得切实可行且具备可扩展性。基于此能力,我们训练了一个以Qwen3-32B为基础的智能体,其性能显著优于基线模型,将整体GAIA准确率从21.59%提升至32.23%。在该基准测试最具挑战性的层级上,我们的智能体取得了16.33%的得分,超越了领先商业模型的表现。我们的开源系统及所构建的智能体为完整的Agentic AI训练流程提供了一个实用蓝图,从高效交互到可验证的模型改进。


6. Mixture of Contexts for Long Video Generation

作者: Shengqu Cai, Ceyuan Yang, Lvmin Zhang, Yuwei Guo, Junfei Xiao, Ziyan Yang, Yinghao Xu, Zhenheng Yang, Alan Yuille, Leonidas Guibas, Maneesh Agrawala, Lu Jiang, Gordon Wetzstein

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-28 | 👍 点赞数: 27

摘要:

长视频生成本质上是一个长上下文记忆问题:模型必须在长时间范围内保留并检索显著事件,而不发生崩溃或漂移。然而,将扩散变换器(diffusion transformers)扩展到长上下文视频生成受到自注意力机制二次计算成本的根本限制,这使得长序列的内存和计算难以处理且难以优化。我们将长上下文视频生成重新定义为一项内部信息检索任务,并提出一种简单且可学习的稀疏注意力路由模块——上下文混合(Mixture of Contexts, MoC),作为有效的长期记忆检索引擎。在MoC中,每个查询动态选择若干信息丰富的片段以及必要的锚点(caption、局部窗口)进行关注,通过因果路由(causal routing)防止循环闭合。随着我们对数据进行扩展并逐步稀疏化路由,模型将计算资源分配给显著的历史信息,从而在数分钟的内容中保持身份、动作和场景的一致性。效率作为检索机制的副产品得以实现(近线性扩展),从而支持实际的训练与合成,并在分钟级尺度上实现记忆与一致性的涌现。


7. TCIA: A Task-Centric Instruction Augmentation Method for Instruction

Finetuning

作者: Simin Ma, Shujian Liu, Jun Tan, Yebowen Hu, Song Wang, Sathish Reddy Indurthi, Sanqiang Zhao, Liwei Wu, Jianbing Han, Kaiqiang Song

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-28 | 👍 点赞数: 21

摘要:

TCIA:一种面向指令微调的任务中心型指令增强方法

多样化的指令数据对于大型语言模型的有效指令微调至关重要,因为它使模型能够在不同类型的输入之间进行泛化。构建这种多样化的指令数据集是该过程中的关键步骤。现有方法通常利用大型语言模型自动生成多样化的指令,以确保数据的多样性与质量。然而,这些方法往往忽视了实际应用中的一个重要因素:任务相关性。在实际场景中,只有极少数应用需要真正通用的模型;大多数应用则受益于针对特定用例定制的任务相关知识。因此,开发既能保持多样性又能针对特定场景优化的指令增强方法至关重要。

为此,我们提出了任务中心型指令增强(Task-Centric Instruction Augmentation, TCIA)框架,该框架在保持指令多样性的同时系统性地扩展指令,并确保其与任务目标的一致性。TCIA通过在离散的查询-约束空间中表示指令,生成丰富的任务相关指令集,使模型能够在不牺牲整体性能的前提下泛化到这些任务特定的指令。实验表明,TCIA在四个实际任务导向的应用场景中,平均提升了开源大语言模型性能8.7%,在某些情况下甚至优于领先的闭源模型。这些改进并未影响模型对通用指令的遵循能力,使得TCIA成为一种可扩展且高效的现实任务导向型大语言模型适配方案。


8. Multi-View 3D Point Tracking

作者: Frano Rajič, Haofei Xu, Marko Mihajlovic, Siyuan Li, Irem Demir, Emircan Gündoğdu, Lei Ke, Sergey Prokudin, Marc Pollefeys, Siyu Tang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-28 | 👍 点赞数: 20

摘要:

我们提出了首个数据驱动的多视角3D点跟踪方法,旨在使用多个相机视角跟踪动态场景中的任意点。与现有单目跟踪器不同,后者在深度模糊和遮挡情况下表现较差,而先前的多相机方法则需要超过20个相机并依赖繁琐的序列特定优化,我们的前馈模型仅使用实用数量的相机(例如四个)即可直接预测3D对应点,从而实现鲁棒且精确的在线跟踪。在已知相机位姿以及多视角深度(来自传感器或估计)的前提下,我们的跟踪器将多视角特征融合为统一的点云,并结合k近邻相关性与基于Transformer的更新策略,可靠地估计长距离3D对应关系,即使在遮挡情况下也能保持良好性能。我们在5000条合成的多视角Kubric序列上进行训练,并在两个真实世界基准数据集(Panoptic Studio和DexYCB)上进行评估,分别取得了3.1厘米和2.0厘米的中位轨迹误差。我们的方法能够很好地泛化到1至8视角的多种相机配置,适用于不同视角位置和24至150帧长度的视频序列。通过公开我们的跟踪器以及训练和评估数据集,我们希望为多视角3D跟踪研究设立新的标准,并为实际应用提供一个实用工具。 项目页面详见 https://ethz-vlg.github.io/mvtracker


9. Turning the Spell Around: Lightweight Alignment Amplification via

Rank-One Safety Injection

作者: Harethah Abu Shairah, Hasan Abed Al Kader Hammoud, George Turkiyyah, Bernard Ghanem

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-28 | 👍 点赞数: 14

摘要:

摘要:大语言模型(LLMs)中的安全性对齐通常涉及调节内部表示以拒绝有害请求。近期研究表明,这些安全机制可以通过消融或移除模型中特定的表示方向来绕过。本文中,我们提出了一种相反的方法:秩一安全注入(Rank-One Safety Injection, ROSI),这是一种白盒方法,通过永久性地引导模型激活状态进入拒绝有害请求的子空间,从而增强模型的安全性对齐。ROSI作为一种简单的、无需微调的秩一权重修改,应用于所有残差流写入矩阵。所需的安全方向可以通过少量有害和无害指令对进行计算。我们证明,ROSI能够持续提升Llama Guard 3评估下的安全拒绝率,同时在MMLU、HellaSwag和Arc等标准基准测试中保持模型的实用性。此外,我们还展示了ROSI可以通过放大“未过滤”模型自身潜在的安全方向来重新对齐其行为,表明其作为一种高效“最后一公里”安全措施的有效性。我们的研究结果表明,有针对性且可解释的权重引导是一种低成本且强大的机制,可用于提升LLM的安全性,是对资源消耗更高的微调范式的一种有效补充。


10. OneReward: Unified Mask-Guided Image Generation via Multi-Task Human

Preference Learning

作者: Yuan Gong, Xionghui Wang, Jie Wu, Shiyin Wang, Yitong Wang, Xinglong Wu

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-28 | 👍 点赞数: 11

摘要:

本文介绍了OneReward,这是一种统一的强化学习框架,仅使用一个奖励模型即可在不同评估标准下的多个任务中提升模型的生成能力。通过采用单一视觉-语言模型(VLM)作为生成奖励模型,该模型能够针对给定任务和评估标准区分优劣结果,从而有效应用于多任务生成模型,特别是在数据多样、任务目标各异的场景下。我们将OneReward应用于基于掩码引导的图像生成,该任务可进一步细分为图像填充、图像扩展、对象移除和文本渲染等子任务,均以二值掩码作为编辑区域。尽管这些特定领域任务共享相同的条件生成范式,但它们在底层数据分布和评估指标上存在显著差异。现有方法通常依赖任务特定的监督微调(SFT),这限制了泛化能力和训练效率。基于OneReward,我们开发了Seedream 3.0 Fill,这是一种通过多任务强化学习直接在预训练基础模型上训练的掩码引导生成模型,无需任务特定的SFT。实验结果表明,在多个评估维度上,我们的统一编辑模型始终优于包括Ideogram、Adobe Photoshop 和 FLUX Fill [Pro] 在内的商业和开源竞品模型。 代码和模型已公开,访问地址为:https://one-reward.github.io


11. Provable Benefits of In-Tool Learning for Large Language Models

作者: Sam Houliston, Ambroise Odonnat, Charles Arnal, Vivien Cabannes

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-28 | 👍 点赞数: 9

摘要:

摘要:工具增强型语言模型,通过结合检索、记忆或外部API,正在重塑人工智能领域,但其理论优势尚未得到充分探索。本文通过展示工具内学习(外部检索)在事实回忆方面相较于权重内学习(记忆)的优势,回答了这一问题。我们证明,模型仅通过参数权重进行记忆的事实数量本质上受限于其参数量。相比之下,我们通过一个简单且高效的电路构造方法证明,使用工具可以实现无限的事实回忆能力。在受控实验中,使用工具的模型始终优于依赖记忆的模型,验证了这些结论。进一步地,我们发现对于预训练的大语言模型而言,教授工具使用方法和通用规则比将具体事实微调到模型记忆中更为有效。我们的研究为工具增强型工作流提供了理论与实证基础,证明了其不仅具有实用性,而且在理论上具备更强的可扩展性。


12. CogVLA: Cognition-Aligned Vision-Language-Action Model via

Instruction-Driven Routing & Sparsification

作者: Wei Li, Renshan Zhang, Rui Shao, Jie He, Liqiang Nie

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-28 | 👍 点赞数: 8

摘要:

CogVLA:通过指令驱动路由与稀疏化的认知对齐视觉-语言-动作模型

基于预训练视觉-语言模型(VLMs)的近期视觉-语言-动作(VLA)模型需要大量后训练,导致计算开销过高,限制了其可扩展性和部署能力。为此,我们提出了CogVLA,这是一种认知对齐的视觉-语言-动作框架,通过指令驱动的路由与稀疏化策略,提升了模型的效率与性能。CogVLA借鉴人类多模态协调机制,引入了一个三阶段渐进式架构。1)基于编码器-FiLM的聚合路由(EFA-Routing)将指令信息注入视觉编码器,选择性地聚合并压缩双流视觉标记(token),形成具有指令感知能力的潜在表征。2)在该紧凑视觉编码基础上,基于LLM-FiLM的剪枝路由(LFP-Routing)通过剔除与指令无关的视觉基础标记,将动作意图引入语言模型,从而实现标记级别的稀疏性。3)为确保压缩后的感知输入仍能支持准确且连贯的动作生成,我们引入了视觉-语言-动作耦合注意力机制(CAtten),该机制结合了因果视觉-语言注意力与双向动作并行解码。在LIBERO基准数据集和真实机器人任务上的大量实验表明,CogVLA分别取得了97.4%和70.0%的成功率,达到当前最优性能,同时相比OpenVLA减少了2.5倍的训练成本和2.8倍的推理延迟。 CogVLA已开源,代码可在https://github.com/JiuTian-VL/CogVLA 获取。


13. Persuasion Dynamics in LLMs: Investigating Robustness and Adaptability

in Knowledge and Safety with DuET-PD

作者: Bryan Chen Zhengyu Tan, Daniel Wai Kit Chin, Zhengyuan Liu, Nancy F. Chen, Roy Ka-Wei Lee

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-24 | 👍 点赞数: 8

摘要:

大型语言模型(LLMs)在说服性对话中难以在轻信错误信息与接受有效纠正之间取得平衡,这对可靠部署构成了关键挑战。我们提出了DuET-PD(Dual Evaluation for Trust in Persuasive Dialogues)框架,用于评估多轮立场变化的动态特性,涵盖两个维度:说服类型(纠正性/误导性)和领域(通过MMLU-Pro测试知识,通过SALAD-Bench测试安全性)。我们发现,即使是GPT-4o这样的先进模型,在持续受到误导性说服时,其在MMLU-Pro上的准确率也仅为27.32%。此外,结果揭示了一个令人担忧的趋势:较新的开源模型中奉承行为(sycophancy)日益增加。为应对这一问题,我们提出了整体DPO(Holistic DPO)训练方法,通过平衡正向和负向说服样例来提升模型表现。与提示方法或仅增强抗性训练不同,整体DPO同时增强了对错误信息的鲁棒性和对正确纠正的接受能力,使Llama-3.1-8B-Instruct在安全场景下受到误导性说服时的准确率从4.21%提升至76.54%。这些贡献为开发更可靠、适应性更强的多轮对话LLMs提供了可行路径。 代码请访问https://github.com/Social-AI-Studio/DuET-PD


14. FakeParts: a New Family of AI-Generated DeepFakes

作者: Gaetan Brison, Soobash Daiboo, Samy Aimeur, Awais Hussain Sani, Xi Wang, Gianni Franchi, Vicky Kalogeiton

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-28 | 👍 点赞数: 7

摘要:

我们提出了FakeParts,这是一种新型的深度伪造(deepfakes)类别,其特点是通过对原本真实的视频在特定空间区域或时间片段上进行细微的局部篡改。与完全合成的内容不同,这些局部篡改操作,从改变面部表情到替换物体以及修改背景,能够与真实内容无缝融合,使其具有高度欺骗性且难以检测。为填补检测能力方面的关键空白,我们推出了FakePartsBench,这是首个大规模基准数据集,专门用于全面捕捉局部深度伪造的多样性。该数据集包含超过25,000个视频,并提供了像素级和帧级的篡改标注,能够全面评估检测方法的有效性。我们的用户研究表明,与传统深度伪造相比,FakeParts使人类检测准确率降低了超过30%,同时在最先进的检测模型中也观察到类似的性能下降。本研究揭示了当前深度伪造检测方法中亟需解决的漏洞,并提供了开发针对局部视频篡改的更鲁棒方法所需的资源。


15. ROSE: Remove Objects with Side Effects in Videos

作者: Chenxuan Miao, Yutong Feng, Jianshu Zeng, Zixiang Gao, Hantang Liu, Yunfeng Yan, Donglian Qi, Xi Chen, Bin Wang, Hengshuang Zhao

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-26 | 👍 点赞数: 7

摘要:

视频目标去除由于视频生成模型的最新进展而取得了显著的性能提升。然而,在处理目标的副作用(如其阴影和反射)时,现有方法因缺乏配对视频数据作为监督而难以消除这些效应。本文提出了ROSE(Remove Objects with Side Effects,去除具有副作用的目标),该框架系统地研究了目标对环境的影响,这些影响可分为五种常见情况:阴影、反射、光照、半透明和镜像。鉴于收集展示上述效应的配对视频数据的挑战性,我们利用3D渲染引擎生成合成数据。我们精心构建了一个全自动的数据准备流程,模拟生成包含多样化场景、目标、拍摄角度和相机轨迹的大规模配对数据集。ROSE基于扩散变换器实现了一种视频修复模型。为了定位所有与目标相关联的区域,整个视频被输入模型以进行基于参考的擦除。此外,引入了额外的监督信号以显式预测受副作用影响的区域,这些区域可通过配对视频之间的差异掩码揭示。为了全面研究模型在各种副作用去除方面的性能,我们提出了一个新的基准数据集ROSE-Bench,该数据集涵盖了常见场景和五种特定副作用的综合评估。实验结果表明,ROSE在性能上优于现有的视频目标擦除模型,并且能够很好地泛化到真实世界的视频场景中。 项目页面为https://rose2025-inpaint.github.io/


16. Dress&Dance: Dress up and Dance as You Like It - Technical Preview

作者: Jun-Kun Chen, Aayush Bansal, Minh Phuoc Vo, Yu-Xiong Wang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-28 | 👍 点赞数: 5

摘要:

我们提出 Dress&Dance,这是一种视频扩散框架,能够生成高质量的5秒长、24 FPS、分辨率为1152x720的虚拟试穿视频,展示用户穿着目标服装并根据给定参考视频进行动作的效果。我们的方法仅需一张用户图像,支持多种上装、下装、连体服装,并可在单次推理中同时试穿上装和下装。本框架的核心是 CondNet,这是一种新的条件网络,通过注意力机制统一多模态输入(文本、图像和视频),从而提升服装配准精度和动作保真度。CondNet 以多阶段渐进的方式在异构训练数据上进行训练,结合了有限的视频数据和更大且更易获取的图像数据集。Dress&Dance 超越了现有的开源和商业解决方案,实现了高质量且灵活的虚拟试穿体验。


17. Collaborative Multi-Modal Coding for High-Quality 3D Generation

作者: Ziang Cao, Zhaoxi Chen, Liang Pan, Ziwei Liu

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-21 | 👍 点赞数: 4

摘要:

三维内容本质上具有多模态特性,并可以被投影到不同的模态(例如,RGB图像、RGBD和点云)。每种模态在三维资产建模中都表现出不同的优势:RGB图像包含丰富的三维纹理信息,而点云则定义了细粒度的三维几何结构。然而,现有的大多数三维原生生成模型要么主要在单一模态范式下运行,从而忽略了多模态数据之间的互补优势;要么局限于三维结构,导致可用训练数据集的范围受限。为了全面利用多模态信息进行三维建模,我们提出了TriMM——首个基于基础多模态输入(例如,RGB、RGBD和点云)进行学习的前馈三维原生生成模型。具体而言,1)TriMM首先引入了协同多模态编码机制,在整合模态特有特征的同时保留了各模态独特的表征优势;2)此外,我们引入辅助的二维和三维监督信号以提升多模态编码的鲁棒性和性能;3)基于嵌入的多模态编码,TriMM采用三平面潜在扩散模型生成高质量的三维资产,同时增强纹理和几何细节。在多个知名数据集上的广泛实验表明,尽管仅使用少量训练数据,TriMM通过有效利用多模态信息,仍实现了与基于大规模数据集训练模型相当的性能。此外,我们还在最新的RGB-D数据集上进行了实验,验证了将其他多模态数据集引入三维生成的可行性。


18. OnGoal: Tracking and Visualizing Conversational Goals in Multi-Turn

Dialogue with Large Language Models

作者: Adam Coscia, Shunan Guo, Eunyee Koh, Alex Endert

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-28 | 👍 点赞数: 2

摘要:

摘要:随着用户与大语言模型(LLMs)之间的多轮对话变得越来越长且复杂,用户如何更好地评估和回顾他们在对话目标上的进展?我们提出了OnGoal,这是一个帮助用户更好地管理目标进展的LLM聊天界面。OnGoal通过LLM辅助评估提供关于目标一致性的实时反馈、对评估结果的示例解释,以及目标进展的时序概览,使用户能够更有效地进行复杂的对话。通过一项包含20名参与者完成写作任务的研究,我们将OnGoal与一个没有目标追踪功能的基线聊天界面进行了比较。使用OnGoal时,参与者花费更少的时间和精力达成目标,并尝试了新的提示策略以克服沟通障碍,这表明目标追踪与可视化能够增强用户在LLM对话中的参与度与适应力。我们的研究结果为未来LLM聊天界面的设计提供了启示,包括改进目标沟通、降低认知负荷、增强交互性,以及提供反馈以提升LLM性能。


19. Social-MAE: A Transformer-Based Multimodal Autoencoder for Face and

Voice

作者: Hugo Bohy, Minh Tran, Kevin El Haddad, Thierry Dutoit, Mohammad Soleymani

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-24 | 👍 点赞数: 1

摘要:

摘要:
人类的社会行为本质上是多模态的,这要求开发强大的音视频模型以实现对其的感知。本文中,我们提出了Social-MAE,这是一种基于对比音视频掩码自编码器(CAV-MAE)扩展版本的预训练音视频掩码自编码器,该模型在音视频社会数据上进行了预训练。具体而言,我们修改了CAV-MAE以接收更多帧作为输入,并在大规模人类社会交互数据集VoxCeleb2上以自监督的方式对其进行预训练。我们通过在多个社会情感下游任务(包括情感识别、笑声检测和表观人格估计)上对模型进行微调和评估,验证了该模型的有效性。该模型在多模态情感识别和笑声识别任务上达到了最先进的性能,在表观人格估计任务上也取得了具有竞争力的结果,证明了领域内自监督预训练的有效性。 代码和模型权重请访问:https://github.com/HuBohy/SocialMAE