Skip to main content

每日论文 - 2025年08月18日

论文总数: 13

1. DINOv3

作者: Oriane Siméoni, Huy V. Vo, Maximilian Seitzer, Federico Baldassarre, Maxime Oquab, Cijo Jose, Vasil Khalidov, Marc Szafraniec, Seungeun Yi, Michaël Ramamonjisoa, Francisco Massa, Daniel Haziza, Luca Wehrstedt, Jianyuan Wang, Timothée Darcet, Théo Moutakanni, Leonel Sentana, Claire Roberts, Andrea Vedaldi, Jamie Tolan, John Brandt, Camille Couprie, Julien Mairal, Hervé Jégou, Patrick Labatut, Piotr Bojanowski

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-13 | 👍 点赞数: 145

摘要:

自监督学习有望消除对手动数据标注的依赖,使模型能够无缝扩展到大规模数据集和更大的架构。由于不针对特定任务或领域,这种训练范式具有从各种来源(包括自然图像到航拍图像)学习视觉表示的潜力——仅使用一种算法。本技术报告介绍了DINOv3,这是实现上述愿景的重要里程碑,其通过采用简单而有效的策略得以实现。首先,我们通过精心的数据准备、设计与优化,充分利用了扩展数据集和模型规模的优势。其次,我们提出了一种新方法——Gram anchoring,有效解决了密集特征图在长时间训练过程中退化的已知且尚未解决的问题。最后,我们应用了事后策略,进一步增强了模型在分辨率、模型大小和与文本对齐方面的灵活性。最终,我们提出了一种通用的视觉基础模型,在无需微调的情况下,其性能在广泛设置中均优于当前最先进的专用模型。DINOv3生成的高质量密集特征在各种视觉任务中表现出色,显著超越了以往的自监督和弱监督基础模型。我们也共享了DINOv3系列视觉模型,旨在通过为不同的资源限制和部署场景提供可扩展的解决方案,推动各类任务和数据上的技术进步。


2. SSRL: Self-Search Reinforcement Learning

作者: Yuchen Fan, Kaiyan Zhang, Heng Zhou, Yuxin Zuo, Yanxu Chen, Yu Fu, Xinwei Long, Xuekai Zhu, Che Jiang, Yuchen Zhang, Li Kang, Gang Chen, Cheng Huang, Zhizhou He, Bingning Wang, Lei Bai, Ning Ding, Bowen Zhou

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-14 | 👍 点赞数: 82

摘要:

我们研究了大语言模型(LLMs)在强化学习(RL)中作为智能体搜索任务高效模拟器的潜力,从而减少对外部搜索引擎昂贵交互的依赖。为此,我们首先通过结构化提示和重复采样来量化LLMs的内在搜索能力,我们将此过程称为Self-Search。实验结果表明,LLMs在推理预算方面表现出良好的扩展行为,在问答基准任务(包括具有挑战性的BrowseComp任务)中实现了较高的pass@k值。基于这些观察,我们提出了Self-Search RL(SSRL),通过基于格式和基于规则的奖励机制增强LLMs的Self-Search能力。SSRL使模型能够在内部迭代优化其知识利用,而无需访问外部工具。实证评估表明,通过SSRL训练的策略模型为搜索驱动的RL训练提供了一个成本低廉且稳定的环境,减少了对外部搜索引擎的依赖,并促进了从模拟到现实的稳健迁移。我们的研究得出以下结论:1)LLMs具备丰富的世界知识,可以通过有效引导实现高性能表现;2)SSRL展示了利用内部知识减少幻觉现象的潜力;3)通过SSRL训练的模型能够无缝集成外部搜索引擎,而无需额外努力。我们的研究结果突出了LLMs在支持更具可扩展性的RL智能体训练方面的潜力。


3. Thyme: Think Beyond Images

作者: Yi-Fan Zhang, Xingyu Lu, Shukang Yin, Chaoyou Fu, Wei Chen, Xiao Hu, Bin Wen, Kaiyu Jiang, Changyi Liu, Tianke Zhang, Haonan Fan, Kaibing Chen, Jiankang Chen, Haojie Ding, Kaiyu Tang, Zhang Zhang, Liang Wang, Fan Yang, Tingting Gao, Guorui Zhou

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-15 | 👍 点赞数: 71

摘要:

Thyme: 超越图像的思考

继OpenAI提出“图像思维”(thinking with images)概念之后,近期的研究探索了在推理过程中激发视觉信息的使用,以提升模型在感知与推理任务中的表现。然而,据我们所知,目前尚无开源工作能够提供与专有模型(O3)相当的丰富功能集,后者能够执行多样化的图像操作,并通过代码同时增强逻辑推理能力。本文中,我们初步尝试解决这一问题,提出了Thyme(Think Beyond Images),一种新颖的范式,使多模态大语言模型(MLLMs)能够超越现有的“图像思维”方法,通过可执行代码自主生成并执行多样化的图像处理和计算操作。该方法不仅支持丰富的实时图像操作(如裁剪、旋转、对比度增强),还可进行数学计算,同时在决定何时以及如何应用这些操作方面保持高度自主性。我们通过两阶段训练策略激活这一能力:首先在包含50万样本的精选数据集上进行监督微调(SFT),以教授代码生成能力;随后通过强化学习(RL)阶段优化决策能力。在RL阶段,我们手动收集并设计高分辨率问答对以提高学习难度,并提出了GRPO-ATS(Group Relative Policy Optimization with Adaptive Temperature Sampling)算法,该算法对文本和代码生成采用不同的温度参数,以在推理探索与代码执行精度之间取得平衡。我们进行了广泛的实验分析与消融研究。在近20个基准测试中的综合评估表明,Thyme在性能上取得了显著且一致的提升,尤其在高分辨率感知和复杂推理任务中表现突出。


4. BeyondWeb: Lessons from Scaling Synthetic Data for Trillion-scale

Pretraining

作者: Pratyush Maini, Vineeth Dorna, Parth Doshi, Aldo Carranza, Fan Pan, Jack Urbanek, Paul Burstein, Alex Fang, Alvin Deng, Amro Abbas, Brett Larsen, Cody Blakeney, Charvi Bannur, Christina Baek, Darren Teh, David Schwab, Haakon Mongstad, Haoli Yin, Josh Wills, Kaleigh Mentzer, Luke Merrick, Ricardo Monti, Rishabh Adiga, Siddharth Joshi, Spandan Das, Zhengping Wang, Bogdan Gaza, Ari Morcos, Matthew Leavitt

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-14 | 👍 点赞数: 52

摘要:

摘要:
近期大规模语言模型(Large Language Model, LLM)预训练的研究表明,单纯增加数据量最终会导致收益递减,触及数据瓶颈。为应对这一挑战,使用合成数据进行预训练成为一种具有前景的范式,能够推动性能的前沿进展。尽管如此,影响合成数据质量的因素仍未被充分理解。本文介绍了BeyondWeb,一种用于生成高质量预训练合成数据的框架。BeyondWeb显著扩展了传统网络规模数据集的能力,在14项基准评估的平均表现上,分别比最先进的合成预训练数据集Cosmopedia和Nemotron-CC的高质量子集(Nemotron-Synth)高出最多5.1个百分点(pp)和2.6个百分点(pp)。其训练速度比开放网络数据快达7.7倍,比Nemotron-Synth快达2.7倍。令人瞩目的是,在BeyondWeb上使用1800亿token训练的3B参数模型,性能优于在Cosmopedia上以相同token预算训练的8B参数模型。我们还从BeyondWeb中总结出关于预训练合成数据的若干重要见解:其优势的驱动因素、哪些数据需要改写以及如何改写、模型规模和家族对数据质量的影响等。总体而言,我们的研究表明,生成高质量的合成预训练数据并不存在一劳永逸的解决方案。最佳效果需要对多个因素进行联合优化,这是一项需要严谨科学方法和实践经验的复杂任务。简单的方法可能仅带来有限的提升,却可能付出高昂代价,而精心设计的方法则可能带来变革性的改进,BeyondWeb正是此类方法的典范。


5. XQuant: Breaking the Memory Wall for LLM Inference with KV Cache

Rematerialization

作者: Aditya Tomar, Coleman Hooper, Minjae Lee, Haocheng Xi, Rishabh Tiwari, Wonjun Kang, Luca Manolache, Michael W. Mahoney, Kurt Keutzer, Amir Gholami

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-14 | 👍 点赞数: 33

摘要:

XQuant: 通过KV缓存重计算突破LLM推理的内存墙

尽管LLM推理已成为许多下游应用的关键工作负载,但由于LLM推理需要大量的内存占用和带宽,其高效实现具有挑战性。与此同时,在过去几十年中,计算能力的增长速度已稳步超过内存容量和带宽的增长速度,这一趋势在现代GPU硬件上依然明显,并加剧了LLM推理的困难。因此,一些新的算法正在出现,以增加计算为代价来减少内存操作。为此,我们提出了XQuant,该方法利用这一趋势,通过低比特量化实现了比现有KV缓存量化方法显著更高的内存节省和精度优势。我们通过量化并缓存层输入激活X,而非使用标准的KV缓存,并在推理过程中即时重计算Keys和Values,从而立即实现了相比KV缓存2倍的内存节省。应用XQuant后,相比FP16基线,我们实现了最高约7.7倍的内存节省,同时困惑度退化小于0.1。此外,我们的方法利用了X值在不同层之间具有相似性的特点。基于这一观察,我们进一步提出了XQuant-CL,该方法利用X嵌入中的跨层相似性实现极高的压缩。在不同模型上的实验表明,XQuant-CL相比FP16基线最高可实现10倍的内存节省,困惑度退化仅为0.01,以及12.5倍的内存节省,困惑度退化仅为0.1。XQuant充分利用硬件平台快速提升的计算能力,消除了内存瓶颈,同时超越了现有的KV缓存量化方法,并在多种模型上实现了接近FP16的精度。


6. PaperRegister: Boosting Flexible-grained Paper Search via Hierarchical

Register Indexing

作者: Zhuoqun Li, Xuanang Chen, Hongyu Lin, Yaojie Lu, Xianpei Han, Le Sun

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-14 | 👍 点赞数: 20

摘要:

论文标题:PaperRegister: 通过分层注册索引增强灵活粒度的论文检索

英文摘要的中文翻译: 论文检索是研究人员的重要活动,通常涉及使用描述某个主题的查询来查找相关论文。随着研究的深入,论文检索的需求可能变得更加灵活,有时涉及特定的细节,如模块配置,而不仅仅局限于粗粒度的主题。然而,现有的论文检索系统无法满足这种灵活粒度的需求,因为这些系统主要收集论文摘要来构建语料库索引,缺乏支持细粒度查询的详细信息。在本研究中,我们提出了PaperRegister,包括离线的分层索引和在线的自适应检索,将传统的基于摘要的索引转变为用于论文检索的分层索引树,从而支持灵活粒度的查询。在多种粒度的论文检索任务上的实验表明,PaperRegister达到了最先进的性能,尤其在细粒度场景中表现出色,显示了其作为实际应用中灵活粒度论文检索的有效解决方案的良好潜力。本工作的代码位于https://github.com/Li-Z-Q/PaperRegister


7. TexVerse: A Universe of 3D Objects with High-Resolution Textures

作者: Yibo Zhang, Li Zhang, Rui Ma, Nan Cao

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-14 | 👍 点赞数: 13

摘要:

我们推出了TexVerse,这是一个包含高分辨率纹理的大规模3D数据集。尽管近年来大规模3D数据集的发展推动了高分辨率几何生成的进步,但由于缺乏合适的数据集,端到端生成高分辨率纹理的研究仍较少。TexVerse填补了这一空白,其包含超过858K个独特的高分辨率3D模型,这些模型精选自Sketchfab平台,其中包括超过158K个具有基于物理的渲染(Physically Based Rendering, PBR)材质的模型。每个模型均包含其所有的高分辨率变体,总计达到1.6M个3D实例。TexVerse还包含专门的子集:TexVerse-Skeleton,包含69K个绑定模型;TexVerse-Animation,包含54K个动画模型,两者均保留了用户上传的原始骨骼和动画数据。我们还提供了详细的模型注释,描述了整体特征、结构组件和细节特征。TexVerse作为一个高质量的数据资源,具有广泛的应用潜力,可用于纹理合成、PBR材质开发、动画制作以及各类3D视觉与图形学任务。


8. FantasyTalking2: Timestep-Layer Adaptive Preference Optimization for

Audio-Driven Portrait Animation

作者: MengChao Wang, Qiang Wang, Fan Jiang, Mu Xu

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-15 | 👍 点赞数: 9

摘要:

近年来,音频驱动的肖像动画技术取得了显著进展。然而,现有方法在多个维度(如动作自然性、口型同步准确性和视觉质量)上难以与细粒度的人类偏好保持一致。这主要是由于在相互竞争的偏好目标之间进行优化存在困难,这些目标通常彼此冲突,并且缺乏大规模、高质量的多维偏好标注数据集。为了解决这些问题,我们首先引入了Talking-Critic,这是一种多模态奖励模型,用于学习与人类对生成视频在多维期望方面的满意度进行量化评估的奖励函数。基于该模型,我们构建了Talking-NSQ,这是一个包含410K偏好对的大规模多维人类偏好数据集。最后,我们提出了Timestep-Layer自适应多专家偏好优化(TLPO),这是一种将基于扩散的肖像动画模型与细粒度、多维偏好对齐的新框架。TLPO将偏好解耦为专门的专家模块,并在时间步和网络层之间进行融合,从而在所有维度上实现全面、细粒度的增强,且不产生相互干扰。实验表明,Talking-Critic在与人类偏好评分对齐方面显著优于现有方法。同时,TLPO在口型同步准确性、动作自然性和视觉质量方面相比基线模型均有显著提升,在定性和定量评估中均表现出优越的性能。我们的项目页面:https://fantasy-amap.github.io/fantasy-talking2/


9. StyleMM: Stylized 3D Morphable Face Model via Text-Driven Aligned Image

Translation

作者: Seungmi Lee, Kwan Yun, Junyong Noh

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-15 | 👍 点赞数: 8

摘要:

我们提出了StyleMM,一种新颖的框架,能够根据用户定义的文本描述指定目标风格,构建风格化的三维可变形人脸模型(3D Morphable Model,3DMM)。在预训练的网格变形网络和原始基于3DMM的真实人脸纹理生成器的基础上,我们的方法利用通过文本引导的图像到图像(i2i)翻译生成的风格化面部图像对这些模型进行微调,这些图像由扩散模型生成,作为渲染网格的风格化目标。为了防止在i2i翻译过程中出现身份、面部对齐或表情的不期望变化,我们引入了一种显式保留源图像面部属性的风格化方法。通过在图像风格化过程中保持这些关键属性,所提出的方法确保了通过基于图像的训练在整个3DMM参数空间中实现一致的3D风格迁移。训练完成后,StyleMM能够以前馈方式生成风格化的面部网格,并对形状、表情和纹理参数进行显式控制,生成具有一致顶点连接性和可动画化的网格。定量和定性评估表明,我们的方法在身份层面的面部多样性和风格化能力方面优于当前最先进的方法。 代码和视频可在https://kwanyun.github.io/stylemm_page获取。


10. X-Node: Self-Explanation is All We Need

作者: Prajit Sengupta, Islem Rekik

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-14 | 👍 点赞数: 6

摘要:

图神经网络(Graph Neural Networks, GNNs)通过捕捉数据实例之间的结构依赖性,在计算机视觉和医学图像分类任务中取得了最先进的成果。然而,其决策过程仍然高度不透明,限制了其在临床高风险应用中的可信度,而这些场景中可解释性至关重要。现有的GNN可解释性技术通常是事后(post-hoc)和全局性的,难以提供对单个节点决策或局部推理过程的深入理解。我们提出了X-Node,这是一种自解释的GNN框架,其中每个节点在其预测过程中自主生成解释。对于每个节点,我们构建了一个结构化上下文向量,编码其局部拓扑结构中的可解释线索,如度、中心性、聚类系数、特征显著性和标签一致性等。一个轻量级的推理模块(Reasoner module)将此上下文映射为紧凑的解释向量,该向量具有三个用途:(1)通过解码器重建节点的潜在嵌入以确保解释的忠实性;(2)使用预训练的大语言模型(如Grok或Gemini)生成自然语言解释;(3)通过一种“文本注入”机制将解释反馈到消息传递流程中,从而指导GNN本身的推理过程。我们在源自MedMNIST和MorphoMNIST的两个图数据集上评估了X-Node,并将其集成到GCN、GAT和GIN等主流GNN架构中。实验结果表明,X-Node在保持分类性能的同时,能够生成忠实的、面向每个节点的解释。代码仓库:https://github.com/basiralab/X-Node.


11. Controlling Multimodal LLMs via Reward-guided Decoding

作者: Oscar Mañas, Pierluca D'Oro, Koustuv Sinha, Adriana Romero-Soriano, Michal Drozdzal, Aishwarya Agrawal

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-15 | 👍 点赞数: 5

摘要:

随着多模态大语言模型(Multimodal Large Language Models, MLLMs)的广泛应用,人们越来越希望将其适应于多样化的用户需求。本文研究了通过受控解码实现MLLMs的适应性调整。为此,我们提出了首个用于MLLMs的奖励引导解码方法,并展示了其在提升模型视觉基础能力方面的应用。我们的方法包括构建用于视觉基础的奖励模型,并利用这些模型引导MLLM的解码过程。具体而言,我们构建了两个独立的奖励模型,分别用于控制模型输出中物体精确度(object precision)和召回率(recall)的程度。该方法能够在两个方面实现对MLLM推理过程的即时可控性:首先,通过控制解码过程中每个奖励函数的相对重要性,使用户能够在图像描述任务中动态权衡精确度与召回率;其次,通过控制解码过程中搜索的广度,使用户能够调节测试阶段计算资源消耗与视觉基础程度之间的权衡。我们在标准的物体幻觉基准数据集上对我们的方法进行了评估,结果表明该方法在提供显著推理可控性的同时,持续优于现有的幻觉缓解方法。


12. MAESTRO: Masked AutoEncoders for Multimodal, Multitemporal, and

Multispectral Earth Observation Data

作者: Antoine Labatie, Michael Vaccaro, Nina Lardiere, Anatol Garioud, Nicolas Gonthier

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-14 | 👍 点赞数: 3

摘要:

MAESTRO:面向多模态、多时相及多光谱地球观测数据的掩码自编码器

自监督学习在遥感领域具有巨大潜力,但标准的自监督方法需要针对地球观测数据的独特特性进行调整。朝着这一方向,我们对多模态、多时相和多光谱地球观测数据的融合策略和重建目标归一化方案进行了全面的基准测试。基于研究结果,我们提出了MAESTRO,这是对掩码自编码器的一种新颖改进,其采用了优化的融合策略和定制的目标归一化方案,并引入光谱先验作为自监督信号。在四个地球观测数据集上的评估表明,MAESTRO在高度依赖多时相动态的任务上达到了新的SOTA水平,同时在以单一单时相模态为主导的任务上也保持了高度竞争力。用于复现所有实验的代码可在https://github.com/ignf/maestro获取。


13. SPARSE Data, Rich Results: Few-Shot Semi-Supervised Learning via

Class-Conditioned Image Translation

作者: Guido Manni, Clemente Lauretti, Loredana Zollo, Paolo Soda

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-08 | 👍 点赞数: 2

摘要:

深度学习已经彻底改变了医学成像领域,但其有效性严重受限于标注训练数据的不足。本文提出了一种基于生成对抗网络(GAN)的半监督学习框架,专门针对标注数据较少的情形设计,并在每类仅有5至50个标注样本的设置下进行了评估。我们的方法在一个三阶段训练框架中集成了三个专用神经网络——一个用于类别条件图像翻译的生成器、一个用于真实性评估和分类的判别器以及一个专用分类器。该方法在有限标注数据上的监督训练与通过图像到图像翻译而非从噪声生成来利用大量未标注图像的无监督学习之间交替进行。我们采用基于集成的伪标签方法,通过指数移动平均实现判别器和分类器的置信度加权预测与时间一致性的结合,从而对未标注数据进行可靠的标签估计。在十一个MedMNIST数据集上的全面评估表明,我们的方法在六种最先进的基于GAN的半监督方法中取得了具有统计显著性的性能提升,尤其在标注数据最稀缺的5样本(5-shot)设置下表现出色。该框架在所有评估设置(每类5、10、20和50个样本)中均保持优势。我们的方法为标注成本高昂的医学成像应用提供了实用的解决方案,即使在标注数据极少的情况下也能实现稳健的分类性能。代码可在https://github.com/GuidoManni/SPARSE获取。