跳到主要内容
目录

每日论文 - 2025年08月26日

论文总数: 23

1. InternVL3.5: Advancing Open-Source Multimodal Models in Versatility,

Reasoning, and Efficiency

作者: Weiyun Wang, Zhangwei Gao, Lixin Gu, Hengjun Pu, Long Cui, Xingguang Wei, Zhaoyang Liu, Linglin Jing, Shenglong Ye, Jie Shao, Zhaokai Wang, Zhe Chen, Hongjie Zhang, Ganlin Yang, Haomin Wang, Qi Wei, Jinhui Yin, Wenhao Li, Erfei Cui, Guanzhou Chen, Zichen Ding, Changyao Tian, Zhenyu Wu, Jingjing Xie, Zehao Li, Bowen Yang, Yuchen Duan, Xuehui Wang, Songze Li, Xiangyu Zhao, Haodong Duan, Nianchen Deng, Bin Fu, Yinan He, Yi Wang, Conghui He, Botian Shi, Junjun He, Yingtong Xiong, Han Lv, Lijun Wu, Wenqi Shao, Kaipeng Zhang, Huipeng Deng, Biqing Qi, Jiaye Ge, Qipeng Guo, Wenwei Zhang, Wanli Ouyang, Limin Wang, Min Dou, Xizhou Zhu, Tong Lu, Dahua Lin, Jifeng Dai, Bowen Zhou, Weijie Su, Kai Chen, Yu Qiao, Wenhai Wang, Gen Luo

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-25 | 👍 点赞数: 159

摘要:

我们推出了InternVL3.5,这是一个新的开源多模态模型系列,在通用性、推理能力和推理效率方面相较于InternVL系列实现了显著进步。其中一项关键创新是级联强化学习(Cascade RL)框架,该框架通过两个阶段提升推理能力:离线RL用于稳定收敛,以及在线RL用于精细对齐。这种由粗到细的训练策略在下游推理任务(如MMMU和MathVista)上实现了显著改进。为了优化效率,我们提出了视觉分辨率路由(Visual Resolution Router, ViR)模块,可在不牺牲性能的前提下动态调整视觉token的分辨率。结合ViR,我们的解耦视觉-语言部署(Decoupled Vision-Language Deployment, DvD)策略将视觉编码器和语言模型部署在不同的GPU上,有效平衡了计算负载。这些贡献使得InternVL3.5相较其前代模型InternVL3,在整体推理性能上最高提升了+16.0%,推理速度提升了4.05倍。此外,InternVL3.5还支持图形用户界面(GUI)交互和具身智能体(embodied agency)等新功能。值得注意的是,我们最大的模型InternVL3.5-241B-A28B在通用多模态、推理、文本和智能体任务上均达到了开源多模态大语言模型(MLLMs)中的最先进水平,缩小了与GPT-5等领先商业模型之间的性能差距。所有模型与代码均已公开发布。


2. Visual-CoG: Stage-Aware Reinforcement Learning with Chain of Guidance

for Text-to-Image Generation

作者: Yaqi Li, Peng Chen, Mingyang Han, Bu Pi, Haoxiang Shi, Runzhou Zhao, Yang Yao, Xuan Zhang, Jun Song

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-25 | 👍 点赞数: 39

摘要:

尽管近期自回归模型在文本到图像(T2I)生成方面取得了令人瞩目的进展,但其在处理多属性和模糊提示方面的能力仍然有限。为克服这些局限性,已有研究应用思维链(Chain-of-Thought, CoT)以实现阶段感知的视觉合成,并采用强化学习(Reinforcement Learning, RL)以增强推理能力。然而,大多数模型仅在生成阶段结束时提供奖励信号。这种单一的最终阶段指导难以识别哪些阶段对最终结果产生了积极影响,可能导致次优策略。为解决这一问题,我们提出了一种阶段感知的视觉指导链(Visual-Chain of Guidance, Visual-CoG)范式,包含三个阶段:语义推理、过程优化和结果评估,并通过阶段感知奖励在整个图像生成流程中提供即时指导。此外,我们构建了一个视觉认知基准数据集VisCog-Bench,包含四个子任务用于评估语义推理的有效性。在GenEval、T2I-CompBench以及提出的VisCog-Bench上的全面评估显示,分别提升了15%、5%和19%,验证了所提出的Visual-CoG的优越性能。所有相关资源将尽快公开。


3. MV-RAG: Retrieval Augmented Multiview Diffusion

作者: Yosef Dayani, Omer Benishu, Sagie Benaim

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-22 | 👍 点赞数: 34

摘要:

MV-RAG: 基于检索增强的多视角扩散模型

近年来,文本到3D生成方法通过利用预训练的2D扩散先验知识,在生成高质量且3D一致的输出方面取得了显著进展。然而,这些方法在生成分布外(OOD)或罕见概念时常常失败,导致结果不一致或不准确。为此,我们提出MV-RAG,一种新颖的文本到3D生成流程。该方法首先从大规模真实场景下的2D数据库中检索相关2D图像,并基于这些图像对多视角扩散模型进行条件生成,从而合成一致且准确的多视角输出。通过一种新颖的混合训练策略,我们实现了这种基于检索条件的模型训练,该策略连接了结构化的多视角数据与多样化的2D图像集合。具体而言,一方面在多视角数据上进行训练,使用增强的条件视角来模拟检索的视角差异,以实现视角特定的重建;另一方面在检索得到的真实世界2D图像集合上进行训练,采用一种独特的保留视角预测目标:模型通过其他视角预测保留视角,从而从2D数据中推断3D一致性。为了便于进行严格的OOD评估,我们引入了一组新的具有挑战性的OOD提示语。实验结果表明,与当前最先进的文本到3D、图像到3D以及个性化生成方法相比,我们的方法在OOD/罕见概念的3D一致性、照片真实感和文本贴合度方面均有显著提升,同时在标准基准测试中保持了具有竞争力的性能。


4. Understanding Tool-Integrated Reasoning

作者: Heng Lin, Zhongwen Xu

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-26 | 👍 点赞数: 28

摘要:

我们研究了工具集成推理(Tool-Integrated Reasoning, TIR)为何能够增强大语言模型(Large Language Models, LLMs)的能力。尽管集成了如Python代码解释器等工具的LLMs展现出巨大潜力,但此前尚缺乏一个系统性的理论来解释这一范式为何有效。本研究首次提供了形式化证明,表明TIR从根本上扩展了LLM的能力。我们证明,工具能够严格扩展模型的经验与可行支持域,通过解锁原本不可能或过于冗长而无法实现的问题求解策略,突破纯文本模型的能力上限。为了在不损害训练稳定性与性能的前提下引导模型行为,我们还提出了一种新颖的算法——优势函数塑造策略优化(Advantage Shaping Policy Optimization, ASPO),该算法通过直接修改优势函数来引导策略行为。我们在具有挑战性的数学基准任务上进行了全面实验,利用Python解释器作为外部工具。结果表明,TIR模型在pass@k指标上显著优于其纯文本基线模型。值得注意的是,这种优势不仅限于计算密集型问题,还延伸至需要高度抽象洞察的问题。我们进一步识别出模型使用工具时涌现出的认知模式。最后,我们发现ASPO在早期调用代码和更频繁的交互回合中表现出更优的工具使用行为。总体而言,我们的研究为TIR的成功提供了首个系统性的解释,将关注点从“工具有效”转向“其为何以及如何实现更强大的推理能力”。


5. Hermes 4 Technical Report

作者: Ryan Teknium, Roger Jin, Jai Suphavadeeprasit, Dakota Mahan, Jeffrey Quesnelle, Joe Li, Chen Guang, Shannon Sands, Karan Malhotra

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-25 | 👍 点赞数: 27

摘要:

我们介绍了Hermes 4,这是一个结合了结构化多轮推理与广泛指令跟随能力的混合推理模型系列。我们描述了在数据整理、合成、训练和评估过程中遇到的挑战,并概述了为大规模解决这些挑战所采用的解决方案。我们在数学推理、编程、知识、理解及对齐基准方面进行了全面评估,并报告了定量性能和定性行为分析。为了支持开放研究,所有模型权重均已公开发布,详见 https://huggingface.co/collections/NousResearch/hermes-4-collection-68a731bfd452e20816725728


6. MMTok: Multimodal Coverage Maximization for Efficient Inference of VLMs

作者: Sixun Dong, Juhua Hu, Mian Zhang, Ming Yin, Yanjie Fu, Qi Qian

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-25 | 👍 点赞数: 26

摘要:

摘要:视觉-语言模型(Vision-Language Models, VLMs)通过将视觉输入转换为视觉token,在理解语言指令指导下的视觉内容方面表现出色。然而,视觉token中的冗余信息导致了VLMs推理效率的下降。尽管已有许多算法旨在减少视觉token的数量,但大多数方法仅利用单模态信息(即视觉或文本)进行剪枝,忽略了视觉-语言任务固有的多模态特性。此外,目前缺乏一种适用于不同模态的通用准则。为缓解这一局限性,本文提出利用视觉和文本token,通过覆盖度准则选择具有信息量的视觉token。我们首先将子集选择问题建模为一个最大覆盖问题;随后,优化一个视觉token子集,使其同时覆盖文本token和原始视觉token集合;最后,可以采用一个VLM代理进一步提升文本token的质量,以更好地指导视觉token的剪枝。所提出的方法MMTok在多个基准数据集上使用不同的VLMs进行了广泛评估。对比结果显示,视觉和文本信息具有互补性,结合多模态信息能够显著超越单模态基线方法。此外,在POPE数据集上的最大覆盖准则下,我们的方法在LLaVA-NeXT-13B模型上实现了1.87倍的加速,同时保持了原始性能的98.7%;而在LLaVA-1.5-7B模型上,仅使用4个视觉token时仍能保留87.7%的原始性能。这些结果突出了覆盖度准则在token选择中的有效性。


7. T2I-ReasonBench: Benchmarking Reasoning-Informed Text-to-Image

Generation

作者: Kaiyue Sun, Rongyao Fang, Chengqi Duan, Xian Liu, Xihui Liu

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-24 | 👍 点赞数: 25

摘要:

我们提出了T2I-ReasonBench,一个用于评估图文生成(T2I)模型推理能力的基准测试。该基准包含四个维度:习语理解(Idiom Interpretation)、文本图像设计(Textual Image Design)、实体推理(Entity-Reasoning)和科学推理(Scientific-Reasoning)。我们提出了一种两阶段评估协议,以衡量推理准确性和图像质量。我们对多种T2I生成模型进行了基准测试,并对其表现进行了全面分析。


8. Breaking the Exploration Bottleneck: Rubric-Scaffolded Reinforcement

Learning for General LLM Reasoning

作者: Yang Zhou, Sunzhu Li, Shunyu Liu, Wenkai Fang, Jiale Zhao, Jingwen Yang, Jianwei Lv, Kongcheng Zhang, Yihe Zhou, Hengtong Lu, Wei Chen, Yan Xie, Mingli Song

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-23 | 👍 点赞数: 21

摘要:

摘要:
近期大型语言模型(Large Language Models, LLMs)的发展凸显了强化学习(Reinforcement Learning, RL)在促进推理能力涌现方面的潜力。尽管已有令人鼓舞的成果,但一个根本性困境仍然存在:RL 的提升依赖于从高质量样本中学习,而这些样本的探索却受限于 LLMs 本身的固有局限性。这实际上形成了一个恶性循环:无法探索的内容便无法学习。本研究提出了 Rubric-Scaffolded Reinforcement Learning(RuscaRL),一种新颖的指导性框架,旨在打破通用 LLM 推理中的探索瓶颈。具体而言,RuscaRL 引入清单式评分标准(rubrics)作为(1) rollout 生成过程中探索的显式支架,其中在任务指令中提供不同的 rubrics 作为外部引导,以引导生成多样化且高质量的响应。这种引导随着时间推移逐渐减弱,鼓励模型内化潜在的推理模式;(2)模型训练中利用的可验证奖励来源,通过将 rubrics 作为参考标准,可获得稳健的 LLM-as-a-Judge 评分,从而实现对通用推理任务的有效 RL。大量实验表明,RuscaRL 在多个基准测试中表现出优越性,显著扩展了最佳-of-N 评估下的推理边界。值得注意的是,在 HealthBench-500 上,RuscaRL 将 Qwen-2.5-7B-Instruct 的性能从 23.6 提升至 50.3,超越了 GPT-4.1。此外,我们在 Qwen3-30B-A3B-Instruct 上的微调变体在 HealthBench-500 上达到了 61.1,优于包括 OpenAI-o3 在内的主流 LLMs。


9. Beyond Memorization: Extending Reasoning Depth with Recurrence, Memory

and Test-Time Compute Scaling

作者: Ivan Rodkin, Daniil Orel, Konstantin Smirnov, Arman Bolatov, Bilal Elbouardi, Besher Hassan, Yuri Kuratov, Aydar Bulatov, Preslav Nakov, Timothy Baldwin, Artem Shelmanov, Mikhail Burtsev

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-22 | 👍 点赞数: 20

摘要:

推理是大型语言模型的核心能力,但它们如何学习并执行多步推理仍是一个未解问题。本研究探索了不同架构和训练方法在细胞自动机框架下对模型多步推理能力的影响。通过在排除记忆干扰的随机初始条件下,使用随机布尔函数生成的状态序列进行训练,我们证明大多数神经架构能够抽象出底层规则。虽然模型在下一步状态预测中表现出高准确性,但如果需要多步推理,其性能则显著下降。我们证实增加模型深度对序列计算至关重要。我们进一步证明,通过递归、记忆以及测试时计算扩展来增加模型的有效深度,可以显著增强其推理能力。


10. UQ: Assessing Language Models on Unsolved Questions

作者: Fan Nie, Ken Ziyu Liu, Zihao Wang, Rui Sun, Wei Liu, Weijia Shi, Huaxiu Yao, Linjun Zhang, Andrew Y. Ng, James Zou, Sanmi Koyejo, Yejin Choi, Percy Liang, Niklas Muennighoff

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-25 | 👍 点赞数: 13

摘要:

摘要:基准测试推动人工智能研究的进展。一个有效的基准测试应当兼具难度与现实性:问题既要挑战前沿模型,又要反映现实世界的应用。然而,当前的基准测试范式面临难度与现实性之间的矛盾:考试风格的基准测试往往人为地设置过高难度,但现实意义有限;而基于真实用户交互的基准测试则倾向于简单且高频的问题。在本研究中,我们探索了一种全新的范式:基于未解问题对语言模型进行评估。不同于一次评分的静态基准测试,我们整理了未解问题,并通过验证者辅助筛选和社区验证的方式随时间推移对模型进行异步评估。我们提出了UQ测试集,包含500个具有挑战性且多样化的问题,这些问题来源于Stack Exchange,涵盖计算机理论、数学、科幻、历史等多个领域,用于考察模型的推理能力、事实准确性和信息检索能力等。UQ在设计上兼具难度与现实性:未解问题通常具有较高难度,并且在人类寻求答案的过程中自然产生,因此解决这些问题能够直接带来现实价值。我们的贡献主要包括三方面:(1) UQ-Dataset及其数据收集流程,该流程结合了基于规则的过滤、大语言模型评审和人工审核,以确保问题质量(如定义清晰且难度较高);(2) UQ-Validators,一种复合验证策略,利用生成者-验证者差距(generator-validator gap)提供评估信号,并对候选答案进行预筛选以供人工审核;(3) UQ-Platform,一个开放平台,供专家共同验证问题与解答。目前表现最好的模型仅在UQ的15%问题上通过验证,初步的人工审核已从中确认了部分正确解答。UQ为评估前沿模型在现实世界开放性挑战中的表现提供了可行路径,其成功将拓展人类知识的边界。我们公开发布了UQ,访问地址为 https://uq.stanford.edu。


11. PosterGen: Aesthetic-Aware Paper-to-Poster Generation via Multi-Agent

LLMs

作者: Zhilin Zhang, Xiang Zhang, Jiaqi Wei, Yiwei Xu, Chenyu You

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-24 | 👍 点赞数: 13

摘要:

PosterGen:基于多智能体LLMs的审美感知论文到海报生成方法

基于大语言模型(LLMs)的多智能体系统在解决复杂的组合性任务方面展现出卓越的能力。在本研究中,我们将这一范式应用于论文到海报生成问题,这是一个研究人员在准备学术会议时常需面对但耗时的任务。尽管已有方法尝试对该任务进行自动化,但多数忽略了核心的设计与审美原则,导致生成的海报需要大量人工调整。为解决这些设计上的不足,我们提出了PosterGen,一种多智能体框架,其工作流程模拟了专业海报设计师的创作过程。该框架由四个协同工作的专业智能体组成:(1)解析器(Parser)与策展人(Curator)智能体负责从论文中提取内容并组织故事情节;(2)布局(Layout)智能体将内容映射为连贯的空间布局;(3)风格(Stylist)智能体应用视觉设计元素,如配色和字体排印;(4)渲染器(Renderer)智能体合成最终海报。这些智能体共同生成语义准确且视觉吸引人的海报。为评估设计质量,我们引入了一种基于视觉-语言模型(VLM)的评分标准,用于衡量布局平衡性、可读性和审美一致性。实验结果表明,PosterGen在内容保真度方面与现有方法表现相当,并在视觉设计方面显著优于现有方法,生成的海报几乎无需人工调整即可用于展示。


12. MEENA (PersianMMMU): Multimodal-Multilingual Educational Exams for

N-level Assessment

作者: Omid Ghahroodi, Arshia Hemmat, Marzia Nouri, Seyed Mohammad Hadi Hosseini, Doratossadat Dastgheib, Mohammad Vali Sanian, Alireza Sahebi, Reihaneh Zohrabi, Mohammad Hossein Rohban, Ehsaneddin Asgari, Mahdieh Soleymani Baghshah

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-24 | 👍 点赞数: 8

摘要:

MEENA(PersianMMMU):面向N级评估的多模态-多语言教育考试

近年来,大规模视觉-语言模型(VLMs)的研究主要集中在英语语言上,对其他语言的关注较少。为填补这一空白,我们推出了MEENA(亦称PersianMMMU),这是首个旨在评估波斯语VLMs在科学、推理及人类水平理解任务中的表现的数据集。本数据集包含约7,500道波斯语题目和3,000道英语题目,涵盖推理、数学、物理、图表、图示以及波斯艺术与文学等多个主题。MEENA的主要特点包括:(1) 覆盖从初等教育到高中高年级的多个教育阶段的多样化学科;(2) 丰富的元数据,包括难度等级和描述性答案;(3) 原创的波斯语数据,保留了文化细微差别;(4) 双语结构,用于评估跨语言性能;(5) 一系列多样化实验,评估包括总体性能、模型对图像的关注能力及其生成幻觉的趋势在内的多种能力。我们希望这一基准测试有助于提升非英语语言下的VLM能力。


13. ST-Raptor: LLM-Powered Semi-Structured Table Question Answering

作者: Zirui Tang, Boyu Niu, Xuanhe Zhou, Boxiu Li, Wei Zhou, Jiannan Wang, Guoliang Li, Xinyi Zhang, Fan Wu

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-25 | 👍 点赞数: 6

摘要:

ST-Raptor: 基于大语言模型的半结构化表格问答方法

半结构化表格广泛应用于实际场景(例如财务报告、医疗记录、交易订单),其布局通常灵活且复杂(例如层次化表头和合并单元格)。目前,这类表格通常依赖人工分析师解析表格结构并回答相关的自然语言问题,这一过程成本高昂且效率低下。为了实现流程自动化,现有方法面临显著挑战。首先,诸如NL2SQL的方法需要将半结构化表格转换为结构化表格,这通常会导致大量信息丢失。其次,诸如NL2Code和多模态大语言模型问答方法难以理解半结构化表格的复杂布局,因此无法准确回答相关问题。为此,我们提出了ST-Raptor,一种基于树结构的、面向半结构化表格问答的大语言模型框架。首先,我们引入了层次化正交树(HO-Tree)这一结构模型,用于捕捉复杂的半结构化表格布局,并提出了高效的树构建算法。其次,我们定义了一组基本的树操作,用于引导大语言模型执行常见的问答任务。对于用户的问题,ST-Raptor将其分解为更简单的子问题,生成相应的树操作流程,并通过操作-表格对齐实现精确的流程执行。第三,我们引入了一个两阶段验证机制:前向验证用于检查执行步骤的正确性,后向验证则通过从预测答案重构查询来评估答案的可靠性。为了评估性能,我们构建了SSTQA数据集,包含764个问题,覆盖102张真实世界中的半结构化表格。实验结果表明,ST-Raptor在答案准确率上比九个基线方法高出最多达20%。代码地址为 https://github.com/weAIDB/ST-Raptor。


14. Limitations of Normalization in Attention Mechanism

作者: Timur Mudarisov, Mikhail Burtsev, Tatiana Petrova, Radu State

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-25 | 👍 点赞数: 4

摘要:

本文研究了注意力机制中归一化的局限性。我们从一个理论框架出发,用以识别模型的选择能力以及标记选择过程中的几何分离特性。我们的分析包括在softmax缩放下对标记向量的距离和分离准则的明确界定。通过使用预训练GPT-2模型进行实验,我们实证验证了理论结果,并分析了注意力机制的关键行为。值得注意的是,我们发现随着所选标记数量的增加,模型区分有效标记的能力下降,通常会趋于均匀选择模式。我们还表明,在softmax归一化下,低温度设置下训练过程中存在梯度敏感性问题。这些发现加深了我们对基于softmax的注意力机制的理解,并促使未来注意力架构需要更稳健的归一化和选择策略。


15. MeshSplat: Generalizable Sparse-View Surface Reconstruction via Gaussian

Splatting

作者: Hanzhi Chang, Ruijie Zhu, Wenjie Chang, Mulin Yu, Yanzhe Liang, Jiahao Lu, Zhuoyuan Li, Tianzhu Zhang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-25 | 👍 点赞数: 4

摘要:

MeshSplat: 基于高斯点绘的通用稀疏视角表面重建方法

表面重建在计算机视觉与图形学领域得到了广泛研究。然而,当输入视角极度稀疏时,现有的表面重建方法难以恢复准确的场景几何。为了解决这一问题,我们提出了MeshSplat,一种基于高斯点绘(Gaussian Splatting)的通用稀疏视角表面重建框架。我们的核心思想是利用2DGS作为桥梁,将新视角合成与学习到的几何先验联系起来,并将这些先验迁移以实现表面重建。具体而言,我们引入了一个前馈网络来预测每视角像素对齐的2DGS,使网络能够合成新视角图像,从而避免了对直接3D真实值监督的需求。为了提高2DGS位置和方向预测的准确性,我们提出了一种加权Chamfer距离损失函数,用于正则化深度图,特别是在输入视角的重叠区域;同时设计了一个法向预测网络,将2DGS的方向与单目法向估计器预测的法向量对齐。大量实验验证了我们所提出改进的有效性,结果表明,我们的方法在通用稀疏视角网格重建任务中达到了当前最先进的性能。项目主页:https://hanzhichang.github.io/meshsplat_web


16. Neither Valid nor Reliable? Investigating the Use of LLMs as Judges

作者: Khaoula Chehbouni, Mohammed Haddou, Jackie Chi Kit Cheung, Golnoosh Farnadi

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-25 | 👍 点赞数: 3

摘要:

评估自然语言生成(NLG)系统仍然是自然语言处理(NLP)领域的一个核心挑战,而旨在成为通用系统的大型语言模型(LLMs)的兴起进一步加剧了这一挑战。近期,作为评判者的大型语言模型(LLJs)作为一种有前景的替代传统指标的方法出现,但其有效性仍未得到充分研究。本文提出,当前对LLJs的热情可能是过早的,因为其应用速度已超过了对其作为评估者在可靠性和有效性方面的严格审查。借鉴社会科学中的测量理论,我们识别并批判性地评估了LLJs使用的四个核心假设:其作为人类判断代理的能力、其作为评估者的功能、其可扩展性以及其成本效益。我们探讨了这些假设如何可能受到LLMs、LLJs本身的固有局限性或当前NLG评估实践中问题的挑战。为了使分析更具实证基础,我们研究了LLJs在三个应用场景中的使用:文本摘要、数据标注和安全性对齐。最后,我们强调在LLJs评估中需要采取更加负责任的评估实践,以确保其在该领域日益增长的角色能够促进而非削弱NLG领域的发展。


17. Explain Before You Answer: A Survey on Compositional Visual Reasoning

作者: Fucai Ke, Joy Hsu, Zhixi Cai, Zixian Ma, Xin Zheng, Xindi Wu, Sukai Huang, Weiqing Wang, Pari Delir Haghighi, Gholamreza Haffari, Ranjay Krishna, Jiajun Wu, Hamid Rezatofighi

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-24 | 👍 点赞数: 3

摘要:

组合视觉推理已成为多模态人工智能的一个关键研究前沿,旨在赋予机器类似人类的能力,以分解视觉场景、建立中间概念的基础,并进行多步骤的逻辑推理。尽管早期的综述聚焦于整体性的视觉-语言模型或多模态推理,但对快速扩展的组合视觉推理文献的专门综述仍然缺失。我们通过一项涵盖2023至2025年的全面调查填补这一空白,系统回顾了来自顶级会议(CVPR、ICCV、NeurIPS、ICML、ACL等)的260多篇论文。我们首先形式化了核心定义,并阐述了组合方法为何在认知对齐、语义保真度、鲁棒性、可解释性和数据效率方面具有优势。接着,我们追踪了一个五阶段的范式转变:从提示增强的语言中心型流水线,到工具增强的大语言模型(LLMs)和工具增强的视觉-语言模型(VLMs),再到新兴的思维链推理和统一的代理型VLMs,重点介绍了它们的架构设计、优势和局限性。随后,我们整理了60多个基准测试及其对应的评估指标,从基础准确性、思维链忠实性以及高分辨率感知等维度来评估组合视觉推理能力。基于这些分析,我们提炼出关键见解,识别出若干开放性挑战(例如,基于LLM的推理局限性、幻觉问题、对演绎推理的偏好、可扩展的监督、工具集成以及基准测试的局限性),并提出了未来的研究方向,包括世界模型集成、人机协同推理以及更丰富的评估协议。通过提供统一的分类体系、历史发展路径和批判性展望,本综述旨在成为基础性参考文献,并推动下一代组合视觉推理研究的发展。


18. TaDiCodec: Text-aware Diffusion Speech Tokenizer for Speech Language

Modeling

作者: Yuancheng Wang, Dekun Chen, Xueyao Zhang, Junan Zhang, Jiaqi Li, Zhizheng Wu

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-22 | 👍 点赞数: 3

摘要:

语音分词器作为语音语言模型的基础组件,当前的设计仍存在若干局限性,包括:1)依赖多层残差向量量化结构或高帧率,2)依赖辅助的预训练模型进行语义蒸馏,以及3)需要复杂的两阶段训练过程。本研究提出了一种新的方法——文本感知扩散Transformer语音编解码器(TaDiCodec),旨在克服上述挑战。TaDiCodec通过扩散自编码器实现量化与重建的端到端优化,并将文本引导信息集成至扩散解码器中,以提升重建质量并实现最优压缩。TaDiCodec在仅使用单层码本的情况下,实现了低至6.25 Hz的帧率和0.0875 kbps的比特率,对应24 kHz语音信号,并在诸如词错误率(WER)、说话人相似度(SIM)和语音质量(UTMOS)等关键语音生成评估指标上保持优异性能。值得注意的是,TaDiCodec采用单阶段端到端的训练范式,无需依赖辅助的预训练模型。我们还验证了TaDiCodec在基于语言模型的零样本文本到语音任务中的兼容性,涵盖了自回归建模和掩码生成建模两种方式,展示了其在语音语言建模方面的有效性与高效性,并显著缩小了重建与生成之间的差距。我们将开源代码和模型检查点。音频样本请访问https:/tadicodec.github.io/,代码和模型检查点请访问https:/github.com/HeCheng0625/Diffusion-Speech-Tokenizer。


19. SpotEdit: Evaluating Visually-Guided Image Editing Methods

作者: Sara Ghazanfari, Wei-An Lin, Haitong Tian, Ersin Yumer

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-25 | 👍 点赞数: 2

摘要:

SpotEdit:评估视觉引导图像编辑方法

视觉引导图像编辑是一种基于视觉线索和文本提示进行编辑的新型细粒度、可控内容生成范式。尽管近期的生成模型展现出卓越的能力,但现有的评估方法仍较为简单,难以充分反映实际应用场景中的编辑挑战。我们提出了SpotEdit,一个综合性基准,旨在跨多种扩散模型、自回归模型和混合生成模型系统评估视觉引导图像编辑方法,并揭示了各方法之间显著的性能差异。为应对一个关键但研究不足的挑战,我们的基准特别包含了一个关于幻觉现象的评估模块,展示了当前主流模型(如GPT-4o)如何错误地“幻觉”出视觉线索的存在并据此执行编辑任务。我们的代码和基准已公开发布于https://github.com/SaraGhazanfari/SpotEdit。


20. German4All - A Dataset and Model for Readability-Controlled Paraphrasing

in German

作者: Miriam Anschütz, Thanh Mai Pham, Eslam Nasrallah, Maximilian Müller, Cristian-George Craciun, Georg Groh

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-25 | 👍 点赞数: 1

摘要:

摘要:在不同复杂度层级之间进行文本释义的能力对于创建可为不同读者群体定制的易读文本至关重要。因此,我们提出了German4All,这是首个大规模德语对齐的可读性控制段落级释义数据集。该数据集涵盖五个可读性层级,包含超过25,000个样本。数据集通过GPT-4自动合成,并经过人工与基于大语言模型(LLM)的评估严格验证。基于German4All,我们训练了一个开源的可读性控制释义模型,在德语文本简化任务中达到了最先进的性能,从而实现了更细致且面向特定读者的文本调整。我们公开发布该数据集和模型,以推动多层级释义研究的进一步发展。


21. Semantic Diffusion Posterior Sampling for Cardiac Ultrasound Dehazing

作者: Tristan S. W. Stevens, Oisín Nolan, Ruud J. G. van Sloun

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-24 | 👍 点赞数: 1

摘要:

超声心动图在心脏成像中起着核心作用,能够提供用于诊断和监测的心脏动态图像。然而,由于多重路径混响引起的雾化效应,图像质量可能显著下降,特别是在成像困难的患者中。在本研究中,我们提出了一种面向MICCAI去雾超声挑战赛(DehazingEcho2025)的语义引导扩散模型去雾算法。我们的方法将基于语义分割得到的像素级噪声模型,集成到由干净超声数据上训练的生成先验引导的扩散后验采样框架中。在挑战数据集上的定量评估表明,该方法在对比度和保真度指标上均表现出优异的性能。提交算法的代码可在https://github.com/tristan-deep/semantic-diffusion-echo-dehazing 获取。


22. REGEN: Real-Time Photorealism Enhancement in Games via a Dual-Stage

Generative Network Framework

作者: Stefanos Pasios, Nikos Nikolaidis

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-23

摘要:

论文标题:REGEN: 通过双阶段生成网络框架实现游戏中的实时照片级真实感增强

英文摘要的中文翻译: 照片级真实感是现代视频游戏的一个重要方面,因为它能够塑造玩家体验,并同时影响沉浸感、叙事参与度和视觉保真度。尽管近期硬件技术的突破以及最先进的渲染技术显著提升了视频游戏的视觉真实感,但由于视觉质量和性能之间的权衡,在动态环境中以实时帧率实现真正的照片级真实感仍然是一个重大挑战。在这篇短文中,我们提出了一种使用生成对抗网络增强渲染游戏帧照片级真实感的新方法。为此,我们提出了通过双阶段生成网络框架实现游戏中的实时照片级真实感增强(REGEN),该方法采用了一种稳健的非配对图像到图像转换模型,以生成语义一致的照片级真实感帧,将问题转化为一个更简单的配对图像到图像转换任务。这使得可以通过轻量级方法进行训练,从而在不牺牲视觉质量的前提下实现实时推理速度。我们在《侠盗猎车手5》(Grand Theft Auto V)中展示了我们框架的有效性,结果表明该方法的视觉效果可与稳健的非配对Im2Im方法生成的效果相媲美,同时推理速度提高了32.14倍。我们的研究结果还表明,该方法优于直接训练轻量级非配对Im2Im转换方法以将视频游戏帧向真实世界图像视觉特性转换所生成的照片级真实感帧。本文的代码、预训练模型和演示可在以下网址获取:https://github.com/stefanos50/REGEN。


23. If We May De-Presuppose: Robustly Verifying Claims through

Presupposition-Free Question Decomposition

作者: Shubhashis Roy Dipta, Francis Ferraro

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-22

摘要:

先前的研究表明,生成的问题中的预设可能会引入未经验证的假设,从而导致声明验证中的不一致性。此外,提示敏感性仍然是大型语言模型(LLMs)面临的重要挑战,导致性能差异高达3-6%。尽管近期的研究进展已缩小了这一差距,但我们的研究证明提示敏感性仍然是一个持续存在的问题。为了解决这一问题,我们提出了一种结构化且稳健的声明验证框架,通过无预设的分解问题进行推理。在多种提示、数据集和LLMs上的大量实验表明,即使是最先进的模型,仍然容易受到提示变化和预设的影响。我们的方法能够持续缓解这些问题,实现了最高2-5%的性能提升。