每日论文 - 2025年09月29日
论文总数: 44
1. LongLive: Real-time Interactive Long Video Generation
作者: Shuai Yang, Wei Huang, Ruihang Chu, Yicheng Xiao, Yuyang Zhao, Xianbang Wang, Muyang Li, Enze Xie, Yingcong Chen, Yao Lu, Song Han, Yukang Chen
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-26 | 👍 点赞数: 168
摘要:
论文标题:LongLive:实时交互式长视频生成
中文摘要:
本文提出 LongLive,一种面向实时交互式长视频生成的帧级自回归(AR)框架。长视频生成在效率与质量两方面均面临挑战。扩散模型(Diffusion)及扩散强制(Diffusion-Forcing)模型虽能生成高质量视频,但由于采用双向注意力机制,推理效率较低。因果注意力自回归模型支持KV缓存,可加速推理过程,但在长视频训练中因内存压力导致模型质量下降。此外,除静态提示词驱动的生成外,动态内容创作还需具备交互能力,例如流式输入提示词,使用户能够实时引导叙事发展。此类交互需求显著增加了系统复杂性,尤其是在提示词切换过程中保持视觉一致性与语义连贯性方面。为应对上述挑战,LongLive 采用因果式的帧级自回归架构,并引入三项关键技术:一是 KV重缓存机制(KV-recache),可在接收新提示时刷新缓存状态,实现平滑且贴合的生成切换;二是流式长时微调(streaming long tuning),支持长视频训练,并确保训练与推理模式一致(train-long-test-long);三是短窗口注意力结合帧级注意力锚点(frame-level attention sink,简称 frame sink),在保障长程一致性的同时提升生成速度。基于这些设计,LongLive 仅用 32 块 GPU 天即可将一个 13 亿参数的短片段模型微调至支持分钟级长视频生成。在推理阶段,LongLive 在单块 NVIDIA H100 GPU 上可达 20.7 FPS 的生成速度,在 VBench 评测中对短视频和长视频均表现出色,最高支持在单卡上生成长达 240 秒的视频。此外,LongLive 还支持 INT8 量化推理,仅带来轻微的质量损失。
2. EPO: Entropy-regularized Policy Optimization for LLM Agents
Reinforcement Learning
作者: Xu Wujiang, Wentian Zhao, Zhenting Wang, Li Yu-Jhe, Jin Can, Jin Mingyu, Mei Kai, Wan Kun, Metaxas Dimitris
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-26 | 👍 点赞数: 124
摘要:
论文标题:EPO:面向大语言模型智能体的熵正则化策略优化
强化学习
中文摘要:
在稀疏奖励的多轮交互环境中训练大语言模型(LLM)智能体——其中完成单个任务需要在一个回合内进行30轮以上的交互——对强化学习构成了根本性挑战。我们识别出在此类场景下存在的一种独特失效模式:探索-利用级联失败。该级联过程始于策略的早期过早收敛,由于反馈稀疏,智能体倾向于采用有缺陷的、低熵策略;随后进入后期策略崩溃阶段,此时传统的熵正则化反而适得其反,引发混乱的探索行为,导致训练失稳。为此,我们提出熵正则化策略优化(Entropy-regularized Policy Optimization, EPO),这是一种通过三个协同机制打破该失败循环的通用框架:(1)在多轮设置中引入熵正则化以增强探索能力;(2)设计熵平滑正则项,将策略熵限制在历史平均值范围内,防止剧烈波动;(3)采用自适应分阶段加权机制,在训练过程中动态平衡探索与利用。我们的理论分析表明,EPO能够在保证收敛的同时,确保熵方差单调递减。实验结果表明,EPO在ScienceWorld上性能提升高达152%,在ALFWorld上提升达19.8%。本研究揭示了多轮稀疏奖励场景需要与传统强化学习截然不同的熵控制机制,对大语言模型智能体的训练具有广泛意义。
3. Quantile Advantage Estimation for Entropy-Safe Reasoning
作者: Junkang Wu, Kexin Huang, Jiancan Wu, An Zhang, Xiang Wang, Xiangnan He
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-26 | 👍 点赞数: 113
摘要:
论文标题:用于熵安全推理的分位数优势估计
中文摘要:
基于可验证奖励的强化学习(RLVR)能够增强大语言模型(LLM)的推理能力,但其训练过程常在“熵崩溃”与“熵爆炸”之间震荡。我们将这两种问题归因于无价值函数的强化学习方法(如GRPO和DAPO)中所使用的均值基线,该基线在奖励出现异常值时会错误地惩罚具有负优势的样本。为此,我们提出“分位数优势估计”(Quantile Advantage Estimation, QAE),将均值基线替换为按组划 分的K-分位数基线。QAE 引入了一种响应级别的双机制门控结构:在困难问题上(成功概率 p ≤ 1−K)强化稀有的成功响应,而在简单问题上(p > 1−K)则聚焦于尚未成功的失败案例。在一阶softmax更新下,我们证明了QAE具有“双向熵安全性”,即对单步熵变提供下界和上界,从而抑制熵爆炸并防止熵崩溃。实验表明,这一极简修改有效稳定了熵水平,实现了稀疏化的信用分配(通过调节K,约80%的响应获得零优势值),并在AIME 2024/2025和AMC 2023等多个基准上,持续提升了Qwen3-8B/14B-Base模型的pass@1性能。本研究结果表明,“基线设计”而非token级别的启发式方法,才是推动RLVR可扩展性的核心机制。
4. MinerU2.5: A Decoupled Vision-Language Model for Efficient
High-Resolution Document Parsing
作者: Junbo Niu, Zheng Liu, Zhuangcheng Gu, Bin Wang, Linke Ouyang, Zhiyuan Zhao, Tao Chu, Tianyao He, Fan Wu, Qintong Zhang, Zhenjiang Jin, Guang Liang, Rui Zhang, Wenzheng Zhang, Yuan Qu, Zhifei Ren, Yuefeng Sun, Yuanhong Zheng, Dongsheng Ma, Zirui Tang, Boyu Niu, Ziyang Miao, Hejun Dong, Siyi Qian, Junyuan Zhang, Jingzhou Chen, Fangdong Wang, Xiaomeng Zhao, Liqun Wei, Wei Li, Shasha Wang, Ruiliang Xu, Yuanyuan Cao, Lu Chen, Qianqian Wu, Huaiyu Gu, Lindong Lu, Keming Wang, Dechen Lin, Guanlin Shen, Xuanhe Zhou, Linfeng Zhang, Yuhang Zang, Xiaoyi Dong, Jiaqi Wang, Bo Zhang, Lei Bai, Pei Chu, Weijia Li, Jiang Wu, Lijun Wu, Zhenxiang Li, Guangyu Wang, Zhongying Tu, Chao Xu, Kai Chen, Yu Qiao, Bowen Zhou, Dahua Lin, Wentao Zhang, Conghui He
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-26 | 👍 点赞数: 100
摘要:
论文标题:MinerU2.5:一种用于高效高分辨率文档解析的解耦视觉-语言模型
中文摘要:
本文提出 MinerU2.5,一个参数量为12亿的文档解析视觉-语言模型,在保持卓越计算效率的同时,实现了最先进的识别精度。我们的方法采用由粗到精的两阶段解析策略,将全局版式分析与局部内容识别进行解耦。在第一阶段,模型在降采样图像上高效执行版式分析,以识别文档中的结构化元素,从而避免直接处理高分辨率输入带来的巨大计算开销。在第二阶段,基于第一阶段获得的全局版式信息,模型对从原始图像中提取的原生分辨率局部区域进行有针对性的内容识别,有效保留密集文本、复杂公式和表格中的细粒度细节。为支持该策略,我们开发了一个综合性的数据引擎,能够生成多样化、大规模的训练语料,用于模型的预训练和微调。最终,MinerU2.5 展现出强大的文档解析能力,在多个基准测试上均达到最先进的性能,超越了通用模型和领域专用模型在各类识别任务中的表现,同时显著降低了计算资源消耗。
5. Variational Reasoning for Language Models
作者: Xiangxin Zhou, Zichen Liu, Haonan Wang, Chao Du, Min Lin, Chongxuan Li, Liang Wang, Tianyu Pang
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-26 | 👍 点赞数: 66
摘要:
论文标题:语言模型的变分推理
中文摘要: 我们提出了一种用于语言模型的变分推理框架,该框架将思维轨迹视为隐变量,并通过变分推断对其进行优化。从证据下界(ELBO)出发,我们将其扩展为多轨迹目标以获得更紧致的边界,并提出一种前向KL形式化方法,以稳定变分后验的训练过程。我们进一步表明,拒绝采样微调以及二元奖励的强化学习方法(包括GRPO)均可被解释为局部前向KL目标,其中模型准确率的隐式加权自然地从推导中浮现,揭示了以往未被注意到的对简单问题的偏好偏差。我们在Qwen 2.5和Qwen 3模型系列上广泛验证了该方法在多种推理任务上的有效性。总体而言,本研究提供了一个原则性的概率视角,统一了变分推断与强化学习类方法,并为提升语言模型的推理能力提供了稳定的优化目标。我们的代码可在 https://github.com/sail-sg/variational-reasoning 获取。
6. Language Models Can Learn from Verbal Feedback Without Scalar Rewards
作者: Renjie Luo, Zichen Liu, Xiangyan Liu, Chao Du, Min Lin, Wenhu Chen, Wei Lu, Tianyu Pang
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-26 | 👍 点赞数: 64
摘要:
论文标题:语言模型可以从言语反馈中学习而无需标量奖励
摘要:
大语言模型(LLMs)通常通过来自人类或人工智能的反馈进行强化学习训练,但这类方法通常将复杂的反馈压缩为标量奖励,从而丢失了其丰富的信息,并导致奖励尺度上的不平衡。我们提出将言语反馈视为一种条件信号。受文本到图像生成中语言先验的启发——这类先验使得模型能够根据未见过的提示生成新颖内容——我们提出了反馈条件策略(Feedback-Conditional Policy, FCP)。FCP 直接从回复-反馈对中学习,通过对离线数据进行最大似然训练,来近似反馈条件下的后验分布。我们进一步设计了一个在线自举阶段,在该阶段中,策略在正向条件下生成回复,并接收新的反馈以实现自我优化。该方法将基于反馈的学习重新定义为条件生成问题,而非奖励优化问题,为大语言模型直接从言语反馈中学习提供了一种更具表达力的途径。我们的代码可在 https://github.com/sail-sg/feedback-conditional-policy 获取。
7. ReviewScore: Misinformed Peer Review Detection with Large Language
Models
作者: Hyun Ryu, Doohyuk Jang, Hyemin S. Lee, Joonhyun Jeong, Gyeongman Kim, Donghyeon Cho, Gyouk Chu, Minyeong Hwang, Hyeongwon Jang, Changhun Kim, Haechan Kim, Jina Kim, Joowon Kim, Yoonjeon Kim, Kwanhyung Lee, Chanjae Park, Heecheol Yun, Gregor Betz, Eunho Yang
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-25 | 👍 点赞数: 62
摘要:
论文标题:ReviewScore:基于大语言模型的误判型同行评审检测
中文摘要:
同行评审是学术研究的基石,但在大多数人工智能领域的会议上,随着投稿数量激增,评审质量正在下降。为了可靠地识别低质量评审,我们将“误判型评审点”定义为:评审中所指出的“缺陷”包含错误的前提,或评审中提出的“问题”已在论文中得到回答。我们验证发现,15.2%的“缺陷”和26.4%的“问题”属于误判型内容,并由此提出ReviewScore指标,用于判断一个评审点是否基于错误信息。为评估每个“缺陷”中各前提的真实性,我们设计了一种自动化引擎,能够从每条“缺陷”中重构出所有显性和隐性前提。我们构建了一个由领域专家人工标注的ReviewScore数据集,以检验大语言模型(LLMs)在自动化评估ReviewScore方面的能力。随后,我们使用当前八种最先进的大语言模型,测量其与人类在ReviewScore判断上的一致性,结果表明二者具有中等程度的一致性。我们还证明,在前提层级(premise-level)上评估真实性比在“缺陷”整体层级(weakness-level)上评估具有显著更高的一致性。深入的分歧分析进一步支持了实现ReviewScore全自动评估的可行性。
8. LLaVA-OneVision-1.5: Fully Open Framework for Democratized Multimodal
Training
作者: Xiang An, Yin Xie, Kaicheng Yang, Wenkang Zhang, Xiuwei Zhao, Zheng Cheng, Yirui Wang, Songcen Xu, Changrui Chen, Chunsheng Wu, Huajie Tan, Chunyuan Li, Jing Yang, Jie Yu, Xiyao Wang, Bin Qin, Yumeng Wang, Zizhen Yan, Ziyong Feng, Ziwei Liu, Bo Li, Jiankang Deng
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-28 | 👍 点赞数: 38
摘要:
论文标题:LLaVA-OneVision-1.5:面向普惠多模态训练的完全开源框架
中文摘要:
本文提出 LLaVA-OneVision-1.5,这是一种新型的大型多模态模型(LMM)系列,在显著降低计算与财务成本的同时,实现了最先进的性能。不同于现有工作,LLaVA-OneVision-1.5 提供了一个开放、高效且可复现的框架,支持从零开始完整构建高质量的视觉-语言模型。LLaVA-OneVision-1.5 的发布包含三个核心组成部分:(1)大规模精选数据集:我们构建了一个包含 8500 万样本、概念均衡的预训练数据集 LLaVA-OneVision-1.5-Mid-Training,以及一个精心整理的 2600 万样本指令微调数据集 LLaVA-OneVision-1.5-Instruct,两者共涵盖约 640 亿个压缩后的多模态 token;(2)高效训练框架:我们开发了一套完整的端到端高效训练框架,采用离线并行数据打包策略,使得在 16,000 美元预算内即可完成 LLaVA-OneVision-1.5 的训练;(3)先进性能表现:实验结果表明,LLaVA-OneVision-1.5 在广泛的下游任务中表现出极具竞争力的性能。具体而言,LLaVA-OneVision-1.5-8B 在 27 个基准测试中的 18 个上优于 Qwen2.5-VL-7B,而 LLaVA-OneVision-1.5-4B 在全部 27 个基准上均超越 Qwen2.5-VL-3B。我们预计即将发布 LLaVA-OneVision-1.5-RL 版本,欢迎社区持续关注后续更新。
9. No Prompt Left Behind: Exploiting Zero-Variance Prompts in LLM
Reinforcement Learning via Entropy-Guided Advantage Shaping
作者: Thanh-Long V. Le, Myeongho Jeon, Kim Vu, Viet Lai, Eunho Yang
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-26 | 👍 点赞数: 35
摘要:
论文标题:不让任何一个提示 落空:通过熵引导的优势塑造在大语言模型强化学习中挖掘零方差提示的价值
中文摘要:
基于可验证奖励的强化学习(Reinforcement Learning with Verifiable Rewards, RLVR)是一种提升大语言模型(Large Language Models, LLMs)推理能力的强大框架。然而,现有方法(如GRPO)仅利用那些在同一输入下模型输出结果在正确性上存在差异的问题,而忽略了所有输出均获得相同奖励的样本——即所谓的“零方差提示”。在本文中,我们认为这类提示并非无用,反而可以为策略优化提供有意义的学习反馈。为此,我们提出了“带零方差提示的强化学习”(RL-ZVP),这是一种新颖的算法,能够从零方差提示中提取学习信号。RL-ZVP 能够直接奖励正确行为、惩罚错误行为,即使在缺乏对比性响应的情况下也能实现,并结合词元级别(token-level)的特征调节反馈,以保留具有信息量且细致的信号。在六个数学推理基准上的实验表明,与 GRPO 相比,RL-ZVP 在准确率上最高提升了 8.61 个百分点,在通过率上最高提升了 7.77 个百分点,并持续优于其他过滤掉零方差提示的基线方法。这些结果凸显了在 RLVR 中利用零方差提示进行学习的巨大潜力。
10. CapRL: Stimulating Dense Image Caption Capabilities via Reinforcement
Learning
作者: Long Xing, Xiaoyi Dong, Yuhang Zang, Yuhang Cao, Jianze Liang, Qidong Huang, Jiaqi Wang, Feng Wu, Dahua Lin
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-26 | 👍 点赞数: 31
摘要:
论文标题:CapRL:通过强化学习激发密集图像描述生成能力
中文摘要:
图像描述生成是一项连接视觉与语言领域的基础性任务,在大规模视觉-语言模型(LVLMs)的预训练中发挥着关键作用。当前最先进的图像描述模型通常采用监督微调(Supervised Fine-Tuning, SFT)方式进行训练,这种范式依赖于由人类或专有模型标注的昂贵且难以扩展的数据。该方法往往导致模型过度记忆特定的真实标注答案,限制了其泛化能力以及生成多样化、创造性描述的能力。为了克服SFT的局限性,我们提出将可验证奖励强化学习(Reinforcement Learning with Verifiable Rewards, RLVR)范式应用于开放式的图像描述任务。然而,一个主要挑战在于如何为“什么是好的图像描述”这一本质上具有主观性的任务设计客观的奖励函数。为此,我们提出了图像描述强化学习框架(Captioning Reinforcement Learning, CapRL),该框架通过描述的实用性重新定义描述质量:高质量的图像描述应能使一个无需视觉输入的语言模型准确回答关于对应图像的问题。CapRL采用解耦的两阶段流程:首先由一个LVLM生成图像描述,随后基于该描述,利用一个独立的、不依赖视觉信息的纯语言模型(LLM)回答多项选择题的准确性来计算客观奖励信号。作为首个将RLVR应用于主观性图像描述任务的研究,我们证明了CapRL在多种设置下均显著提升性能。使用CapRL-3B模型标注生成的CapRL-5M描述数据集进行预训练后,在12项基准测试中均取得显著提升。此外,在Prism图像描述质量评估框架下,CapRL的表现可媲美Qwen2.5-VL-72B,平均超越基线模型8.4%。代码已公开发布:https://github.com/InternLM/CapRL。
11. PromptCoT 2.0: Scaling Prompt Synthesis for Large Language Model
Reasoning
作者: Xueliang Zhao, Wei Wu, Jian Guan, Zhuocheng Gong, Lingpeng Kong
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-24 | 👍 点赞数: 31
摘要:
论文标题:PromptCoT 2.0:面向大语言模型推理的可扩展提示合成方法
中文摘要:
大语言模型(LLMs)正从对话系统演变为强大的推理引擎,能够应对奥数竞赛和编程竞赛等复杂任务。尽管参数规模扩大和测试时计算资源的增加推动了进展,但一个关键瓶颈在于高质量训练问题的缺乏:人工构建的数据集成本高昂且数量有限,而已有的合成语料库往往过于简单或覆盖范围狭窄。PromptCoT 1.0 表明,在提示合成过程中引入推理过程(rationales)可提升问题难度。在此基础上,我们提出 PromptCoT 2.0——一种可扩展的框架,用期望最大化(Expectation-Maximization, EM)循环取代手工设计的启发式规则,通过迭代优化推理过程来指导提示的构建。该方法生成的问题在难度和多样性上均超越以往语料库。这些合成提示支持两种后训练范式:(1)自我对弈(Self-Play),即强模型在无需更强教师的情况下,通过可验证的反馈实现自主提升;(2)监督微调(Supervised Fine-Tuning, SFT),即弱模型从教师模型蒸馏出的推理轨迹中学习。大量实验验证了该方法的有效性。在自我对弈中,将 PromptCoT 2.0 应用于 Qwen3-30B-A3B-Thinking-2507 模型,在 30B 参数量级上取得了新的最先进性能,AIME 24、AIME 25 和 HMMT 25 分别提升 +4.4、+4.8 和 +5.3,LiveCodeBench v5/v6 提升 +6.1 和 +5.0,Codeforces 评分提升 +35 Elo。在监督微调中,仅使用合成提示训练 Qwen2.5-7B-Instruct 模型,其准确率即达到 73.1(AIME 24)、65.6(AIME 25)和 53.4(LiveCodeBench v5),优于使用人类标注或混合数据训练的同类模型。进一步分析证实,PromptCoT 2.0 生成的问题本质上更具挑战性,并在分布上与现有数据集显著不同。这些结果确立了提示合成为推理能力扩展的新维度,并将 PromptCoT 2.0 定位为未来开源模型可扩展推理训练的基础架构。本项目代码已公开,地址为 https://github.com/inclusionAI/PromptCoT。
12. MesaTask: Towards Task-Driven Tabletop Scene Generation via 3D Spatial
Reasoning
作者: Jinkun Hao, Naifu Liang, Zhen Luo, Xudong Xu, Weipeng Zhong, Ran Yi, Yichen Jin, Zhaoyang Lyu, Feng Zheng, Lizhuang Ma, Jiangmiao Pang
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-26 | 👍 点赞数: 30
摘要:
论文标题:MesaTask:通过三维空间推理实现面向任务的桌面场景生成
中文摘要:
机器人理解和执行人类指令以完成操作任务的能力,依赖于大量与任务相关的桌面场景用于训练。然而,传统构建此类场景的方法要么依赖耗时的手动布局设计,要么采用完全随机的布置,这些方法在场景合理性或与任务的匹配度方面存在局限性。本文提出了一项新任务——面向任务的桌面场景生成,该任务面临的主要挑战在于高层任务指令与具体桌面场景之间存在巨大鸿沟。为支持这一具有挑战性任务的研究,我们推出了MesaTask-10K,这是一个大规模数据集,包含约10,700个合成的桌面场景,其 布局经过人工精心设计,确保了场景的真实性和物体间复杂的相互关系。为了弥合任务与场景之间的差距,我们提出了一种“空间推理链”(Spatial Reasoning Chain),将场景生成过程分解为对象推断、空间关系推理以及最终三维布局的场景图构建三个步骤。在此基础上,我们提出了MesaTask——一种基于大语言模型(LLM)的框架,该框架利用上述推理链,并结合DPO(Direct Preference Optimization)算法进行优化,能够生成物理上合理且与给定任务描述高度一致的桌面场景。大量实验结果表明,MesaTask在生成符合任务要求且布局真实的桌面场景方面显著优于基线方法。项目主页位于 https://mesatask.github.io/
13. Fine-tuning Done Right in Model Editing
作者: Wanli Yang, Fei Sun, Rui Tang, Hongyu Zang, Du Su, Qi Cao, Jingang Wang, Huawei Shen, Xueqi Cheng
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-26 | 👍 点赞数: 27
摘要:
论文标题:模型编辑中的正确微调方法
中文摘要:
微调作为适应大语言模型的基础方法,长期以来被认为在模型编辑任务中效果不佳。本文挑战了这一观点,指出此前报道的失败并非源于微 调方法本身的固有局限,而是由于将其应用于序列化的编辑任务所导致——即采用单次遍历、深度优先的流程,在处理下一个样本前将每个样本优化至收敛。尽管这种深度优先流程看似合理,但结合逐样本更新的方式会导致对每次编辑的过度优化,并引发不同编辑之间的相互干扰。我们的控制实验表明,只需将微调恢复为标准的广度优先(即基于epoch)流程,并采用小批量优化(mini-batch optimization),即可显著提升其在模型编辑中的有效性。此外,模型编辑中的微调还受到先前方法遗留下来的调参位置不当的影响。通过对调参位置进行系统分析,我们提出了LocFT-BF——一种建立在恢复后的微调框架之上的简单而高效的局部化编辑方法。在多种大语言模型和数据集上的大量实验表明,LocFT-BF大幅超越现有最先进方法。值得注意的是,据我们所知,它是首个能够在不损害模型通用能力的前提下,支持10万次编辑和720亿参数级别模型的方法,编辑规模达到此前工作的10倍以上。通过澄清一个长期存在的误解,并提出一种有理论依据的局部调参策略,我们将微调从被低估的基线方法提升为领先的模型编辑方法,为未来研究奠定了坚实基础。
14. See, Point, Fly: A Learning-Free VLM Framework for Universal Unmanned
Aerial Navigation
作者: Chih Yao Hu, Yang-Sen Lin, Yuna Lee, Chih-Hai Su, Jie-Ying Lee, Shr-Ruei Tsai, Chin-Yang Lin, Kuan-Wen Chen, Tsung-Wei Ke, Yu-Lun Liu
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-26 | 👍 点赞数: 23
摘要:
论文标题:见,指,飞:一种用于通用无人机导航的无需学习的视觉-语言模型框架
中文摘要:
本文提出“见、指、飞”(See, Point, Fly,简称SPF),一种建立在视觉-语言模型(VLM)基础上、无需训练的空中视觉与语言导航(AVLN)框架。SPF能够根据任意形式的自然语言指令,在任意环境中引导无人机飞向目标。与现有基于VLM的方法将动作预测视为文本生成任务不同,我们的核心思想是将AVLN中的动作预测转化为二维空间定位(2D spatial grounding)任务。SPF利用VLM将模糊的语言指令分解为在输入图像上逐步生成的二维航点标注。结合预测的移动距离,SPF将这些二维航点转换为三维位移向量,作为无人机的控制指令。此外,SPF还能自适应地调整飞行距离,以实现更高效的导航。值得注意的是,SPF以闭环控制方式执行导航,使无人机能够在动态环境中跟踪移动目标。在深度强化学习(DRL)仿真基准测试中,SPF取得了当前最优性能,绝对性能超越此前最佳方法63%。在大量真实世界场景的实验评估中,SPF也显著优于多种强基线方法。我们还进行了全面的消融研究,验证了各项设计选择的有效性。最后,SPF展现出对不同视觉-语言模型出色的泛化能力。项目主页:https://spf-web.pages.dev
15. UltraHorizon: Benchmarking Agent Capabilities in Ultra Long-Horizon
Scenarios
作者: Haotian Luo, Huaisong Zhang, Xuelin Zhang, Haoyu Wang, Zeyu Qin, Wenjie Lu, Guozheng Ma, Haiying He, Yingsha Xie, Qiyang Zhou, Zixuan Hu, Hongze Mi, Yibo Wang, Naiqiang Tan, Hong Chen, Yi R. Fung, Chun Yuan, Li Shen
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-26 | 👍 点赞数: 23
摘要:
论文标题:UltraHorizon:超长视野场景下智能体能力的基准测试
中文摘要:
近年来,自主智能体在多个领域取得了显著进展,但现有评估大多集中于短视野、完全可观测的任务。然而,许多关键的现实世界任务——如大规模软件开发、商业投资和科学发现——通常发生在长视野且部分可观测的环境中,其成功依赖于持续的推理、规划、记忆管理以及工具使用能力。当前的基准测试很少涵盖这类长视野挑战,导致在系统性评估方面存在明显空白。为填补这一空白,我们提出了 UltraHorizon,一种新颖的基准测试框架,旨在衡量应对复杂现实任务所需的核心基础能力。我们在三个不同环境中采用“探索”作为统一任务,以验证智能体的这些关键能力。智能体被置于长视野的发现任务中,必须通过持续 的推理、规划、记忆与工具管理,以及与环境的交互,逐步揭示隐藏规则。在最大规模设置下,任务轨迹平均超过20万个token,并包含400多次工具调用;即使在标准配置下,轨迹长度仍平均超过3.5万个token,涉及60余次工具调用。大量实验结果表明,基于大语言模型(LLM)的智能体在此类任务中表现持续不佳,而人类参与者则取得更高得分,凸显了智能体在长视野任务能力上的显著差距。我们还发现,简单的模型或资源扩展在此任务中效果有限。为进一步揭示智能体失败的原因,我们对收集到的任务轨迹进行了深入分析,识别出八类典型错误,并将其归因于两大根本原因:上下文锁定(in-context locking)和功能性基础能力缺失(functional fundamental capability gaps)。
https://github.com/StarDewXXX/UltraHorizon(我们的代码将在此发布。)
16. VoiceAssistant-Eval: Benchmarking AI Assistants across Listening,
Speaking, and Viewing
作者: Ke Wang, Houxing Ren, Zimu Lu, Mingjie Zhan, Hongsheng Li
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-26 | 👍 点赞数: 21
摘要:
论文标题:VoiceAssistant-Eval:面向听、说、看能力的AI助手综合评测基准
中文摘要:
随着大语言模型和多模态系统能力的不断提升,以语音为核心的AI助手受到广泛关注,然而现有评测基准难以全面评估此类系统的各项能力。为此,我们提出了VoiceAssistant-Eval,一个涵盖“听”、“说”、“看”三个维度的综合性评测基准。VoiceAssistant-Eval包含10,497个精心筛选的样本,覆盖13个任务类别,涉及自然声音、音乐和口语对话等听力任务;多轮对话、角色扮演模仿及多种场景下的口语表达任务;以及高度异构的图像理解任务。为验证其有效性,我们对21个开源模型及GPT-4o-Audio进行了评估,衡量其回应内容质量、语音输出质量以及一致性表现。实验结果揭示了三个关键发现:(1)专有模型并非在所有方面均优于开源模型;(2)大多数模型在“说”的任务上表现良好,但在音频理解方面仍存在明显不足;(3)设计优良的小型模型可与更大规模的模型相媲美。值得注意的是,中等规模的Step-Audio-2-mini(7B)在听力准确率上超过LLaMA-Omni2-32B-Bilingual两倍以上。然而,当前模型仍面临挑战:多模态(音频加视觉)输入任务和角色扮演式语音模仿任务难度较高,且在鲁棒性和安全对齐方面仍存在显著差距。VoiceAssistant-Eval明确了这些短板,并为下一代AI助手的评估与发展建立了严谨的框架。代码与数据将发布于 https://mathllm.github.io/VoiceAssistantEval/ 。
17. LucidFlux: Caption-Free Universal Image Restoration via a Large-Scale
Diffusion Transformer
作者: Song Fei, Tian Ye, Lujia Wang, Lei Zhu
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-26 | 👍 点赞数: 21
摘要:
论文标题:LucidFlux:基于大规模扩散Transformer的无文本提示通用图像恢复
中文摘要:
通用图像恢复(Universal Image Restoration, UIR)旨在从未知退化混合条件下恢复图像,同时保持其语义内容。在此类情况下,判别式恢复模型以及基于UNet的扩散先验方法常常出现过度平滑、产生幻觉或语义偏移等问题。本文提出LucidFlux,一种无需图像文本描述的UIR框架,能够在没有图文标注的情况下适配大规模扩散Transformer模型(Flux.1)。LucidFlux引入了一个轻量级双分支条件模块,分别从退化输入和轻度恢复的代理图像中注入信号,以锚定几何结构并抑制伪影。随后,设计了一种时间步与网络层自适应的调制策略,将这些条件信息在主干网络的层级结构中进行动态路由,实现由粗到细、上下文感知的特征更新,在保护全局结构的同时恢复纹理细节。此外,为了避免文本提示或大语言多模态模型(MLLM)生成描述所带来的延迟与不稳定性,我们通过代理图像提取SigLIP特征, 实现无文本提示的语义对齐。我们还构建了一个可扩展的数据筛选流程,用于从大规模数据中筛选出结构丰富的样本以增强监督效果。在合成数据与真实场景下的多个基准测试中,LucidFlux consistently 优于现有的强开源及商业基线方法,消融实验也验证了各组件的必要性。本研究表明,对于大规模扩散Transformer而言,在真实复杂场景下实现鲁棒且无需文本提示的通用图像恢复,关键在于“何时”、“何地”以及“如何”进行条件控制——而非简单增加参数或依赖文本提示。
18. Mind-the-Glitch: Visual Correspondence for Detecting Inconsistencies in
Subject-Driven Generation
作者: Abdelrahman Eldesokey, Aleksandar Cvejic, Bernard Ghanem, Peter Wonka
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-26 | 👍 点赞数: 21
摘要:
论文标题:Mind-the-Glitch:用于检测主体驱动生成中不一致性的视觉对应方法
中文摘要:
我们提出了一种新方法,可从预训练扩散模型的主干网络中解耦视觉特征与语义特征,从而实现类似于传统语义对应(semantic correspondence)的视觉对应(visual correspondence)。尽管已知扩散模型的主干网络编码了丰富的语义特征,但为了支持其图像生成能力,它们也必然包含视觉特征。然而,由于缺乏标注数据集,分离这些视觉特征具有挑战性。为此,我们设计了一个自动化流程,基于现有的主体驱动图像生成数据集,构建带有语义和视觉对应标注的图像对,并提出一种对比学习架构来分离这两类特征。利用所解耦的表征,我们进一步提出了一种新的度量指标——视觉语义匹配(Visual Semantic Matching, VSM),用于量化主体驱动图像生成中的视觉不一致性。实验结果表明,我们的方法在量化视觉不一致性方面优于CLIP、DINO以及视觉-语言模型等基于全局特征的指标,同时还能实现对不一致区域的空间定位。据我们所知,这是首个同时支持在主体驱动生成任务中进行不一致性量化与定位的方法,为主推进该领域研究提供了有力工具。项目主页:https://abdo-eldesokey.github.io/mind-the-glitch/
19. COSPADI: Compressing LLMs via Calibration-Guided Sparse Dictionary
Learning
作者: Dmitriy Shopkhoev, Denis Makhov, Magauiya Zhussip, Ammar Ali, Stamatios Lefkimmiatis
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-26 | 👍 点赞数: 20
摘要:
论文标题:COSPADI:基于校准引导的稀疏字典学习的大语言模型压缩方法
中文摘要:
大语言模型(LLMs)的训练后压缩主要依赖于低秩权重近似,即通过一个共享的低维子空间来表示权重矩阵的每一列。尽管这是一种计算高效的策略,但其所施加的结构约束较为 rigid,容易导致模型精度显著下降。在本研究中,我们提出了CoSpaDi(Sparse Dictionary Learning for Compression,基于稀疏字典学习的压缩方法),一种新颖的无需训练的压缩框架,该框架用更灵活的结构化稀疏分解替代传统的低秩分解,将每个权重矩阵表示为一个稠密字典和一个列稀疏的系数矩阵。这种建模方式实现了“子空间联合”(union-of-subspaces)表示:原始权重矩阵的不同列由自适应选择的字典原子所张成的不同子空间进行逼近,相较于单一不变基底具有更强的表达能力。关键的是,CoSpaDi 利用一个小规模的校准数据集来优化分解过程,使得压缩后的投影层输出激活值尽可能接近原始模型的对应输出,从而最小化功能层面的重构误差,而不仅仅是权重本身的近似误差。这种数据感知策略在合理的压缩比率下,无需任何微调即可更好地保持模型保真度。此外,所生成的结构化稀疏性支持高效的稀疏-稠密矩阵乘法,并可与训练后量化技术兼容,进一步降低内存占用和推理延迟。我们在多种Llama和Qwen模型上,针对逐层和分组压缩设置,在20%至50%的压缩比率范围内对CoSpaDi进行了评估,结果表明其在准确率和困惑度方面均持续优于当前最先进的数据感知低秩压缩方法。我们的研究证实,结构化稀疏字典学习是高效大语言模型部署 中传统低秩方法的一种强有力替代方案。
20. WebGen-Agent: Enhancing Interactive Website Generation with Multi-Level
Feedback and Step-Level Reinforcement Learning
作者: Zimu Lu, Houxing Ren, Yunqiao Yang, Ke Wang, Zhuofan Zong, Junting Pan, Mingjie Zhan, Hongsheng Li
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-26 | 👍 点赞数: 18
摘要:
论文标题:WebGen-Agent:通过多层级反馈与步骤级强化学习增强交互式网站生成
中文摘要:
基于大语言模型(LLMs)的智能体系统在仓库级代码生成任务中已展现出卓越的性能。然而,对于网站代码库生成这类高度依赖视觉效果和用户交互反馈的任务,当前的代码智能体仅依赖简单的代码执行来进行反馈与验证,这种方法难以准确反映生成代码的实际质量。本文提出 WebGen-Agent,一种新颖的网站生成智能体,能够利用全面且多层次的视觉反馈,迭代地生成并优化网站代码库。该系统通过视觉语言模型(VLM)生成针对网站截图和GUI智能体测试的详细、富有表现力的文本描述与改进建议,并提供量化其质量的评分。这些来自截图和GUI智能体的评分进一步结合回溯与择优机制,显著提升了智能体的整体性能。得益于 WebGen-Agent 工作流程中精确的视觉评分,我们进一步提出了融合截图与GUI智能体反馈的步骤级GRPO(Step-GRPO)训练方法,以提升大语言模型作为WebGen-Agent推理引擎的能力。通过将每一步的截图与GUI智能体评分作为Step-GRPO中的奖励信号,我们提供了密集且可靠的流程监督信号,有效增强了模型的网站生成能力。在 WebGen-Bench 数据集上的实验表明,WebGen-Agent 将 Claude-3.5-Sonnet 的准确率从 26.4% 提升至 51.9%,外观质量得分从 3.0 提高到 3.9,优于此前最先进的智能体系统。此外,我们的 Step-GRPO 训练方法将 Qwen2.5-Coder-7B-Instruct 的准确率从 38.9% 提升至 45.4%,外观得分从 3.4 提升至 3.7。
21. SPARK: Synergistic Policy And Reward Co-Evolving Framework
作者: Ziyu Liu, Yuhang Zang, Shengyuan Ding, Yuhang Cao, Xiaoyi Dong, Haodong Duan, Dahua Lin, Jiaqi Wang
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-26 | 👍 点赞数: 16
摘要:
论文标题:SPARK:协同策略与奖励共进化框架
中文摘要:
近年来,大语言模型(LLMs)和大视觉-语言模型(LVLMs) increasingly 在预训练后阶段采用强化学习(RL)方法,例如针对客观任务的可验证奖励强化学习(RLVR),以及针对主观任务的人类反馈强化学习(RLHF)。然而,RLHF 因依赖人类偏好而成本高昂,且易导致奖励模型与策略模型之间的不匹配;而 RLVR 尽管避免了人工标注,仍会在每次更新后丢弃生成轨迹(rollouts)和正确性信号,造成监督信息的浪费。为应对上述挑战,本文提出协同策略与奖励共进化框架(Synergistic Policy And Reward Co-Evolving Framework, SPARK),这是一种高效、基于策略(on-policy)、稳定的 RLVR 增强方法。SPARK 不再丢弃生成轨迹和正确性数据,而是循环利用这些宝贵信息,将模型本身同时训练为一个生成式奖励模型。该辅助训练过程融合多种目标,包括点态奖励评分、成对比较以及基于进一步反思回应的评估,从而教会模型自我评估并改进其输出。该方法无需额外构建独立的奖励模型,也无需昂贵的人类偏好数据。SPARK 构建了一个正向的共进化反馈回路:更准确的奖励估计带来更优的策略梯度,进而产生更高质量的生成结果,反过来进一步提升奖励模型的精度。我们的统一框架支持在推理阶段通过自我反思(self-reflection)实现测试时扩展(test-time scaling),而无需依赖外部奖励模型及其开销。实验表明,SPARK 在多个 LLM 和 LVLM 模型上,于多种推理任务、奖励建模任务及通用基准测试中均取得显著性能提升。例如,SPARK-VL-7B 相较基线模型,在 7 项推理基准上平均提升 9.7%,在 2 项奖励建模范式上提升 12.1%,在 8 项通用基准上提升 1.5%,展现出优异的鲁棒性与广泛泛化能力。
22. Think-on-Graph 3.0: Efficient and Adaptive LLM Reasoning on
Heterogeneous Graphs via Multi-Agent Dual-Evolving Context Retrieval
作者: Xiaojun Wu, Cehao Yang, Xueyuan Lin, Chengjin Xu, Xuhui Jiang, Yuanliang Sun, Hui Xiong, Jia Li, Jian Guo
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-26 | 👍 点赞数: 16
摘要:
论文标题:Think-on-Graph 3.0:基于多智能体双演化上下文检索的异构图高效自适应大语言模型推理
中文摘要:
检索增强生成(Retrieval-Augmented Generation, RAG)以及基于图的RAG已成为利用外部知识增强大语言模型(LLMs)的重要范式。然而,现有方法面临一个根本性的权衡问题:基于图的方法虽然依赖于高质量的图结构,但在实际应用中存在显著限制——人工构建的知识图谱难以大规模扩展且成本高昂,而从语料库中自动抽取构建的图结构则受限于底层LLM抽取器的性能,尤其是在使用规模较小、本地部署的模型时表现更差。本文提出Think-on-Graph 3.0(ToG-3),一种新颖的框架,引入了“多智能体上下文演化与检索”(Multi-Agent Context Evolution and Retrieval, MACER)机制,以克服上述局限。我们的核心创新在于动态构建并持续优化一种包含“文本块-三元组-社区”的异构图索引结构,并首次提出“查询演化”与“子图演化”的双演化机制,实现精准证据检索。该方法解决了以往基于图的RAG方法的关键缺陷——通常仅通过单次处理构建静态图索引,无法根据具体查询进行自适应调整。ToG-3采用由构造者(Constructor)、检索者(Retriever)、反思者(Reflector)和响应者(Responser)组成的多智能体系统,协同完成证据检索、答案生成、充分性反思,以及关键的查询与子图演化等迭代过程。这种双演化的多智能体架构使ToG-3能够在推理过程中自适应地构建面向特定任务的图索引,有效缓解传统静态、一次性图构建的固有弊端,即使在使用轻量级LLM的情况下也能实现深入而精确的推理。大量实验表明,ToG-3在深度与广度推理基准测试中均优于现有基线方法,消融研究也验证了MACER框架各组件的有效性。
23. Chasing the Tail: Effective Rubric-based Reward Modeling for Large
Language Model Post-Training
作者: Junkai Zhang, Zihao Wang, Lin Gui, Swarnashree Mysore Sathyendra, Jaehwan Jeong, Victor Veitch, Wei Wang, Yunzhong He, Bing Liu, Lifeng Jin
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-25 | 👍 点赞数: 16
摘要:
论文标题:追逐长尾:基于评分标准的大语言模型后训练有效奖励建模
中文摘要:
强化微调(Reinforcement Fine-Tuning, RFT)常常面临奖励过度优化的问题,即策略模型通过“操纵”奖励信号获得高分,却生成质量较低的输出。我们的理论分析表明,问题的关键在于高奖励区域的奖励误设:难以可靠地区分“优秀”回答与仅仅是“良好”的回答。这促使我们关注高奖励尾部区域。然而,在基础大语言模型(LLM)下,此类高奖励样本极为稀少。虽然可以通过离线策略获取示例(例如来自更强模型或人工重写),但直接在这些样本上训练会为待对齐的策略模型引入偏差的奖励模型。为解决这一问题,我们研究了基于评分标准(rubric-based)的奖励建模方法。评分标准的设计使其能够利用离线 策略样例,同时对这些样例中的特定偏差或伪影保持鲁棒性。为了构建能够捕捉高奖励尾部特征的评分标准,我们强调了在高质量且多样化回答之间进行精细区分的重要性,并提出了一套实现该思想的工作流程。实验结果表明,基于评分标准的奖励模型显著缓解了奖励过度优化问题,并有效提升了大语言模型后训练的效果。我们的代码可在 https://github.com/Jun-Kai-Zhang/rubrics.git 获取。
24. TUN3D: Towards Real-World Scene Understanding from Unposed Images
作者: Anton Konushin, Nikita Drozdov, Bulat Gabdullin, Alexey Zakharov, Anna Vorontsova, Danila Rukhovich, Maksim Kolodiazhnyi
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-23 | 👍 点赞数: 14
摘要:
论文标题:TUN3D:面向从无位姿图像中实现真实场景理解
中文摘要:
布局估计与三维物体检测是室内场景理解中的两项基础任务。将二者结合,能够构建出紧凑且具有丰富语义信息的场景空间表征。现有方法通常依赖点云作为输入,这带来了显著局限性,因为大多数消费级 相机缺乏深度传感器,仅使用视觉数据的情况仍然更为普遍。为解决这一问题,我们提出了TUN3D——首个在真实扫描场景下、以多视角图像为输入、无需真实相机位姿或深度监督即可实现联合布局估计与三维物体检测的方法。我们的方法基于轻量级稀疏卷积主干网络,并设计了两个专用分支:一个用于三维物体检测,另一个用于布局估计,并引入了一种新颖且高效的参数化墙体表示方法。大量实验表明,TUN3D在三个具有挑战性的场景理解基准上均达到了最先进的性能:(i)使用真实点云输入,(ii)使用已知位姿的图像,以及(iii)使用未知位姿的图像。TUN3D在三维物体检测性能上可媲美专门方法的同时,在布局估计方面取得了显著提升,为整体性的室内场景理解树立了新的标杆。代码已公开发布于 https://github.com/col14m/tun3d 。
25. UniVid: Unifying Vision Tasks with Pre-trained Video Generation Models
作者: Lan Chen, Yuchao Gu, Qi Mao
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-26 | 👍 点赞数: 11
摘要:
论文标题:UniVid:通过预训练视频生成模型统一视觉任务
中文摘要:
大型语言模型在大规模语料库上进行训练后,已成功在一个统一的生成框架内整合了多种语言任务。受此启发,近期的研究如大型视觉模型(Large Vision Model, LVM)将这一范式扩展到视觉领域,通过将视觉任务组织为序列化的“视觉句子”,利用视觉提示作为上下文来引导输出。然而,此类建模方法通常需要针对不同模态和数据源进行任务特定的预训练,成本高昂且难以扩展至未见过的新任务。考虑到预训练的视频生成模型天然具备对时序依赖关系的建模能力,我们探索了一种更为统一且可扩展的替代方案:一个预训练的视频生成模型是否能够适应多种图像与视频任务?为此,我们提出UniVid,一种无需任务特定结构修改即可微调视频扩散Transformer以处理多样化视觉任务的框架。在该框架中,各类任务被表示为视觉句子,其中上下文序列同时定义了任务类型和期望输出的模态。我们从两个方面评估UniVid的泛化能力:(1)跨模态推理,即使用包含图像和视频的混合上下文,突破LVM仅限单模态的设定;(2)跨数据源任务,即从自然图像到带标注数据的任务迁移,且无需多源数据的联合预训练。尽管UniVid仅在自然视频数据上进行训练,但在上述两种场景中均表现出良好的泛化性能。值得注意的是,在该范式下,理解类任务与生成类任务可通过简单地反转视觉句子的顺序实现灵活切换。这些结果表明,预训练视频生成模型有望成为视觉建模中兼具可扩展性与统一性的基础架构。我们的代码将发布于 https://github.com/CUC-MIPG/UniVid。
26. Learn the Ropes, Then Trust the Wins: Self-imitation with Progressive
Exploration for Agentic Reinforcement Learning
作者: Yulei Qin, Xiaoyu Tan, Zhengbao He, Gang Li, Haojia Lin, Zongyi Li, Zihan Xu, Yuchen Shi, Siqi Cai, Renting Rui, Shaofei Cai, Yuzheng Cai, Xuan Zhang, Sheng Ye, Ke Li, Xing Sun
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-26 | 👍 点赞数: 10
摘要:
论文标题:先学规则,再信胜局:面向智能体强化学习的渐进探索式自我模仿
中文摘要:
强化学习(Reinforcement Learning, RL)是提升大语言模型(LLM)在长周期、稀疏奖励的智能体任务中策略性工具使用能力的主流范式,但仍面临探索与利用之间权衡的根本性挑战。现有研究主要通过策略熵的视角来促进探索行为,但这种机械式的熵最大化方法由于多轮次下的分布偏移问题,容易导致RL训练不稳定。本文旨在在智能体自身经验的引导下实现探索与利用的渐进平衡,避免陷入熵崩溃或过度发散的困境。我们提出了SPEAR——一种基于课程学习的自我模仿学习(Self-Imitation Learning, SIL)框架,用于训练具备智能体能力的LLM。该方法扩展了传统的SIL框架:在该框架中,回放缓冲区存储自生成的高 价值轨迹以进行离策略更新,而SPEAR则通过在不同训练阶段维持适中且均衡的熵水平,逐步引导策略演化。具体而言,我们的方法引入了一种课程机制来调控探索过程,利用内在奖励促进技能层级的探索,并通过SIL推动动作层级的探索。初期,辅助性的工具调用奖励在工具使用技能的积累中发挥关键作用,促使智能体广泛接触环境反馈中未知的分布,推动熵值上升。随着训练推进,自我模仿机制逐渐增强,从而更有效地利用回放经验中的成功模式,开展相对精准的动作级探索,在不导致熵无限增长的前提下加速解法迭代。为进一步稳定训练过程,我们对回放缓冲区中经验的优势值进行重新校准,以应对潜在的策略漂移问题。同时,引入诸如对概率与优势协方差较高的词元进行裁剪等正则化手段,实现对轨迹层级熵的有效控制,抑制策略过度自信。
27. WoW: Towards a World omniscient World model Through Embodied Interaction
作者: Xiaowei Chi, Peidong Jia, Chun-Kai Fan, Xiaozhu Ju, Weishi Mi, Kevin Zhang, Zhiyuan Qin, Wanxin Tian, Kuangzhi Ge, Hao Li, Zezhong Qian, Anthony Chen, Qiang Zhou, Yueru Jia, Jiaming Liu, Yong Dai, Qingpo Wuwu, Chengyu Bai, Yu-Kai Wang, Ying Li, Lizhang Chen, Yong Bao, Zhiyuan Jiang, Jiacheng Zhu, Kai Tang, Ruichuan An, Yulin Luo, Qiuxuan Feng, Siyuan Zhou, Chi-min Chan, Chengkai Hou, Wei Xue, Sirui Han, Yike Guo, Shanghang Zhang, Jian Tang
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-26 | 👍 点赞数: 8
摘要:
论文标题:WoW:通过具身交互迈向全知世界模型
中文摘要: 人类通过与世界的主动交互来发展对直觉物理规律的理解。这一方式与当前依赖被动观察的视频模型(如Sora)形成鲜明对比,后者在理解物理因果关系方面存在显著困难。这一观察引出了我们的核心假设:世界模型要获得真实的物理直觉,必须建立在与真实世界进行大量、具有丰富因果关系的交互基础之上。为验证这一假设,我们提出了WoW——一个拥有140亿参数的生成式世界模型,该模型在200万条机器人交互轨迹数据上进行了训练。研究发现,该模型对物理规律的理解表现为一系列可能结果的概率分布,这导致其出现随机性不稳定和物理幻觉现象。此外,我们展示了可通过SOPHIA框架将这种涌现能力主动约束至符合物理现实:在此框架中,视觉-语言模型代理对DiT生成的结果进行评估,并通过迭代优化语言指令来引导输出的精细化。同时,一个联合训练的逆动力学模型(Inverse Dynamics Model)将这些优化后的规划转化为可执行的机器人动作,从而实现从“想象”到“行动”的闭环。我们构建了WoWBench——一个专注于视频中物理一致性与因果推理的新基准测试,结果显示WoW在人工与自主评估中均达到了最先进的性能,展现出强大的物理因果推理、碰撞动力学建模以及物体恒存性理解能力。本研究提供了系统性证据,表明大规模的真实世界交互是构建人工智能物理直觉的基石。模型、数据及基准将全部开源。
28. D-Artemis: A Deliberative Cognitive Framework for Mobile GUI
Multi-Agents
作者: Hongze Mi, Yibo Feng, Wenjie Lu, Yuqi Wang, Jinyuan Li, Song Cao, He Cui, Tengfei Tian, Xuelin Zhang, Haotian Luo, Di Sun, Naiqiang Tan, Gang Pan
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-26 | 👍 点赞数: 8
摘要:
论文标题:D-Artemis:一种用于移动GUI多智能体的深思熟虑型认知框架
中文摘要:
图形用户界面(GUI)智能体旨在通过模拟用户交互来自动化执行广泛的人类任务。尽管该领域已取得快速进展,但现有方法仍面临若干关键挑战:端到端训练中的数据瓶颈、错误检测延迟带来的高成本,以及出现矛盾指导的风险。受人类“思考—对齐—反思”认知循环的启发,本文提出D-Artemis——一种新颖的深思熟虑型认知框架。D-Artemis采用细粒度、应用特定的提示检索机制,以支持其决策过程;并引入主动式的预执行对齐阶段,在该阶段中,思维-动作一致性(Thought-Action Consistency, TAC)检查模块与动作修正智能体(Action Correction Agent, ACA)协同工作,以降低执行失败的风险。在执行后,状态反思智能体(Status Reflection Agent, SRA)完成整个认知闭环,实现从经验中进行策略性学习。尤为重要的是,D-Artemis无需依赖复杂的操作轨迹数据集进行训练,即可增强通用多模态大语言模型(Multimodal Large Language Models, MLLMs)在GUI任务上的能力,展现出强大的泛化性能。实验结果表明,D-Artemis在主流基准测试上均达到了新的最先进水平(state-of-the-art, SOTA),在AndroidWorld上成功率达到75.8%,在ScreenSpot-V2上达到96.8%。大量消融实验进一步验证了框架中各个组件的重要贡献。
29. Real-Time Object Detection Meets DINOv3
作者: Shihua Huang, Yongjie Hou, Longfei Liu, Xuanlong Yu, Xi Shen
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-25 | 👍 点赞数: 8
摘要:
论文标题:实时目标检测与DINOv3的融合
中文摘要:
得益于Dense O2O和MAL的简洁性与高效性,DEIM已成为实时DETR模型的主流训练框架,并在性能上显著超越YOLO系列。在本研究中,我们引入DINOv3特征对DEIM进行扩展,提出了DEIMv2。DEIMv2涵盖从X到Atto共八个模型尺寸,适用于GPU、边缘设备和移动端部署。对于X、L、M和S四个版本,我们采用DINOv3预训练或蒸馏得到的主干网络,并提出空间调优适配器(Spatial Tuning Adapter, STA),该模块能高效地将DINOv3 的单尺度输出转换为多尺度特征,并通过细粒度细节补充强语义信息,从而增强检测性能。对于超轻量级模型(Nano、Pico、Femto和Atto),我们采用经深度与宽度剪枝的HGNetv2结构,以满足严格的资源限制。结合简化的解码器和升级版的Dense O2O机制,这一统一设计使DEIMv2在多种场景下均实现了更优的性能-成本权衡,创下新的最先进水平。值得注意的是,我们最大的模型DEIMv2-X仅含5030万个参数,即达到57.8 AP,优于此前需超过6000万参数才能实现56.5 AP的X尺度模型。在紧凑型模型方面,DEIMv2-S是首个参数量低于1000万(971万)且在COCO数据集上突破50 AP大关的模型,达到50.9 AP。甚至仅有150万参数的超轻量级模型DEIMv2-Pico也能实现38.5 AP,性能媲美拥有230万参数的YOLOv10-Nano,参数减少约50%。我们的代码和预训练模型已公开发布于 https://github.com/Intellindust-AI-Lab/DEIMv2
30. X-Streamer: Unified Human World Modeling with Audiovisual Interaction
作者: You Xie, Tianpei Gu, Zenan Li, Chenxu Zhang, Guoxian Song, Xiaochen Zhao, Chao Liang, Jianwen Jiang, Hongyi Xu, Linjie Luo
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-25 | 👍 点赞数: 6
摘要:
论文标题:X-Streamer:基于音视频交互的统一人类世界建模
中文摘要:
本文提出X-Streamer,一种端到端的多模态人类世界建模框架,旨在构建能够在单一统一架构下实现文本、语音与视频之间无限交互的数字人代理。从一张静态肖像出发,X-Streamer支持由流式多模态输入驱动的实时、开放式的视频通话。其核心是一种“思考-执行”(Thinker-Actor)双Transformer架构,统一了多模态的理解与生成能力,将静态肖像转化为持续且智能的音视频交互体验。其中,Thinker模块负责对用户流式输入进行感知与推理,而其隐藏状态则由Actor模块实时转换为同步的多模态输出流。具体而言,Thinker模块基于预训练的大语言-语音模型,而Actor模块采用分块自回归扩散模型,通过交叉注意力机制关注Thinker的隐藏状态,生成时间对齐的多模态响应,包含交错的离散文本与音频token以及连续的视频潜在表示。为确保长时程稳定性,我们设计了具有时间对齐多模态位置编码的跨块与块内注意力机制,以实现细粒度的跨模态对齐与上下文保持,并结合分块扩散强制策略和全局身份引用机制进一步增强一致性。X-Streamer可在两块A100 GPU上实现实时运行,支持从任意肖像出发持续数小时的稳定视频对话体验,为交互式数字人类的统一世界建模开辟了新路径。
31. FlashEdit: Decoupling Speed, Structure, and Semantics for Precise Image
Editing
作者: Junyi Wu, Zhiteng Li, Haotong Qin, Xiaohong Liu, Linghe Kong, Yulun Zhang, Xiaokang Yang
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-26 | 👍 点赞数: 5
摘要:
论文标题:FlashEdit:解耦速度、结构与语义以实现精确图像编辑
中文摘要:
基于扩散模型的文本引导图像编辑技术已取得显著的质量提升,但其高昂的延迟问题严重制约了实际应用。本文提出 FlashEdit,一种新颖的高保真、实时图像编辑框架。该框架的高效性源于三项关键技术:(1)一步式反演与编辑(One-Step Inversion-and-Editing, OSIE)流程,避免了传统方法中计算代价高昂的迭代过程;(2)背景保护机制(Background Shield, BG-Shield),通过仅在编辑区域内选择性修改特征,确保背景内容的完整保留;(3)稀疏化空间交叉注意力(Sparsified Spatial Cross-Attention, SSCA)机制,通过抑制语义信息向背景区域的泄露,实现精确且局部化的编辑效果。大量实验表明,FlashEdit 在保持卓越的背景一致性与结构完整性的同时,可在 0.2 秒内完成编辑操作,相较于以往的多步方法提速超过 150 倍。我们的代码将公开发布于 https://github.com/JunyiWuCode/FlashEdit。
32. ERGO: Efficient High-Resolution Visual Understanding for Vision-Language
Models
作者: Jewon Lee, Wooksu Shin, Seungmin Yang, Ki-Ung Song, DongUk Lim, Jaeyeon Kim, Tae-Ho Kim, Bo-Kyeong Kim
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-26 | 👍 点赞数: 4
摘要:
论文标题:ERGO:面向视觉-语言模型的高效高分辨率视觉理解
中文摘要:
在实际的视觉-语言应用中,高效处理高分辨率图像至关重要。然而,现有的大视觉-语言模型(LVLMs)由于存在大量视觉token,导致计算开销显著。随着“图像思维”模型的出现,推理过程已不再局限于文本,而是扩展到了视觉领域。这一能力启发我们设计了一种两阶段的“由粗到精”的推理流程:首先,通过下采样的低分辨率图像分析以识别出与任务相关的区域;随后,仅将这些关键区域以原始高分辨率裁剪出来,并在后续阶段进行精细推理。该方法在保留必要细粒度视觉细节的同时,显著降低了计算成本。一个主要挑战在于如何准确推断出哪些区域真正与给定查询相关。近期的一些方法在输入图像下采样后的第一阶段常因依赖感知驱动的推理而失败,因为此类推理需要清晰的视觉信息才能有效进行。为解决此问题,我们提出了ERGO(高效推理 与引导观察),该方法通过推理驱动的感知机制,利用多模态上下文信息来决定注意力焦点。我们的模型能够考虑感知不确定性,在回答问题时主动扩大裁剪区域以覆盖视觉上模糊或不明确的区域。为此,我们在强化学习框架中设计了简单但有效的奖励机制,以支持由粗到精的感知过程。在多个数据集上的实验表明,我们的方法在效率更高的同时,取得了优于原始模型及其他竞争方法的准确率。例如,在V*基准测试上,ERGO仅使用23%的视觉token,性能即超过Qwen2.5-VL-7B达4.7个百分点,并实现了3倍的推理速度提升。代码与模型可在以下地址获取:https://github.com/nota-github/ERGO。
33. RefAM: Attention Magnets for Zero-Shot Referral Segmentation
作者: Anna Kukleva, Enis Simsar, Alessio Tonioni, Muhammad Ferjad Naeem, Federico Tombari, Jan Eric Lenssen, Bernt Schiele
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-26 | 👍 点赞数: 3
摘要:
论文标题:RefAM:用于零样本指代表分割的注意力磁石
中文摘要:
现有的大多数指代表分割方法仅能通过微调或组合多个预训练模型来实现良好性能,而这通常需要额外的训练和模型结构修改。与此同时,大规模生成式扩散模型编码了丰富的语义信息,使其成为极具吸引力的通用特征提取器。在本研究中,我们提出一种新方法,直接利用扩散变换器(diffusion transformers)中的特征与注意力分数来支持下游任务,无需对模型结构进行修改,也无需任何额外训练。为了系统评估这些特征的有效性,我们将基准测试扩展至涵盖图像与视频的视觉-语言定位任务。我们的核心发现是:停用词(stop words)充当了“注意力磁石”——它们会累积多余的注意力,因此可通过过滤这些词来降低噪声。此外,我们识别出在深层中出现的全局注意力汇聚点(Global Attention Sinks, GAS),并表明这些汇聚点可被安全地抑制或重定向到辅助标记(auxiliary tokens)上,从而生成更清晰、更精确的定位图。进一步地,我们提出一种注意力重分配策略:通过添加停用词将背景激活划分为更小的簇,从而获得更锐利且更具局部性的热力图。基于上述发现,我们开发了RefAM——一种简单、无需训练的定位框架,融合了交叉注意力图、GAS处理机制以及注意力重分配策略。在零样本的指代表图像与视频分割基准测试中,本方法 consistently 优于先前方法,在无需微调或引入额外组件的情况下,实现了新的最先进性能。
34. Where MLLMs Attend and What They Rely On: Explaining Autoregressive
Token Generation
作者: Ruoyu Chen, Xiaoqing Guo, Kangwei Liu, Siyuan Liang, Shiming Liu, Qunli Zhang, Hua Zhang, Xiaochun Cao
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-26 | 👍 点赞数: 3
摘要:
论文标题:MLLMs关注何处以及依赖什么:解释自回归 token 生成
中文摘要:
多模态大语言模型(MLLMs)在将视觉输入与自然语言输出对齐方面已展现出卓越的能力。然而,生成的 token 在多大程度上依赖于视觉模态仍不清楚,这限制了模型的可解释性与可靠性。本文提出了 EAGLE,一种轻量级的黑盒框架,用于解释 MLLMs 中的自回归 token 生成过程。EAGLE 能够将任意选定的 token 归因于紧凑的感知区域,同时量化语言先验与感知证据之间的相对影响。该框架引入了一个统一充分性(洞察得分)与必要性(必要性得分)的目标函数,并通过在稀疏化图像区域上的贪心搜索进行优化,以实现准确且高效的归因。除了空间归因外,EAGLE 还支持模态感知分析,能够解耦不同 token 的依赖来源,从而提供对模型决策的细粒度可解释性。在多个开源 MLLM 上的大量实验表明,EAGLE 在归因准确性、定位精度和幻觉诊断方面均持续优于现有方法,同时显著降低 GPU 显存消耗。这些结果凸显了 EAGLE 在提升 MLLM 可解释性方面的有效性与实用性。代码地址:https://github.com/RuoyuChen10/EAGLE。
35. RLBFF: Binary Flexible Feedback to bridge between Human Feedback &
Verifiable Rewards
作者: Zhilin Wang, Jiaqi Zeng, Olivier Delalleau, Ellie Evans, Daniel Egert, Hoo-Chang Shin, Felipe Soares, Yi Dong, Oleksii Kuchaiev
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-25 | 👍 点赞数: 3
摘要:
论文标题:RLBFF:二值化灵活反馈——连接人类反馈与可验证奖励的桥梁
中文摘要:
基于人类反馈的强化学习(RLHF)和基于可验证奖励的强化学习(RLVR)是当前大语言模型(LLM)后训练阶段主要采用的两类强化学习范式,各自具有独特优势。然而,RLHF 依赖于通常缺乏明确标准的人类判断,导致其在可解释性方面存在挑战,并容易引发奖励博弈(reward hacking)问题;而 RLVR 则受限于其仅关注基于正确性的验证机制,适用范围较窄。本文提出“基于二值化灵活反馈的强化学习”(Reinforcement Learning with Binary Flexible Feedback, RLBFF),该方法结合了人类偏好驱动的灵活性与基于规则验证的精确性,使奖励模型能够捕捉超越单纯正确性的、更为细致的回应质量维度。
RLBFF 能够从自然语言反馈中提取出可用二值方式回答的原则性判断(例如:“信 息是否准确:是”,或“代码可读性:否”)。这些原则随后可用于将奖励模型的训练建模为一个蕴含识别任务(即判断回复是否满足某项任意给定原则)。我们证明,以这种方式训练的奖励模型在相同数据条件下优于 Bradley-Terry 模型,并在 RM-Bench 上达到 86.2% 的性能,在 JudgeBench 上达到 81.4% 的准确率(截至 2025 年 9 月 24 日位居排行榜第一)。此外,与传统的 Bradley-Terry 模型不同,用户可在推理阶段指定感兴趣的原则,从而动态调整奖励模型的关注重点。
最后,我们提供了一套完全开源的训练方案(包含数据),使用 RLBFF 方法及我们提出的奖励模型对 Qwen3-32B 进行对齐优化,使其在 MT-Bench、WildBench 和 Arena Hard v2 等通用对齐基准上的表现达到或超过 o3-mini 和 DeepSeek R1 的水平,且推理成本不足其 5%。
36. The role of synthetic data in Multilingual, Multi-cultural AI systems:
Lessons from Indic Languages
作者: Pranjal A. Chitale, Varun Gumma, Sanchit Ahuja, Prashant Kodali, Manan Uppadhyay, Deepthi Sudharsan, Sunayana Sitaram
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-25 | 👍 点赞数: 3
摘要:
论文标题:合成数据在多语言、多文化AI系统中的作用:来自印度语言的启示
摘要:
构建能够在多种语言环境下有效运行且具备文化根基的AI系统,长期以来一直是一项挑战,尤其在资源匮乏的语言场景中更为突出。尽管合成数据提供了一条颇具前景的解决路径,但其在多语言和多文化背景下的有效性仍缺乏充分探索。本文通过一种自下而上的生成策略,研究面向印度语言的合成性、文化情境化数据集的构建及其影响:该方法利用大规模开源大语言模型(参数规模 ≥ 2350亿),以各语言专属的维基百科内容为基础,指导数据生成过程。这一方法补充了当前主流的“自上而下”范式,即从英语等高资源语言翻译生成合成数据集。我们提出了Updesh——一个高质量、大规模的合成指令遵循数据集,涵盖13种印度语言,包含950万个数据样本,涉及多样化的推理与生成任务,特别强调长上下文、多轮对话能力,并与印度本土文化语境保持对齐。通过对一万个样本进行自动化指标评估与人工标注的综合评估表明,所生成的数据质量较高;然而,人工评估也揭示了若干有待改进的方面。此外,我们通过在Updesh数据集上微调模型,并在15个不同的多语言数据集上开展下游任务评估。实验结果显示,在Updesh上训练的模型在生成式任务中持续取得显著提升,在多项选择类自然语言理解(NLU)任务中也保持竞争力。值得注意的是,低资源和中等资源语言的相对性能提升最为明显,缩小了其与高资源语言之间的差距。这些发现提供了实证证据,表明有效的多语言AI系统需要采用多维度的数据整理与生成策略,融合具有情境感知能力和文化根基的方法论。
37. Scale-Wise VAR is Secretly Discrete Diffusion
作者: Amandeep Kumar, Nithin Gopalakrishnan Nair, Vishal M. Patel
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-26 | 👍 点赞数: 2
摘要:
论文标题:Scale-Wise VAR 实则是隐式的离散扩散模型
中文摘要:
自回归(AR)Transformer 已成为视觉生成领域的一种强大范式,主要得益于其良好的可扩展性、计算效率以及在语言与视觉任务中的统一架构。其中,基于下一尺度预测的视觉自回归生成模型(VAR)近期展现出卓越性能,甚至超越了基于扩散的生成模型。在本研究中,我们重新审视了 VAR 模型,并揭示了一个重要的理论洞见:当配备马尔可夫注意力掩码时,VAR 在数学上等价于一种离散扩散过程。我们将这一新的理解重新诠释为“基于离散扩散的可扩展视觉精细化”(Scalable Visual Refinement with Discrete Diffusion, SRDD),从而在自回归 Transformer 与扩散模型之间建立了原理性的桥梁。借助这一新视角,我们展示了如何将扩散模型的优势——例如迭代精细化能力——直接引入 VAR 框架,同时减少原有架构中的低效设计,从而实现更快的收敛速度、更低的推理成本以及更优的零样本重建效果。在多个数据集上的实验表明,从扩散模型视角重新理解 VAR 能够持续提升生成效率与生成 质量。
38. StateX: Enhancing RNN Recall via Post-training State Expansion
作者: Xingyu Shen, Yingfa Chen, Zhen Leng Thai, Xu Han, Zhiyuan Liu, Maosong Sun
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-26 | 👍 点赞数: 2
摘要:
论文标题:StateX:通过训练后状态扩展增强RNN的记忆能力
中文摘要:
尽管基于Transformer的模型在语言建模方面表现出色,但其高复杂度导致处理长上下文时成本高昂。相比之下,循环神经网络(RNN)如线性注意力和状态空间模型因其每token的计算复杂度恒定而受到广泛关注。然而,这类循环模型在需要准确回忆长上下文中信息的任务上表现不佳,原因是所有上下文信息都被压缩在一个固定大小的循环状态中。先前的研究表明,记忆能力与循环状态的大小呈正相关,但直接训练具有更大循环状态的RNN会带来高昂的训练成本。本文提出了StateX,一种通过训练后处理高效扩展预训练RNN状态的训练流程。针对两类主流的RNN模型——线性注意力和状态空间模型,我们设计了训练后的架构改进方法,在几乎不增加模型参数的情况下扩大状态规模。在高达13亿参数的模型上的实验表明,StateX能够在不产生高额训练后成本、也不损害其他能力的前提下,有效提升RNN的记忆能力和上下文学习性能。
39. HiGS: History-Guided Sampling for Plug-and-Play Enhancement of Diffusion
Models
作者: Seyedmorteza Sadat, Farnood Salehi, Romann M. Weber
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-26 | 👍 点赞数: 2
摘要:
论文标题:HiGS:用于扩散模型即插即用增强的历史引导采样
中文摘要:
尽管扩散模型在图像生成方面已取得显著进展,但其生成结果仍可能显得不够真实,且缺乏精细细节,尤其是在神经函数评估次数(NFEs)较少或引导尺度较低的情况下。为解决这一问题,本文提出一种新颖的基于动量的采样方法——历史引导采样(History-Guided Sampling, HiGS),通过将近期模型预测结果整合到每一步推理过程中,提升扩散采样的质量与效率。具体而言,HiGS利用当前预测与过去预测加权平均值之间的差异,引导采样过程生成更逼真、细节更丰富且结构更清晰的图像。该方法几乎不引入额外计算开销,可无缝集成至现有扩散模型框架中,无需额 外训练或微调。大量实验表明,HiGS在不同模型、架构、采样步数和引导尺度下均能持续提升图像生成质量。此外,结合预训练的SiT模型,HiGS在仅使用30步采样的情况下(而非标准的250步),实现了256×256分辨率ImageNet无引导生成的新纪录FID分数1.61。因此,我们将HiGS作为一种即插即用的标准化扩散采样增强方法,能够在更快速度下实现更高保真度的图像生成。
40. X-CoT: Explainable Text-to-Video Retrieval via LLM-based
Chain-of-Thought Reasoning
作者: Prasanna Reddy Pulakurthi, Jiamian Wang, Majid Rabbani, Sohail Dianat, Raghuveer Rao, Zhiqiang Tao
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-25 | 👍 点赞数: 2
摘要:
论文标题:X-CoT:基于大语言模型链式思维推理的可解释文本到视频检索
中文摘要:
当前主流的文本到视频检索系统主要采用嵌入模型进行特征提取,并通过计算余弦相似度进行排序。然而,这种设计存在两个局限性:低质量的文本-视频数据对可能影响检索效果,但却难以识别和审查;仅依赖余弦相似度无法对排序结果提供任何解释,限制了系统的可解释性。我们提出一个问题:是否可以对排序 结果进行解释,从而评估检索模型并检验文本-视频数据的质量?本文提出了X-CoT,一种基于大语言模型(LLM)链式思维(Chain-of-Thought, CoT)推理的可解释检索框架,用以替代传统的基于嵌入模型的相似度排序方法。我们首先在现有基准数据集上增加了额外的视频标注,以支持更深层次的语义理解并减少数据偏差。同时,我们设计了一种用于检索的链式思维流程,包含成对比较步骤,能够生成详细的推理过程和完整的排序结果。实验表明,X-CoT在检索性能上有所提升,并能生成详尽的推理依据,同时还便于对模型行为和数据质量进行分析。代码与数据已公开发布于:https://github.com/PrasannaPulakurthi/X-CoT。
41. CHURRO: Making History Readable with an Open-Weight Large
Vision-Language Model for High-Accuracy, Low-Cost Historical Text Recognition
作者: Sina J. Semnani, Han Zhang, Xinyan He, Merve Tekgürler, Monica S. Lam
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-24 | 👍 点赞数: 2
摘要:
论文标题:CHURRO:通过开源权重的大规模视觉-语言模型实现高精度、低成本的历史文本识别,让历史可读
中文摘要:
对历史文献进行准确的文本识别,将极大推动文化遗产的研究与保护。然而,现有的视觉-语言模型(VLM)主要针对现代标准化文本设计,难以应对历史文献中多样的语言与文字系统、不规则的版面布局以及普遍存在的文本退化问题。
本文提出了CHURRO,一个拥有30亿参数的开源权重视觉-语言模型,专为历史文本识别任务而优化。该模型在CHURRO-DS数据集上进行训练,这是迄今为止规模最大的历史文本识别数据集。CHURRO-DS整合了155个历史语料库,共包含99,491页文档,涵盖46个语言簇,时间跨度达22个世纪,包括多种历史变体语言和已消亡的语言。
我们在CHURRO-DS上评估了多个开源和闭源的视觉-语言模型以及光学字符识别(OCR)系统,结果表明CHURRO在所有VLM中表现最优。在CHURRO-DS测试集上,CHURRO取得了82.3%(印刷体)和70.1%(手写体)的归一化Levenshtein相似度,分别超过第二名模型Gemini 2.5 Pro 1.4%和6.5%,同时成本效率提升了15.5倍。
通过公开发布模型与数据集,我们旨在推动社区驱动的研究,提升历史文本的可读性,并加速人文学术研究进程。
42. CAD-Tokenizer: Towards Text-based CAD Prototyping via Modality-Specific
Tokenization
作者: Ruiyu Wang, Shizhao Sun, Weijian Ma, Jiang Bian
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-25 | 👍 点赞数: 1
摘要:
论文标题:CAD-Tokenizer:通过模态特定的分词实现基于文本的CAD原型设计
中文摘要:
计算机辅助设计(CAD)是工业原型设计的基础组成部分,其模型并非由原始坐标定义,而是通过诸如草图绘制和拉伸等构造序列来表达。这种序列化结构使得原型能够高效初始化,并便于后续编辑。文本引导的CAD原型设计整合了文本到CAD生成与CAD编辑两大任务,有望简化整个设计流程。然而,先前的研究尚未探索这一方向,主要原因在于标准的大语言模型(LLM)分词器会将CAD序列分解为自然语言的子词单元,无法捕捉基本操作层级的CAD语义,从而阻碍了注意力机制对几何结构的有效建模。我们推测,一种与CAD的基本操作和结构特性相匹配的多模态分词策略,可以提供更有效的表示方式。为此,我们提出了CAD-Tokenizer——一种基于序列的VQ-VAE框架,结合基本操作级池化与约束解码机制,使用模态特定的令牌来表示CAD数据。该设计生成了紧凑且感知基本操作的表示形式,更好地契合CAD的结构特性。在统一的文本引导CAD原型设计任务中应用时,CAD-Tokenizer显著提升了指令遵循能力与生成质量,在定量与定性评估上均优于通用大语言模型及任务特定的基线方法。
43. Finding 3D Positions of Distant Objects from Noisy Camera Movement and
Semantic Segmentation Sequences
作者: Julius Pesonen, Arno Solin, Eija Honkavaara
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-25 | 👍 点赞数: 1
摘要:
论文标题:从噪声相机运动和语义分割序列中估计远距离物体的3D位置
中文摘要:
基于相机测量序列的三维(3D)目标定位在诸多安全关键型监控任务中至关重要,例如基于无人机的野火监测。通常,相机检测到的目标可通过稠密深度估计或三维场景重建方法实现定位。然而,在目标距离较远或计算资源受限的应用场景下,上述两种方法均难以实施。本文提出,可通过粒子滤波器(particle filter)解决单目标与多目标情况下的3D定位问题。本研究通过三维仿真环境以及基于无人机获取的图像语义分割序列进行验证,并采用全球导航卫星系统(GNSS)提供的相机位姿估计数据。实验结果表明,在其他方法失效的情况下,粒子滤波器仍可有效利用相机位姿和图像分割信息完成实际的定位任务。此外,该方法不依赖于特定的检测手段,因而具备良好的任务适应性和灵活性。本研究还证明,结合现有的图像语义分割模型,所提出的方法可用于无人机野火监测任务。
44. Instruction-Following Evaluation in Function Calling for Large Language
Models
作者: Nikolai Skripko
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-22
摘要:
论文标题:大语言模型中函数调用的指令遵循能力评估
中文摘要:
函数调用是大语言模型的一项核心能力,对AI智能体至关重要。现有的基准测试(如Berkeley Function Calling Leaderboard(BFCL)、tau^2-Bench(arXiv:2506.07982)和ACEBench(arXiv:2501.12851))主要评估参数内容的正确性,但并未检验模型是否遵循嵌入在参数描述中的格式指令,例如将值用双引号括起或使用ISO日期格式。
本文提出了IFEval-FC,该基准受IFEval(arXiv:2311.07911)启发,专门用于评估函数调用中对指令的精确遵循能力。IFEval-FC将可验证的格式要求直接编码在JSON Schema描述中,例如规定某个值不得包含标点符号。该基准共包含750个测试用例,每个用例由一个函数构成,其输入参数之一嵌入了特定格式要求,并配有相应的用户查询。评估过程完全通过算法实现,确保了客观性、可重复性和可扩展性。
实验结果表明,即使是当前最先进的专有模型(如GPT-5和Claude 4.1 Opus),也经常无法遵守基本的格式规则, 暴露出实际智能体系统中存在的重要缺陷。完整的代码与数据已公开发布于 https://github.com/Skripkon/IFEval-FC。