Skip to main content
目录

每日论文 - 2025年09月24日

论文总数: 24

1. Baseer: A Vision-Language Model for Arabic Document-to-Markdown OCR

作者: Khalil Hennara, Muhammad Hreden, Mohamed Motasim Hamed, Ahmad Bastati, Zeina Aldallal, Sara Chrouf, Safwan AlModhayan

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-17 | 👍 点赞数: 120

摘要:

论文标题:Baseer:一种用于阿拉伯语文档转Markdown的视觉-语言模型

中文摘要:
由于阿拉伯语具有连笔书写、字体多样、包含音标符号以及从右至左书写方向等特点,其文档光学字符识别(OCR)任务仍具挑战性。尽管当前的多模态大语言模型(MLLMs)在高资源语言的文档理解方面已取得显著进展,但其在阿拉伯语上的表现仍然有限。本文提出 Baseer,一种专为阿拉伯语文档 OCR 设计的视觉-语言模型,通过对预训练的多模态大模型进行特定领域的微调而实现。我们利用一个融合了大规模合成与真实场景文档的数据集,采用仅解码器微调策略,在保留通用视觉特征的同时实现模型适配。此外,我们还提出了 Misraj-DocOCR,这是一个高质量、经专家验证的基准数据集,专用于对阿拉伯语 OCR 系统进行严格评估。实验结果表明,Baseer 显著优于现有的开源及商业解决方案,在阿拉伯语文档 OCR 任务上取得了 0.25 的词错误率(WER),树立了该领域新的最先进水平。我们的研究结果凸显了将通用多模态大模型进行领域特化适配的优势,并为阿拉伯语等形态结构丰富语言的高精度 OCR 建立了强有力的基准。


2. Reinforcement Learning on Pre-Training Data

作者: Siheng Li, Kejiao Li, Zenan Xu, Guanhua Huang, Evander Yang, Kun Li, Haoyuan Wu, Jiajia Wu, Zihao Zheng, Chenchen Zhang, Kun Shi, Kyrierl Deng, Qi Yi, Ruibin Xiong, Tingqiang Xu, Yuhao Jiang, Jianfeng Yan, Yuyuan Zeng, Guanghui Xu, Jinbao Xue, Zhijiang Xu, Zheng Fang, Shuai Li, Qibin Liu, Xiaoxue Li, Zhuoyu Li, Yangyu Tao, Fei Gao, Cheng Jiang, Bo Chao Wang, Kai Liu, Jianchen Zhu, Wai Lam, Wayyt Wang, Bo Zhou, Di Wang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-23 | 👍 点赞数: 59

摘要:

论文标题:在预训练数据上的强化学习

中文摘要:
计算资源的指数级扩展与高质量文本数据的有限增长之间的日益扩大的差距,正制约着大语言模型(LLMs)传统的扩展方法。为应对这一挑战,我们提出了“在预训练数据上的强化学习”(Reinforcement Learning on Pre-Training data, RLPT),这是一种用于优化大语言模型的新训练阶段扩展范式。与以往主要依赖监督学习来扩展训练的方法不同,RLPT 使策略模型能够自主探索有意义的生成轨迹,从而从预训练数据中通过强化学习(RL)进行学习并提升自身能力。现有的强化学习策略,如基于人类反馈的强化学习(RLHF)和基于可验证奖励的强化学习(RLVR),通常依赖人工标注构建奖励信号,而 RLPT 则通过直接从预训练数据中提取奖励信号,消除了对人工标注的依赖。具体而言,RLPT 采用“下一段落推理”目标,即在给定前文上下文的条件下,若模型能准确预测后续文本段落,则给予奖励。该机制使得强化学习可以大规模应用于预训练数据,鼓励模型在更广泛上下文中探索更丰富的推理路径,从而促进更具泛化性的推理能力发展。我们在多个模型上进行了大量实验,涵盖通用领域和数学推理基准任务,结果验证了 RLPT 的有效性。例如,在 Qwen3-4B-Base 模型上应用 RLPT 后,在 MMLU、MMLU-Pro、GPQA-Diamond、KOR-Bench、AIME24 和 AIME25 上分别取得了 3.0、5.1、8.1、6.0、6.6 和 5.3 的绝对性能提升。实验结果还显示出良好的扩展行为,表明随着计算资源的增加,仍具有显著的进一步提升潜力。此外,RLPT 提供了一个坚实的基础框架,不仅拓展了大语言模型的推理边界,还显著增强了 RLVR 的性能表现。


3. Do You Need Proprioceptive States in Visuomotor Policies?

作者: Juntu Zhao, Wenbo Lu, Di Zhang, Yufeng Liu, Yushen Liang, Tianluo Zhang, Yifeng Cao, Junyuan Xie, Yingdong Hu, Shengjie Wang, Junliang Guo, Dequan Wang, Yang Gao

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-23 | 👍 点赞数: 49

摘要:

论文标题:你真的需要在视觉运动策略中使用本体感知状态吗?

摘要:
基于模仿学习的视觉运动策略在机器人操作中得到了广泛应用,通常同时采用视觉观测和本体感知状态(proprioceptive states)以实现精确控制。然而,在本研究中我们发现,这种常见做法会使策略过度依赖本体感知状态输入,导致对训练轨迹的过拟合,从而严重影响空间泛化能力。相反,我们提出了“无状态策略”(State-free Policy),即去除本体感知状态输入,仅基于视觉观测来预测动作。该无状态策略构建于相对末端执行器动作空间中,并确保获取完整的任务相关视觉信息,本文中通过双广角腕部相机提供这些视觉输入。实验结果表明,与基于状态的策略相比,无状态策略在空间泛化能力上显著更强:在真实世界的多种任务中,包括抓取放置、具有挑战性的衬衫折叠以及复杂的全身协同操作,并跨越多种机器人形态,其在高度方向上的平均成功率从0%提升至85%,在水平方向上的泛化成功率从6%提升至64%。此外,该方法还在数据利用效率和跨形态适应性方面展现出优势,进一步增强了其在实际应用中的可行性。


4. MiniCPM-V 4.5: Cooking Efficient MLLMs via Architecture, Data, and

Training Recipe

作者: Tianyu Yu, Zefan Wang, Chongyi Wang, Fuwei Huang, Wenshuo Ma, Zhihui He, Tianchi Cai, Weize Chen, Yuxiang Huang, Yuanqian Zhao, Bokai Xu, Junbo Cui, Yingjing Xu, Liqing Ruan, Luoyuan Zhang, Hanyu Liu, Jingkun Tang, Hongyuan Liu, Qining Guo, Wenhao Hu, Bingxiang He, Jie Zhou, Jie Cai, Ji Qi, Zonghao Guo, Chi Chen, Guoyang Zeng, Yuxuan Li, Ganqu Cui, Ning Ding, Xu Han, Yuan Yao, Zhiyuan Liu, Maosong Sun

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-16 | 👍 点赞数: 45

摘要:

论文标题:MiniCPM-V 4.5:通过架构、数据与训练方案打造高效的多模态大语言模型

中文摘要:
多模态大语言模型(Multimodal Large Language Models, MLLMs)正迅速发展,代表了人工智能领域的前沿方向。然而,其训练与推理效率已成为制约MLLMs进一步普及和扩展的核心瓶颈。为应对这一挑战,我们提出了MiniCPM-V 4.5,一个具备80亿参数的高效且高性能模型。我们在模型架构、数据策略和训练方法三个方面引入了三项核心改进:一种统一的3D-Resampler模型架构,可对图像和视频进行高度紧凑的编码;一种无需大量数据工程的文档知识学习与文本识别统一学习范式;以及一种混合强化学习策略,使模型在短程和长程推理模式下均表现出色。在OpenCompass平台上的综合实验结果表明,MiniCPM-V 4.5在性能上超越了广泛使用的闭源模型如GPT-4o-latest,并显著优于Qwen2.5-VL 72B等规模更大的开源模型。值得注意的是,这些优异性能是在极高的效率下实现的。例如,在广泛采用的VideoMME基准测试中,MiniCPM-V 4.5在300亿参数以下模型中达到最先进水平,其GPU显存消耗仅为Qwen2.5-VL 7B的46.7%,推理时间仅为其8.7%。


5. SWE-QA: Can Language Models Answer Repository-level Code Questions?

作者: Weihan Peng, Yuling Shi, Yuhang Wang, Xinyun Zhang, Beijun Shen, Xiaodong Gu

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-18 | 👍 点赞数: 33

摘要:

论文标题:SWE-QA:语言模型能否回答仓库级代码问题?

中文摘要:
理解和推理整个软件仓库是智能软件工程工具的一项基本能力。尽管现有的基准(如CoSQA和CodeQA)已推动了该领域的发展,但它们主要关注小规模、自包含的代码片段。这类设置无法捕捉真实世界软件仓库的复杂性,因为在实际场景中,有效的理解与推理通常需要跨多个文件进行导航,理解软件架构,并基于长距离的代码依赖关系来得出答案。本文提出了SWE-QA,一个面向仓库级代码问答(QA)的基准数据集,旨在推动在真实代码环境中自动化问答系统的研究。SWE-QA包含576个高质量的问题-答案对,覆盖多种类别,包括意图理解、跨文件推理以及多跳依赖分析。为构建SWE-QA,我们首先从11个流行的开源仓库中爬取了77,100个GitHub issue。通过对这些issue中自然出现的开发者问题进行分析,我们建立了一个两层结构的仓库级问题分类体系,并为每个类别设计了一组种子问题。随后,我们对每个类别的问题进行了人工筛选与验证,并收集了相应的答案。作为原型应用,我们进一步提出了SWE-QA-Agent——一种基于代理(agent)的框架,其中大语言模型(LLM)代理通过推理与行动自动寻找答案。我们在多种上下文增强策略下评估了六个先进的大语言模型在SWE-QA上的表现。实验结果表明,大语言模型(尤其是我们的SWE-QA-Agent框架)在解决仓库级代码问答任务上具有潜力,同时也揭示了当前面临的挑战,并指明了未来的研究方向。


6. How Far are VLMs from Visual Spatial Intelligence? A Benchmark-Driven

Perspective

作者: Songsong Yu, Yuxin Chen, Hao Ju, Lianjie Jia, Fuxi Zhang, Shaofei Huang, Yuhan Wu, Rundi Cui, Binghao Ran, Zaibin Zhang, Zhedong Zheng, Zhipeng Zhang, Yifan Wang, Lin Song, Lijun Wang, Yanwei Li, Ying Shan, Huchuan Lu

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-23 | 👍 点赞数: 28

摘要:

论文标题:视觉语言模型距离视觉空间智能还有多远?一种基于基准的视角

中文摘要:
视觉空间推理(Visual Spatial Reasoning, VSR)是人类核心的认知能力之一,也是推动具身智能与自主系统发展的重要基础。尽管视觉语言模型(Vision-Language Models, VLMs)近年来取得了显著进展,但由于三维空间表征与推理本身的复杂性,实现类人水平的视觉空间推理仍面临巨大挑战。本文对VLMs中的视觉空间推理能力进行了系统性研究,全面回顾了现有方法在输入模态、模型架构、训练策略和推理机制等方面的技术路径。进一步地,我们将空间智能划分为三个层次的能力:基础感知、空间理解与空间规划,并构建了SIBench——一个涵盖近20个开源数据集、涉及23种任务设置的空间智能评测基准。通过对当前最先进的视觉语言模型进行实验评估,我们发现模型在基础感知任务上表现尚可,但在空间理解与规划任务中普遍存在明显不足,尤其在数值估计、多视角推理、时序动态建模以及空间想象等方面性能较弱,暴露出感知与推理能力之间的显著差距。这些结果凸显了实现真正空间智能所面临的重大挑战,同时也为未来研究提供了系统的路线图和全面的基准测试平台。本研究相关资源可通过以下网址获取:https://sibench.github.io/Awesome-Visual-Spatial-Reasoning/


7. MAPO: Mixed Advantage Policy Optimization

作者: Wenke Huang, Quan Zhang, Yiyang Fang, Jian Liang, Xuankun Rong, Huanjin Yao, Guancheng Wan, Ke Liang, Wenwen He, Mingjun Li, Leszek Rutkowski, Mang Ye, Bo Du, Dacheng Tao

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-23 | 👍 点赞数: 25

摘要:

论文标题:MAPO:混合优势策略优化

中文摘要:
近年来,面向基础模型的强化学习方法(如组相对策略优化GRPO)在提升基础模型的推理任务性能方面取得了显著进展。其中,优势函数在GRPO中扮演着核心角色,用于衡量轨迹的重要程度。然而,现有方法常面临优势反转和优势镜像等问题,导致在不同查询样本之间难以实现合理的优势分配。本文提出了一种简单而有效的GRPO改进策略——混合优势策略优化(Mixed Advantage Policy Optimization, MAPO)。我们发现,不同轨迹表现出不同程度的确定性,因此针对高确定性轨迹的样本,引入了优势百分比偏差度量。进一步地,我们对具有不同轨迹确定性的样本动态重加权其优势函数,从而自适应地调整优势函数以反映样本特有的性质。与当前先进方法的对比实验以及对不同优势变体的消融研究,均验证了我们方法的有效性。


8. VolSplat: Rethinking Feed-Forward 3D Gaussian Splatting with

Voxel-Aligned Prediction

作者: Weijie Wang, Yeqing Chen, Zeyu Zhang, Hengyu Liu, Haoxiao Wang, Zhiyuan Feng, Wenkang Qin, Zheng Zhu, Donny Y. Chen, Bohan Zhuang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-23 | 👍 点赞数: 22

摘要:

论文标题:VolSplat:基于体素对齐预测的前馈式3D高斯点阵化方法再思考

中文摘要:
前馈式3D高斯点阵化(3DGS)已成为新视角合成的一项高效解决方案。现有方法主要依赖于像素对齐的高斯预测范式,即每个2D像素被映射为一个3D高斯分布。我们重新审视这一广泛采用的建模方式,并指出其若干固有局限性:该方法使得重建的3D模型严重依赖输入视图的数量,导致视图偏差的密度分布,并在源视图存在遮挡或纹理稀疏的情况下引入对齐误差。为应对这些挑战,我们提出了VolSplat——一种全新的多视图前馈范式,用体素对齐的高斯分布取代传统的像素对齐机制。通过直接从预测的3D体素网格中生成高斯分布,VolSplat摆脱了传统方法对易出错的2D特征匹配的依赖,从而确保了更强的多视角一致性。此外,该方法能够根据3D场景复杂度自适应地控制高斯分布的密度,生成更精确的高斯点云,提升几何一致性以及新视角渲染质量。在RealEstate10K和ScanNet等多个常用基准上的实验表明,VolSplat实现了最先进的性能,同时生成更加合理且视角一致的高斯重建结果。除了优异的表现外,我们的方法还构建了一个更具可扩展性的前馈式3D重建框架,实现了更稠密、更鲁棒的表达,为更广泛领域的后续研究奠定了基础。视频结果、代码及训练模型详见我们的项目主页:https://lhmd.top/volsplat。


9. Hyper-Bagel: A Unified Acceleration Framework for Multimodal

Understanding and Generation

作者: Yanzuo Lu, Xin Xia, Manlin Zhang, Huafeng Kuang, Jianbin Zheng, Yuxi Ren, Xuefeng Xiao

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-23 | 👍 点赞数: 21

摘要:

论文标题:Hyper-Bagel:一种面向多模态理解与生成的统一加速框架

中文摘要:
近年来,统一的多模态模型因其在联合理解和生成多样化内容方面的卓越能力而受到广泛关注。然而,随着上下文中交织的多模态标记数量不断增加,扩散去噪与自回归解码的迭代过程带来了显著的计算开销。为解决这一问题,我们提出了Hyper-Bagel——一种旨在同时加速多模态理解与生成任务的统一加速框架。本方法采用分治策略,利用推测解码(speculative decoding)进行下一标记预测,并通过多阶段蒸馏过程实现扩散去噪。该框架在性能上实现了显著提升,在多模态理解任务中达到两倍以上的加速效果。在生成任务方面,我们所构建的无损6-NFE模型在文本到图像生成任务中实现了16.67倍的加速,在图像编辑任务中实现了22倍的加速,同时保持了原始模型的高质量输出。此外,我们进一步开发了一种高度高效的1-NFE模型,支持近实时的交互式编辑与生成。通过结合先进的对抗性蒸馏技术与基于人类反馈的学习机制,该模型在成本效益和响应速度方面达到最优,使复杂的多模态交互变得无缝且即时。


10. Lyra: Generative 3D Scene Reconstruction via Video Diffusion Model

Self-Distillation

作者: Sherwin Bahmani, Tianchang Shen, Jiawei Ren, Jiahui Huang, Yifeng Jiang, Haithem Turki, Andrea Tagliasacchi, David B. Lindell, Zan Gojcic, Sanja Fidler, Huan Ling, Jun Gao, Xuanchi Ren

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-23 | 👍 点赞数: 20

摘要:

论文标题:Lyra:基于视频扩散模型自蒸馏的生成式3D场景重建

中文摘要:
生成虚拟环境的能力对于从游戏到机器人、自动驾驶和工业人工智能等物理AI领域的应用至关重要。当前基于学习的3D重建方法依赖于真实世界多视角数据的采集,而这类数据并不总是易于获取。近年来,视频扩散模型在视觉内容生成方面展现出卓越的“想象力”,但其二维特性限制了其在需要机器人导航与环境交互的仿真场景中的应用。本文提出一种自蒸馏框架,旨在将视频扩散模型中隐含的3D知识迁移到显式的3D高斯点阵(3D Gaussian Splatting, 3DGS)表示中,从而无需依赖多视角训练数据。具体而言,我们在传统的RGB解码器基础上引入一个3DGS解码器,并以RGB解码器的输出作为监督信号对其进行训练。在此框架下,3DGS解码器可完全利用视频扩散模型生成的合成数据进行训练。在推理阶段,我们的模型能够根据文本提示或单张图像生成3D场景,支持实时渲染。此外,该框架还可扩展用于从单目输入视频生成动态3D场景。实验结果表明,所提方法在静态与动态3D场景生成任务上均达到了最先进的性能。


11. What Characterizes Effective Reasoning? Revisiting Length, Review, and

Structure of CoT

作者: Yunzhen Feng, Julia Kempe, Cheng Zhang, Parag Jain, Anthony Hartshorn

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-23 | 👍 点赞数: 20

摘要:

论文标题:什么是有效的推理?重新审视思维链的长度、回顾与结构

中文摘要:
大型推理模型(LRMs)在测试阶段投入大量计算资源生成冗长的思维链(Chain-of-Thought, CoT)轨迹,但究竟何种特征构成了“有效”的CoT仍不明确。尽管先前研究通过添加“等待”(wait)令牌来延长CoT并增加对先前步骤的回顾(review),报告了性能提升,但近期研究表明,更短的推理过程有时反而优于更长的轨迹。因此,我们在十个大型推理模型上,针对数学与科学推理任务开展了系统性评估。与“越长越好”的观点相反,我们发现简单地延长CoT或增加回顾频率均与准确率下降相关。

由于CoT是逐步展开的,基于token级别的指标容易将冗余性与推理过程质量混淆。为此,我们提出一种图结构视角来建模CoT,从中提取其结构特征,并识别出一个关键统计量——失败步骤比例(Failed-Step Fraction, FSF),即在被放弃分支中的步骤所占比例。该指标在跨模型预测推理正确性方面, consistently 优于CoT长度和回顾比率。

为探究因果关系,我们设计了两项干预实验:第一,在测试时依据不同指标对候选CoT进行排序,结果表明基于FSF排序带来的pass@1提升最大;第二,我们对CoT进行编辑,移除其中的失败分支,发现显著提升了推理准确率,表明失败分支会对后续推理产生偏差。综上所述,本研究揭示:有效的思维链本质上是“更少失败”的推理路径,并支持在测试阶段采用结构感知的扩展策略,而非盲目生成冗长的CoT。


12. Soft Tokens, Hard Truths

作者: Natasha Butt, Ariel Kwiatkowski, Ismail Labiad, Julia Kempe, Yann Ollivier

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-23 | 👍 点赞数: 15

摘要:

论文标题:软化标记,硬核真相

中文摘要:
近年来,研究者开始关注在大语言模型(LLM)推理过程中的思维链(Chain-of-Thought, CoT)阶段使用连续(continuous)而非离散(discrete)标记的方法。其核心直觉在于:离散标记的连续混合可能同时模拟多条推理路径的叠加状态。理论结果已形式化地证明,连续标记具有更强的表达能力,并能更高效地解决某些特定问题。然而,连续标记的实际应用受限于严重的训练困难:以往工作要么仅在预训练好的离散标记模型上、于推理阶段使用连续标记;要么必须从真实标注的离散思维链中进行知识蒸馏,而这带来了高昂的计算成本,导致思维链只能包含极少数标记。

本文首次提出一种可扩展的方法,通过强化学习(Reinforcement Learning, RL)直接学习连续思维链,而无需从参考性的离散思维链中进行蒸馏。我们采用“软”标记(soft tokens),即标记的混合分布,并在输入嵌入中引入噪声,以促进强化学习过程中的探索。该方法计算开销极小,使我们能够训练包含数百个标记的连续思维链。在基于Llama和Qwen系列模型(最大达8B参数)的数学推理基准测试中,使用连续思维链训练的模型在pass@1指标上与离散标记方法表现相当,在pass@32指标上则显著超越后者,显示出更高的思维链多样性。系统性对比实验表明,性能最优的设置是:训练时使用连续思维链标记,而在推理时使用离散标记——这意味着“软”模型仍可按标准方式部署。最后,我们还发现,连续思维链的强化学习训练能更好地保留基础模型在域外任务上的预测行为,从而对基础模型实现更温和的调整。


13. Large Language Models Discriminate Against Speakers of German Dialects

作者: Minh Duc Bui, Carolin Holtermann, Valentin Hofmann, Anne Lauscher, Katharina von der Wense

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-17 | 👍 点赞数: 7

摘要:

论文标题:大型语言模型对德语方言使用者存在歧视

中文摘要:
方言是人类文化的重要组成部分,遍布全球各个地区。在德国,超过40%的人口使用一种地方方言(Adler 和 Hansen,2022)。然而,尽管方言具有重要的文化价值,说方言的个体却常常面临负面的社会刻板印象。我们探讨了这些社会刻板印象是否在大型语言模型(LLMs)中有所体现。本研究借鉴社会语言学中关于方言感知的研究文献,分析与方言使用者常被关联的特质,并基于这些特质,在两项任务——联想任务和决策任务中,评估LLMs所表现出的“方言命名偏见”和“方言使用偏见”。为了衡量模型的方言使用偏见,我们构建了一个新的评估语料库,将七种德语地方方言(如阿勒曼尼语和巴伐利亚语)的句子与其标准德语对应句进行配对。研究发现:(1)在联想任务中,所有被评估的大型语言模型均显著表现出针对德语方言使用者的方言命名偏见和方言使用偏见,表现为更多负面形容词的关联;(2)所有模型在决策过程中均再现了这些方言命名和使用上的偏见;(3)与以往研究发现的在明确提及人口统计信息时偏见较小的结果相反,我们发现,明确标注语言群体身份——即德语方言使用者——比使用方言本身等隐性线索更强烈地加剧了模型的偏见。


14. HyRF: Hybrid Radiance Fields for Memory-efficient and High-quality Novel

View Synthesis

作者: Zipeng Wang, Dan Xu

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-21 | 👍 点赞数: 6

摘要:

论文标题:HyRF:用于内存高效且高质量新视角合成的混合辐射场

中文摘要:
近年来,3D高斯点阵化(3D Gaussian Splatting, 3DGS)作为一种强大的替代方案,取代了基于NeRF的方法,通过显式的、可优化的3D高斯函数实现了实时且高质量的新视角合成。然而,3DGS由于依赖每个高斯的参数来建模视图相关效应和各向异性形状,导致显著的内存开销。尽管近期研究尝试通过神经场对3DGS进行压缩,但这些方法难以捕捉高斯属性中的高频空间变化,从而导致细节重建质量下降。本文提出混合辐射场(Hybrid Radiance Fields, HyRF),一种结合显式高斯与神经场优势的新型场景表示方法。HyRF将场景分解为两部分:(1)一组紧凑的显式高斯,仅存储关键的高频参数;(2)基于网格的神经场,用于预测其余属性。为了增强表达能力,我们引入了一种解耦的神经场架构,分别建模几何属性(尺度、不透明度、旋转)和视图相关的颜色。此外,我们提出一种混合渲染策略,将高斯点阵化结果与神经场预测的背景进行融合,以解决远距离场景表征的局限性。实验表明,HyRF在保持实时渲染性能的同时,相比3DGS模型大小减少了20倍以上,并实现了最先进的渲染质量。我们的项目页面位于 https://wzpscott.github.io/hyrf/。


15. CAR-Flow: Condition-Aware Reparameterization Aligns Source and Target

for Better Flow Matching

作者: Chen Chen, Pengsheng Guo, Liangchen Song, Jiasen Lu, Rui Qian, Xinze Wang, Tsu-Jui Fu, Wei Liu, Yinfei Yang, Alex Schwing

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-23 | 👍 点赞数: 3

摘要:

论文标题:CAR-Flow:条件感知重参数化对齐源与目标以实现更优的流匹配

中文摘要:
条件生成建模旨在从包含数据-条件配对样本中学习条件数据分布。在该领域,扩散模型和基于流的模型已取得了令人瞩目的成果。这些方法通常使用一个可学习的(流)模型,将初始的标准高斯噪声(忽略条件信息)映射到目标条件数据分布。因此,模型必须同时学习质量传输(mass transport)和条件注入(conditional injection)。为了减轻模型的学习负担,本文提出面向流匹配的条件感知重参数化方法(Condition-Aware Reparameterization for Flow Matching, CAR-Flow)——一种轻量级的可学习偏移机制,用于对源分布、目标分布或二者同时进行条件化调整。通过对这些分布进行重新定位,CAR-Flow 缩短了模型所需学习的概率路径,从而在实际训练中加快收敛速度。在低维合成数据上,我们可视化并量化了 CAR 的影响效果;在高维真实图像数据(ImageNet-256)上的实验表明,在 SiT-XL/2 模型中引入 CAR-Flow 后,FID 指标从 2.07 降低至 1.68,而额外引入的参数量不足 0.6%。


16. OpenGVL - Benchmarking Visual Temporal Progress for Data Curation

作者: Paweł Budzianowski, Emilia Wiśnios, Gracjan Góral, Igor Kulakov, Viktor Petrenko, Krzysztof Walas

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-22 | 👍 点赞数: 3

摘要:

论文标题:OpenGVL——面向数据整理的视觉时间进度基准评测

中文摘要:
数据稀缺性仍是推动机器人技术发展最主要的制约因素之一。然而,现实中可获取的机器人数据正呈指数级增长,为大规模数据利用带来了新的机遇。可靠的时间任务完成度预测有望实现对这些数据的自动化标注与整理。近期提出的生成式价值学习(Generative Value Learning, GVL)方法,利用视觉-语言模型(Vision-Language Models, VLMs)中蕴含的知识,从视觉观测中预测任务进展。在此基础上,我们提出了OpenGVL——一个涵盖多种复杂操作任务的综合性基准,用于评估在涉及机器人与人类具身场景下的任务进度估计能力。我们对当前公开可用的开源基础模型进行了系统评估,结果表明,现有开源模型家族在时间进度预测任务上的表现显著落后于闭源模型,性能仅达到后者的约70%。此外,我们展示了OpenGVL如何作为实用工具应用于自动化数据整理与筛选,从而实现对大规模机器人数据集的高效质量评估。我们已将该基准及完整代码库在 github.com/budzianowski/opengvl(OpenGVL)上公开发布。


17. VIR-Bench: Evaluating Geospatial and Temporal Understanding of MLLMs via

Travel Video Itinerary Reconstruction

作者: Hao Wang, Eiki Murata, Lingfang Zhang, Ayako Sato, So Fukuda, Ziqi Yin, Wentao Hu, Keisuke Nakao, Yusuke Nakamura, Sebastian Zwirner, Yi-Chia Chen, Hiroyuki Otomo, Hiroki Ouchi, Daisuke Kawahara

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-23 | 👍 点赞数: 2

摘要:

论文标题:VIR-Bench:通过旅行视频行程重建评估多模态大语言模型的地理空间与时间理解能力

中文摘要:
近年来,多模态大语言模型(MLLMs)在视频理解能力方面取得了显著进展,为实际应用开辟了新的可能性。然而,现有的视频基准数据集主要集中在室内场景或短距离户外活动,对长距离旅行所涉及的挑战仍缺乏探索。掌握长跨度的地理空间-时间轨迹对于下一代MLLMs至关重要,是实现具身AI规划与导航等现实任务的基础。为填补这一空白,我们提出了VIR-Bench——一个包含200个旅行视频的新颖基准,将行程重建定义为一项具有挑战性的任务,旨在评估并推动MLLMs在地理空间与时间理解方面的智能水平。实验结果表明,包括闭源模型在内的当前最先进的MLLMs在该基准上表现不佳,凸显出处理跨广阔时空尺度视频内容的难度。此外,我们开展了一项深入的案例研究,基于VIR-Bench的洞察开发了一个原型旅行规划智能体。该智能体在行程推荐方面的显著提升验证了我们的评估协议不仅能有效衡量模型性能,还能切实转化为面向用户应用中的实际性能增益。


18. GeoSVR: Taming Sparse Voxels for Geometrically Accurate Surface

Reconstruction

作者: Jiahe Li, Jiawei Zhang, Youmin Zhang, Xiao Bai, Jin Zheng, Xiaohan Yu, Lin Gu

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-22 | 👍 点赞数: 2

摘要:

论文标题:GeoSVR:利用稀疏体素实现几何精确的表面重建

中文摘要:
近年来,基于辐射场的精确表面重建已取得显著进展。然而,当前主流方法主要依赖于高斯点阵化(Gaussian Splatting),在表示能力上正逐渐遭遇瓶颈。本文提出 GeoSVR,一种基于显式体素的框架,旨在探索并拓展尚未被充分研究的稀疏体素在实现精确、细致且完整表面重建中的潜力。稀疏体素的优势在于能够保持场景覆盖的完整性与几何结构的清晰性,但同时也带来了因缺乏场景约束以及表面优化过程中局部性不足所带来的挑战。为确保场景的正确收敛,我们首先提出一种体素不确定性深度约束(Voxel-Uncertainty Depth Constraint),该方法在最大化单目深度线索作用的同时,引入面向体素的不确定性建模,以避免重建质量退化,从而在保证高度精确几何结构的前提下,实现有效且鲁棒的场景约束。随后,我们设计了稀疏体素表面正则化(Sparse Voxel Surface Regularization)策略,以增强微小体素间的几何一致性,并促进基于体素的锐利、精确表面的形成。大量实验表明,相较于现有方法,我们的方法在多种复杂挑战性场景下均展现出优越性能,在几何精度、细节保留和重建完整性方面表现突出,同时保持了高效率。代码已公开发布于 https://github.com/Fictionarry/GeoSVR。


19. Better Late Than Never: Evaluation of Latency Metrics for Simultaneous

Speech-to-Text Translation

作者: Peter Polák, Sara Papi, Luisa Bentivogli, Ondřej Bojar

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-22 | 👍 点赞数: 2

摘要:

论文标题:迟来总比不来:面向同声传译的延迟度量评估

中文摘要:
同声语音到文本翻译(SimulST)系统需要在翻译质量与延迟之间取得平衡——即语音输入与翻译输出之间的时间差。尽管质量评估已有较为成熟的方法,但准确测量延迟仍是一个挑战。现有延迟度量方法常常产生不一致或误导性的结果,尤其是在广泛使用的短片段设置中,语音被人为地预先分割成片段。本文首次对跨语言对、不同系统以及短片段和长片段两种模式下的SimulST延迟度量进行了全面分析。我们揭示了当前度量方法中存在的与分段相关的结构性偏差,这种偏差破坏了公平且有意义的比较。为解决这一问题,我们提出了YAAL(Yet Another Average Lagging,又一种平均滞后),这是一种改进的延迟度量方法,在短片段模式下能够提供更准确的评估结果。我们将YAAL扩展为LongYAAL,用于处理未分割的连续音频,并提出SoftSegmenter——一种基于词级别对齐的新型重分段工具。实验结果表明,YAAL和LongYAAL在性能上优于主流的延迟度量指标,而SoftSegmenter则提升了长片段评估中的对齐质量,三者共同实现了对SimulST系统更为可靠和稳健的评估。


20. CommonForms: A Large, Diverse Dataset for Form Field Detection

作者: Joe Barrow

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-20 | 👍 点赞数: 2

摘要:

论文标题:CommonForms:一种用于表单字段检测的大规模多样化数据集

中文摘要:
本文介绍了CommonForms,一个面向表单字段检测的网络规模数据集。该研究将表单字段检测问题建模为对象检测任务:给定一页文档的图像,预测其中表单字段的位置及其类型(文本输入框、选择按钮、签名框)。该数据集通过筛选Common Crawl中的PDF文件构建,选取包含可填写元素的文档。从最初的800万份文档出发,经过过滤流程,最终获得约5.5万份文档,共计超过45万页。分析表明,该数据集涵盖多种语言和领域:三分之一的页面为非英文内容,在已分类的14个领域中,任一领域所占比例均不超过25%。

此外,本文提出了一族表单字段检测模型FFDNet-Small和FFDNet-Large,在CommonForms测试集上实现了很高的平均精度(average precision)。每个模型的训练成本低于500美元。消融实验表明,高分辨率输入对于高质量的表单字段检测至关重要,且数据清洗过程相比直接使用Common Crawl中所有含可填字段的PDF文件显著提升了数据利用效率。定性分析显示,这些模型在性能上优于一种流行的商用PDF阅读器(具备表单识别功能)。与当前主流商业解决方案不同的是,FFDNet不仅能检测文本和签名字段,还能识别复选框(checkboxes)。据我们所知,这是首个公开发布的用于表单字段检测的大规模数据集,同时也是首个开源的检测模型。数据集、模型及代码将在 https://github.com/jbarrow/commonforms 发布。


21. Zero-Shot Multi-Spectral Learning: Reimagining a Generalist Multimodal

Gemini 2.5 Model for Remote Sensing Applications

作者: Ganesh Mallya, Yotam Gigi, Dahun Kim, Maxim Neumann, Genady Beryozkin, Tomer Shekel, Anelia Angelova

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-23 | 👍 点赞数: 1

摘要:

论文标题:零样本多光谱学习:重构通用多模态Gemini 2.5模型用于遥感应用

中文摘要:
多光谱影像在土地利用分类、环境监测和城市规划等多种遥感应用中发挥着关键作用。由于其额外的光谱波段与地表物理材质(如冰、水体和植被)具有强相关性,这类图像能够实现更精确的识别。此外,Sentinel-2 和 Landsat 等卫星任务公开提供的多光谱数据进一步提升了其应用价值。目前,此类数据的自动分析主要依赖专门针对多光谱输入训练的机器学习模型,但这些模型训练成本高且维护复杂。更重要的是,尽管多光谱数据对遥感极具实用价值,却无法被现有的强大通用大型多模态模型所利用——这些模型虽能解决多种视觉任务,但无法理解专业的多光谱信号。

为解决这一问题,我们提出一种无需训练的方法,能够在仅限零样本(Zero-Shot)模式下,将新的多光谱数据作为输入引入原本仅基于RGB图像训练的通用多模态模型中。该方法充分利用多模态模型对视觉空间的理解能力,通过将多光谱输入适配至该视觉空间,并以指令形式向模型注入领域特定信息,从而实现有效推理。我们以Gemini 2.5模型为例验证该方法,在多个主流遥感基准任务(如土地覆盖与土地利用分类)上实现了显著的零样本性能提升,同时展示了Gemini 2.5模型对新型输入的快速适应能力。实验结果表明,地理空间领域的专业人员在处理非标准、专业化传感器输入时,可便捷地利用Gemini 2.5等先进多模态模型,借助其强大的推理与上下文理解能力加速工作流程,充分发挥专业传感数据的价值。


22. PEEK: Guiding and Minimal Image Representations for Zero-Shot

Generalization of Robot Manipulation Policies

作者: Jesse Zhang, Marius Memmel, Kevin Kim, Dieter Fox, Jesse Thomason, Fabio Ramos, Erdem Bıyık, Abhishek Gupta, Anqi Li

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-22 | 👍 点赞数: 1

摘要:

论文标题:PEEK:面向机器人操作策略零样本泛化的引导式最小化图像表征

中文摘要:
机器人操作策略常常难以实现泛化,因为它们必须同时学习关注的位置、应采取的动作以及如何执行这些动作。我们认为,“在哪里关注”和“采取什么动作”这类高层推理可以交由视觉-语言模型(Vision-Language Models, VLMs)来完成,从而让策略专注于“如何执行”。我们提出了PEEK(Policy-agnostic Extraction of Essential Keypoints,策略无关的关键点提取),该方法通过对VLM进行微调,以预测一种统一的基于关键点的中间表征:1)指定应采取何种动作的末端执行器路径;2)指示注意力聚焦区域的任务相关掩码。这些标注可直接叠加在机器人的观测图像上,使得该表征与具体策略无关,并可在不同网络架构间迁移。为了实现可扩展的训练,我们设计了一套自动标注流程,在涵盖9种机器人形态的20多个机器人数据集中自动生成带标签的数据。在真实世界中的实验表明,PEEK显著提升了零样本泛化能力:对于仅在仿真中训练的3D策略,其实物性能提升了41.4倍;对于大型视觉-语言-动作模型(VLAs)和小型操作策略,性能也分别提升了2至3.5倍。通过让视觉-语言模型吸收语义与视觉复杂性,PEEK为操作策略提供了其所需的最简线索——在哪里、做什么、怎么做。项目网站:https://peek-robot.github.io/。


23. RadEval: A framework for radiology text evaluation

作者: Justin Xu, Xi Zhang, Javid Abderezaei, Julie Bauml, Roger Boodoo, Fatemeh Haghighi, Ali Ganjizadeh, Eric Brattain, Dave Van Veen, Zaiqiao Meng, David Eyre, Jean-Benoit Delbrouck

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-22 | 👍 点赞数: 1

摘要:

论文标题:RadEval:一种用于放射学文本评估的框架

中文摘要:
本文提出RadEval,一个统一且开源的放射学文本评估框架。RadEval整合了多种评估指标,涵盖经典的n元组重叠指标(如BLEU、ROUGE)、上下文感知指标(如BERTScore)、基于临床概念的评分方法(如F1CheXbert、F1RadGraph、RaTEScore、SRR-BERT、TemporalEntityF1),以及先进的基于大语言模型(LLM)的评估器(如GREEN)。我们对这些指标的实现进行了优化与标准化,扩展了GREEN以支持多种医学影像模态,并采用更轻量级的模型;同时预训练了一个领域特定的放射学编码器,在零样本检索任务中表现出色。此外,我们发布了一个由专家标注的丰富数据集,包含超过450个具有临床意义的错误标签,并分析了不同自动评估指标与放射科医生判断之间的一致性。最后,RadEval提供了统计检验工具,并在多个公开可用的数据集上提供了基线模型的评估结果,有助于推动放射学报告生成领域的可重复性研究和稳健的基准测试。


24. DRISHTIKON: A Multimodal Multilingual Benchmark for Testing Language

Models' Understanding on Indian Culture

作者: Arijit Maji, Raghvendra Kumar, Akash Ghosh, Anushka, Nemil Shah, Abhilekh Borah, Vanshika Shah, Nishant Mishra, Sriparna Saha

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-23

摘要:

论文标题:DRISHTIKON:一种用于测试语言模型对印度文化理解能力的多模态多语言基准

中文摘要:
我们推出了DRISHTIKON,这是首个专注于印度文化的多模态、多语言基准,旨在评估生成式人工智能系统对文化的理解能力。与现有具有通用或全球范围的基准不同,DRISHTIKON深入覆盖印度多元的地域文化,涵盖15种语言,遍及所有邦和联邦属地,并包含超过64,000对对齐的文本-图像样本。该数据集涵盖了丰富的文化主题,包括节日、服饰、饮食、艺术形式以及历史遗产等。我们在零样本(zero-shot)和思维链(chain-of-thought)设置下,广泛评估了多种视觉-语言模型(VLMs),包括开源的小型与大型模型、专有系统、擅长推理的VLMs,以及面向印度语系的模型。实验结果揭示了当前模型在处理基于文化背景的多模态输入时存在的关键局限性,尤其是在低资源语言和记录较少的传统方面。DRISHTIKON填补了包容性人工智能研究中的一个重要空白,为推动具备文化感知能力和多模态理解水平的语言技术提供了一个强有力的测试平台。