每日论文 - 2025年09月15日
论文总数: 21
1. The Illusion of Diminishing Returns: Measuring Long Horizon Execution in
LLMs
作者: Akshit Sinha, Arvindh Arun, Shashwat Goel, Steffen Staab, Jonas Geiping
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-11 | 👍 点赞数: 31
摘要:
论文标题:递减回报的错觉:大语言模型长周期任务执行能力的度量
中文摘要:
大语言模型(LLMs)的持续扩展是否带来了递减的回报?现实世界中的价值往往取决于智能体能够完成的任务长度。本文从一个简单却反直觉的现象出发:单步准确率的边际提升,可能累积为模型可成功完成任务长度的指数级增长。我们进一步指出,当简单任务被延长时,大语言模型出现失败,主要源于执行过程中的错误,而非推理能力的不足。为此,我们提出通过显式提供解决长周期任务所需的知识与计划,来单独评估模型的执行能力。研究发现,即使小型模型在单轮任务中准确率达到100%,大型模型仍能在多轮交互中正确执行显著更多的步骤。我们观察到,随着任务步数增加,模型每一步的准确率会下降。这种退化不仅源于长上下文处理的局限性——更值得注意的是,我们发现了一种“自我条件效应”(self-conditioning effect):当上下文中包含模型此前步骤的错误时,模型更倾向于延续并放大这些错误。这种自我条件效应并不会单纯通过扩大模型规模而缓解。相比之下,近期提出的“思维模型”(thinking models)不表现出明显的自我条件效应,并且能够在单次生成中完成更长的任务序列。最后,我们对前沿的思维模型在单次生成中可执行的任务长度进行了基准测试。总体而言,通过聚焦于“执行能力”,我们旨在调和当前关于大语言模型为何既能解决复杂推理问题、又在任务稍加延长时失败于简单任务之间的争议,并强调扩大模型规模以及在测试时增加顺序计算资源对于长周期任务的巨大收益。
2. InfGen: A Resolution-Agnostic Paradigm for Scalable Image Synthesis
作者: Tao Han, Wanghan Xu, Junchao Gong, Xiaoyu Yue, Song Guo, Luping Zhou, Lei Bai
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-12 | 👍 点赞数: 30
摘要:
论文标题:InfGen:一种可扩展图像合成的分辨率无关范式
中文摘要:
任意分辨率图像生成能够在不同设备上提供一致的视觉体验,在内容创作者与消费者领域具有广泛的应用前景。现有的扩散模型随着分辨率的提升,计算需求呈平方级增长,导致生成4K图像所需时间超 过100秒。为解决这一问题,我们探索了基于潜在扩散模型的第二代生成方法:将扩散模型生成的固定尺寸潜在表示视为内容编码,并提出利用一个紧凑的一步生成器,从该潜在表示中解码任意分辨率的图像。为此,我们提出了InfGen方法——用新的生成器替代原有的VAE解码器,从而无需重新训练扩散模型即可从固定尺寸的潜在空间生成任意分辨率的图像。该方法简化了生成流程,显著降低了计算复杂度,并可应用于所有使用相同潜在空间的模型。实验结果表明,InfGen能够推动多种现有模型进入任意高分辨率生成时代,同时将4K图像的生成时间缩短至10秒以内。
3. Virtual Agent Economies
作者: Nenad Tomasev, Matija Franklin, Joel Z. Leibo, Julian Jacobs, William A. Cunningham, Iason Gabriel, Simon Osindero
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-12 | 👍 点赞数: 25
摘要:
论文标题:虚拟代理经济
中文摘要:
随着自主人工智能代理的迅速普及,一种新的经济层正在形成,其中代理以超出人类直接监督的规模和速度进行交易与协调。我们提出“沙盒经济”作为分析这一新兴系统的框架,该框架沿两个关键维度对系统进行刻画:其起源(自发性与有意设计)以及其与现有人类经济的分离程度(可渗透性与不可渗透性)。当前的发展轨迹正指向一个大规模且高度可渗透的人工智能代理经济的自发形成,这既为我们带来前所未有的协调机遇,也伴随着系统性经济风险加剧和不平等恶化等重大挑战。本文探讨了若干可能实现安全可控的人工智能代理市场的设计选择。具体而言,我们讨论了用于公平资源分配与偏好协调的拍卖机制、围绕实现集体目标而构建的人工智能“使命经济”设计,以及确保信任、安全与问责所需的社技术基础设施。基于此,我们主张应主动设计可引导的代理市场,以确保即将到来的技术变革能够契合人类长期共同繁荣的目标。
4. X-Part: high fidelity and structure coherent shape decomposition
作者: Xinhao Yan, Jiachen Xu, Yang Li, Changfeng Ma, Yunhan Yang, Chunshi Wang, Zibo Zhao, Zeqiang Lai, Yunfei Zhao, Zhuo Chen, Chunchao Guo
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-10 | 👍 点赞数: 25
摘要:
论文标题:X-Part:高保真且结构一致的形状分解
中文摘要:
在部件层级生成三维形状对于网格重拓扑、UV映射和3D打印等下游应用至关重要。然而,现有的基于部件的生成方法通 常缺乏足够的可控性,且难以实现语义上合理的分解。为此,我们提出了X-Part——一种可控制的生成模型,旨在将完整的3D对象分解为语义明确、结构连贯且几何细节高度保真的部件。X-Part利用包围盒作为部件生成的提示,并注入逐点语义特征以实现具有语义意义的分解。此外,我们设计了一条可编辑的流程,支持交互式的部件生成。大量实验结果表明,X-Part在部件级形状生成任务中达到了最先进的性能。本工作建立了一种生成可用于生产、可编辑且结构合理的3D资产的新范式。代码将公开,供学术研究使用。
5. IntrEx: A Dataset for Modeling Engagement in Educational Conversations
作者: Xingwei Tan, Mahathi Parvatham, Chiara Gambi, Gabriele Pergola
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-08 | 👍 点赞数: 24
摘要:
论文标题:IntrEx:一个用于建模教育对话中参与度的数据集
中文摘要:
参与度和动机对第二语言习得至关重要,然而在教育性对话中维持学习者的兴趣仍是一项挑战。尽管已有研究探讨了教育文本吸引人的因素,但关于推动对话参与度的语言特 征,目前仍知之甚少。为填补这一空白,我们提出了IntrEx——首个针对师生互动中标注“趣味性”(interestingness)和“预期趣味性”(expected interestingness)的大规模数据集。IntrEx基于教师-学生聊天语料库(Teacher-Student Chatroom Corpus, TSCC)构建,通过引入序列级标注扩展了先前的研究,使得参与度的研究不再局限于单一话轮,而是能够捕捉兴趣在长篇对话中的演变过程。我们采用严格的标注流程,邀请了100多名第二语言学习者参与,并借鉴基于人类反馈的强化学习(RLHF)中的比较式评分方法,以提高标注一致性。我们进一步探究大语言模型(LLMs)是否能够预测人类对趣味性的判断。实验发现,在趣味性评分数据上微调后的小型大模型(7B/8B参数)表现优于GPT-4o等更大规模的专有模型,表明专用数据集在建模教育场景中的参与度方面具有巨大潜力。最后,我们分析了具体性(concreteness)、可理解性(可读性)以及承接性(uptake)等语言与认知因素如何影响教育对话中的参与度。
6. HANRAG: Heuristic Accurate Noise-resistant Retrieval-Augmented
Generation for Multi-hop Question Answering
作者: Duolin Sun, Dan Yang, Yue Shen, Yihan Jiao, Zhehao Tan, Jie Feng, Lianzhen Zhong, Jian Wang, Peng Wei, Jinjie Gu
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-08 | 👍 点赞数: 24
摘要:
论文标题:HANRAG:面向多跳问答的启发式精确抗噪检索增强生成方法
中文摘要:
检索增强生成(Retrieval-Augmented Generation, RAG)通过将信息检索(IR)技术与大语言模型(LLMs)相结合,提升了问答系统和对话生成任务的性能。该方法通过从外部知识库中检索信息以增强生成模型的回答能力,已取得一定成效。然而,当前的RAG方法在处理多跳查询时仍面临诸多挑战。例如,一些方法过度依赖迭代式检索,在复合查询上消耗过多检索步骤;此外,直接使用原始复杂查询进行检索可能无法准确捕捉与各子查询相关的内容,导致检索结果包含噪声。若不对噪声加以处理,容易引发噪声累积问题。为应对上述挑战,本文提出HANRAG——一种基于启发式的新型框架,旨在高效应对不同复杂度的问题。HANRAG由一个强大的揭示器(revelator)驱动,能够对查询进行路由、分解为多个子查询,并过滤检索文档中的噪声内容。该机制显著提升了系统的适应性和抗噪能力,使其能够有效处理多样化的查询任务。我们在多个基准数据集上将所提出的框架与其他主流业界方法进行了对比实验,结果表明,HANRAG在单跳和多跳问答任务中均表现出更优的性能。
7. Interpretable Physics Reasoning and Performance Taxonomy in
Vision-Language Models
作者: Pranav Pawar, Kavish Shah, Akshat Bhalani, Komal Kasat, Dev Mittal, Hadi Gala, Deepali Patil, Nikita Raichada, Monali Deshmukh
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-10 | 👍 点赞数: 21
摘要:
论文标题:视觉-语言模型中的可解释物理推理与性能分类
中文摘要:
随着视觉-语言模型(Vision-Language Models, VLMs)日益复杂,其推理能力正受到越来越多的关注。尽管这些模型在许多任务上表现出色,但它们对物理学等基础科学原理的理解仍是一个尚未充分探索的前沿领域。为了反映这些能力的最新进展,我们提出了一种新颖且易于使用的评估框架,旨在严格检验VLMs在二维物理理解方面的能力。该框架包含一个实用的场景生成器,可在四大核心物理领域——抛体运动、碰撞动力学、力学以及流体动力学——中生成超过400个多样化的问题测试集。通过对四种最先进的视觉-语言模型进行系统评估,我们发现模型规模与其推理能力之间存在显著正相关关系,其中表现最佳的模型Qwen2.5-VL-7B取得了0.815的总体得分。我们发现,尽管模型在公式化问题上表现优异,但在需要抽象空间推理的任务上则明显表现不佳。通过构建这一框架,我们旨在推动视觉-语言模型科学推理研究的普及化,并促进对其能力与局限性的更深入理解。
8. Inpainting-Guided Policy Optimization for Diffusion Large Language
Models
作者: Siyan Zhao, Mengchen Liu, Jing Huang, Miao Liu, Chenyu Wang, Bo Liu, Yuandong Tian, Guan Pang, Sean Bell, Aditya Grover, Feiyu Chen
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-12 | 👍 点赞数: 15
摘要:
论文标题:面向扩散式大语言模型的修复引导策略优化
中文摘要:
掩码扩散式大语言模型(dLLMs)正逐渐成为自回归式大语言模型的有力替代方案,不仅性能相当,还支持诸如文本修复(inpainting)等独特的生成能力。本文探讨了如何利用修复能力来指导dLLMs的强化学习(RL)算法设计。将大语言模型与强化学习对齐面临探索难题:当模型未能发现正确解时,会导致奖励信号稀疏和样本浪费。尽管这种低效性普遍存在于各类大语言模型中,但dLLMs提供了一个独特的机会——其修复能力可用于引导探索过程。我们提出了IGPO(修复引导策略优化,Inpainting Guided Policy Optimization),这是一种在在线采样过程中战略性地插入部分真实推理轨迹的强化学习框架。与直接提供完整解答不同,修复机制能够在保留模型自主生成推理过程的同时,引导探索朝向更有希望的轨迹空间,从而架起监督微调与强化学习之间的桥梁。我们将IGPO应用于基于组的优化方法(如GRPO),这类方法在探索失败时常导致优势值和梯度为零的问题。IGPO能够恢复有意义的梯度,同时提升样本效率。此外,我们提出对合成重写的简洁推理轨迹进行监督微调,使其更契合dLLM的生成模式。结合基于熵的过滤等其他技术,我们的训练方案在三个数学基准测试(GSM8K、Math500 和 AMC)上均取得了显著提升,实现了全注意力掩码dLLMs的新一代最优性能。
9. MCP-AgentBench: Evaluating Real-World Language Agent Performance with
MCP-Mediated Tools
作者: Zikang Guo, Benfeng Xu, Chiwei Zhu, Wentao Hong, Xiaorui Wang, Zhendong Mao
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-10 | 👍 点赞数: 14
摘要:
论文标题:MCP-AgentBench:基于MCP中介工具评估现实场景中语言代理性能
中文摘要:
模型上下文协议(Model Context Protocol, MCP)正迅速崛起为一项关键的开放标准,旨在增强智能代理与工具之间的集成与互操作性,有望开启一个强大、互联且真正实用的代理式人工智能新纪元。然而,尽管MCP的采用日益广泛,现有的基准测试往往未能有效反映在此新范式下代理在真实场景中的实际表现,导致对其真实应用价值的误判,并难以可靠地区分不同代理的能力差异。为弥补这一关键的评估空白,我们提出了MCP-AgentBench——一个专门设计的综合性基准测试框架,用于严格评估语言代理在MCP中介工具交互环境下的能力。MCP-AgentBench的核心贡献包括:构建了一个包含33个可运行服务器和188种不同工具的稳健MCP测试平台;开发了一个涵盖600个系统化设计查询的基准,这些查询均匀分布于6个具有不同交互复杂度的类别;以及提出MCP-Eval,一种新型的以结果为导向的评估方法,强调真实任务的成功率。通过对当前主流语言代理进行广泛的实证评估,我们获得了基础性洞察。MCP-AgentBench旨在为研究社区提供一个标准化且可靠的框架,以构建、验证并推进能够充分释放MCP变革潜力的智能代理,从而加速实现真正具备强大能力与高度互操作性的AI系统的发展进程。
10. LoFT: Parameter-Efficient Fine-Tuning for Long-tailed Semi-Supervised
Learning in Open-World Scenarios
作者: Jiahao Chen, Zhiyuan Huang, Yurou Liu, Bing Su
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-12 | 👍 点赞数: 13
摘要:
论文标题:LoFT:面向开放世界场景中长尾半监督学习的参数高效微调方法
中文摘要:
由于在真实场景中具有广泛的应用性,长尾学习近年来受到越来越多关注。在现有方法中,长尾半监督学习(LTSSL)通过将大量无标签数据引入类别不平衡的有标签数据集,已成为一种有效的解决方案。然而,大多数现有的LTSSL方法均从零开始训练模型,这往往导致模型过度自信以及生成低质量的伪标签等问题。为应对这些挑战,本文将LTSSL扩展到基础模型微调范式,并提出一种新颖的框架——LoFT(基于参数高效微调的长尾半监督学习)。我们证明,经过微调的基础模型能够生成更可靠的伪标签,从而有利于缓解类别不平衡问题。进一步地,我们研究了更具实用性的开放世界场景下的半监督学习,其中无标签数据可能包含分布外(OOD)样本。针对这一问题,我们提出了LoFT-OW(开放世界场景下的LoFT),以提升模型对分布内与分布外样本的判别能力。在多个基准数据集上的实验结果表明,即使仅使用以往工作所用无标签数据的1%,我们的方法仍显著优于先前的方法。
11. World Modeling with Probabilistic Structure Integration
作者: Klemen Kotar, Wanhee Lee, Rahul Venkatesh, Honglin Chen, Daniel Bear, Jared Watrous, Simon Kim, Khai Loong Aw, Lilian Naing Chen, Stefan Stojanov, Kevin Feigelis, Imran Thobani, Alex Durango, Khaled Jedoui, Atlas Kazemian, Dan Yamins
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-10 | 👍 点赞数: 13
摘要:
论文标题:融合概率结构的世界建模
中文摘要:
本文提出概率结构融合(Probabilistic Structure Integration, PSI),一种从数据中学习高度可控且灵活可提示化世界模型的系统。PSI 包含一个三步循环过程。第一步为概率预测,旨在构建数据的概率图模型 Psi,其形式为支持随机访问的自回归序列模型。Psi 能够提供完整的条件概率分布集合,描述数据中任意变量对其他任意变量集合的依赖关系。第二步为结构提取,我们展示如何通过对 Psi 进行因果推断,以零样本(zero-shot)方式提取数据中潜在的低维属性,对应于多种有意义的“中间结构”。第三步为融合,将这些中间结构转化为新的 token 类型,并持续作为条件信号和预测目标重新注入训练过程中,从而完成整个循环。每一次循环均增强 Psi 的建模能力,不仅提升其对底层数据的刻画精度,还生成新的控制接口——类似于大语言模型(LLM)中的通用提示语言。我们在 1.4 万亿 token 的互联网视频数据上训练了一个 Psi 实例,实现了多种有用的视频预测与理解推理任务;从中提取出当前最先进的光流、自监督深度估计和物体分割结果;并利用这些结构支持了完整的预测性能迭代优化循环。
12. FLOWER: Democratizing Generalist Robot Policies with Efficient
Vision-Language-Action Flow Policies
作者: Moritz Reuss, Hongyi Zhou, Marcel Rühle, Ömer Erdinç Yağmurlu, Fabian Otto, Rudolf Lioutikov
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-05 | 👍 点赞数: 13
摘要:
论文标题:FLOWER:通过高效的视觉-语言-动作流策略实现通用机器人策略的普及
中文摘要:
开发高效的视觉-语言-动作(Vision-Language-Action, VLA)策略对于实际机器人部署至关重要,但现有方法面临高昂的计算成本和资源需求。当前基于扩散模型的VLA策略通常需要数十亿参数的模型和海量数据集才能实现良好性能。为应对这一效率挑战,本文提出两项关键技术:中间模态融合(intermediate-modality fusion),通过剪枝最多50%的大语言模型(LLM)层,将模型容量重新分配至扩散头;以及面向动作的全局自适应层归一化调节(action-specific Global-AdaLN conditioning),通过模块化适配减少20%的参数量。我们将这些改进集成到一个新型的9.5亿参数VLA模型中,命名为FLOWER。该模型仅需200个H100 GPU小时即可完成预训练,在涵盖十个仿真与真实世界基准的190项任务中,性能媲美更大规模的VLA模型,并在多种机器人形态上展现出良好的鲁棒性。此外,FLOWER在CALVIN ABC基准上取得了4.53的新SoTA成绩。演示、代码和预训练权重已公开发布,
详见 https://intuitive-robots.github.io/flower_vla/。
13. QuantAgent: Price-Driven Multi-Agent LLMs for High-Frequency Trading
作者: Fei Xiong, Xiang Zhang, Aosong Feng, Siqi Sun, Chenyu You
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-12 | 👍 点赞数: 12
摘要:
论文标题:QuantAgent:面向高频交易的价格驱动型多智能体大语言模型
中文摘要:
近年来,大语言模型(Large Language Models, LLMs)在金融推理与市场理解方面展现出卓越的能力。TradingAgent 和 FINMEM 等多智能体LLM框架将这些模型应用于长期投资任务,利用基本面信息和情感分析输入进行战略决策。然而,这类系统难以满足高频交易(High-Frequency Trading, HFT)对速度和精度的严苛要求。高频交易依赖结构化、短周期信号(如技术指标、图表形态和趋势特征)进行快速且具备风险意识的决策,这与传统金融LLM应用中常见的长期语义推理有显著区别。为此,我们提出了QuantAgent——首个专为高频算法交易设计的多智能体大语言模型框架。该系统将交易过程分解为四 个专业化智能体:指标(Indicator)、形态(Pattern)、趋势(Trend)和风险(Risk)智能体,每个智能体均配备领域特定工具和结构化推理能力,以捕捉短时间窗口内市场动态的不同方面。在涵盖比特币和纳斯达克期货等十种金融工具的零样本评估中,QuantAgent在4小时交易区间内的预测准确率和累计收益方面均显著优于强大的神经网络模型和基于规则的基线方法。我们的研究结果表明,将结构化的金融先验知识与语言原生推理能力相结合,有望释放出可追溯、实时的高频金融市场决策系统的全新潜力。
14. Color Me Correctly: Bridging Perceptual Color Spaces and Text Embeddings
for Improved Diffusion Generation
作者: Sung-Lin Tsai, Bo-Lun Huang, Yu Ting Shen, Cheng Yu Yeo, Chiang Tseng, Bo-Kai Ruan, Wen-Sheng Lien, Hong-Han Shuai
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-12 | 👍 点赞数: 11
摘要:
论文标题:准确着色:融合感知色彩空间与文本嵌入以提升扩散模型生成效果
中文摘要:
在文本到图像(T2I)生成中,精确的颜色对齐对于时尚设计、产品可视化和室内设计等应用至关重要。然而,当前的扩散模型在处理细微或复合颜色词汇(如蒂凡尼蓝、青柠绿、亮粉色)时仍面临挑战,常常生成与人类意图不符的图像。现有方法依赖于交叉注意力操控、参考图像或微调策略,但无法系统性地解决颜色描述的歧义问题。为在提示语存在歧义的情况下实现精确的颜色渲染,本文提出一种无需训练的框架,通过利用大语言模型(LLM)消除颜色相关提示的歧义,并在文本嵌入空间中直接引导颜色混合操作,从而提升颜色保真度。该方法首先使用大语言模型(LLM)解析文本提示中的模糊颜色术语,然后根据CIELAB色彩空间中对应颜色词的空间关系优化文本嵌入。与以往方法不同,本方法无需额外训练或外部参考图像即可提升颜色准确性。实验结果表明,所提框架在不牺牲图像质量的前提下显著改善了颜色对齐效果,有效弥合了文本语义与视觉生成之间的鸿沟。
15. VStyle: A Benchmark for Voice Style Adaptation with Spoken Instructions
作者: Jun Zhan, Mingyang Han, Yuxuan Xie, Chen Wang, Dong Zhang, Kexin Huang, Haoxiang Shi, DongXiao Wang, Tengtao Song, Qinyuan Cheng, Shimin Li, Jun Song, Xipeng Qiu, Bo Zheng
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-09 | 👍 点赞数: 10
摘要:
论文标题:VStyle:一种基于口语指令的语音风格适应性基准
中文摘要:
口语语言模型(Spoken Language Models, SLMs)已成为语音理解与生成的统一范式,推动了自然的人机交互发展。然而,尽管现有研究主要集中在语义准确性和指令遵循能力上,SLMs 根据自然语言口语指令调整自身说话风格(如音色、韵律或角色 persona)的能力却鲜有关注。本文提出语音风格适应(Voice Style Adaptation, VSA)这一新任务,旨在考察 SLMs 是否能够根据自然语言形式的口语命令,调整其发声风格。为推进该任务的研究,我们构建了 VStyle——一个涵盖中英文双语的基准数据集,包含四类语音生成场景:声学属性控制、自然语言指令响应、角色扮演以及隐式共情表达。同时,我们提出了“以大音频语言模型作为评判者”(Large Audio Language Model as a Judge, LALM as a Judge)的评估框架,从文本保真度、风格符合度和语音自然度三个递进维度对生成结果进行评估,确保评价过程可复现且客观可靠。在多个商用系统和开源 SLM 上的实验表明,当前模型在可控的语音风格适应方面仍存在明显局限,凸显出该任务的新颖性与挑战性。通过公开发布 VStyle 数据集及配套评估工具包,我们希望为社区提供一个推动以人为中心的口语交互技术发展的基础平台。数据集与代码已公开发布于 https://junzhan2000.github.io/VStyle.github.io/{项目主页}。
16. Visual-TableQA: Open-Domain Benchmark for Reasoning over Table Images
作者: Boammani Aser Lompo, Marc Haraoui
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-09 | 👍 点赞数: 4
摘要:
论文标题:Visual-TableQA:面向表格图像推理的开放域基准
中文摘要:
对表格等结构化数据进行视觉推理是现代视觉-语言模型(VLMs)的一项关键能力,然而现有评测基准在规模、多样性或推理深度方面仍存在局限,尤其是在渲染后的表格图像上更为明显。为弥补这一空白,我们提出了 Visual-TableQA,这是一个大规模、开放域的多模态数据集,专门用于评估和提升对复杂表格数据的视觉推理能力。我们的数据生成流程具有模块化、可扩展且完全自主的特点,通过多个扮演不同角色(生成、验证与启发)的推理型大语言模型(LLMs)协同工作来实现。Visual-TableQA 包含 2.5 千个结构丰富的 LaTeX 渲染表格以及 6 千个需要深度推理的问答对,全部生成成本低于 100 美元。为了提升数据的多样性和创造性,我们的流程引入了跨模型提示(“启发”)的多模型协作机制,并采用基于大模型评审团(LLM-jury)的过滤策略。较强模型提供布局和主题雏形,较弱模型在此基础上进行扩展,从而共同将多样化的推理模 式和视觉结构沉淀到数据集中。实验结果表明,在 Visual-TableQA 上微调的模型能够稳健地泛化至外部基准,在性能上超越多个专有模型,尽管该数据集为合成生成。完整的生成流程与资源已公开发布于 https://github.com/AI-4-Everyone/Visual-TableQA。
17. Context Engineering for Trustworthiness: Rescorla Wagner Steering Under
Mixed and Inappropriate Contexts
作者: Rushi Wang, Jiateng Liu, Cheng Qian, Yifan Shen, Yanzhou Pan, Zhaozhuo Xu, Ahmed Abbasi, Heng Ji, Denghui Zhang
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-02 | 👍 点赞数: 4
摘要:
论文标题:可信度的上下文工程:混合与不当上下文下的Rescorla-Wagner引导
中文摘要:
引入外部上下文可显著提升大语言模型(LLM)的响应质量。然而,现实世界中的上下文常常将相关信息与大量不当内容混合在一起,带来可靠性风险。LLM如何处理并优先选择这类混合上下文中的信息?为研究这一问题,我们提出了“污染上下文测试平台”(Poisoned Context Testbed) ,将查询与包含相关及不当内容的真实上下文配对。受动物联想学习机制的启发,我们借鉴神经科学中的Rescorla-Wagner(RW)模型,用以量化相互竞争的上下文信号如何影响LLM的输出。我们改进后的模型揭示了一种一致的行为模式:LLM倾向于采纳在上下文中出现频率较低的信息。这种倾向在现实场景中具有危害性——即使少量的不当内容也可能严重降低生成响应的质量。在我们的测试平台上进行的实证评估进一步证实了这一脆弱性。为应对该问题,我们提出RW-Steering,一种基于两阶段微调的方法,使模型能够内在地识别并忽略不当信号。与依赖大量多样化上下文混合标注数据的先前方法不同,RW-Steering能够在不同比例的不当内容下实现稳健的泛化。实验结果表明,我们最优的微调模型使响应质量提升了39.8%,并逆转了原有的不良行为趋势曲线,验证了RW-Steering作为一种强健且可泛化的上下文工程方案,在提升LLM现实应用安全性方面的有效性。
18. CAT: Causal Attention Tuning For Injecting Fine-grained Causal Knowledge
into Large Language Models
作者: Kairong Han, Wenshuo Zhao, Ziyu Zhao, JunJian Ye, Lujia Pan, Kun Kuang
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-01 | 👍 点赞数: 4
摘要:
论文标题:CAT:用于向大语言模型注入细粒度因果知识的因果注意力调节
中文摘要:
大语言模型(Large Language Models, LLMs)已在多个领域取得了显著的成功。然而,一个根本性的问题仍然存在:LLMs 是否能够有效利用因果知识进行预测与生成?通过实证研究,我们发现直接在大规模数据上训练的 LLMs 往往捕捉到的是虚假相关性而非真实的因果关系,导致其性能欠佳,尤其是在分布外(out-of-distribution, OOD)场景下。为应对这一挑战,我们提出了因果注意力调节(Causal Attention Tuning, CAT),一种将细粒度因果知识注入注意力机制的新方法。我们设计了一个自动化流程,利用人类先验知识自动生成词元级别(token-level)的因果信号,并引入“重注意力”(Re-Attention)机制来引导模型训练,帮助模型聚焦于因果结构,同时抑制注意力得分中的噪声与偏差。在我们提出的虚假词元游戏(Spurious Token Game, STG)基准以及多个下游任务上的实验结果表明,该方法能够有效利用因果知识进行预测,并在 OOD 场景中保持鲁棒性。相关实现细节详见 https://github.com/Kairong-Han/CAT。
19. DeMeVa at LeWiDi-2025: Modeling Perspectives with In-Context Learning
and Label Distribution Learning
作者: Daniil Ignatev, Nan Li, Hugh Mee Wong, Anh Dang, Shane Kaszefski Yaschuk
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-11 | 👍 点赞数: 2
摘要:
论文摘要:
本文介绍了DeMeVa团队在第三届“分歧学习”共享任务(LeWiDi 2025;Leonardelli 等,2025)中的系统方案。我们探索了两个方向:一是基于大语言模型的上下文学习(In-Context Learning, ICL),并比较了不同的示例采样策略;二是采用RoBERTa(Liu 等,2019b)的标签分布学习(Label Distribution Learning, LDL)方法,并评估了多种微调策略。我们的贡献主要有两点:(1)我们证明了ICL能够有效预测标注者特定的标注结果(即观点相关标注),并将这些预测结果聚合为软标签(soft labels)后可取得具有竞争力的性能;(2)我们认为LDL方法在软标签预测方面具有潜力,值得观点主义(perspectivist)研究社区进一步探索。
20. Large Language Model Hacking: Quantifying the Hidden Risks of Using LLMs
for Text Annotation
作者: Joachim Baumann, Paul Röttger, Aleksandra Urman, Albert Wendsjö, Flor Miriam Plaza-del-Arco, Johannes B. Gruber, Dirk Hovy
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-10 | 👍 点赞数: 2
摘要:
论文标题:大语言模型的“操纵”:量化使用大语言模型进行文本标注的潜在风险
中文摘要:
大语言模型(LLMs)正通过自动化数据标注和文本分析等耗时任务,迅速改变社会科学研究的方式。然而,LLM的输出结果在很大程度上取决于研究者所采用的实现方式(例如模型选择、提示策略或温度设置)。这种变异性可能引入系统性偏差和随机误差,并传递至后续分析中,导致第一类错误(Type I)、第二类错误(Type II)、符号错误(Type S)或幅度错误(Type M)。我们将此类问题称为“LLM 操纵”(LLM hacking)。
我们通过对21项已发表的社会科学研究中的37项数据标注任务进行复现,并使用18种不同的模型,对LLM操纵的风险进行了量化评估。在分析了1300万个LLM生成的标注结果的基础上,我们检验了2,361个具有现实意义的研究假设,以衡量研究者合理的选择如何影响统计推论。研究发现,对于最先进的大语言模型,约三分之一的假设会因LLM标注数据得出错误结论;而对于小型语言模型,这一比例高达一半。尽管我们的结果表明,更高的任务表现和更强的通用模型能力能够降低LLM操纵的风险,但即使是最准确的模型也无法完全消除该风险。随着效应量(effect size)的增大,LLM操纵的风险有所下降,这表明在接近显著性阈值的研究发现上需要更严格的验证。
我们对多种LLM操 纵缓解技术的广泛分析进一步凸显了人工标注在减少假阳性结果和优化模型选择方面的重要性。令人惊讶的是,常用的回归估计量校正方法在降低LLM操纵风险方面效果甚微,因其在控制第一类错误与第二类错误之间存在严重权衡。
除了无意的错误外,我们还发现有意的“LLM操纵”异常容易实现:仅需少数几种LLM和少量提示语的改写,几乎任何结果都可以被呈现为统计显著。
21. CMHG: A Dataset and Benchmark for Headline Generation of Minority
Languages in China
作者: Guixian Xu, Zeli Su, Ziyin Zhang, Jianing Liu, XU Han, Ting Zhang, Yushuang Dong
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-12 | 👍 点赞数: 1
摘要:
论文标题:CMHG:面向中国少数民族语言新闻标题生成的数据集与基准
中文摘要:
中国的少数民族语言,如藏语、维吾尔语和传统蒙古文,由于其书写系统独特且不同于国际标准,在自然语言处理方面面临重大挑战。这种差异导致相关语料库严重匮乏,尤其是在新闻标题生成等监督学习任务中。为填补这一空白,本文提出一个全新的数据集——中国少数民族语 言标题生成数据集(Chinese Minority Headline Generation, CMHG),其中包含10万条藏语条目,以及维吾尔语和蒙古语各5万条条目,专为标题生成任务精心构建。此外,我们还构建了一个由母语使用者标注的高质量测试集,旨在为该领域的后续研究提供可靠的评估基准。我们期望该数据集能成为推动中国少数民族语言标题生成研究的重要资源,并促进相关基准体系的发展。