Skip to main content

每日论文 - 2025年09月02日

论文总数: 7

1. PVPO: Pre-Estimated Value-Based Policy Optimization for Agentic

Reasoning

作者: Wenfeng Feng, Penghong Zhao, Guochao Jiang, Chuzhan Hao, Yuewei Zhang, Hao Wang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-28 | 👍 点赞数: 27

摘要:

PVPO: 基于预估价值的策略优化用于智能体推理

无critic的强化学习方法,尤其是群体策略,在复杂任务中因其效率而受到广泛关注。然而,这些方法依赖于策略内部的多次采样和比较以估计优势函数,可能导致策略陷入局部最优,并增加计算成本。为解决这些问题,我们提出PVPO,一种通过优势参考锚点和数据预采样增强的高效强化学习方法。具体而言,我们使用参考模型进行预先展开,并将计算得到的奖励分数作为参考锚点。我们的方法有效校正了组内比较引入的累积偏差,显著降低了对展开次数的依赖。同时,参考模型可在数据预采样阶段评估样本难度,从而有效筛选高收益数据以提升训练效率。在两个领域共九个数据集上的实验表明,PVPO达到了当前最优性能(SOTA)。我们的方法不仅在多个任务中表现出强大的泛化能力,还可在不同规模的模型上实现可扩展的性能表现。


2. T2R-bench: A Benchmark for Generating Article-Level Reports from Real

World Industrial Tables

作者: Jie Zhang, Changzai Pan, Kaiwen Wei, Sishi Xiong, Yu Zhao, Xiangyu Li, Jiaxin Peng, Xiaoyan Gu, Jian Yang, Wenhan Chang, Zhenhe Wu, Jiang Zhong, Shuangyong Song, Yongxiang Li, Xuelong Li

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-27 | 👍 点赞数: 20

摘要:

T2R-bench: 一个用于从真实工业表格生成文章级报告的基准测试

已有大量研究探索了大语言模型(Large Language Models, LLMs)在表格推理方面的能力。然而,将表格信息转化为报告的任务在工业应用中仍面临重大挑战。该任务存在两个关键问题:1)表格的复杂性和多样性导致推理效果不理想;2)现有的表格基准测试无法充分评估该任务的实际应用能力。为填补这一空白,我们提出了表格到报告(table-to-report)任务,并构建了一个双语基准测试集T2R-bench,其中包含了该任务中从表格到报告的关键信息流。该基准测试集包含457张来自真实场景的工业表格,涵盖19个行业领域以及4种类型的工业表格。此外,我们提出了一套评估标准以公平地衡量生成报告的质量。在25种广泛使用的LLMs上的实验表明,即使是Deepseek-R1等最先进的模型,其综合得分也仅为62.71,表明LLMs在T2R-bench任务上仍有提升空间。源代码和数据将在论文被接收后公开。


3. How Can Input Reformulation Improve Tool Usage Accuracy in a Complex

Dynamic Environment? A Study on τ-bench

作者: Venkatesh Mishra, Amir Saeidi, Satyam Raj, Mutsumi Nakamura, Jayanth Srinivasa, Gaowen Liu, Ali Payani, Chitta Baral

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-28 | 👍 点赞数: 15

摘要:

最近,大语言模型(LLMs)在推理和规划能力方面的进展使其有望作为自主智能体在动态环境中使用工具。然而,在像τ-bench这样的多轮对话环境中,这些智能体常常在一致性推理、遵循领域特定策略以及在长期工具调用和对话过程中提取正确信息方面面临挑战。为了识别并缓解这些失败情形,我们对对话轨迹中常见的错误进行了全面的手动分析。随后,我们尝试对输入内容进行重构,以优化工具调用智能体的决策过程。最终,我们提出了输入重构多智能体(Input-Reformulation Multi-Agent, IRMA)框架,该框架能够自动重构用户查询,并结合相关领域规则和工具建议,引导工具调用智能体更加专注于关键信息。实验结果显示,IRMA在整体pass@5得分上分别比ReAct、Function Calling和Self-Reflection方法高出16.1%、12.7%和19.1%。这些结果表明,在动态环境中,IRMA相比其他方法具有更优越的可靠性和一致性。


4. No Label Left Behind: A Unified Surface Defect Detection Model for all

Supervision Regimes

作者: Blaž Rolih, Matic Fučka, Danijel Skočaj

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-26 | 👍 点赞数: 8

摘要:

表面缺陷检测是众多行业中的关键任务,旨在高效识别和定位制造部件上的瑕疵或异常。尽管已有大量方法被提出,但许多方法仍难以满足工业界对高性能、高效率和适应性的需求。现有方法通常受限于特定的监督场景,难以适应实际制造过程中多样化的数据标注情况,例如无监督、弱监督、混合监督和全监督场景。为应对这些挑战,我们提出了SuperSimpleNet,这是一种基于SimpleNet的高度高效且适应性强的判别模型。SuperSimpleNet融合了一种新颖的合成异常生成过程、增强的分类头以及改进的学习流程,使其能够在全部四种监督场景下高效训练,成为首个能够充分利用所有可用数据标注的模型。SuperSimpleNet在所有场景中均树立了新的性能标杆,这一点已在四个具有挑战性的基准数据集上得到了验证。除了高精度外,该模型还具有极快的推理速度,推理时间低于10毫秒。凭借其统一多种监督范式的能力以及保持出色的运行速度和可靠性,SuperSimpleNet在应对实际制造中的挑战以及弥合学术研究与工业应用之间的差距方面迈出了可喜的一步。 代码地址:https://github.com/blaz-r/SuperSimpleNet


5. UI-Level Evaluation of ALLaM 34B: Measuring an Arabic-Centric LLM via

HUMAIN Chat

作者: Omer Nacar

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-24 | 👍 点赞数: 6

摘要:

大型语言模型(LLMs)若主要基于英语语料库训练,通常难以捕捉阿拉伯语的语言和文化细微差别。为弥补这一差距,沙特数据与人工智能局(SDAIA)推出了专注于阿拉伯语的ALLaM系列模型。其中面向公众开放的最强大模型ALLaM-34B已被HUMAIN采用,并基于此开发和部署了封闭式对话网络服务HUMAIN Chat。本文对ALLaM-34B进行了扩展和优化的用户界面层级评估。我们使用涵盖现代标准阿拉伯语、五种方言、语码转换、事实知识、算术与时间推理、创造性生成以及对抗性安全性的提示包,共收集了115个输出结果(23个提示×5次运行),并利用三个前沿LLM评分器(GPT-5、Gemini 2.5 Pro、Claude Sonnet-4)对每个输出进行评分。我们计算了各分类的平均得分及95%置信区间,分析了得分分布,并对各方言的指标热力图进行了可视化。更新后的分析显示,ALLaM-34B在生成任务和语码转换任务上表现始终优异(平均得分均为4.92/5),在现代标准阿拉伯语处理方面表现强劲(4.74/5),推理能力稳健(4.64/5),方言保真度也有所提升(4.21/5)。在安全相关提示上的表现稳定可靠(4.54/5)。综合来看,这些结果表明ALLaM-34B是一个技术实力强劲、具备文化根基且适合实际部署的阿拉伯语LLM。


6. From reactive to cognitive: brain-inspired spatial intelligence for

embodied agents

作者: Shouwei Ruan, Liyuan Wang, Caixin Kang, Qihui Zhu, Songming Liu, Xingxing Wei, Hang Su

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-24 | 👍 点赞数: 6

摘要:

空间认知通过构建空间的内部模型来实现适应性的目标导向行为。强大的生物系统将空间知识整合为三种相互关联的形式:显著线索的地标、运动轨迹的路径知识以及类似地图的全局知识。尽管多模态大语言模型(MLLMs)的最新进展使得具身智能体具备了视觉-语言推理能力,但这些方法缺乏结构化的空间记忆,而是以反应式的方式运行,限制了其在复杂现实环境中的泛化性和适应性。本文提出了受脑启发的导航空间认知框架(BSC-Nav),用于在具身智能体中构建和利用结构化空间记忆。BSC-Nav能够从以自我为中心的轨迹和上下文线索中构建以环境为中心的认知地图,并根据语义目标动态检索空间知识。结合强大的MLLMs,BSC-Nav在多种导航任务中实现了最先进的有效性与效率,展现出强大的零样本泛化能力,并支持在真实物理世界中的多样化具身行为,为实现通用空间智能提供了一条可扩展且具有生物学基础的路径。


7. Democracy-in-Silico: Institutional Design as Alignment in AI-Governed

Polities

作者: Trisanth Srinivasan, Santosh Patapati

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-27 | 👍 点赞数: 2

摘要:

本文介绍了“硅基民主”(Democracy-in-Silico),这是一种基于智能体的模拟系统,在该系统中,具备复杂心理人格的先进人工智能智能体社会在不同制度框架下进行自治。我们通过让大语言模型(LLMs)模拟具有创伤记忆、隐藏议程和心理触发机制的智能体,探讨在人工智能时代“何为人类”的问题。这些智能体在多种压力情境下(如预算危机和资源稀缺)开展协商、立法和选举活动。我们提出了一种新的指标——权力保持指数(Power-Preservation Index, PPI),用于量化智能体将自身权力置于公共福祉之上的错位行为。研究结果表明,制度设计特别是宪法式人工智能(Constitutional AI, CAI)宪章与中介协商协议的结合,是一种有效的对齐机制。与约束较少的民主模型相比,这些制度结构显著减少了腐败的权力追逐行为,提高了政策稳定性,并改善了公民福祉。该模拟表明,制度设计可能为协调未来人工智能社会中复杂且具有涌现性的行为提供一个框架,促使我们重新思考在与非人类实体共同创作的时代,哪些人类仪式和责任是不可或缺的。