每日论文 - 2025年09月02日
论文总数: 7
1. PVPO: Pre-Estimated Value-Based Policy Optimization for Agentic
Reasoning
作者: Wenfeng Feng, Penghong Zhao, Guochao Jiang, Chuzhan Hao, Yuewei Zhang, Hao Wang
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-28 | 👍 点赞数: 27
摘要:
PVPO: 基于预估价值的策略优化用于智能体推理
无critic的强化学习方法,尤其是群体策略,在复杂任务中因其效率而受到广泛关注。然而,这些方法依赖于策略内部的多次采样和比较以估计优势函数,可能导致策略陷入局部最优,并增加计 算成本。为解决这些问题,我们提出PVPO,一种通过优势参考锚点和数据预采样增强的高效强化学习方法。具体而言,我们使用参考模型进行预先展开,并将计算得到的奖励分数作为参考锚点。我们的方法有效校正了组内比较引入的累积偏差,显著降低了对展开次数的依赖。同时,参考模型可在数据预采样阶段评估样本难度,从而有效筛选高收益数据以提升训练效率。在两个领域共九个数据集上的实验表明,PVPO达到了当前最优性能(SOTA)。我们的方法不仅在多个任务中表现出强大的泛化能力,还可在不同规模的模型上实现可扩展的性能表现。
2. T2R-bench: A Benchmark for Generating Article-Level Reports from Real
World Industrial Tables
作者: Jie Zhang, Changzai Pan, Kaiwen Wei, Sishi Xiong, Yu Zhao, Xiangyu Li, Jiaxin Peng, Xiaoyan Gu, Jian Yang, Wenhan Chang, Zhenhe Wu, Jiang Zhong, Shuangyong Song, Yongxiang Li, Xuelong Li
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-27 | 👍 点赞数: 20
摘要:
T2R-bench: 一个用于从真实工业表格生成文章级报告的基准测试
已有大量研究探索了大语言模型(Large Language Models, LLMs)在表格推理方面的能力。然而,将表格信息转化为报告的任务在工业应用中仍面临重大挑战。该任务存在两个关键问题:1)表格的复杂性和多样性导致推理效果不理想;2)现有的表格基准测试无法充分评估该任务的实际应用能力。为填补这一空白,我们提出了表格到报告(table-to-report)任务,并构建了一个双语基准测试集T2R-bench,其中包含了该任务中从表格到报告的关键信息流。该基准测试集包含457张来自真实场景的工业表格,涵盖19个行业领域以及4种类型的工业表格。此外,我们提出了一套评估标准以公平地衡量生成报告的质量。在25种广泛使用的LLMs上的实验表明,即使是Deepseek-R1等最先进的模型,其综合得分也仅为62.71,表明LLMs在T2R-bench任务上仍有提升空间。源代码和数据将在论文被接收后公开。
3. How Can Input Reformulation Improve Tool Usage Accuracy in a Complex
Dynamic Environment? A Study on τ-bench
作者: Venkatesh Mishra, Amir Saeidi, Satyam Raj, Mutsumi Nakamura, Jayanth Srinivasa, Gaowen Liu, Ali Payani, Chitta Baral
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-28 | 👍 点赞数: 15