每日论文 - 2025年08月27日
论文总数: 27
1. VibeVoice Technical Report
作者: Zhiliang Peng, Jianwei Yu, Wenhui Wang, Yaoyao Chang, Yutao Sun, Li Dong, Yi Zhu, Weijiang Xu, Hangbo Bao, Zehua Wang, Shaohan Huang, Yan Xia, Furu Wei
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-26 | 👍 点赞数: 90
摘要:
本文介绍了VibeVoice,这是一种新颖的模型,旨在通过使用next-token diffusion(一种通过扩散过程自回归生成潜在向量来建模连续数据的统一方法),合成包含多个说话人的长段语音。为此,我们引入了一种新的连续语音分词器(tokenizer),与流行的Encodec模型相比,其在保持性能相当的情况下将数据压缩率提高了80倍。该分词器在有效保持音频保真度的同时,显著提升了处理长序列的计算效率。因此,VibeVoice可以在最长90分钟(上下文窗口长度为64K)的对话中支持最多4个说话人,生成具有真实对话“氛围(vibe)”的语音,并超越现有的开源与专有对话模型。
2. TreePO: Bridging the Gap of Policy Optimization and Efficacy and
Inference Efficiency with Heuristic Tree-based Modeling
作者: Yizhi Li, Qingshui Gu, Zhoufutu Wen, Ziniu Li, Tianshun Xing, Shuyue Guo, Tianyu Zheng, Xin Zhou, Xingwei Qu, Wangchunshu Zhou, Zheng Zhang, Wei Shen, Qian Liu, Chenghua Lin, Jian Yang, Ge Zhang, Wenhao Huang
链接: 📄 ArXiv | 🤗 HuggingFace