利用合成数据打造人工智能的艺术

鱼雪

在其他新闻简报/帖子中（许多引人深思的文章）

数学，大数据的局限性，以及对AGI的影响，AI Made Simple的Devansh认为，由于数据处理和数学的固有限制，AGI是徒劳的，建议转而关注实际的AI应用。
Long Quan和中国计算机视觉研究的早期浪潮由ChinAI进行。
Vision-Language Models Booming - Data Machina对VLM领域的伟大概述。
逐渐，突然：《在门槛之上》- Ethan Mollick著。
逾越销售的安全性：Ada Lovelace Institute关于AI的投产后监控。
新论文：作者关于AI agent的重要性（也是AI Snake Oil通讯的作者）。
由Allen Institute of AI撰写的《扩大AI模型不遵守的范围：何时以及如何不遵守用户请求》的论文讨论了紧急实施全面的AI系统投产后监控，以了解其对真实世界的影响并确保安全使用。
Thomas Wolf关于人工智能数学奥林匹克竞赛

最新的研究论文

优化与性能提升

MInference 1.0：通过动态稀疏注意加速长上下文LLM的预填充 利用动态稀疏注意模式加速长上下文LLM的预填充阶段，在保持准确性的同时显著降低推理延迟。阅读论文

AGENTLESS：揭开基于LLM的软件工程代理的神秘面纱 使用本地化和修复的两步过程简化基于LLM的软件开发，无需自主工具使用，实现高性能和低成本。阅读论文

RouteLLM：使用偏好数据学习路由LLM 通过在强弱LLM之间动态选择来优化成本和性能，通过数据增强和人类偏好数据在保持响应质量的同时降低成本。阅读论文

LiteSearch：高效的LLM树搜索 开发了一种新颖的树搜索算法，提高LLM在数学推理任务上的性能，同时降低计算成本并保持竞争性能。阅读论文

让专家专注于他擅长的领域：稀疏架构大语言模型的专家专门微调 提出了稀疏专家混合架构（MoE）专家专门微调（ESFT），只对任务中最相关的专家进行微调，提高微调效率和性能。阅读论文

基准和评估

TabReD：一个现实中的表格机器学习基准 提出了一个由行业级表格数据集组成的基准集合，具有时间分割，突出不同架构的性能和基于时间分割的影响。阅读论文

Summary of a Haystack：对长上下文LLM和RAG系统的挑战 提出了SummHay任务，以评估LLM和RAG系统在长上下文摘要中的表现，强调模型在精确引用和全面覆盖方面的挑战。阅读论文

MIRAI：评估事件预测中的LLM代理 开发了一个基准，用于评估LLM代理使用GDELT事件数据库预测国际事件的能力，突出了高级时间推理的需求。阅读论文

WE-MATH：您的大规模多模态模型是否实现了类似人类的数学推理？ 引入了一个评估LMM视觉数学推理的基准，揭示尽管在泛化方面取得了进展，但在知识不足方面仍存在显著困难。阅读论文

内容调节、对齐和安全性

UnUnlearning：在高级生成AI中取消学习不足以进行内容调节 强调取消学习无法通过上下文学习防止移除的知识重新引入，强调需要强大的内容过滤机制。阅读论文

ProgressGym：与千年道德进步的对齐 引入了一个框架，通过历史文本和LLM使LLM与人类道德进步对齐，提供基准以跟踪不断发展的价值观并解决AI中的价值锁定风险。阅读论文

Safe Unlearning：防御越狱攻击的意外有效和普适的解决方案 提出了一种通过取消学习有害知识来防御越狱攻击的方法，显著降低了攻击成功率，并表现出显著的普适性。阅读论文

A False Sense of Safety：‘安全’AI响应中的不安全信息泄漏 探索了当前AI安全措施的局限性，引入了“推理对手”来利用看似安全的输出，强调需要新的防御机制。阅读论文

Self-Evaluation as a Defense Against Adversarial Attacks on LLMs 开发了一种利用自我评估减少攻击成功率的防御机制，在适应性攻击下仍保持鲁棒性，优于现有防御方法。阅读论文

多模态模型及其应用

4M-21：一个适用于多任务和多模态的任意视觉模型 在二十多种多样的模态上训练了一个视觉模型，使其在不损失性能的情况下执行广泛的任务，增强了多模态生成和检索能力。阅读论文

理解多模态LLM中的对齐：综合研究 探索多模态LLM响应与图像内容的对齐，提出偏见驱动的幻觉采样（BDHS），强调结合离线和在线方法的优势。阅读论文

ROS-LLM：一个集成任务反馈和结构化推理的化身AI的ROS框架 将LLM与机器人操作系统（ROS）集成，以促进直观的机器人编程，结合反馈以完善任务，展示了鲁棒性和可扩展性。阅读论文

STARK：具有常识知识的社交长期多模态对话 引入了一个大规模多模态对话数据集，包含多样的社交角色和图像，能够创建具有卓越视觉想象能力的高级对话模型。阅读论文

高级技术与新模型

知识链：通过学习知识图谱将知识推理整合到大语言模型中 使用知识图谱和试错机制增强LLM的知识推理能力，提高通用推理能力并解决规则过拟合问题。阅读论文

学习在测试时学习：具有表达性隐藏状态的RNN 提出了测试时训练（TTT）层，在测试序列期间更新隐藏状态，在长上下文场景中展示了优于Transformer和现代RNN基线的性能。阅读论文

E2 TTS：令人尴尬的简单全非自回归零样本TTS 引入了一个非自回归零样本文本到语音系统，具有简单的架构，实现了人类级的自然度和最先进的说话者相似度和可理解性。阅读论文

长上下文和检索能力

这真的算长上下文吗？如果您只需要检索？迈向真正困难的长上下文NLP 认为通过输入长度定义长上下文NLP任务是不够的，提出了一种分类法，以更好地评估和开发在真正困难的长上下文场景中的LLM能力。阅读论文

少展示，多指示：通过定义和指南丰富提示以实现零样本NER 使用包含定义和指南的指示调优显著提高了模型在NER任务中对未见实体类型的泛化能力。阅读论文

新颖的架构和技术

一致性流匹配：通过速度一致性定义直流 通过在生成模型中强制速度场自一致性，增强流匹配，提高训练效率和样本质量。阅读论文

DotaMath：通过代码辅助和自我纠正进行数学推理的思想分解 通过将问题分解为逻辑子任务并结合自我纠正，改善了LLM在复杂数学任务上的性能，展示了稳健的泛化能力。阅读论文

在其他新闻简报/帖子中（许多引人深思的文章）​

最新的研究论文​

优化与性能提升​

基准和评估​

内容调节、对齐和安全性​

多模态模型及其应用​

高级技术与新模型​

长上下文和检索能力​

新颖的架构和技术​