Skip to main content

利用合成数据打造人工智能的艺术

鱼雪

在其他新闻简报/帖子中(许多引人深思的文章)

  • 数学,大数据的局限性,以及对AGI的影响,AI Made Simple的Devansh认为, 由于数据处理和数学的固有限制,AGI是徒劳的,建议转而关注实际的AI应用。
  • Long Quan和中国计算机视觉研究的早期浪潮由ChinAI进行。
  • Vision-Language Models Booming - Data Machina对VLM领域的伟大概述。
  • 逐渐,突然:《在门槛之上》- Ethan Mollick著。
  • 逾越销售的安全性:Ada Lovelace Institute关于AI的投产后监控。
  • 新论文:作者关于AI agent的重要性(也是AI Snake Oil通讯的作者)。
  • 由Allen Institute of AI撰写的《扩大AI模型不遵守的范围:何时以及如何不遵守用户请求》的论文讨论了紧急实施全面的AI系统投产后监控, 以了解其对真实世界的影响并确保安全使用。
  • Thomas Wolf关于人工智能数学奥林匹克竞赛

最新的研究论文

优化与性能提升

MInference 1.0:通过动态稀疏注意加速长上下文LLM的预填充 利用动态稀疏注意模式加速长上下文LLM的预填充阶段,在保持准确性的同时显著降低推理延迟。 阅读论文

AGENTLESS:揭开基于LLM的软件工程代理的神秘面纱 使用本地化和修复的两步过程简化基于LLM的软件开发,无需自主工具使用,实现高性能和低成本。 阅读论文

RouteLLM:使用偏好数据学习路由LLM 通过在强弱LLM之间动态选择来优化成本和性能,通过数据增强和人类偏好数据在保持响应质量的同时降低成本。 阅读论文

LiteSearch:高效的LLM树搜索 开发了一种新颖的树搜索算法,提高LLM在数学推理任务上的性能,同时降低计算成本并保持竞争性能。 阅读论文

让专家专注于他擅长的领域:稀疏架构大语言模型的专家专门微调 提出了稀疏专家混合架构(MoE)专家专门微调(ESFT),只对任务中最相关的专家进行微调,提高微调效率和性能。 阅读论文

基准和评估

TabReD:一个现实中的表格机器学习基准 提出了一个由行业级表格数据集组成的基准集合,具有时间分割,突出不同架构的性能和基于时间分割的影响。 阅读论文

Summary of a Haystack:对长上下文LLM和RAG系统的挑战 提出了SummHay任务,以评估LLM和RAG系统在长上下文摘要中的表现,强调模型在精确引用和全面覆盖方面的挑战。 阅读论文

MIRAI:评估事件预测中的LLM代理 开发了一个基准,用于评估LLM代理使用GDELT事件数据库预测国际事件的能力,突出了高级时间推理的需求。 阅读论文

WE-MATH:您的大规模多模态模型是否实现了类似人类的数学推理? 引入了一个评估LMM视觉数学推理的基准,揭示尽管在泛化方面取得了进展,但在知识不足方面仍存在显著困难。 阅读论文

内容调节、对齐和安全性

UnUnlearning:在高级生成AI中取消学习不足以进行内容调节 强调取消学习无法通过上下文学习防止移除的知识重新引入,强调需要强大的内容过滤机制。 阅读论文

ProgressGym:与千年道德进步的对齐 引入了一个框架,通过历史文本和LLM使LLM与人类道德进步对齐,提供基准以跟踪不断发展的价值观并解决AI中的价值锁定风险。 阅读论文

Safe Unlearning:防御越狱攻击的意外有效和普适的解决方案 提出了一种通过取消学习有害知识来防御越狱攻击的方法,显著降低了攻击成功率,并表现出显著的普适性。 阅读论文

A False Sense of Safety:‘安全’AI响应中的不安全信息泄漏 探索了当前AI安全措施的局限性,引入了“推理对手”来利用看似安全的输出,强调需要新的防御机制。 阅读论文

Self-Evaluation as a Defense Against Adversarial Attacks on LLMs 开发了一种利用自我评估减少攻击成功率的防御机制,在适应性攻击下仍保持鲁棒性,优于现有防御方法。 阅读论文

多模态模型及其应用

4M-21:一个适用于多任务和多模态的任意视觉模型 在二十多种多样的模态上训练了一个视觉模型,使其在不损失性能的情况下执行广泛的任务,增强了多模态生成和检索能力。 阅读论文

理解多模态LLM中的对齐:综合研究 探索多模态LLM响应与图像内容的对齐,提出偏见驱动的幻觉采样(BDHS),强调结合离线和在线方法的优势。 阅读论文

ROS-LLM:一个集成任务反馈和结构化推理的化身AI的ROS框架 将LLM与机器人操作系统(ROS)集成,以促进直观的机器人编程,结合反馈以完善任务,展示了鲁棒性和可扩展性。 阅读论文

STARK:具有常识知识的社交长期多模态对话 引入了一个大规模多模态对话数据集,包含多样的社交角色和图像,能够创建具有卓越视觉想象能力的高级对话模型。 阅读论文

高级技术与新模型

知识链:通过学习知识图谱将知识推理整合到大语言模型中 使用知识图谱和试错机制增强LLM的知识推理能力,提高通用推理能力并解决规则过拟合问题。 阅读论文

学习在测试时学习:具有表达性隐藏状态的RNN 提出了测试时训练(TTT)层,在测试序列期间更新隐藏状态,在长上下文场景中展示了优于Transformer和现代RNN基线的性能。 阅读论文

E2 TTS:令人尴尬的简单全非自回归零样本TTS 引入了一个非自回归零样本文本到语音系统,具有简单的架构,实现了人类级的自然度和最先进的说话者相似度和可理解性。 阅读论文

长上下文和检索能力

这真的算长上下文吗?如果您只需要检索?迈向真正困难的长上下文NLP 认为通过输入长度定义长上下文NLP任务是不够的,提出了一种分类法,以更好地评估和开发在真正困难的长上下文场景中的LLM能力。 阅读论文

少展示,多指示:通过定义和指南丰富提示以实现零样本NER 使用包含定义和指南的指示调优显著提高了模型在NER任务中对未见实体类型的泛化能力。 阅读论文

新颖的架构和技术

一致性流匹配:通过速度一致性定义直流 通过在生成模型中强制速度场自一致性,增强流匹配,提高训练效率和样本质量。 阅读论文

DotaMath:通过代码辅助和自我纠正进行数学推理的思想分解 通过将问题分解为逻辑子任务并结合自我纠正,改善了LLM在复杂数学任务上的性能,展示了稳健的泛化能力。 阅读论文

MInference 1.0:通过动态稀疏注意加速长上下文LLM的预填充 利用动态稀疏注意模式加速长上下文LLM的预填充阶段,在保持准确性的同时显著降低推理延迟。 阅读论文