AI Weekly-2024年7月8日
在本期《Last Week in AI》中,我们探讨了AI领域的最新进展和争论, 包括谷歌发布的Gemini 1.5、Meta即将推出的LLaMA 3以及Runway的Gen 3 Alpha视频模型。 我们讨论了新兴的AI功能、关于数据使用的法律纠纷以及中国在AI领域的竞争。 对话涵盖了创新研究进展、AI架构的成本考虑以及政策变化,如美国最高法院推翻切弗伦(Chevron)推定。我们还讨论了美国对华AI芯片出口管制、半导体行业的劳动力发展以及桥水新推出的AI驱动金融基金,评估了AI技术的广泛金融和监管影响。
时间戳
(00:00:00) 介绍 / 闲聊 工具与应用 (00:03:24) 谷歌公开Gemini 1.5 Flash,Pro向公众开放2百万个token (00:08:47) Meta即将推出其最大的Llama模型——这就是它的重要原因 (00:12:38) Runway的Gen-3 Alpha AI视频模型现已可用——但有一个问题 (00:16:28) 这是谷歌AI,它即将登陆Pixel 9 (00:17:30) AI公司ElevenLabs与朱迪·加兰、詹姆斯·迪恩、伯特·雷诺兹和劳伦斯·奥利弗的遗产达成音频阅读协议 (00:20:06) Perplexity的‘Pro Search’ AI升级使其在数学和研究方面表现更好 (00:23:12) Gemini的数据分析能力并不像谷歌声称的那么好 应用与商业 (00:26:38) Quora的聊天机器人平台Poe允许用户按需下载付费文章 (00:32:04) 华为和武汉新芯在美国限制下开发高带宽存储芯片 (00:34:57) 阿里巴巴的大型语言模型在全球AI开发平台Hugging Face中排名第一 (00:39:01) 这里来了一个Meta Ray-Bans挑战者,配备ChatGPT-4o和摄像头 (00:43:35) 据报道,苹果的Phil Schiller将加入OpenAI董事会 (00:47:26) AI视频初创公司Runway寻求筹集4.5亿美元 项目与开源 (00:48:10) Kyutai开源Moshi:一个能够实时听和说的原生多模态基础AI模型 (00:50:44) MMEvalPro:校准多模态基准以实现可信和高效的评估 (00:53:47) Anthropic推动第三方AI模型评估 (00:57:29) Mozilla Llamafile,Builders项目在AI工程师世界博览会上大放异彩 研究与进展 (00:59:26) 研究人员通过消除LLM中的矩阵乘法颠覆了AI现状 (01:05:55) 重要的AI代理 (01:12:09) WARP:权重平均奖励策略的好处 (01:17:20) 使用1,000,000,000个人物扩展合成数据创建 (01:24:16) 发现中间位置:校准位置注意偏差改善长上下文利用 政策与安全 (01:26:32) 随着切弗伦推定的消失,AI监管似乎搁浅 (01:33:40) 尽管有美国管制,英伟达今年将在中国从AI芯片中赚取120亿美元 (01:37:52) 美国政府依靠手动流程监督对华为等中国科技公司的限制 (01:40:57) 美国政府通过新计划解决半导体行业的关键劳动力短缺问题 (01:42:42) 桥水启动20亿美元的基金,使用机器学习进行决策,并将包括OpenAI、Anthropic和Perplexity的模型 (01:47:57) 结束语
苹果看上OpenAI董事会席位,OpenAI被发现以明文存储聊天记录,Kyutai的Moshi等更多内容!
苹果即将获得OpenAI董事会观察员角色
苹果与OpenAI就将AI功能引入iPhone进行谈判 - Neowin 苹果公司已确保在OpenAI董事会中的观察员角色,苹果应用商店负责人和前营销主管Phil Schiller被任命为该职位。此举紧随苹果宣布将ChatGPT整合到其iPhone、iPad和Mac设备中的消息。观察员角色允许苹果参加OpenAI的董事会会议,但没有投票权,使其与OpenAI的主要AI供应商微软保持一致。尽管苹果与微软有历史竞争,Schiller的任命突显了苹果的战略AI合作伙伴关系。
OpenAI的ChatGPT Mac应用以明文存储对话记录
OpenAI的ChatGPT macOS应用被发现以明文存储用户对话记录,使其容易受到潜在恶意行为者的访问。Pedro José Pereira Vieito展示了一个可以访问和显示这些对话的应用程序。在The Verge的提醒下,OpenAI发布了一个更新,加密了聊天记录,使Pereira Vieito的应用程序无效。最初的问题是Pereira Vieito质疑OpenAI为何选择不使用苹果的应用沙箱保护,这在通过Mac应用商店分发的软件中是强制性的,但对于像ChatGPT这样通过自己的网站分发的应用则不是。
Kyutai开源Moshi:一个可以同时听和说的实时原生多模态基础AI模型
Kyutai已开源Moshi,一个可以同时听和说的实时原生多模态基础AI模型。 Moshi在某些功能上超越了OpenAI的GPT-4o,旨在理解和表达情感,并可以同时处理两个音频流。 该模型使用10万个合成对话进行了微调,实现了200毫秒的端到端延迟。 Kyutai还开发了一个可以在消费级设备上运行的Moshi小型变种。 公司引入了水印技术以检测AI生成的音频,并通过开源Moshi承诺透明和协作开发。 未来的Moshi版本将基于用户反馈进行改进,其许可旨在促进广泛采用和创新。
工具
Pixel 9谷歌AI介绍 这是谷歌AI,它即将登陆Pixel 9 - 谷歌在即将推出的Pixel 9系列中引入了新的AI功能, 包括用于截图的Recall类功能,旨在增强用户体验和隐私。
Mozilla Llamafile,Builders项目在AI工程师世界博览会上大放异彩 - Mozilla的Llamafile和Builders项目在AI工程师世界博览会上展示, 强调了AI技术的民主化访问和本地AI应用的潜力。
WhatsApp正在开发AI头像生成器 - WhatsApp正在开发一个生成AI功能,使用户能够创建个性化头像,用于各种场合, 结合用户提供的图像、文本提示和Meta的AI Llama模型。
Suno推出iPhone应用 - 现在您可以随时随地制作AI音乐 - 使用Suno的新iPhone应用随时随地制作AI音乐, 该应用允许用户从文本提示或声音生成完整的歌曲,并提供Pro和Premier计划的应用内购买。
Resemble AI的下一代AI音频检测模型Detect-2B,准确率达到94% - 不要错过在VentureBeat Transform 2024上与OpenAI、Chevron、Nvidia、Kaiser Permanente和Capital One领导者的交流机会。 获取关于GenAI的关键见解,并在这一独家三天活动中扩展您的网络。了解更多
Perplexity的‘Pro Search’ AI升级使其在数学和研究方面表现更好 - Perplexity的Pro Search AI升级增强了其提供复杂查询深度答案的能力, 但公司面临剽窃指控。
Cloudflare推出阻止AI公司网络抓取的新功能 - Cloudflare公司今天推出了一项新的无代码功能,以防止人工智能开发人员抓取网站内容。 该功能作为公司的旗舰CDN(内容交付网络)的一部分提供。
商业
报告:
- AI视频初创公司Runway寻求筹集4.5亿 美元 - AI视频初创公司Runway正在寻求以40亿美元的估值筹集4.5亿美元, 提供从文本提示或图像生成视频的软件。
独家报道:
- AI编程初创公司Magic在新一轮融资中寻求15亿美元估值,消息人士称 - AI编程初创公司Magic在新一轮融资中寻求15亿美元估值, 旨在开发用于编写软件的AI模型,并在不断增长的AI代码助手市场中竞争。
AI公司ElevenLabs与朱迪·加兰、詹姆斯·迪恩、伯特·雷诺兹和劳伦斯·奥利弗遗产达成音频阅读协议
- AI音频公司ElevenLabs已与这些标志性名人的遗产达成协议, 在其新的阅读应用程序中使用他们的声音阅读书籍、文章和其他文本材料,强调了“标志性声音”的个人流媒体使用。
让我们变得智能:
- LangChain和LlamaIndex谈AI代理 - 在AI工程师世界博览会上,两家领先的AI工程初创公司LangChain和LlamaIndex的焦点是AI代理, LangChain提供了一个专门的代理架构,而LlamaIndex则将AI代理重新命名为“知识助手”,用于企业应用。
Anthropic推动第三方AI模型评估:
- Anthropic倡导第三方AI模型评估,以评估能力和风险,重点是安全水平、先进指标和高效评估开发。
等待ChatGPT语音助手的更新:
- 在短暂访问后,等待OpenAI更新语音助手。
研究
读心AI能够准确重建你正在看的东西 - AI可以基于大脑活动准确重建一个人正在看的东西, 当AI了解大脑的哪些部分需要关注时,效果大大提升。
OMG-LLaVA:连接图像级、对象级、像素级推理和理解 - 一个名为OMG-LLaVA的新框架结合了强大的像素级视觉理解和推理能力, 接受各种视觉和文本提示,实现图像级、对象级和像素级推理和理解。
使用1,000,000,000个人物扩展合成数据创建 - 一种新的以角色为驱动的数据合成方法利用大型语言模型大规模创建多样化的合成数据, 展示了其在研究和开发中的多功能性和潜在影响。
MMEvalPro:校准多模态基准以实现可信和高效评估 - 一个新的基准MMEvalPro通过引入三部曲评估管道和更严格的指标, 解决了大规模多模态模型评估中的偏见问题,使评估更加具有挑战性和可信。
OmniJARVIS:统一视觉-语言-动作标记使开放世界指令跟随代理成为可能 - OmniJARVIS是一个新颖的视觉-语言-动作模型, 使用多模态交互数据的统一标记,使Minecraft中的开放世界指令跟随代理成为可能,展示了强大的推理和高效的决策能力。
揭示大型语言模型中的细粒度价值观和意见 - 通过分析对政治性声明的回应和人口特征对结果的影响,揭示大型语言模型中的偏见和差异。
重要的AI代理 - AI代理的基准和评估实践存在缺陷,例如过于关注准确性,导致代理复杂且昂贵,并且评估实践缺乏标准化, 影响了其在现实世界中的实用性。
Magic Insert:风格感知的拖放 - 一种名为Magic Insert的新方法使得可以将一个图像中的对象风格感知地拖放到另一个图像中, 解决了风格感知个性化和在风格化图像中逼真对象插入的挑战。
干草堆摘要:对长上下文LLM和RAG系统的挑战 - 通过“干草堆摘要”任务挑战长上下文LLM和RAG系统, 文章提出了一种新的评估方法,用于评估AI系统在长上下文任务中的输出质量,强调了性能改进的需求。
研究显示分析医学图像的AI 模型可能存在偏见 - 分析医学图像的AI模型可能存在偏见,特别是针对女性和有色人种, 尽管去偏策略可以改善公平性,但它们可能无法很好地推广到新患者群体。
关注
深伪创作者再次侵害GirlsDoPorn性贩运幸存者 - 深伪创作者利用性贩运受害者的视频制作非自愿视频, 再次侵害幸存者,突显出保护目标人群免受伤害法律的必要性。
政策
美国情报界正在接受生成性AI - 美国情报界正在接受生成性AI用于各种机密用途,但也对潜在风险持谨慎态度, 并与高级官员合作,确保负责和安全的实施。
分析
生成性AI会改变机器人技术吗? - 生成性AI改变机器人技术的潜力存在争议, 强调了大规模扩展和训练数据的需求,以及在现实世界互动中的可靠性和信任挑战。