AI资讯列表 - AI在线

春节大礼包！OpenAI首个视频生成模型发布，60秒高清大作，网友已叹服

欢迎来到 bling zoo！北京时间今天凌晨，OpenAI 正式发布了文本到视频生成模型 Sora，继 Runway、Pika、谷歌和 Meta 之后，OpenAI 终于加入视频生成领域的战争。山姆・奥特曼的消息放出后，看到 OpenAI 工程师第一时间展示的 AI 生成视频效果，人们纷纷表示感叹：好莱坞的时代结束了？OpenAI 声称，如果给定一段简短或详细的描述或一张静态图片，Sora 就能生成类似电影的 1080p 场景，其中包含多个角色、不同类型的动作和背景细节。Sora 有哪些特别之处呢？它对语言有着深

谷歌Gemini1.5火速上线：MoE架构，100万上下文

今天，谷歌宣布推出 Gemini 1.5。Gemini 1.5 建立在谷歌基础模型开发和基础设施的研究与工程创新的基础上，包括通过新的专家混合 (MoE) 架构使 Gemini 1.5 的训练和服务更加高效。谷歌现在推出的是用于早期测试的 Gemini 1.5 的第一个版本 ——Gemini 1.5 Pro。它是一种中型多模态模型，针对多种任务的扩展进行了优化，其性能水平与谷歌迄今为止最大的模型 1.0 Ultra 类似，并引入了长上下文理解方面的突破性实验特征。Gemini 1.5 Pro 配备了 128000

我在模拟世界！OpenAI刚刚公布Sora技术细节：是数据驱动物理引擎

机器之心报道机器之心编辑部先安排好演员，再让他们来演绎。今天，我们都在感受 Sora 的带来的魅力。OpenAI 的首个视频生成模型 Sora，让「一句话生成视频」的前沿 AI 技术向上突破了一大截，引发了业界对于生成式 AI 技术方向的大讨论。Sora 生成的视频范例。提示词：「两艘海盗船在一个咖啡杯中航行、互相战斗的逼真特写视频。」来源：，我们已经见证过许多创业公司提出的视频生成模型。相比之下，OpenAI 提出的新模型不论是效果还是理念上，似乎都具有划时代的意义。有人第一时间总结道，Sora 不是一个简单的视

我们还需要Transformer中的注意力吗？

状态空间模型正在兴起，注意力是否已到尽头？最近几周，AI 社区有一个热门话题：用无注意力架构来实现语言建模。简要来说，就是机器学习社区有一个长期研究方向终于取得了实质性的进展，催生出 Mamba 两个强大的新模型：Mamba 和 StripedHyena。它们在很多方面都能比肩人们熟知的强大模型，如 Llama 2 和 Mistral 7B。这个研究方向就是无注意力架构，现在也正有越来越多的研究者和开发者开始更严肃地看待它。近日，机器学习科学家 Nathan Lambert 发布了一篇题为《状态空间 LLM：我们需

RAG还是微调？微软出了一份特定领域大模型应用建设流程指南

检索增强生成（RAG）和微调（Fine-tuning）是提升大语言模型性能的两种常用方法，那么到底哪种方法更好？在建设特定领域的应用时哪种更高效？微软的这篇论文供你选择时进行参考。在构建大语言模型应用程序时通常有两种常见的方法来整合专有和特定领域的数据：检索增强生成和微调。检索增强生成通过外部数据增强提示，而微调将额外的知识整合到模型本身中。不过，对这两种方法的优缺点了解的却不够充分。本文中，来自微软的研究者引入一个新的关注点：为需要特定背景和自适应响应的行业（农业）创建 AI 助手。本文提出了一个全面的大语言模型

语音生成的「智能涌现」：10万小时数据训练，亚马逊祭出10亿参数BASE TTS

伴随着生成式深度学习模型的飞速发展，自然语言处理（NLP）和计算机视觉（CV）已经经历了根本性的转变，从有监督训练的专门模型，转变为只需有限的明确指令就能完成各种任务的通用模型。在语音处理和文本到语音（TTS）领域，这样的转变也正在发生，模型能够利用数千小时的数据，使合成结果越来越接近类人语音。在最近的一项研究中，亚马逊正式推出了 BASE TTS，将 TTS 模型的参数规模提升到了前所未有的 10 亿级别。论文标题：BASE TTS: Lessons from building a billion-paramet

生成速度快SDXL一倍，9GB GPU也能运行，Stable Cascade来搞性价比了

硬件要求越来越低，生成速度越来越快。Stability AI 作为文本到图像的「元老」，不仅在引领该领域的潮流方向，也在模型质量上一次次进行新的突破，这次是性价比的突破。就在前几天，Stability AI 又有新动作了：Stable Cascade 的研究预览版被推出。这款文本到图像模型进行了创新，它引入了一个三阶段方法，为质量、灵活性、微调和效率设定了新的基准，重点是进一步消除硬件障碍。此外，Stability AI 发布了训练和推理代码，允许进一步自定义模型及其输出。该模型可在 diffusers 库中进行推

陪跑又快又稳，机器人跑步搭子来了

这个机器人名叫Cassie，曾经创下百米跑世界纪录。最近，加州大学伯克利分校的研究者给它开发了一种新的深度强化学习算法，让它掌握了急转弯等技能，还能对抗各种干扰。【关注机器之心视频号，第一时间看到有趣的 AI 内容】关于双足机器人运动的研究已经进行了几十年，但仍然没有一个能够对各种运动技能进行稳健控制的通用框架。挑战来自于双足机器人欠驱动动态的复杂性以及与每种

大模型时代还不理解自注意力？这篇文章教你从头写代码实现

自注意力是 LLM 的一大核心组件。对大模型及相关应用开发者来说，理解自注意力非常重要。近日，Ahead of AI 杂志运营者、机器学习和 AI 研究者 Sebastian Raschka 发布了一篇文章，介绍并用代码从头实现了 LLM 中的自注意力、多头注意力、交叉注意力和因果注意力。太长不看版这篇文章将介绍 Transformer 架构以及 GPT-4 和 Llama 等大型语言模型（LLM）中使用的自注意力机制。自注意力等相关机制是 LLM 的核心组件，因此如果想要理解 LLM，就需要理解它们。不仅如此，这

手把手教你，从零开始实现一个稀疏混合专家架构语言模型（MoE）

本文介绍了实现一个稀疏混合专家语言模型（MoE）的方法，详细解释了模型的实施过程，包括采用稀疏混合专家取代传统的前馈神经网络，实现 top-k 门控和带噪声的 top-k 门控，以及采用 Kaiming He 初始化技术。作者还说明了从 makemore 架构保持不变的元素，比如数据集处理、分词预处理和语言建模任务。最后还提供了一个 GitHub 仓库链接，用于实现模型的整个过程，是一本不可多得的实战教科书。内容简介在混合专家模型 Mixtral 发布后，混合专家模型（MoE）越来越受到人们的关注。在稀疏化的混合专

以自监督方式去除荧光图像中的噪声，清华团队开发了空间冗余去噪Transformer方法

编辑 | 萝卜皮具有高信噪比的荧光成像已成为生物现象精确可视化和分析的基础。然而，不可避免的噪声对成像灵敏度提出了巨大的挑战。清华大学的研究团队提供了空间冗余去噪 Transformer（SRDTrans），以自监督的方式去除荧光图像中的噪声。该团队提出了基于空间冗余的采样策略来提取相邻的正交训练对，消除了对高成像速度的依赖。然后，他们设计了一种轻量级时空 Transformer 架构，以较低的计算成本捕获远程依赖性和高分辨率特征。SRDTrans 可以恢复高频信息，而不会产生过度平滑的结构和扭曲的荧光痕迹。并且，

突发！AI大牛Andrej Karpathy离开OpenAI

Andrej Karpathy 又离职了！刚刚，AI大牛Andrej Karpathy官宣了一条重要消息：他昨天已经从OpenAI离职，不过这中间没有什么戏剧性冲突，他只是想去尝试一下自己的个人项目。Karpathy在官宣离职的推文中写道，「是的，我昨天离开了OpenAI。首先，没发生什么特别的事情，这不是由于任何特定事件、问题或者争议导致的（但请继续提供阴谋论，因为它们确实很有趣 :））。实际上，在过去的大约一年时间里，在OpenAI的经历真的很棒——团队非常强大，人们非常棒，路线图也非常令人兴奋，我认为我们都有

英伟达官宣AI聊天机器人，本地RTX显卡运行，这是要挑战OpenAI？

OpenAI 进军芯片领域，英伟达自己造聊天机器人，这是 Sam vs Jensen 的时代？下载地址： AI 淘金热里，英伟达经常被称为那个「卖铲子的人」，而且卖的是难以替代的铲子。依靠这个角色，英伟达市值已经超越亚马逊，成美股第四大公司，离谷歌市值仅一步之遥。但值得注意的是，英伟达本身也在这波 AI 浪潮里淘金。刚刚，他们发布了一个对话机器人 ——「Chat with RTX」，面向 GeForce RTX 30 系列和 40 系列显卡用户（至少有 8GB VRAM）。有人开玩笑说，Sam Altman 进军芯

OpenAI赋予ChatGPT记忆功能，由你掌控

ChatGPT 新功能上线，有了记忆能力。很快你就能告诉 ChatGPT 忘记一些事情，或者在以后的对话中要求它记住特定的事情。今天，作为测试的一部分，OpenAI 开始为一小部分 ChatGPT 免费和付费用户推出新的功能，并在未来进行大规模的推广。该功能可让用户明确告诉 ChatGPT 记住某些内容或者用户查看它记住了什么。比如你住在郊区，更喜欢开车而不是乘坐公共交通，你可以简单地告诉 ChatGPT 这个事实（例如「记住我住在郊区，大部分时间开车」）。随着使用频率的增加，ChatGPT 对记忆功能将逐渐优化，

三年16篇一作，前谷歌研究科学家Yi Tay官宣新模型，21B媲美Gemini Pro、GPT-3.5

该团队的新模型在多个基准测试中都与 Gemini Pro 、GPT-3.5 相媲美。如果你经常读 AI 大模型方向的论文，Yi Tay 想必是一个熟悉的名字。作为前谷歌大脑高级研究科学家，Yi Tay 为许多知名的大型语言模型和多模态模型做出了贡献，包括 PaLM、UL2、Flan-U-PaLM、LaMDA/Bard、ViT-22B、PaLI、MUM 等。根据 Yi Tay 个人资料统计，在谷歌大脑工作的 3 年多的时间里，他总共参与撰写了大约 45 篇论文，是其中 16 篇的一作。一作论文包括 UL2、U-PaL

谷歌工程师2018年内部信曝光，5年前就有人拉响AI警报了

看起来，虽然行动慢了一些，谷歌搜索的地位暂时还无人可以撼动。2023 年 2 月，谷歌 CEO 桑达尔・皮查伊（Sundar・Pichai）对内发布了一份「红色代码」预警，要求谷歌旗下用户超 10 亿的产品尽快接入生成式 AI，以对抗来势汹汹的 ChatGPT。这一举动给人一种谷歌「慌了」的感觉，因为 ChatGPT 的到来已经威胁到了谷歌核心的搜索业务：如果大家都习惯用 ChatGPT 这类 AI 对话引擎直接得到答案，谁还会去谷歌搜索呢？谁还会去谷歌投广告呢？乍看起来，这一切都发生地非常突然，谷歌应对起来也很被

性能提升、成本降低，这是分布式强化学习算法最新研究进展

深度强化学习（Deep Reinforcement Learning，DRL）是一种公认的解决连续决策问题的有效技术。为了应对 DRL 的数据低效（data inefficiency）问题，受到分布式机器学习技术的启发，分布式深度强化学习 (distributed deep reinforcement learning，DDRL) 已提出并成功应用于计算机视觉和自然语言处理领域。有观点认为，分布式强化学习是深度强化学习走向大规模应用、解决复杂决策空间和长期规划问题的必经之路。分布式强化学习是一个综合的研究子领域，需

华为盘古大模型变「小」，1.5B也很能打

ChatGPT 等系列模型横空出世，以其强大的性能引起了全球的关注，有望改变人与计算机之间的交互方式，应用到千行百业。然而这些大型模型的实际需要极高的内存和计算资源，限制了它们在各种场景中的应用。例如，具有 175B 参数的 GPT-3 在使用 FP32 数据类型存储时需要大约 700GB 内存。尽管 7B 参数模型相对更高效，但其资源需求仍然难以直接部署在手机等边缘设备上。此外，尽管许多研究已经成功地打造出多个效果很好的大语言模型，但他们往往采用相似的训练策略。一方面，大量工作集中在收集和清理数据上，较少强调研究