AI资讯列表 - AI在线

LeCun怒斥Sora是世界模型，自回归LLM太简化了

LeCun 对「世界模型」给出了最新定义。最近几天，Sora 成为了全世界关注的焦点。与之相关的一切，都被放大到极致。Sora 如此出圈，不仅在于它能输出高质量的视频，更在于 OpenAI 将其定义为一个「世界模拟器」（world simulators）。英伟达高级研究科学家 Jim Fan 甚至断言：「Sora 是一个数据驱动的物理引擎」，「是一个可学习的模拟器，或『世界模型』」。「Sora 是世界模型」这种观点，让一直将「世界模型」作为研究重心的图灵奖得主 Yann LeCun 有些坐不住了。在 LeCun 看

看见困境，理解渴望，海智以创新促进新质生产力发展

你今年春节赶春运了吗？这个春运你被堵在高速公路上了吗？如果我们去关注过去几十年间有关春运的热搜，你会发现高频出现的新闻已经从“火车票一票难求”变成了“XX高速拥堵X公里”。根据交通运输部在春运初期的预测，今年春运将有超过90亿人次的跨区域出行。而其中有超过8成，也就是约72亿人次为自驾车出行。不知从何时起，开车回家过年已经变成了中国人应对春运的主要选择。在笔者的童年时代，如果谁家买了辆私家车，那必定会成为很多家庭茶余饭后的热门话题。而现如今，中国的汽车保有量已经超过了3.36亿辆，汽车不再是中国家庭高不可攀的奢侈消

Nature 子刊 | 动态可编程系统，能够制造、优化和发现新分子

编辑 | X化学机器人平台正在迅速发展，但大多数系统目前无法适应实时变化的环境。近日，来自英国格拉斯哥大学（The University of Glasgow）的研究人员提出了一个动态可编程系统，能够制造、优化和发现新分子，该系统利用七个传感器连续监测反应。通过开发动态编程语言，研究展示高放热氧化反应、终点检测以及关键硬件故障检测的 10 倍放大。还展示了如何使用在线光谱（例如 HPLC、拉曼和 NMR）进行反应的闭环优化。从选定的化学空间中发现的两个先前未报告的反应，在 25-50 次迭代中实现高达 50% 的产

解开化学语言模型中的「黑匣子」，Transformer可快速学习分子的部分结构，但手性学习困难

编辑 | X近年来，自然语言处理（NLP）模型，特别是 Transformer 模型，已应用于像 SMILES 这样的分子结构的文字表示。然而，关于这些模型如何理解化学结构的研究很少。为了解决这个黑匣子，东京大学的研究人员使用代表性的 NLP 模型 Transformer 研究了 SMILES 的学习进度与化学结构之间的关系。研究表明，虽然 Transformer 可以快速学习分子的部分结构，但它需要扩展训练才能理解整体结构。一致的是，从训练开始到结束，使用不同学习步骤的模型生成的描述符进行分子特性预测的准确性是相

毫末龙年春节智驾数据发布：智驾里程994万公里，小魔驼配送近5000单

2月24日，毫末智行公布了2024年智能驾驶春节数据报告。自2024年2月10日至2月23日，用户开启毫末辅助驾驶的行驶总里程突破994万公里，同比2023年春节激增283.4%。在末端物流自动配送领域，小魔驼配送订单比2023年春节同比增长9.2%。截止2024年2月，毫末累计智驾里程突破1.3亿公里，小魔驼累计配送订单近30万。自动驾驶伴随春节出行、购物配送等更多场景，让生活更美好。目前，毫末辅助驾驶产品HPilot已搭载超过20款车型，为用户出行提供了从高速到城市的全方位智慧体验。报告数据显示，春节期间，毫末

新模型 Stable Diffusion 3 与 Stable Cascade 全面解析

大家好，我是花生~ 最近 Stability AI 又接连推出了 2 个新的模型：Stable Diffusion 3 和 Stable Cascade，在图像生成效率和质量上比半年前推出的 SDXL 1.0 有了明显提升，今天就为大家介绍一下 2 款新模型的特点和用法。：一、Stable Diffusion 3 简介官方介绍：加入等候名单： 2 月 22 号，Stability AI 发布了新模型 Stable Diffusion 3（下面简称为 SD 3.0），这也是 Stable Diffusion

7000字干货！Sora 提示词秘籍和竞品效果对比

2024 年 2 月 16 日凌晨，OpenAI 正式发布了文本到视频生成模型 Sora，直接生成 60s 视频，多角色多镜头切换的视频，还上了央视新闻。目前 Sora 并未开放，只向少数导演艺术家开放邀请码。至此，好莱坞的时代结束了，人人可以做视频电影的时代到来啦！今天我们就 Sora 生成视频来拆解提示词秘籍公式，竞品视频生成效果对比，解析 Sora 优势劣势和 Sora 模型原理。一、AIGC 视频模型效果对比首先让我们看看，目前主流的 AI 视频工具 Runway、Pika、Stable Video

幼儿园学历都能看懂！ Sora 技术原理科普

本文来源于公众号赛博禅心，作者金色传说大聪明写在前面本文的阅读门槛很高，需要至少幼儿园毕业本文讲述 Sora 的 Spacetime Patches 技术，此处意义为时空碎片图片主要来自《哆啦 A 梦：二次元口袋照相机》 OpenAI 好棒，哆啦 A 梦好棒，我好棒！大雄慵懒地躺在房间的地毯上，眼神迷离地看着天花板上的光斑。他翻来覆去地玩着手中的老旧玩具小兵，回想着上个暑假和小伙伴们的那场刺激的野营冒险。大雄：“哆啦 A 梦，那次野营真的很好玩，但我现在只能记得一点点。要是能有办法随时重温那种感觉就好了。”

从手机到AI PC，大模型时代荣耀要用AI使能全场景

2023年，ChatGPT为代表的大模型技术将AI浪潮推向了新高度。进入2024年，以OpenAI发布视频大模型Sora为开端，又开启了全球新一年大模型技术的竞争。持续的技术突破，让我们对大模型技术的普遍应用充满期待，特别是在手机、PC这样的端侧。于是今年的MWC，各大手机厂商的AI或者说大模型战略非常值得关注。刚刚，荣耀在2024 MWC世界移动通信大会上正式发布了全新的AI使能的全场景战略，推出平台级AI赋能，以人为中心的跨操作系统体验和基于意图识别的全新人机交互。而后，荣耀也发布了荣耀Magic6 Pro，A

8/8/6/3的Mamba论文，最终还是被ICLR 2024拒了，网友：悬着的心终于死了

几天前，ICLR 2024 的最终接收结果出来了。大家应该还记得，Mamba 被 ICLR 2024 大会 Decision Pending（待定）的消息在 1 月份引发过一波社区热议。当时，多位领域内的研究者分析，Decision Pending 的意思是延迟决定，虽然也可能会被拒，但这篇论文得到了 8/8/6/3 的打分，按理说不至于真被拒。论文审稿页面：，Decision 已出，Mamba 彻底被拒，悬着的心终于死了。「Mamba」发布之初即被视为「Transformer 的强劲竞争者」，它是一种选择性状态空

香港也有大模型公司了，天使轮估值一亿美金！

近日，获悉多模态大模型初创公司香港 Weitu AI 公司完成了天使轮融资，天使轮估值一亿美金。天使轮投资人为拥有全球数亿月活的互联网科技公司和著名天使投资人。据了解，该公司目前刚刚成立，超过半数成员来自北美名校毕业并拥有海外大厂的工作经验。团队成员中包括了数位长期活跃在人工智能多模态领域的研究专家以及拥有大模型基础研发能力的技术专家。据 Weitu AI 公司创始人王历伟博士介绍，“多模态大模型的研发最重要的是两种能力需要同时具备，一种是基础的大模型的研发能力，一种是长期专注的多模态能力，对多模态数据，建模，任务

用扩散模型生成网络参数，LeCun点赞尤洋团队新研究

如果你有被 Sora 生成的视频震撼到，那你就已经见识过扩散模型在视觉生成方面的巨大潜力。当然，扩散模型的潜力并不止步于此，它在许多其它不同领域也有着让人期待的应用前景，更多案例可参阅机器之心不久前的报道《爆火Sora背后的技术，一文综述扩散模型的最新发展方向》。近日，来自新加坡国立大学的尤洋团队、加州大学伯克利分校、Meta AI Research 的一项新研究找到了扩散模型的一个新应用方向：用来生成神经网络的模型参数！论文地址：：：Neural Network Diffusion这样一来，似乎就可以使用现有的神

谷歌Gemini生图功能紧急关闭，口碑一夜塌房，Yann LeCun：我早就知道

Gemini 好像终于被玩坏了。去年年底，谷歌 Gemini 震撼了业界，它是谷歌「最大、最有能力和最通用」的 AI 系统，号称第一个原生多模态大模型，能力超越 GPT-4，也被认为是谷歌反击微软和 OpenAI 的强大工具。对此，在 2 月 8 日，谷歌还把自家对标 ChatGPT 的服务 Bard 更名为 Gemini，以着重体现新使命 —— 旨在提供对「最强模型系列」的访问。上周谷歌还火速更新了 Gemini Pro 1.5 版。结果，推出不到一个月，这个 Gemini 就翻车了。多离谱呢，作为一个多模态的生

补齐Transformer规划短板，田渊栋团队的Searchformer火了

Transformer 强大的泛化能力再次得到证明！最近几年，基于 Transformer 的架构在多种任务上都表现卓越，吸引了世界的瞩目。使用这类架构搭配大量数据，得到的大型语言模型（LLM）等模型可以很好地泛化用于真实世界用例。尽管有如此成功，但基于 Transformer 的架构和 LLM 依然难以处理规划和推理任务。之前已有研究证明 LLM 难以应对多步规划任务或高阶推理任务。为了提升 Transformer 的推理和规划性能，近些年研究社区也提出了一些方法。一种最常见且有效的方法是模拟人类的思考过程：先生

下个爆点人形机器人？OpenAI、英伟达、贝索斯向同一家公司投了6.7亿刀

Figure AI 在本轮融资之前，估值就已有 20 亿美元了。生成式 AI 的竞争如火如荼，各家科技公司和机构也没有忘记投资下一个热点。本周五，彭博社援引消息人士的话报道称，亚马逊创始人杰夫・贝索斯、英伟达和其他大型科技公司正在不约而同地投资初创公司 Figure AI，该公司旨在开发人形机器人。该公司的产品 Figure 01，据称是世界上第一个具有商业可行性的自主人形机器人，身高 1.5 米，体重 60 公斤，可承载 20 公斤货物，采用电机驱动。它的可工作时长是 5 小时，行走速度每秒 1.2 米，可以说很

AAAI 2024杰出论文奖出炉：西安电子科技大学获奖

让我们恭喜获奖者！本周，全球 AI 顶会 AAAI 2024 正式开幕，目前已公布了最佳论文（Outstanding Paper Award）等多个重要奖项。AAAI 全称为国际先进人工智能协会 (Association for the Advancement of Artificial Intelligence)，其每年举办的现场会议是人工智能领域里历史最悠久、涵盖内容最广泛的的国际顶级学术会议之一，今年已是第 38 届。据中国计算机学会推荐国际学术会议和期刊目录，AAAI 为人工智能领域的 A 类会议。据了解，

国内高校打造类Sora模型VDT，通用视频扩散Transformer被ICLR 2024接收

2 月 16 日，OpenAI Sora 的发布无疑标志着视频生成领域的一次重大突破。Sora 基于 Diffusion Transformer 架构，和市面上大部分主流方法（由 2D Stable Diffusion 扩展）并不相同。为什么 Sora 坚持使用 Diffusion Transformer，其中的原因从同时期发表在 ICLR 2024（VDT: General-purpose Video Diffusion Transformers via Mask Modeling）的论文可以窥见一二。这项工作由

推出不到一个月，谷歌Gemini翻车了

机器之能报道编辑：Sia谷歌下架 Gemini 人物图像生成服务。三月前，谷歌 Gemini 轰轰烈烈亮相，被描述为谷歌“最大、最有能力和最通用”的 AI 系统，并补充说它具有复杂的推理和编码能力。2 月 8 日，谷歌聊天机器人 Bard 正式更名为 Gemini，以反映新聊天机器人的“使命”——提供对“最有能力的模型系列”的访问。结果，推出不到一个月，Gemini 就捅了个大篓子。用户使用人像生成服务时发现，让 Gemini 承认白人的存好像非常困难，AI 拒绝在图像中描绘白人，以至于生成不少违背基本事实（性别、