AI资讯列表 - AI在线

8/8/6/3的Mamba论文，最终还是被ICLR 2024拒了，网友：悬着的心终于死了

几天前，ICLR 2024 的最终接收结果出来了。大家应该还记得，Mamba 被 ICLR 2024 大会 Decision Pending（待定）的消息在 1 月份引发过一波社区热议。当时，多位领域内的研究者分析，Decision Pending 的意思是延迟决定，虽然也可能会被拒，但这篇论文得到了 8/8/6/3 的打分，按理说不至于真被拒。论文审稿页面：，Decision 已出，Mamba 彻底被拒，悬着的心终于死了。「Mamba」发布之初即被视为「Transformer 的强劲竞争者」，它是一种选择性状态空

香港也有大模型公司了，天使轮估值一亿美金！

近日，获悉多模态大模型初创公司香港 Weitu AI 公司完成了天使轮融资，天使轮估值一亿美金。天使轮投资人为拥有全球数亿月活的互联网科技公司和著名天使投资人。据了解，该公司目前刚刚成立，超过半数成员来自北美名校毕业并拥有海外大厂的工作经验。团队成员中包括了数位长期活跃在人工智能多模态领域的研究专家以及拥有大模型基础研发能力的技术专家。据 Weitu AI 公司创始人王历伟博士介绍，“多模态大模型的研发最重要的是两种能力需要同时具备，一种是基础的大模型的研发能力，一种是长期专注的多模态能力，对多模态数据，建模，任务

用扩散模型生成网络参数，LeCun点赞尤洋团队新研究

如果你有被 Sora 生成的视频震撼到，那你就已经见识过扩散模型在视觉生成方面的巨大潜力。当然，扩散模型的潜力并不止步于此，它在许多其它不同领域也有着让人期待的应用前景，更多案例可参阅机器之心不久前的报道《爆火Sora背后的技术，一文综述扩散模型的最新发展方向》。近日，来自新加坡国立大学的尤洋团队、加州大学伯克利分校、Meta AI Research 的一项新研究找到了扩散模型的一个新应用方向：用来生成神经网络的模型参数！论文地址：：：Neural Network Diffusion这样一来，似乎就可以使用现有的神

谷歌Gemini生图功能紧急关闭，口碑一夜塌房，Yann LeCun：我早就知道

Gemini 好像终于被玩坏了。去年年底，谷歌 Gemini 震撼了业界，它是谷歌「最大、最有能力和最通用」的 AI 系统，号称第一个原生多模态大模型，能力超越 GPT-4，也被认为是谷歌反击微软和 OpenAI 的强大工具。对此，在 2 月 8 日，谷歌还把自家对标 ChatGPT 的服务 Bard 更名为 Gemini，以着重体现新使命 —— 旨在提供对「最强模型系列」的访问。上周谷歌还火速更新了 Gemini Pro 1.5 版。结果，推出不到一个月，这个 Gemini 就翻车了。多离谱呢，作为一个多模态的生

补齐Transformer规划短板，田渊栋团队的Searchformer火了

Transformer 强大的泛化能力再次得到证明！最近几年，基于 Transformer 的架构在多种任务上都表现卓越，吸引了世界的瞩目。使用这类架构搭配大量数据，得到的大型语言模型（LLM）等模型可以很好地泛化用于真实世界用例。尽管有如此成功，但基于 Transformer 的架构和 LLM 依然难以处理规划和推理任务。之前已有研究证明 LLM 难以应对多步规划任务或高阶推理任务。为了提升 Transformer 的推理和规划性能，近些年研究社区也提出了一些方法。一种最常见且有效的方法是模拟人类的思考过程：先生

下个爆点人形机器人？OpenAI、英伟达、贝索斯向同一家公司投了6.7亿刀

Figure AI 在本轮融资之前，估值就已有 20 亿美元了。生成式 AI 的竞争如火如荼，各家科技公司和机构也没有忘记投资下一个热点。本周五，彭博社援引消息人士的话报道称，亚马逊创始人杰夫・贝索斯、英伟达和其他大型科技公司正在不约而同地投资初创公司 Figure AI，该公司旨在开发人形机器人。该公司的产品 Figure 01，据称是世界上第一个具有商业可行性的自主人形机器人，身高 1.5 米，体重 60 公斤，可承载 20 公斤货物，采用电机驱动。它的可工作时长是 5 小时，行走速度每秒 1.2 米，可以说很

AAAI 2024杰出论文奖出炉：西安电子科技大学获奖

让我们恭喜获奖者！本周，全球 AI 顶会 AAAI 2024 正式开幕，目前已公布了最佳论文（Outstanding Paper Award）等多个重要奖项。AAAI 全称为国际先进人工智能协会 (Association for the Advancement of Artificial Intelligence)，其每年举办的现场会议是人工智能领域里历史最悠久、涵盖内容最广泛的的国际顶级学术会议之一，今年已是第 38 届。据中国计算机学会推荐国际学术会议和期刊目录，AAAI 为人工智能领域的 A 类会议。据了解，

国内高校打造类Sora模型VDT，通用视频扩散Transformer被ICLR 2024接收

2 月 16 日，OpenAI Sora 的发布无疑标志着视频生成领域的一次重大突破。Sora 基于 Diffusion Transformer 架构，和市面上大部分主流方法（由 2D Stable Diffusion 扩展）并不相同。为什么 Sora 坚持使用 Diffusion Transformer，其中的原因从同时期发表在 ICLR 2024（VDT: General-purpose Video Diffusion Transformers via Mask Modeling）的论文可以窥见一二。这项工作由

推出不到一个月，谷歌Gemini翻车了

机器之能报道编辑：Sia谷歌下架 Gemini 人物图像生成服务。三月前，谷歌 Gemini 轰轰烈烈亮相，被描述为谷歌“最大、最有能力和最通用”的 AI 系统，并补充说它具有复杂的推理和编码能力。2 月 8 日，谷歌聊天机器人 Bard 正式更名为 Gemini，以反映新聊天机器人的“使命”——提供对“最有能力的模型系列”的访问。结果，推出不到一个月，Gemini 就捅了个大篓子。用户使用人像生成服务时发现，让 Gemini 承认白人的存好像非常困难，AI 拒绝在图像中描绘白人，以至于生成不少违背基本事实（性别、

6499元起，小米14 Ultra发布：业内首次引入大模型影像技术

卫星通信能力也来了！

登Nature，提前300毫秒预测聚变中等离子体「撕裂」，普林斯顿团队开发AI控制器

JET 托卡马克装置的内部。（英国原子能管理局）编辑 | 紫罗核聚变被称为人造太阳，其原理和为太阳以及其他恒星提供动力的过程相同，被广泛视为清洁能源的圣杯。但科学家们只实现并维持了几秒钟的核聚变能，还有许多障碍，包括高度复杂过程中的不稳定性。实现聚变能的方法有多种，但最常见的是使用氢变体作为输入燃料，并在称为托卡马克的「甜甜圈形」形状的机器中将温度提高到极高水平，以产生等离子体，一种类似汤的物质状态。但等离子体需要受到控制，而且极易「撕裂」，并逃离机器设计用来控制等离子体的强大磁场。近日，普林斯顿大学和普林斯顿等离

2770亿美元，英伟达创史上最大单日涨幅，黄仁勋：生成式AI已到临界点

老黄即将跻身全球前 20 富豪行列。英伟达，现在已是「地球上最重要的一支股票」了。本周四，英伟达市值单日暴涨 2770 亿美元。这是华尔街历史上最大的股票单日涨幅，这家重量级芯片公司的最新季度报告超出了预期，点燃了人们对于人工智能的乐观情绪。单日成交金额 659 亿美元，约合 4700 亿人民币。该公司股价飙升了 16.4% 收于 785.38 美元，创历史新高。其总市值升至 1.96 万亿美元，再次超越谷歌（Alphabet）成为全球第三大市值公司

Stable Diffusion 3震撼发布，采用Sora同源技术，文字终于不乱码了

Stable Diffusion 3 和 Sora 一样采用了 diffusion transformer 架构。继 OpenAI 的 Sora 连续一周霸屏后，昨晚，生成式 AI 顶级技术公司 Stability AI 也放了一个大招 ——Stable Diffusion 3。该公司表示，这是他们最强大的文生图模型。与之前的版本相比，Stable Diffusion 3 生成的图在质量上实现了很大改进，支持多主题提示，文字书写效果也更好了。以下是一些官方示例：提示：史诗般的动漫作品，一位巫师在夜晚的山顶上向漆黑的

目标检测新SOTA：YOLOv9问世，新架构让传统卷积重焕生机

在目标检测领域，YOLOv9 实现了一代更比一代强，利用新架构和方法让传统卷积在参数利用率方面胜过了深度卷积。继 2023 年 1 月 YOLOv8 正式发布一年多以后，YOLOv9 终于来了！我们知道，YOLO 是一种基于图像全局信息进行预测的目标检测系统。自 2015 年 Joseph Redmon、Ali Farhadi 等人提出初代模型以来，领域内的研究者们已经对 YOLO 进行了多次更新迭代，模型性能越来越强大。此次，YOLOv9 由中国台湾 Academia Sinica、台北科技大学等机构联合开发，相

OpenAI工程师必备经典《苦涩的教训》，原来20多年前就有了原型

大量数据学习涌现出来的能力，终于超越了人们的想象。OpenAI 推出视频生成模型 Sora 已经一周的时间了，热度不减，作者团队还在持续放出让人眼前一亮的视频。比如「一群爱冒险的小狗探索天空废墟的电影预告片」，Sora 一次生成并自己完成剪辑。当然，一个个生动、逼真的 AI 视频让人们好奇为什么是 OpenAI 率先打造出了 Sora 并能够跑通所有 AGI 技术栈呢？这一问题在社交媒体上引发了热烈的讨论。其中，在一篇知乎文章中，加州大学伯克利分校计算机科学博士、作者 @SIY.Z 分析了 OpenAI 成功的一些

清华叉院、理想提出DriveVLM，视觉大语言模型提升自动驾驶能力

在自动驾驶领域，研究人员也在朝着 GPT/Sora 等大模型方向进行探索。与生成式 AI 相比，自动驾驶也是近期 AI 最活跃的研究和开发领域之一。要想构建完全的自动驾驶系统，人们面临的主要挑战是 AI 的场景理解，这会涉及到复杂、不可预测的场景，例如恶劣天气、复杂的道路布局和不可预见的人类行为。现有的自动驾驶系统通常包括 3D 感知、运动预测和规划组成部分。具体来说，3D 感知仅限于检测和跟踪熟悉的物体，忽略了罕见物体及其属性，运动预测和规划则关注物体的轨迹动作，通常会忽略物体和车辆之间的决策级交互。自动驾驶需

Adobe & Figma ：分手2个月后的境况

实际上早在去年年底12月的时候，Adobe 对 Figma 的 200 亿收购案就以失败收场，监管机构下场干预，Adobe 和 Figma 各有想法，最终以 Adobe 支付 Figma 10 亿美元和解，一场长达 15 个月的设计史上最大收购案落下帷幕，双方各自远扬。欧盟和英国竞争委员会基于当地的反垄断法，针对这一收购案提出了反垄断指控。这类操作在科技领域内屡见不鲜，但是在 Adobe 和 Figma 两家之间，欧盟的操作倒是成了一次借坡下驴的绝佳机会。在不同场合、不同媒体的采访之下，这场原本看起来是「天作之合

Sora全球爆火，对设计师来说是机会还是挑战？

想必最近大家在网上都看到了有关 Sora 的信息，这是 OpenAI 在春节期间发布的一项令人难以置信的新技术，在人工智能领域，这可以说是颠覆性的突破和创新。简单来说，它是一个视频生成器，你给它一段文字，它就能帮你创造出你想要的视频作品！我们先来看一个 Sora 生成的视频。这个视频的咒语（Prompt）：一位时尚的女士穿着黑色皮夹克、长红裙和黑色靴子，手拿黑色手袋，在东京一条灯光温暖、霓虹灯闪烁、带有动感城市标志的街道上自信而随意地行走。她戴着太阳镜，涂着红色口红。街道潮湿而有反光效果，色彩缤纷的灯光仿佛在地面