AI资讯列表 - AI在线

大型多视角高斯模型LGM：5秒产出高质量3D物体，可试玩

为满足元宇宙中对 3D 创意工具不断增长的需求，三维内容生成（3D AIGC）最近受到相当多的关注。并且，3D 内容创作在质量和速度方面都取得了显著进展。尽管当前的前馈式生成模型可以在几秒钟内生成 3D 对象，但它们的分辨率受到训练期间所需密集计算的限制，进而导致生成低质量的内容。这就产生了一个问题，能否只用 5 秒钟来生成高分辨率高质量的 3D 物体？本文中，来自北京大学、南洋理工大学 S-Lab 和上海人工智能实验室的研究者提出了一个新的框架 LGM，即 Large Gaussian Model，实现了从单视角

GPT-4可能也在用的推测解码是什么？一文综述前世今生和应用情况

推测解码（Speculative Decoding）是谷歌等机构在 2022 年发现的大模型推理加速方法。它可以在不损失生成效果前提下，获得 3 倍以上的加速比。GPT-4 泄密报告也提到 OpenAI 线上模型推理使用了它。针对如此妙的方法，香港理工大学、北京大学、MSRA 以及阿里共同推出了一篇关于推测解码的综述，帮助读者了解推测解码的前世今生和应用情况，值得一读。众所周知，大型语言模型（LLM）的推理通常需要使用自回归采样，这个推理过程相当缓慢。为了解决这个问题，推测解码（Speculative Decod

如果 LLM Agent 成为了科学家：耶鲁、NIH、Mila、上交等学者共同呼吁安全防范的重要性

最近的大型语言模型（LLMs）进步已经使我们处于革命性的时代，尤其是 LLMs 驱动的智能 Agents 在广泛任务中展现出了通用性和有效性。这些被称为「AI 科学家」的 Agent 已经开始探寻其在生物学和化学等各种领域内进行自主科学发现的潜力。此类 Agents 已经表现出了选择适合任务的工具，规划环境条件，以及实现实验自动化的能力。因此，Agent 可摇身一变成为真实的科学家，能够有效地设计和开展实验。在某些领域如化学设计中，Agent 所展现的能力已经超过了大部分非专业人士。然而，当我们享受着这种自动化 A

超越AF2？Iambic、英伟达、加州理工学院开发多尺度深度生成模型，进行状态特异性蛋白质-配体复合物结构预测

编辑 | 萝卜皮由蛋白质和小分子配体形成的结合复合物无处不在，对生命至关重要。虽然最近科学家在蛋白质结构预测方面取得了进展，但现有算法无法系统地预测结合配体结构及其对蛋白质折叠的调节作用。为了解决这种差异，AI 制药公司 Iambic Therapeutics、英伟达（Nvidia Corporation）以及加州理工学院（California Institute of Technology）的研究人员提出了 NeuralPLexer，这是一种计算方法，可以仅使用蛋白质序列和配体分子图输入直接预测蛋白质-配体复合物

降维式打击！像素级拆解文生视频大模型Sora

Openai 发布了它的文生视频大模型 Sora。终于 Openai 也加入了 AI 视频的战争，在此之前 Runway 和一众 AI 视频公司已经奋战了一年多，SD 最近也发布了他们产品化的 AI 视频工具，midjourney 也是即将要发布文生视频功能。但是这次 Openai 的 Sora 基本上对于之前的文生视频模型都是碾压级的，全球的 AI 视频公司都要睡不着了。官网： Sora 并没有公开对大家开放测试入口，只发布了一个官方给大家展示效果。其中的关键信息是：最长生成 60s 视频，视频镜头一致

Prompt 灵感！8 组高质量元宵节 Midjourney 提示词！

大家好我是花生~ 再过几天就是正月十五元宵节了，整理了 7 组元宵节主题的 Midjourney 提示词, 希望对大家做设计有帮助~ 相关推荐：一、3D 人物素材 A cute chinese girl, Wearing traditional Chinese clothes. She is holding a bowl of white smooth tangyuan happily. 3D Pixar style, Blender, Pure Chinese red background --ar 2:3 --

专访GAIR研究院院长朱晓蕊：以Web3技术为引擎，推动「去中心化科学期刊」的新时代

作为一名创投背景的学术带头人，朱晓蕊刚刚迎来她的47岁人生。从学术成就看，1977年出生的朱晓蕊，先后在1998年和2000年取得哈尔滨工业大学学士和硕士学位，2006年，她在美国犹他大学获得博士学位，具有机电一体化和机械工程多重背景；学成归来后，朱晓蕊进入哈尔滨工业大学(深圳)任教，2011年被破格评为博士生导师，2014年被评为正教授。在她担任哈工大教授的14年中，作为项目负责人主持了不少国家级项目，总经费超过千万，并多次参与组织了机器人领域的全球顶级学术会议，曾被IEEE评价为“机器人领域的杰出女性”。

揭秘Sora技术路线：核心成员来自伯克利，基础论文曾被CVPR拒稿

至此已成艺术的 Sora，是从哪条技术路线发展出来的？最近几天，据说全世界的风投机构开会都在大谈 Sora。自去年初 ChatGPT 引发全科技领域军备竞赛之后，已经没有人愿意在新的 AI 生成视频赛道上落后了。在这个问题上，人们早有预判，但也始料未及：AI 生成视频，是继文本生成、图像生成以后技术持续发展的方向，此前也有不少科技公司抢跑推出自己的视频生成技术。不过当 OpenAI 出手发布 Sora 之后，我们却立即有了「发现新世界」的感觉 —— 效果和之前的技术相比高出了几个档次。

Sora到底懂不懂物理世界？一场头脑风暴正在AI圈大佬间展开

Sora 到底是不是物理引擎甚至世界模型？图灵奖得主 Yann LeCun、Keras 之父 Francois Chollet 等人正在深入探讨。最近几天，OpenAI 发布的视频生成模型 Sora 成了全世界关注的焦点。和以往只能生成几秒钟视频的模型不同，Sora 把生成视频的长度一下子拉长到 60 秒。而且，它不仅能了解用户在 Prompt 中提出的要求，还能 get 到人、物在物理世界中的存在方式。以经典的「海盗船在咖啡杯中缠斗」为例。为了让生成效果看起来逼真，Sora 需要克服以下几个物理难点：规模和比

100万token，一次能分析1小时YouTube视频，「大世界模型」火了

这项研究为语言模型更好地理解物理世界铺平了道路。最近几天，我们接连被谷歌的多模态模型 Gemini 1.5 以及 OpenAI 的视频生成模型 Sora 所震撼到，前者可以处理的上下文窗口达百万级别，而后者生成的视频能够理解运动中的物理世界，被很多人称为「世界模型」。然而，这些刷屏无数的模型真的能很好的理解世界吗？我们就拿 Sora 来说，该模型在给大家带来惊叹的同时，却不能很好的模拟复杂场景的物理原理，如一位健身的男子倒着跑跑步机。不仅 Sora，现如今大模型虽然发展迅速，然而其自身也存在缺点，比如在现实世界中不

盘点如何用AI做动画，还有各种工具等你取用

图像生成、视频生成、整合语音合成的人脸动画、生成三维的人物运动以及 LLM 驱动的工具…… 一切都在这篇文章中。生成式 AI 已经成为互联网的一个重要内容来源，现在你能看到 AI 生成的文本、代码、音频、图像以及视频和动画。今天我们要介绍的文章来自立陶宛博主和动画师 aulerius，其中按层级介绍和分类了动画领域使用的生成式 AI 技术，包括简要介绍、示例、优缺点以及相关工具。他写道：「作为一位动画制作者，我希望一年前就有这样一份资源，那时候我只能在混乱的互联网上自行寻找可能性和不断出现的进展。」本文的目标读者是

Windows、Office直接上手，大模型智能体操作电脑太6了

当我们谈到 AI 助手的未来，很难不想起《钢铁侠》系列中那个令人炫目的 AI 助手贾维斯。贾维斯不仅是托尼・斯塔克的得力助手，更是他与先进科技的沟通者。如今，大模型的出现颠覆了人类使用工具的方式，我们或许离这样的科幻场景又近了一步。想象一下，如果一个多模态 Agent，能够直接像人类一样通过键盘和鼠标直接操控我们身边的电脑，这将是多么令人振奋的突破。 AI助手贾维斯近期，吉林大学人工智能学院发布了一项利用视觉大语言模型直接控制电脑 GUI 的最新研究《S

后Sora时代，CV从业者如何选择模型？卷积还是ViT，监督学习还是CLIP范式

如何衡量一个视觉模型？又如何选择适合自己需求的视觉模型？MBZUAI和Meta的研究者给出了答案。一直以来，ImageNet 准确率是评估模型性能的主要指标，也是它最初点燃了深度学习革命的火种。但对于今天的计算视觉领域来说，这一指标正变得越来越不「够用」。因为计算机视觉模型已变得越来越复杂，从早期的 ConvNets 到 Vision Transformers，可用模型的种类已大幅增加。同样，训练范式也从 ImageNet 上的监督训练发展到自监督学习和像 CLIP 这样的图像 - 文本对训练。ImageNet 并

让视觉语言模型搞空间推理，谷歌又整新活了

视觉语言模型虽然强大，但缺乏空间推理能力，最近 Google 的新论文说它的 SpatialVLM 可以做，看看他们是怎么做的。视觉语言模型 (VLM) 已经在广泛的任务上取得了显著进展，包括图像描述、视觉问答 (VQA)、具身规划、动作识别等等。然而大多数视觉语言模型在空间推理方面仍然存在一些困难，比如需要理解目标在三维空间中的位置或空间关系的任务。关于这一问题，研究者们常常从「人类」身上获得启发：通过具身体验和进化发展，人类拥有固有的空间推理技能，可以毫不费力地确定空间关系，比如目标相对位置或估算距离和大小，而

GPDRP：基于图 Transformer 和基因通路的药物反应预测多模态框架

编辑 | X在计算个性化医学领域，药物反应预测（DRP）是一个关键问题。但是，现有的研究通常将药物描述为字符串，这种表示与分子的自然描述不符。此外，忽略了基因通路（pathway）特异性组合含义。近日，来自河南科技大学的研究人员提出了基于药物图和基因通路的药物反应预测方法（GPDRP），这是一种新的多模态深度学习模型，用于预测基于药物分子图和基因途径活性的药物反应。在 GPDRP 中，药物由分子图表示，而细胞系则以基因途径活性评分描述。该模型使用具有图 Transformer 和深度神经网络的图神经网络(GNN)分

Sam Altman７万亿美元芯片计划被怼，“硅仙人”：我只用不到1万亿

机器之能报道编辑：Sia不是每个业内人士都买这笔疯狂数字的账。Sam Altman 最近登上了头条新闻，背后的原因有些夸张。这位从未设计过一个芯片的聪明人认为半导体行业需要他，正在推动一个旨在提高全球芯片制造能力的项目。为此，他需要筹集 5 万亿至 7 万亿美元，并正与包括阿联酋政府在内的不同投资者进行谈判。OpenAI 发言人表示，“ OpenAI 就增加芯片、能源和数据中心的全球基础设施和供应链进行了富有成效的讨论，这对于人工智能和相关行业至关重要。鉴于国家优先事项的重要性，我们将继续向美国政府通报情况，并期待

真·降维打击，Sora与Runway、Pika的对比来了，震撼效果背后是物理引擎模拟现实世界

以后的视频生成领域，恐怕真的只有 OpenAI 的 Sora 和其他模型了。昨天，OpenAI 发布的首个文本生成视频模型 Sora 引爆了社区，其生成的长达 1 分钟的高清、流畅视频令人们惊叹不已，直呼「好莱坞的时代结束了」。仅仅一年时间，文本生成视频的效果迎来了质的飞跃。图源：，随着 Sora 加入这场视频生成领域的战争，受到冲击最大的是同类竞品模型，比如 Runway、Pika、SDV、谷歌和 Meta。看到 Sora 的生成效果之后，很多人认为，S

OpenAI允许员工出售股份，交易后估值超800亿，Altman在线招人

今日，《纽约时报》援引三位知情人士消息，OpenAI 已经完成一项允许员工出售公司股份的交易。这家旧金山 AI 公司估值也因此水涨船高至 800 亿美元或更高（彭博社报道的估值是 860 亿美元）。去年 4 月，OpenAI 曾以近 300 亿美元的估值完成了首轮股票出售。当时，风险投资公司 Thrive Capital、红杉资本、Andreessen Horowitz 和 K2 Global 同意收购 OpenAI 的股票，对该公司的估值约为 290 亿美元。如今不到 10 个月的时间里，OpenAI 估值几乎翻