AI资讯列表 - AI在线

计算蛋白质工程最新SOTA方法，牛津团队用密码子训练大语言模型

编辑 | 萝卜皮来自深度语言模型的蛋白质表征，已经在计算蛋白质工程的许多任务中表现出最先进的性能。近年来，进展主要集中在参数计数上，最近模型的容量超过了它们所训练的数据集的大小。牛津大学（University of Oxford）的研究人员提出一个替代方向。他们证明，在密码子而不是氨基酸序列上训练的大型语言模型可以提供高质量的表征，并且在各种任务中都优于同类最先进的模型。在某些任务中，例如物种识别、蛋白质和转录本丰度预测等，该团队发现，基于密码子训练的语言模型优于所有其他已发布的蛋白质语言模型，包括一些包含超过 5

谈谈中国第一款AI搜索产品——天工AI

从最初通过书籍资料进行搜索，变成互联网时代利用web网站进行搜索，再到移动互联网时代在社媒平台进行搜索，如今变成被火热讨论的新模态——利用AI进行搜索，不知不觉中人们的搜索习惯已经完成了多次跃迁。在谈AI搜索将如何改变人们的搜索习惯甚至生活习惯之前，需要先聊聊中国第一款AI搜索产品。2023年8月23日，昆仑万维低调发布了「天工AI」，国内第一款AI搜索，获得一众好评。此后国内大小厂商纷纷跟进推出AI搜索，但「天工AI」始终在各类AI搜索产品中保持着绝对优势的产品体验，或许我们可以从天工AI的发展历程中找到AI搜索

精彩程度堪比电视剧，马斯克与奥特曼、OpenAI的「爱恨纠缠史」

马斯克与 OpenAI 及奥特曼之间是理念不合，还是利益之争，我们只能从过往经历中寻得蛛丝马迹。这几天，马斯克起诉 OpenAI 的消息再次引爆了科技圈。这位前 OpenAI 联合创始人在一份长达 46 页、总字数超过 1.4 万字的诉讼文件中，指控 OpenAI 不计后果地开发人类级别的人工智能，并将其移交给微软。马斯克的诉讼直指 OpenAI 首席执行官 Sam Altman 和总裁 Greg Brockman，他们两人与马斯克合作，于 2015 年创立了这家公司。诉讼称，这两人违反了与马斯克最初达成的「创始协

这家神秘的机器人初创，怕是藏不住了

机器之能报道编辑：Sia又一个加速家用机器人“ ChatGPT ”时刻到来的玩家，出现了。这家机器人初创一直笼罩在神秘之中，直到 Meta 首席 AI 科学家 Yann LeCun 在社交平台上转发它的招聘消息，并公布创始人之一是他在纽约大学的同事 Lerrel Pinto 。目前，网络上关于这家名叫 Fauna Robotics 的机器人公司的消息几乎为零，甚至找不到公司官网， X 平台官方账户也仅有一句简单介绍，他们 “正在创造一个人类与机器人物种群落共生、协作与共同繁荣的世界。” 不过，我们还是可以从 “

CVPR 2024满分论文：浙大提出基于可变形三维高斯的高质量单目动态重建新方法

单目动态场景（Monocular Dynamic Scene）是指使用单眼摄像头观察并分析的动态环境，其中场景中的物体可以自由移动。单目动态场景重建对于理解环境中的动态变化、预测物体运动轨迹以及动态数字资产生成等任务至关重要。随着以神经辐射场（Neural Radiance Field, NeRF）为代表的神经渲染的兴起，越来越多的工作开始使用隐式表征（implicit representation）进行动态场景的三维重建。尽管基于 NeRF 的一些代表工作，如 D-NeRF，Nerfies，K-planes 等已

53页PDF广泛流传，核心员工相继离职，OpenAI到底有什么秘密？

八卦络绎不绝，GPT-5 却一直没来。一份关于「OpenAI 在 2027 年实现 AGI」的 53 页 PDF，正在互联网上广泛流传。文档来源于一个名为「vancouver1717」的 X 账户，该账户注册于 2023 年 7 月，只有两条推文。最新发布的这个 PDF 文档称，OpenAI「将在 2027 年前开发出人类水平的 AGI」，「从 2022 年 8 月就在训练 125 万亿参数的多模态模型」，而且已经「在 2023 年 12 月完成了训练」，但是「由于高推理成本取消了发布」。其中提到，这个模型就是原计

复旦等发布AnyGPT：任意模态输入输出，图像、音乐、文本、语音都支持

最近，OpenAI 的视频生成模型 Sora 爆火，生成式 AI 模型在多模态方面的能力再次引起广泛关注。现实世界本质上是多模态的，生物体通过不同的渠道感知和交换信息，包括视觉、语言、声音和触觉。开发多模态系统的一个有望方向是增强 LLM 的多模态感知能力，主要涉及多模态编码器与语言模型的集成，从而使其能够跨各种模态处理信息，并利用 LLM 的文本处理能力来产生连贯的响应。然而，该策略仅限于文本生成，不包含多模态输出。一些开创性工作通过在语言模型中实现多模态理解和生成取得了重大进展，但这些模型仅包含单一的非文本模态

一句话让图片动起来，苹果发力大模型动画生成，可直接编辑结果

苹果最新的 AI 工具可以使用文本描述为图像制作动画。现阶段，大模型惊人的创新能力持续影响着创意领域，尤其是以 Sora 为代表的视频生成技术，更是引领了新一代潮流。当大家都为 Sora 感到震撼的同时，或许苹果的这项研究也值得大家关注一下。在一篇名为「Keyframer: Empowering Animation Design using Large Language Models 」的研究中，来自苹果的研究者发布了一个可以利用 LLM 生成动画的框架 Keyframer，该框架允许用户采用自然语言提示来创建静

十年内出现AGI？下一代Gemini能感知环境？DeepMind CEO哈萨比斯畅谈AI

智能本质、对齐、Gemini、超人类AI和多模态、AGI……在这场干货满满的访谈中，Demis Hassabis可谓「知无不言、言无不尽」。「如果我们在未来十年内拥有类似 AGI 的系统，我不会感到惊讶。」Google DeepMind 联合创始人和 CEO Demis Hassabis 近日在人工智能播客节目 Dwarkesh Podcast 上如是说。在长达一个小时的节目中，Hassabis 分享了自己对智能本质、强化学习、规模扩展和对齐、AGI、多模态等主题的看法。机器之心选择性地整理了其中的主要内容并进行了

清华、哈工大把大模型压缩到了1bit，把大模型放在手机里跑的愿望就快要实现了！

近期，清华大学和哈尔滨工业大学联合发布了一篇论文：把大模型压缩到 1.0073 个比特时，仍然能使其保持约 83% 的性能！自从大模型火爆出圈以后，人们对压缩大模型的愿望从未消减。这是因为，虽然大模型在很多方面表现出优秀的能力，但高昂的的部署代价极大提升了它的使用门槛。这种代价主要来自于空间占用和计算量。「模型量化」通过把大模型的参数转化为低位宽的表示，进而节省空间占用。目前，主流方法可以在几乎不损失模型性能的情况下把已有模型压缩至 4bit。然而，低于 3bit 的量化像一堵不可逾越的高墙，让研究人员望而生畏。

Sora 发布两周后，关于 Sora 的一些冷思考

两周前的今天，北京时间 2 月 16 日，OpenAI 、谷歌、Meta、Stability 都在这一时间节点前后发布文生视频模型成果，但只有 OpenAI 的 Sora 在这场角逐中破圈而出，成功抢占全球的注意力。可以说，Sora 打响了文生视频大模型行业 2024 年的第一炮。面对 Sora 着实优异的视频生成效果，短时间内 AIGC 行业内掀起一轮又一轮讨论，一方面，没人想到 OpenAI 的动作如此之快，令人激动兴奋的同时也来不及招架，另一方面，也都在为其 “60秒超长长度”、“单视频多角度镜头”和“世界模型”的等炸裂的效果震惊，并声称会迎来行业洗牌。

大一统视频编辑框架：浙大&微软推出UniEdit，无须训练、支持多种编辑场景

随着 Sora 的爆火，人们看到了 AI 视频生成的巨大潜力，对这一领域的关注度也越来越高。除了视频生成，在现实生活中，如何对视频进行编辑同样是一个重要的问题，且应用场景更为广泛。以往的视频编辑方法往往局限于「外观」层面的编辑，例如对视频进行「风格迁移」或者替换视频中的物体，但关于更改视频中对象的「动作」的尝试还很少。 UniEdit 视频编辑结果（动作编辑、风格迁移、背景替换、刚性 / 非刚性物体替换）本文中，来自浙江大学、微软亚洲研究院、和北京大学的研究者提出

马斯克起诉OpenAI：他们做出了AGI还授权给微软，这是对创始协议赤裸裸的背叛

AGI 做出来了吗？创始协议在哪儿？马斯克起诉 OpenAI 的诉讼文件疑点满满。在刚刚过去的一天，「沉湎于戏剧性冲突」的马斯克又做了一件新鲜事：他起诉了自己参与创立的 OpenAI。在诉讼文件中，他指控 OpenAI 不计后果地开发人类级别的人工智能，并将其移交给微软。马斯克的诉讼针对的是 OpenAI 及其两名高管 —— 首席执行官 Sam Altman 和总裁 Greg Brockman，他们两人与马斯克合作，于 2015 年创立了这家公司。诉讼称，这两人违反了与马斯克最初达成的「创始协议」，该协议承诺公司将

2万多亿美元，英伟达市值创新高，华尔街排第三

这么看来，老黄的身家又涨了。英伟达，现在已是「地球上最重要的一支股票」了。据路透社消息，在戴尔发布乐观报告后，英伟达股市价值在周五收盘首次超过 2 万亿美元。重新点燃了华尔街由人工智能驱动的涨势。英伟达股价在戴尔发布乐观预测后上涨了 4%。戴尔公司在周四晚些时候指出，英伟达针对人工智能优化的服务器订单激增。由于自身销售的高端服务器采用了英伟达的处理器，戴尔股价一度飙升 38%，创下历史新高，收盘时涨幅为 32%。周五的涨势使得英伟达市值达到 2.06 万亿美元，使其成为仅次于微软和苹果的华尔街第三大价值公司，微软

ControlNet作者又出新作：百万数据训练，AI图像生成迎来图层设计

有人表示：「等待已久的 AI 图像创建功能终于迎来了图层！」尽管用于生成图像的大模型已经成为计算机视觉和图形学的基础，但令人惊讶的是，分层内容生成或透明图像（是指图像的某些部分是透明的，允许背景或者其他图层的图像通过这些透明部分显示出来）生成领域获得的关注极少。这与市场的实际需求形成了鲜明对比。大多数视觉内容编辑软件和工作流程都是基于层的，严重依赖透明或分层元素来组合和创建内容。来自斯坦福大学的研究者提出了一种「latent transparency（潜在透明度）」方法，使得经过大规模预训练的潜在扩散模型能够生成透

模型偏好只与大小有关？上交大全面解析人类与32种大模型偏好的定量组分

在目前的模型训练范式中，偏好数据的的获取与使用已经成为了不可或缺的一环。在训练中，偏好数据通常被用作对齐（alignment）时的训练优化目标，如基于人类或 AI 反馈的强化学习（RLHF/RLAIF）或者直接偏好优化（DPO），而在模型评估中，由于任务的复杂性且通常没有标准答案，则通常直接以人类标注者或高性能大模型（LLM-as-a-Judge）的偏好标注作为评判标准。尽管上述对偏好数据的应用已经取得了广泛的成效，但对偏好本身则缺乏充足的研究，这很大程度上阻碍了对更可信 AI 系统的构建。为此，上海交通大学生成式

效率翻倍！6 款不容错过的免费 AI 神器

大家好，这里是你们一起探索 AI 的花生~ 好久没有做效率神器推荐了，最近接连看到了好几个非常有意思 AI 小工具，今天正好整理一下推荐给大家~ 相关推荐：一、Catjourney 网址直达： Catjourney 是由 @歸藏和 @ LysonOber 联合开发的一个提示词网站，专门收录高质量的 AI 绘画提示词，可以一键复制并用于 Midjourney、Dall·E 3 的出图；最近还新增了 Catjourney Weekly 版块，后续会在里面更新一些 Midjourney 的基础使用技巧。整个网站设计得

如何用AIGC制作MV视频？全流程教程来了！

春节利用AIGC工具制作了一首嘻哈《恭喜发福》MV。这首歌很喜庆鬼畜，满满画面感。（歌手：孙旭/讲究制噪/DJ Baker/西略CRAT）当视频在手机上无法加载，可前往PC查看。接下来给大家拆解一下整个设计流程。更多AI视频神器：2024年，注定是AIGC发展的重要一年！从去年12月从Runway、Pika到前几天OpenAI发布劲爆更新Sora模型！AI视频直接生成60s，短短三个月 AI视频开始爆发式增长。