AI资讯列表 - AI在线

刚刚，GPT-4o关键人物离职创业！曾在OpenAI最早提出构建「Her」

OpenAI 最早提出构建「Her」的那个人，刚刚宣布离职创业了。今年 5 月份，OpenAI 发布了震惊世界的 GPT-4o。这个模型可以跨越文本、视觉和音频，以一种非常自然的形式和人类语音对话，延迟低到与人类在对话中的响应时间相似。而且，它允许用户随时打断，并能感知和回应用户的情绪。因此，该模型发布后，很多人说科幻电影《Her》中的场景照进了现实。此次离职的 Alexis Conneau 就是 GPT-4o 项目的关键人物之一。离职前，他是 OpenAI 音频 AGI 研究负责人，也是 OpenAI 最早提出

中国信通院何宝宏：到 2026 年，生成式 AI 计算市场规模将突破百亿美元

据贝壳财经报道，中国国际服务贸易交易会今天在北京举行。中国信息通信研究院云计算与大数据研究所所长何宝宏出席 2024 通用人工智能算力论坛并以“智算产业新发展”进行演讲。何宝宏认为，2018 年至 2023 年，全球算力市场平稳增长，但智算赛道爆发。据清华大学全球产业研究院测算，生成式 AI 计算和其他 AI 计算市场将达成如下规模：将在 2024 年分别达到约 54.66 亿美元（AI在线备注：当前约 389.44 亿元人民币）和约 231.52 美元（当前约 1650 元人民币），将在 2025 年分别达到约

厉害了！Adobe新出Firefly视频模型，2分钟速成高清大片

在 Sora 加入 Adobe 全家桶数月后，Adobe 终于推出了自己的视频生成模型。随着大家对新鲜、短视频内容的需求不断增长，编辑、电影制作人和内容创作者被要求在更短的时间内创作出更好的作品。如今，编辑不仅要剪辑图片，还要进行色彩校正、动画渲染、音频混合等，这些内容大大增加了工作时间。刚刚，Adobe 宣布推出 Firefly 视频模型。Adobe 旨在利用 AI 强大的功能帮助视频内容创作者扩展他们的创意，在客户要求的时间内提供高质量的成果。在官方博客中，Adobe 进行了一系列 Demo 展示，从提示到成片

AI 能「看懂」你的唇语，悄悄话不再安全

小心悄悄话被 AI 听见！（嘘）最近国外一款可以读唇语的 AI 软件火了！具体效果如下：红毯上布莱克・莱弗利小声说：“好紧张”，笑着说话时肉眼很难分辨唇语，但 AI 可以。乍一看只能看见一排白牙（bushi）的侃爷，唇语也能被轻松破解。看完后网友们开始纷纷评论，大开脑洞：求“联名”型网友：快把它和 Siri 结合一下吧！这样我就不用像小傻子一样对着电脑大喊了！测评型网友：我想用它试试“座机画质”的视频！担心安全型网友：我有点害怕，我想戴口罩了。（呜呜）实测 Readtheirlips 效果如何量子位整理了一些视频，

筛选数十亿化合物库，华盛顿大学药物AI虚拟筛选平台，登Nature子刊

编辑 | KX基于结构的虚拟筛选在药物发现中发挥着重要作用，科学家对数十亿种化合物库的筛选越来越感兴趣。但只有少数的筛选取得成功，此外，对于基于物理的对接方法而言，对整个超大型库进行虚拟筛选耗时且成本高昂。基于此，华盛顿大学研究团队开发了一种高度准确的基于结构的虚拟筛选方法 RosettaVS，用于预测对接姿势和结合亲和力。RosettaVS 在广泛的基准测试中优于其他最先进的方法。研究人员将其整合到一个新的开源 AI 加速虚拟筛选平台中，用于药物发现。利用这个平台，针对两个不相关的靶标，即泛素连接酶靶标 KLHD

谢尔盖布林：谷歌不敢用Transformer，作者全跑路了，现在我每天都在写代码

坐拥世界最大的搜索业务，谷歌一直独步于硅谷。搜索所带来的丰厚广告收入，让两位创始人谢尔盖・布林 (Sergey Brin) 和拉里・（Larry Page）可以退居二线，安心享受生活。 1997 年 9 月 15 日，谢尔盖・布林和拉里·佩吉注册了一个名为「谷歌」的网站。直到 2022 年底，ChatGPT 火遍全球，原本 AI 浪潮的引领者谷歌似乎才意识到地位发生了翻转。最近一年以来，我们似乎习惯了这家科技巨头作为「追赶者」出现。从去年开始，就有媒体爆料，称谢

音频驱动人像视频模型：字节Loopy、CyberHost研究成果揭秘

近期，来自字节跳动的视频生成模型 Loopy，一经发布就在 X 上引起了广泛的讨论。Loopy 可以仅仅通过一张图片和一段音频生成逼真的肖像视频，对声音中呼吸，叹气，挑眉等细节都能生成的非常自然，让网友直呼哈利波特的魔法也不过如此。Loopy 模型采用了 Diffusion 视频生成框架。输入一张图片和一段音频，就可以生成相应的视频。不但可以实现准确的音频和口型同步，还可以生成细微自然的表情动作，例如人物跟随情绪节奏做出抬眉、吸气、憋嘴停顿、叹气、肩膀运动等非语言类动作也能很好地被捕捉到；在唱歌时也能表现得活灵活现

蚂蚁自研知识增强大模型服务框架KAG，可显著提升知识推理准确率

近日，在 2024 Inclusion・外滩大会 “超越平面思维，图计算让 AI 洞悉复杂世界” 见解论坛上，蚂蚁集团知识图谱负责人梁磊分享了 “构建知识增强的专业智能体” 相关工作，并带来了知识图谱与大模型结合最新研发成果 —— 知识增强大模型服务框架 KAG。梁磊介绍，专业领域增强大模型服务框架 KAG 通过图谱逻辑符号引导决策和检索，显著提升了垂直领域决策的精准性和逻辑严谨性；通过信息检索可补全知识图谱的稀疏性和知识覆盖的不足，同时充分利用大语言模型的理解和生成能力降低领域知识图谱的构造门槛。KAG 框架在垂

与「李白」赏图赋诗，同「猴哥」直面天命，人大高瓴提出MMRole多模态角色扮演

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]代彦琪是中国人民大学高瓴人工智能学院的三年级博士生，师从卢志武教授，2022年毕业于大连理工大学软件学院。他的研究兴趣包括多任务学习、多模态大模型以及角色扮演智能体等领域，近期尤其关注多模

检索总结能力超博士后，首个大模型科研智能体PaperQA2开源了

这是 AI 智能体在大部分科学研究中超越人类的第一个案例，或许会彻底改变人类与科学文献互动的方式。最近一段时间，有关 AI 科学家的研究越来越多。大语言模型（LLM）有望帮助科学家检索、综合和总结文献，提升人们的工作效率，但在研究工作中使用仍然有很多限制。对于科研来说，事实性至关重要，而大模型会产生幻觉，有时会自信地陈述没有任何现有来源或证据的信息。另外，科学需要极其注重细节，而大模型在面对具有挑战性的推理问题时可能会忽略或误用细节。最后，目前科学文献的检索和推理基准尚不完善。AI 无法参考整篇文献，而是局限于摘要

Mistral首个多模态模型Pixtral 12B来了！还是直接放出24GB磁力链接

训练完就直接上模型。我们都知道，Mistral 团队向来「人狠话不多」。昨天下午，他们又又又丢出了一个不带任何注解的磁力链接。解析一下这个链接，可以看到大小共 23.64 GB，其中包含 4 个文件，其中最大的文件是一个封装的多模态大模型。动作快的非官方 Mistral 社区已经将该模型上传到了 Hugging Face。磁力链接：magnet:?xt=urn:btih:7278e625de2b1da598b23954c13933047126238a&dn=pixtral-12b-240910Hugging Fac

谷歌 NotebookLM 新增 Audio Overview 功能：生成 2 位 AI 主播，围绕用户文档展开播客式交流

科技媒体 maginative 昨日（9 月 11 日）报道，谷歌公司升级旗下笔记应用 NotebookLM，新增 Audio Overview 功能，可以围绕着用户上传的文档，生成两位 AI 主持人，并通过播客方式展开讨论。NotebookLM 简介NotebookLM 基于谷歌 Gemini 1.5 Pro AI 模型，是一款个性化人工智能研究助手。用户可以上传 Google Docs、Google Slides、PDF 文件以及网页 URL 地址，该应用能够研究这些文档内容，为用户提供更有洞察力的回答。Aud

Andrej Karpathy：自动驾驶已经实现AGI，汽车其实就是机器人

自己称赞自己千句，不如别人称赞你一句。例如马斯克在播客、推特上经常自称特斯拉的自动驾驶和机器人“天下第一”，但这样的话看多了，难免也有些审美疲劳。不过，前几天，Andrej Karpathy在No Priors播客中现身，透露了特斯拉在Optimus人形机器人和自动驾驶领域的一些鲜为人知的进展。

港大发布OpenCity: 大模型驱动下的智慧城市"新内核"

代码链接: : : 导读精确的交通预测是实现高效城市规划和交通管理的关键，它有助于优化资源分配并改善出行体验。但是，现有的预测模型在面对未知区域和城市的零样本预测任务，以及长期预测时，表现往往不尽如人意。这些问题主要归因于交通数据在空间和时间上的异质性，以及跨时间和空间的显著分布变化。在本研究中，我们的目标是开发一个多功能、强鲁棒性和高适应性的时空基础模型，用于交通流量的预测。为此，我们设计了一种新型的基础模型——OpenCity，它能够捕捉并规范来自不同数据源的潜在时空模式，以促进在不同城市环境中的零样本泛化能

帕萨特发布会语音助手翻车，知情人士爆料：PPT多切了一页

9月11号消息，上汽大众正式推出了帕萨特 380TSI 家族，共计五款车型。然而在发布会上发生了一段意外插曲。帕萨特 Pro 在演示其搭载的智能AI语音系统时翻车，出现了问题和回答对不上的情况。据有关知情人士透露，该演示内容为提前录制，但高管在现场打乱了提问顺序，操作人员一时跟不上节奏，ppt多切了一页，事先准备好的语音没有及时同步，从而导致“翻车”。

夸克发布全新 CueMe 智能对话助手，支持上千种体裁、2 万字长文

今日，夸克发布全新智能对话助手 CueMe，用户现可通过 cueme.cn 或夸克 App 使用。AI在线从官方获悉，CueMe 是基于夸克大模型自主研发，AI 写作能力突出，支持不同体裁、不同篇幅的内容生成，最长可生成 2 万字的内容。夸克表示，CueMe 针对不同细分体裁进行了充分的语料预训练，可支持上千种不同体裁的写作需求，包括研究报告、日常写作、课程论文、新媒体文案等等，并且还在持续扩展中。此外，CueMe 还支持文风定制，用户可选择根据平台风格、语言风格或个人文章风格生成符合其个性化需求的内容。据夸克官方

清华系人形机器人公司「加速进化」获亿元融资；AI 数字人赛道最大笔投资披露；GPT-4o 实时音频项目负责人离职创业丨AI情报局

今日融资快报人形机器人研发公司，加速进化完成亿元Pre-A系列轮融资加速进化致力于研发更富有行动能力的人形机器人本体和易于开发的运控开发平台。已构建出全自研构型的人形机器人原型——采用力控关节，双足设计，希望研发出“最可靠、最稳定、能完成很多复杂动作、精度足够高”的人形机器人。本轮融资由彼岸时代、民银国际、中关村科学城及iCANX基金共同出资，老股东英诺天使跟投，资金将主要用于通用本体打造、提升软件开发能力。

讲座预约 | AI4S 的前世今生：大语言模型与提示学习在科技研发中的应用与潜力丨GAIR Live

尽管人工智能驱动科学研究（AI4S）是最近几年才逐步火热的一个话题，但在某些科研领域如生物信息学，早在上个世纪90年代，随着人类基因组计划的实施，生物信息学迎来了一个“数据大爆炸”的时代，从那时起，生物信息学领域研究者就开始尝试使用人工智能技术来助力科研工作，直至今天。在过去几年中，大模型技术作为人工智能的一个重要分支，已经从理论研究的深奥殿堂走向了实践应用的广阔天地，从实验室的封闭空间走向了我们日常生活的各个角落。在生物信息学、材料科学、药物发现等领域，大模型技术正在发挥着越来越重要的作用。

资讯列表