应用

李飞飞团队统一动作与语言，新的多模态模型不仅超懂指令，还能读懂隐含情绪

人类的沟通交流充满了多模态的信息。为了与他人进行有效沟通，我们既使用言语语言，也使用身体语言，比如手势、面部表情、身体姿势和情绪表达。因此，为了理解和生成人类动作，理解这些多模态的行为至关重要，而且这一研究方向最近受到的关注也越来越多。

12/18/2024 1:40:00 PM

机器之心

英伟达下代RTX 50系列显卡规格被泄露，旗舰5090显存达32GB

自 2022 年 10 月以来，高端显卡性能终于又将迎来大幅度升级。明年的国际消费类电子产品展览会（CES 2025）将在北京时间 1 月 8 日至 11 日举行，包括英特尔、英伟达和 AMD 在内的各大 CPU、GPU 厂商将带着自家最新产品闪亮登场。大家最期待的应该当属英伟达的最新 RTX 50 系列显卡了，到时候肯定会成为全场的焦点。

12/18/2024 1:33:00 PM

机器之心

Meta 推出 Apollo 开源模型，让 AI “看懂”视频

Meta携手斯坦福大学，推出全新AI模型系列Apollo，显著提升机器对视频的理解能力。Apollo的研发解决了AI领域长期存在的难题，并为视频理解领域树立了新的标杆。

12/18/2024 1:31:06 PM

故渊

Florence-VL来了！使用生成式视觉编码器，重新定义多模态大语言模型视觉信息

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。

12/18/2024 1:31:00 PM

机器之心

用 AI 帮助“打灰”，缪昌文院士目标将混凝土的设计寿命延长到 200 年

建筑材料专家、中国工程院院士、东南大学教授缪昌文透露，目前重大工程使用的混凝土材料的设计寿命为 100—120 年，他们希望通过人工智能技术，将混凝土的设计寿命延长到 200 年。

12/18/2024 12:45:23 PM

汪淼

字节发布豆包视觉理解、3D 生成等新模型，豆包音乐模型可生成 3 分钟作品

豆包3D生成模型也在本次活动中正式亮相。将其与火山引擎数字孪生平台veOmniverse结合使用，可完成智能训练、数据合成和数字资产制作，官方称之为“一套支持 AIGC 创作的物理世界仿真模拟器”。

12/18/2024 11:33:56 AM

清源

消息称“通义”应用团队从阿里云分拆，并入阿里智能信息事业群

有知情人士称，此次调整包括通义 To C 方向的产品经理，以及相关的工程团队，一并调整至阿里智能信息事业群。（智能涌现）

12/18/2024 10:48:13 AM

汪淼

披头士乐队成员保罗・麦卡特尼警告英国议会：AI 可能将年轻音乐人挤出舞台

他警告说，若AI不断产生模仿人类艺术家的音乐，却不给予创作者应有的荣誉或支付版税，那么年轻音乐人将面临更加严峻的挑战，可能很难脱颖而出。

12/18/2024 8:12:02 AM

清源

碾压Sora！谷歌全新发布AI视频模型Veo2+AI绘图Imagen3

更多AI干货：. 体验完Vidu划时代的新功能，我觉得可以正式抛弃3D渲染了这两天，在 X 上看到一个很酷的 2D 动漫 AI 视频。阅读文章 .

12/18/2024 8:02:54 AM

数字生命卡兹克

OpenAI 称目前尚无推出视频生成模型 Sora API 的计划

OpenAI 今日表示，目前没有推出其视频生成模型 Sora 的应用程序接口（API）的计划，该模型可基于文本、图像生成视频。

12/18/2024 7:37:53 AM

远洋

谷歌：只要有人工监督，客户即可在“高风险”领域使用其 AI 作出决策

根据该公司周二发布的《生成式 AI 禁止使用政策》更新版，客户可以在一定条件下使用谷歌的生成式 AI 作出可能对个人权利产生重大不利影响的“自动化决策”，例如在就业、住房、保险和社会福利等领域。

12/18/2024 7:12:19 AM

清源

OpenAI o1 推理模型 API 上线，仅面向特定开发者开放

“OpenAI 12 天”活动进入第 9 天，OpenAI 今日宣布，其“推理”人工智能模型 o1 正式通过 API 向部分开发者开放，并同步更新了包括 GPT-4o、实时 API 以及微调 API 等多项开发者工具。

12/18/2024 7:00:24 AM

远洋

零基础也能快速做海报！AI设计神器Recraft入门使用指南

Recraft，这款集成了 AI 绘画、矢量图生成和设计工具的应用平台，是一款强大的 AI 图像生成与编辑工具。这款工具以其卓越的文本渲染、高级控制、多功能编辑和实时协作等功能，成为了设计师们不可或缺的创意助手，大大满足了设计师对于创意和效率的双重追求。 Recraft 的出色能力不仅体现在其强大的功能和便捷的操作上，更在于它能够将 AI 技术真正赋能给用户。

12/18/2024 12:32:27 AM

58UXD 团队

AI大模型时代，人才的需求已经变了

什么是 AI 发展的第一驱动力？最近，全球科技大厂都在用行动告诉我们：人才。本月初，谷歌 NotebookLM 的核心团队共同宣布离职创业，他们新公司的网站已经进入了「建设中」的状态。

12/17/2024 9:08:00 PM

机器之心

视频生成领先 OpenAI 了？今天是个好日子，至少谷歌这么想。几个小时前，该公司一键三连，一口气发布了两款视觉生成模型和一个工具：Veo 2：视频生成模型，可使用文本或图像 prompt 生成高真实感、高质量的视频；Imagen 3：文生图模型，可更忠实地遵从提示词，实现更加丰富的细节和纹理渲染；Whisk：图生图工具，基于 Imagen 3 与 Gemini 的视觉理解和描述能力打造，能让用户更加方便地调整图像的场景、风格和物体。

12/17/2024 8:49:00 PM

机器之心