应用
李飞飞团队统一动作与语言,新的多模态模型不仅超懂指令,还能读懂隐含情绪
人类的沟通交流充满了多模态的信息。 为了与他人进行有效沟通,我们既使用言语语言,也使用身体语言,比如手势、面部表情、身体姿势和情绪表达。 因此,为了理解和生成人类动作,理解这些多模态的行为至关重要,而且这一研究方向最近受到的关注也越来越多。
12/18/2024 1:40:00 PM
机器之心
英伟达下代RTX 50系列显卡规格被泄露,旗舰5090显存达32GB
自 2022 年 10 月以来,高端显卡性能终于又将迎来大幅度升级。 明年的国际消费类电子产品展览会(CES 2025)将在北京时间 1 月 8 日至 11 日举行,包括英特尔、英伟达和 AMD 在内的各大 CPU、GPU 厂商将带着自家最新产品闪亮登场。 大家最期待的应该当属英伟达的最新 RTX 50 系列显卡了,到时候肯定会成为全场的焦点。
12/18/2024 1:33:00 PM
机器之心
Meta 推出 Apollo 开源模型,让 AI “看懂”视频
Meta携手斯坦福大学,推出全新AI模型系列Apollo,显著提升机器对视频的理解能力。Apollo的研发解决了AI领域长期存在的难题,并为视频理解领域树立了新的标杆。
12/18/2024 1:31:06 PM
故渊
Florence-VL来了!使用生成式视觉编码器,重新定义多模态大语言模型视觉信息
AIxiv专栏是AI在线发布学术、技术内容的栏目。 过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。 如果您有优秀的工作想要分享,欢迎投稿或者联系报道。
12/18/2024 1:31:00 PM
机器之心
用 AI 帮助“打灰”,缪昌文院士目标将混凝土的设计寿命延长到 200 年
建筑材料专家、中国工程院院士、东南大学教授缪昌文透露,目前重大工程使用的混凝土材料的设计寿命为 100—120 年,他们希望通过人工智能技术,将混凝土的设计寿命延长到 200 年。
12/18/2024 12:45:23 PM
汪淼
字节发布豆包视觉理解、3D 生成等新模型,豆包音乐模型可生成 3 分钟作品
豆包3D生成模型也在本次活动中正式亮相。将其与火山引擎数字孪生平台veOmniverse结合使用,可完成智能训练、数据合成和数字资产制作,官方称之为“一套支持 AIGC 创作的物理世界仿真模拟器”。
12/18/2024 11:33:56 AM
清源
消息称“通义”应用团队从阿里云分拆,并入阿里智能信息事业群
有知情人士称,此次调整包括通义 To C 方向的产品经理,以及相关的工程团队,一并调整至阿里智能信息事业群。(智能涌现)
12/18/2024 10:48:13 AM
汪淼
披头士乐队成员保罗・麦卡特尼警告英国议会:AI 可能将年轻音乐人挤出舞台
他警告说,若AI不断产生模仿人类艺术家的音乐,却不给予创作者应有的荣誉或支付版税,那么年轻音乐人将面临更加严峻的挑战,可能很难脱颖而出。
12/18/2024 8:12:02 AM
清源
碾压Sora!谷歌全新发布AI视频模型Veo2+AI绘图Imagen3
更多AI干货:. 体验完Vidu划时代的新功能,我觉得可以正式抛弃3D渲染了这两天,在 X 上看到一个很酷的 2D 动漫 AI 视频。 阅读文章 .
12/18/2024 8:02:54 AM
数字生命卡兹克
OpenAI 称目前尚无推出视频生成模型 Sora API 的计划
OpenAI 今日表示,目前没有推出其视频生成模型 Sora 的应用程序接口(API)的计划,该模型可基于文本、图像生成视频。
12/18/2024 7:37:53 AM
远洋
谷歌:只要有人工监督,客户即可在“高风险”领域使用其 AI 作出决策
根据该公司周二发布的《生成式 AI 禁止使用政策》更新版,客户可以在一定条件下使用谷歌的生成式 AI 作出可能对个人权利产生重大不利影响的“自动化决策”,例如在就业、住房、保险和社会福利等领域。
12/18/2024 7:12:19 AM
清源
OpenAI o1 推理模型 API 上线,仅面向特定开发者开放
“OpenAI 12 天”活动进入第 9 天,OpenAI 今日宣布,其“推理”人工智能模型 o1 正式通过 API 向部分开发者开放,并同步更新了包括 GPT-4o、实时 API 以及微调 API 等多项开发者工具。
12/18/2024 7:00:24 AM
远洋
零基础也能快速做海报!AI设计神器Recraft入门使用指南
Recraft,这款集成了 AI 绘画、矢量图生成和设计工具的应用平台,是一款强大的 AI 图像生成与编辑工具。 这款工具以其卓越的文本渲染、高级控制、多功能编辑和实时协作等功能,成为了设计师们不可或缺的创意助手,大大满足了设计师对于创意和效率的双重追求。 Recraft 的出色能力不仅体现在其强大的功能和便捷的操作上,更在于它能够将 AI 技术真正赋能给用户。
12/18/2024 12:32:27 AM
58UXD 团队
AI大模型时代,人才的需求已经变了
什么是 AI 发展的第一驱动力? 最近,全球科技大厂都在用行动告诉我们:人才。 本月初,谷歌 NotebookLM 的核心团队共同宣布离职创业,他们新公司的网站已经进入了「建设中」的状态。
12/17/2024 9:08:00 PM
机器之心
OpenAI被偷家,谷歌Veo 2反超Sora
视频生成领先 OpenAI 了? 今天是个好日子,至少谷歌这么想。 几个小时前,该公司一键三连,一口气发布了两款视觉生成模型和一个工具:Veo 2:视频生成模型,可使用文本或图像 prompt 生成高真实感、高质量的视频;Imagen 3:文生图模型,可更忠实地遵从提示词,实现更加丰富的细节和纹理渲染;Whisk:图生图工具,基于 Imagen 3 与 Gemini 的视觉理解和描述能力打造,能让用户更加方便地调整图像的场景、风格和物体。
12/17/2024 8:49:00 PM
机器之心
消息称马斯克与台积电董事长魏哲家见面,透露特斯拉未来的重心是 Optimus 人形机器人
据中国台湾媒体工商时报报道,特斯拉 CEO 埃隆・马斯克上周在美国会见了台积电董事长魏哲家。会面中,马斯克强调了台积电为特斯拉提供足够产能以生产其自主研发的 Dojo 芯片的重要性,该芯片将使用台积电的 5nm 工艺制造并采用 InFO-SoW 先进封装。
12/17/2024 12:54:36 PM
远洋
语言游戏让 AI 自我进化,谷歌 DeepMind 推出苏格拉底式学习
近日,谷歌 DeepMind 的研究人员推出了苏格拉底式学习,在没有外部数据的情况下,让 AI 通过语言游戏不断变强。
12/17/2024 12:54:05 PM
汪淼
资讯热榜
标签云
人工智能
OpenAI
AIGC
AI
ChatGPT
AI绘画
DeepSeek
数据
机器人
模型
谷歌
大模型
Midjourney
智能
开源
用户
学习
GPT
微软
Meta
AI创作
图像
技术
论文
Stable Diffusion
Gemini
马斯克
算法
蛋白质
生成式
芯片
代码
英伟达
神经网络
腾讯
计算
研究
Anthropic
Sora
3D
AI for Science
AI设计
机器学习
GPU
AI视频
开发者
场景
华为
预测
人形机器人
百度
伟达
苹果
Transformer
深度学习
xAI
模态
字节跳动
大语言模型
Claude
搜索
驾驶
文本
具身智能
神器推荐
Copilot
LLaMA
算力
安全
视觉
视频生成
干货合集
应用
大型语言模型
科技
亚马逊
训练
特斯拉
AGI
DeepMind