资讯列表
Meta 发布 AI 视频生成器 Movie Gen:可自动生成含声音的高清视频
Meta 公司今天宣布了一款新的 AI 视频生成器 Movie Gen,该工具能够生成带有声音的高清视频。几个月前,其竞争对手 OpenAI 也推出了其文本转视频模型 Sora。输入文本 Movie Gen 就能自动生成视频,还可以编辑现有的视频或静止图像。据《纽约时报》报道,添加到视频中的音频也是 AI 生成的,通过环境噪音、音效和背景音乐与视频相匹配,视频支持不同的纵横比。Meta 表示,Movie Gen 还可以利用图像作为基础素材来生成特定的视频内容,或更改现有视频中的元素。Movie Gen 还可以用于编
AI 赋能游戏开发:Valve 工程师借助 ChatGPT 改进《Deadlock》匹配算法
感谢Valve 工程师 Fletcher Dunn 昨日在社交媒体上分享了他使用 ChatGPT 改进《Deadlock》匹配算法的经历。他表示,ChatGPT 就像一个高级搜索引擎,能够帮助他找到所需的解决方案。Dunn 在《Deadlock》的测试阶段向 ChatGPT 提出了改进匹配算法的需求,ChatGPT 建议他使用匈牙利算法。Dunn 采纳了这个建议,并表示他对 ChatGPT 的强大功能感到惊讶。Dunn 认为,ChatGPT 的强大之处在于能够理解自然语言并提供相关信息。即使在专业领域如游戏开发,C
最强文生图 AI 模型 Flux 再进化:出图速度快 6 倍,Elo 评分冲上 1153 傲视群雄
科技媒体 The Decoder 昨日(10 月 3 日)发布博文,报道称 Black Forest Labs 最新推出了 Flux 1.1 Pro,并以 Beta 版的形式推出 BFL API。黑森林实验室(Black Forest Labs)是一家位于德国的初创公司,专注于开发最先进的生成性人工智能模型。Flux 简介Flux 在 AI 文生图领域有着“最强”称号,在多个方面有着卓越表现:生成质量:Flux 在图像生成的质量上表现出色,能够处理多种风格,包括二次元、人像、写实和风景等。用户反馈显示,其生成的图像
突发!Sora负责人Tim Brooks离职,还是被谷歌抢走的
最近这些天,OpenAI 很好地诠释了什么是福祸相依。一方面,该公司的高层动荡不停,重要成员纷纷离职;另一方面,它又成功赢得了投资者的青睐,在 1570 亿美元估值的基础上融了一笔 66 亿美元的巨款。今天的情况同样如此,OpenAI 刚刚发布 canvas 后不久,又痛失一员大将:Sora 团队负责人 Tim Brooks 跑了,还加入了竞争对手谷歌 DeepMind。消息公布后,DeepMind 联合创始人 Demis Hassabis 第一时间出来迎接,并称很期待与他一起「将久未实现的创造世界模拟器的梦想变成
刚刚,OpenAI重磅发布交互界面canvas,让ChatGPT成为写作和编程利器
OpenAI 刚刚融资,就迫不及待开始证明自己了。今日凌晨,OpenAI 宣布推出类似 Anthropic 的 Artifacts 的应用 canvas,并称「这是一种使用 ChatGPT 写作和编程的新方式」。在 Claude 中试过 Artifacts 的朋友都知道,这能极大提升 LLM 输出结果的表现力,其支持输出文本文件、代码、网页、SVG 等等。此前风靡一时的「汉语新解」便是基于 Claude 的 Artifacts 功能。但让 ChatGPT 用户感到遗憾的是,Artifacts 上线三个多月了,Ope
Noam Brown早已预示o1强大推理能力,演讲深度解析AI推理研究脉络
不久之前,OpenAI 发布了 o1 系列模型,其强大的推理能力让我们看见了 AI 发展的新可能。近日,OpenAI 著名研究科学家 Noam Brown 一份 5 月的演讲上线网络,或可揭示 o1 背后的研究发展脉络。在这个题为「关于 AI 规划力量的寓言:从扑克到外交」的演讲中, Brown 介绍了扑克、围棋和外交等游戏领域的研究突破,并尤其强调了搜索/规划算法在这些成就中的关键作用。之后,他也指出了搜索/规划研究在改进机器学习模型方面的潜在未来。Noam Brown,如果你还不熟悉这个名字:他是 OpenAI
5秒内快速生成、直出工业级PBR资产,三维扩散模型3DTopia-XL开源
AIxiv 专栏是AI在线发布学术、技术内容的栏目。过去数年,AI在线 AIxiv 专栏接收报道了 2000 多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]是否还在苦恼于开源图生 / 文生三维模型无法直接嵌入到 CG 工作流中?是否在寻找具备高质量几何与物理材质的三维生成大模型?最近,上海人工智能实验室(Shanghai AI La
Lumigator 评估框架登场:Mozilla 赋能开发者 AI 旅程,助其选择最佳模型
Mozilla 昨日(10 月 3 日)发布博文,推出了 Lumigator 新框架,主要帮助开发者为其项目挑选合适的 AI 大语言模型(LLM)。Mozilla 想要解决的问题Mozilla 公司在博文中表示,相比较 AI 大语言模型的繁荣,相关的评估工具尚未跟上发展的步伐,由于没有清晰的统一方法来比较模型,让开发者和企业难以做出明智的选择。Mozilla Lumigator 框架Mozilla 在博文中表示 Lumigator 主要有以下特点:透明和高效的模型选择:Lumigator 的目标是使模型选择过程变得
阿尔特曼畅想 AI 未来:“魔镜”变革交互、智能体实现速度跃迁、新硬件奏响时代凯歌
科技媒体 The Decoder 昨日(10 月 3 日)发布博文,报道称山姆・阿尔特曼(Sam Altman)在 OpenAI 的 DevDays 活动上,分享了他对人工智能(AI)互动未来的想法。AI在线附上完整演讲视频如下: 构想未来 AI 系统阿尔特曼在活动中描述了一种可以改变我们使用计算机和与世界互动方式的人工智能系统。在他勾勒的未来场景中,用户可以走到一块“镜子”前,说出想要的任何内容。先进的推理模型和代理将为每个请求实时创建自定义界面,用户可以通过对话或导航个性化的视频源进行互动。阿尔特曼表示:“这将
OpenAI 获得 40 亿美元周转信贷,公司流动资金破 100 亿美元
感谢CNBC 昨日(10 月 3 日)发布博文,报道称 OpenAI 公司在完成 66 亿美元新一轮融资之外,还获得 40 亿美元周转信贷,意味着该公司的流动资金超过 100 亿美元(AI在线备注:当前约 703.61 亿元人民币)。OpenAI 获得了 40 亿美元周转信贷,参与融资的金融机构包括摩根大通、花旗、高盛、摩根士丹利、桑坦德集团、富国银行、SMBC、瑞士银行和汇丰银行。报道称 OpenAI 的基础信用额度为 40 亿美元,且可选择额外增加 20 亿美元,该贷款为无担保贷款,可以在三年内使用。OpenA
OpenAI 推出全新写作、编码工具 ChatGPT Canvas,将免费开放
感谢OpenAI 今日宣布推出全新写作、编码工具 Canvas,这是一个与 ChatGPT 合作编写和编码项目的新界面,超越了简单的聊天。AI在线从官方介绍获悉,ChatGPT Canvas 可以更好地了解任务的上下文,用户可以突出显示特定部分,以准确表明希望 ChatGPT 关注的内容。用户也可以直接编辑文本或代码,要求 ChatGPT 调整写入长度、调试代码并快速执行其他操作,并且提供后退按钮来恢复作品的先前版本。写作功能包括:建议编辑:ChatGPT 提供建议和反馈。调整文章长度:将文档长度编辑为更短或更长。
谷歌 Lens 开启 AI 新篇章:视频、语音多维度拓展,搜索、购物、识曲探索多元未来
谷歌公司昨日(10 月 3 日)发布博文,宣布升级旗下的 Google Lens 服务,在现有拍照、图片搜索基础上,支持视频搜索和语音输入,解锁 AI 时代新的提问方式。Google Lens 简介Google Lens 是由谷歌开发的一种图像识别技术,旨在通过识别图像中的对象,提供相关信息。这项技术可以帮助用户更好地理解周围的世界,使用起来非常简单。晒成绩谷歌在博文中首先晒出了 Google Lens 取得的成绩,表示每月全球视觉搜索次数逼近 200 亿次,帮助人们通过相机或屏幕搜索他们所看到的内容。其中年轻用户
快手可灵 AI 新增“对口型”功能:生成人物口型与上传音频同步
感谢快手旗下可灵 AI 官方宣布,新增对口型功能,并面向所有用户开放 API 服务。在可灵 AI 生成人物视频后,上传音频,即可让视频人物口型和音频同步。可灵 1.0 及 1.5 模型生成的视频,只要满足视频画面的人脸条件,均支持对口型(目前仅支持人物类角色(真实 / 3D / 2D)进行对口型,动物类角色对口型暂不支持)。AI在线获悉,可灵 AI 正式面向所有用户开放 API 服务,支持在平台自助购买 API 资源包。官方表示,API 的效果与平台效果完全一致,1.5 模型和运动笔刷目前暂不支持 API,会尽快迭
英特尔新版 AI Playground 上线:酷睿 Ultra 200V 笔记本处理器专享主题,本地模型驾驭文生图等任务
英特尔公司于 10 月 1 日发布博文,宣布针对英特尔酷睿 Ultra 200V 系列“Lunar Lake”笔记本处理器,升级了 AI Playground 应用程序。英特尔 AI Playground 简介英特尔的 AI Playground 是一个开源应用程序,旨在为用户提供简单易用的人工智能功能,特别是针对使用英特尔 Arc 显卡的用户。官方介绍如下:AI Playground 可免费下载且易于使用,帮助您探索最新的 AI 创新。从只需几个单词即可创建迷人的图片或编辑照片,到数秒内编写复杂的研究论文,英特尔
奥特曼赢家通吃!OpenAI再揽66亿美元新融资,还不忘「狙击」一把老同事Ilya
OpenAI的估值在 9 个月内上涨了超过 700 亿美元。闹得满城风雨的 OpenAI 融资传闻终于尘埃落定。10 月 2 日,OpenAI 突然发布公告称,它融了一笔 66 亿美元的巨款,投后估值飙涨到 1570 亿美元,这意味着,其估值在 9 个月内翻了一番。到底是谁这么大手笔?综合各方消息来看,此轮融资由 OpenAI 老股东 Thrive Capital 领投,微软、英伟达、软银等参投。不过,OpenAI 此次融资仍是引发不小的争议。首先是它那不寻常的附加条件。OpenAI 要求投资者不能支持竞争对手的初
一张人脸照片,Meta眼镜识别全部个人信息,两位哈佛开发者:只为警醒世人
不知不觉中,智能眼镜也成为了隐私窥探器。在现代生活中,隐私一直是智能眼镜存在的主要问题之一。我们以谷歌智能眼镜项目为例,它失败的部分原因就在于人们对于在公共场所未经同意被拍摄表达了强烈反对。不过,随着视频博主、TikTok 等短视频应用的兴起,很多人似乎慢慢习惯了被拍摄。尤其是当智能眼镜与一幅普通眼镜的区别没有那么大时,你可能已经走进了别人的影像中。近日,两名哈佛学生 AnhPhu Nguyen 和 Caine Ardayfio 在推特上发布的一段视频火了。视频中,他们表示构建了一款能够识别出大街上任何人的眼镜,只
Windows 竞技场:面向下一代AI Agent的测试集
AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected] 和 ChatGPT 这样的 AI 助手已经成为了百万用户的日常工具, 它们可以帮我们完成各种任务:写代码开发程序、 回答问题、 甚至研究创新食谱。那么,随着大语言模型的发展
单目三维检测实时泛化,纯视觉自动驾驶鲁棒感知方法入选ECCV 2024
AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]论文第一作者林宏彬来自香港中文大学 (深圳) Deep Bit 实验室,导师为李镇老师。实验室专注于利用人工智能技术进行跨学科研究,例如自动驾驶的三维感知、医学成像和分子理解的多模态数据分