资讯列表

Meta又给OpenAI一记重击,视频生成Movie Gen震撼登场,甚至可以配音、编辑

视频生成领域真是越来越卷且越来越迈向实用性!在 OpenAI Sora 难产的时候,Meta 首次公开展示了自家的「用于媒体的突破性生成式 AI 研究」:Meta Movie Gen。Meta 在相应博客中使用了「premiere」一词,也就是初次展示,因此手痒的用户可能还得再等上一段时间。Meta 表示:「无论是希望在好莱坞大展身手的电影制作人,还是爱好为观众制作视频的创作者,我们相信每个人都应该有机会使用有助于提高创造力的工具。」根据 Meta 的描述,Movie Gen 的功能包括:文本生成视频和音频、编辑已

Claude AI 被曝正研发新功能,突破 20 万 tokens 文件处理上限

科技媒体 testingcatalog 今天(10 月 5 日)发布博文,报道称 Anthropic 公司扩展了 Claude 功能,支持用户处理上下文窗口超过 20 万 tokens 的文件。AI在线注,Claude 当前在处理用户上传、超出限制的文件后,会跳出以下错误,显示当前文件的字符数量超过了 Claude 能处理的上限。不过 Anthropic 正在研发新的功能,通过分块提取内容与其进行交互,从而支持用户上传超过处理上限的文件。图源:testingcatalog这项改进意味着 Claude 扩展了处理文件

号称击败Claude 3.5 Sonnet,媲美GPT-4o,开源多模态模型Molmo挑战Scaling law

Molmo,开源多模态模型正在发力!虽然大家一直在期待谷歌、OpenAI 等等拥有无限资金储备和顶尖人才的大厂做出新的 Sota 模型。不过,一家默默耕耘的创业公司 Ai2 发布了一款多模态人工智能模型 Molmo。在下面展示的视频中,我们可以看到 Molmo 就像钢铁侠的「贾维斯」一样万能。想卖自行车,咨询一下 Molmo 的建议,仅靠一张照片,Molmo 就能把自行车的颜色、品牌和二手售价搞清楚,并且帮你写出一句顺口的广告语。它也可以从虚拟世界帮你解决现实世界的问题,说一句:「Molmo,帮我买杯星巴克的南瓜拿

ECCV 2024 | 像ChatGPT一样,聊聊天就能实现三维场景编辑

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]论文《Chat Edit 3D: Interactive 3D Scene Editing via Text Prompts》的作者包括来自北京航空航天大学博士生方双康、北京航空航天大学副

氛围感拉满:微软新专利探索 Copilot AI 应用,匹配视频等生成音乐

科技媒体 Windows Report 昨日(10 月 4 日)发布博文,报道称微软公司获得了一项新的专利,构想 Copilot 在未来能辅助用户创建和视频、文本、PowerPoint 等匹配的音乐或者背景音乐。AI在线注:微软该专利名为《Artificial intelligence model for composing audio scores》,主要探讨了基于输入内容,来创建音乐的方法。该专利主要概述了以下步骤:收集数据:收集大量的训练数据,这些数据包括许多包含视频和音频组件的视听数据集。分析提取:分析数据

谷歌最便宜 AI 模型 Gemini 1.5 Flash 8B 将商用:腰斩击穿价 0.15 美元买百万 tokens 输出

科技媒体 NeoWin 昨日(10 月 4 日)发布博文,报道称谷歌公司即将商用 Gemini 1.5 Flash 8B 模型,成为谷歌公司最便宜的 AI 模型。AI在线曾于今年 8 月报道,谷歌公司推出 3 款 Gemini 实验性模型,其中 Gemini 1.5 Flash 8B 是 Gemini 1.5 Flash 的更小尺寸模型,拥有 80 亿参数,专为多模态任务而设计,包括大容量任务和长文本摘要任务。相比较原版 Gemini 1.5 Flash,Gemini 1.5 Flash 8B 延迟更低,特别适合聊

更简单、更清晰,解析核酸、蛋白、细胞等结构,AI实现快速分子模式挖掘

编辑 | 白菜叶低温电子断层扫描技术可以以纳米级分辨率对细胞三维结构进行常规可视化。当与单粒子断层扫描技术相结合时,可以获得原生环境中常见大分子的近原子分辨率结构。低温电子断层扫描/单粒子断层扫描(CET/SPT)面临的两个突出挑战是蛋白质的自动识别和定位,这两项任务受到细胞内分子拥挤、低温电子断层扫描断层图像特有的成像失真以及断层扫描数据集的庞大规模的阻碍。目前的方法存在准确度低、需要大量且耗时的手动标记或仅限于检测特定类型的蛋白质的问题。杜克大学(Duke University)的研究人员提出了 MiLoPYP

Science 发文,高通量蛋白质组学和人工智能的革命

编译 | 紫罗最近,研究人员能够从少量血液样本中测量数千种血浆蛋白,这为广泛的数据提供了新的维度,可以增进我们对人类健康的了解。例如,SomaLogic 公司已经开发出测量 10,000 多种蛋白质的方法,而赛默飞世尔的 Olink 检测方法可以从少至 2 μl 的样本中检测 5400 多种蛋白质。当这些丰富的数据与来自大型患者群体的其他信息层(例如英国生物库从 50 万名参与者那里获得的基因、健康和生活方式信息)相结合时,我们就会对疾病的根源、衰老过程以及预测个人健康轨迹的潜在能力产生新的见解。十多年来,科学家已

中国科大、科大讯飞团队开发ChemEval:化学大模型多层次多维度能力评估的新基准

编辑 | ScienceAI近日,认知智能全国重点实验室、中国科学技术大学陈恩红教授团队,科大讯飞研究院 AI for Science 团队发布了论文《ChemEval: A Comprehensive Multi-Level Chemical Evaluation for Large Language Models》,介绍了新研发的一个面向化学领域大模型能力的多层次多维度评估框架 ChemEval。论文链接: : (NLP)的领域中,大语言模型(LLMs)已经成为推动语言理解与生成能力不断进步的强大引擎。随着这些

Meta 发布 AI 视频生成器 Movie Gen:可自动生成含声音的高清视频

Meta 公司今天宣布了一款新的 AI 视频生成器 Movie Gen,该工具能够生成带有声音的高清视频。几个月前,其竞争对手 OpenAI 也推出了其文本转视频模型 Sora。输入文本 Movie Gen 就能自动生成视频,还可以编辑现有的视频或静止图像。据《纽约时报》报道,添加到视频中的音频也是 AI 生成的,通过环境噪音、音效和背景音乐与视频相匹配,视频支持不同的纵横比。Meta 表示,Movie Gen 还可以利用图像作为基础素材来生成特定的视频内容,或更改现有视频中的元素。Movie Gen 还可以用于编

AI 赋能游戏开发:Valve 工程师借助 ChatGPT 改进《Deadlock》匹配算法

感谢Valve 工程师 Fletcher Dunn 昨日在社交媒体上分享了他使用 ChatGPT 改进《Deadlock》匹配算法的经历。他表示,ChatGPT 就像一个高级搜索引擎,能够帮助他找到所需的解决方案。Dunn 在《Deadlock》的测试阶段向 ChatGPT 提出了改进匹配算法的需求,ChatGPT 建议他使用匈牙利算法。Dunn 采纳了这个建议,并表示他对 ChatGPT 的强大功能感到惊讶。Dunn 认为,ChatGPT 的强大之处在于能够理解自然语言并提供相关信息。即使在专业领域如游戏开发,C

最强文生图 AI 模型 Flux 再进化:出图速度快 6 倍,Elo 评分冲上 1153 傲视群雄

科技媒体 The Decoder 昨日(10 月 3 日)发布博文,报道称 Black Forest Labs 最新推出了 Flux 1.1 Pro,并以 Beta 版的形式推出 BFL API。黑森林实验室(Black Forest Labs)是一家位于德国的初创公司,专注于开发最先进的生成性人工智能模型。Flux 简介Flux 在 AI 文生图领域有着“最强”称号,在多个方面有着卓越表现:生成质量:Flux 在图像生成的质量上表现出色,能够处理多种风格,包括二次元、人像、写实和风景等。用户反馈显示,其生成的图像

突发!Sora负责人Tim Brooks离职,还是被谷歌抢走的

最近这些天,OpenAI 很好地诠释了什么是福祸相依。一方面,该公司的高层动荡不停,重要成员纷纷离职;另一方面,它又成功赢得了投资者的青睐,在 1570 亿美元估值的基础上融了一笔 66 亿美元的巨款。今天的情况同样如此,OpenAI 刚刚发布 canvas 后不久,又痛失一员大将:Sora 团队负责人 Tim Brooks 跑了,还加入了竞争对手谷歌 DeepMind。消息公布后,DeepMind 联合创始人 Demis Hassabis 第一时间出来迎接,并称很期待与他一起「将久未实现的创造世界模拟器的梦想变成

刚刚,OpenAI重磅发布交互界面canvas,让ChatGPT成为写作和编程利器

OpenAI 刚刚融资,就迫不及待开始证明自己了。今日凌晨,OpenAI 宣布推出类似 Anthropic 的 Artifacts 的应用 canvas,并称「这是一种使用 ChatGPT 写作和编程的新方式」。在 Claude 中试过 Artifacts 的朋友都知道,这能极大提升 LLM 输出结果的表现力,其支持输出文本文件、代码、网页、SVG 等等。此前风靡一时的「汉语新解」便是基于 Claude 的 Artifacts 功能。但让 ChatGPT 用户感到遗憾的是,Artifacts 上线三个多月了,Ope

Noam Brown早已预示o1强大推理能力,演讲深度解析AI推理研究脉络

不久之前,OpenAI 发布了 o1 系列模型,其强大的推理能力让我们看见了 AI 发展的新可能。近日,OpenAI 著名研究科学家 Noam Brown 一份 5 月的演讲上线网络,或可揭示 o1 背后的研究发展脉络。在这个题为「关于 AI 规划力量的寓言:从扑克到外交」的演讲中, Brown 介绍了扑克、围棋和外交等游戏领域的研究突破,并尤其强调了搜索/规划算法在这些成就中的关键作用。之后,他也指出了搜索/规划研究在改进机器学习模型方面的潜在未来。Noam Brown,如果你还不熟悉这个名字:他是 OpenAI

5秒内快速生成、直出工业级PBR资产,三维扩散模型3DTopia-XL开源

AIxiv 专栏是AI在线发布学术、技术内容的栏目。过去数年,AI在线 AIxiv 专栏接收报道了 2000 多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]是否还在苦恼于开源图生 / 文生三维模型无法直接嵌入到 CG 工作流中?是否在寻找具备高质量几何与物理材质的三维生成大模型?最近,上海人工智能实验室(Shanghai AI La

Lumigator 评估框架登场:Mozilla 赋能开发者 AI 旅程,助其选择最佳模型

Mozilla 昨日(10 月 3 日)发布博文,推出了 Lumigator 新框架,主要帮助开发者为其项目挑选合适的 AI 大语言模型(LLM)。Mozilla 想要解决的问题Mozilla 公司在博文中表示,相比较 AI 大语言模型的繁荣,相关的评估工具尚未跟上发展的步伐,由于没有清晰的统一方法来比较模型,让开发者和企业难以做出明智的选择。Mozilla Lumigator 框架Mozilla 在博文中表示 Lumigator 主要有以下特点:透明和高效的模型选择:Lumigator 的目标是使模型选择过程变得

阿尔特曼畅想 AI 未来:“魔镜”变革交互、智能体实现速度跃迁、新硬件奏响时代凯歌

科技媒体 The Decoder 昨日(10 月 3 日)发布博文,报道称山姆・阿尔特曼(Sam Altman)在 OpenAI 的 DevDays 活动上,分享了他对人工智能(AI)互动未来的想法。AI在线附上完整演讲视频如下: 构想未来 AI 系统阿尔特曼在活动中描述了一种可以改变我们使用计算机和与世界互动方式的人工智能系统。在他勾勒的未来场景中,用户可以走到一块“镜子”前,说出想要的任何内容。先进的推理模型和代理将为每个请求实时创建自定义界面,用户可以通过对话或导航个性化的视频源进行互动。阿尔特曼表示:“这将