应用
Pika推出音画同步新功能一天后,翻车视频来了
Pika 的音效新功能「Sound Effects」,有大大的惊喜,也有小小的「惊吓」。Sora 的出现让文生视频模型及应用火了起来。不过,此类模型生成的视频大多数都是无声的。因此,人们开始探索为 AI 生成的视频「配音」。这一领域的代表有 AI 语音克隆初创公司 ElevenLab,此前该公司为 Sora 的演示视频生成配音,音效与视频画面几乎没有违和感。现在,曾经引爆了 AI 圈的视频生成初创公司 Pika 终于有了新动作 —— 推出 Sound Effects,可以为 Pika 生成的视频无缝加音效了。Pik
零一万物自研全导航图向量数据库,横扫权威榜单6项第一
3 月 11 日,零一万物宣布推出基于全导航图的新型向量数据库 「笛卡尔(Descartes)」,其搜索内核已包揽权威榜单 ANN-Benchmarks 6 项数据集评测第一名。向量数据库,又被称为 AI 时代的信息检索技术,是检索增强生成(Retrieval-Augmented Generation, RAG)内核技术之一。对大模型应用开发者来说,向量数据库是非常重要的基础设施,在一定程度上影响着大模型的性能表现。在国际权威评测平台 ANN-Benchmarks 离线测试中,零一万物笛卡尔(Descartes)向
AI 结合汽车,蔚来宣布 NOMI GPT 领航版开启招募
蔚来汽车今日宣布,2024 NOMI 焕新,GPT 领航版正式开启招募。经历 132 次版本迭代更新、为用户带来了超 2000 项功能的 NOMI,即将进入体验升级新篇章。官方称登陆蔚来 App,关注用户领航团发布的最新招募信息。然而,IT之家暂未找到招募入口,评论区网友也表达了同样的疑惑,蔚来对此表示“别着急,刷一刷就上线了”。IT之家注意到,2024 款蔚来全系车型均将采用全新的中央计算平台 ADAM,搭载高通骁龙 8295 座舱芯片,座舱算力得到明显提升。其中,8295 芯片相较于 8155 芯片,CPU 算
DenseMamba:大模型的DenseNet时刻,Mamba和RetNet精度显著提升
近期,来自华为诺亚方舟实验室的研究者提出了 DenseSSM,用于增强 SSM 中各层间隐藏信息的流动。通过将浅层隐藏状态有选择地整合到深层中,DenseSSM 保留了对最终输出至关重要的精细信息。DenseSSM 在保持训练并行性和推理效率的同时,通过密集连接实现了性能提升。该方法可广泛应用于各种 SSM 类型,如 Mamba 和 RetNet。随着 ChatGPT 的突破性进展,大型语言模型(LLMs)迎来了一个崭新的里程碑。这些模型在语言理解、对话交互和逻辑推理方面展现了卓越的性能。过去一年,人们目睹了 LL
世界最大开源 AI 社区 Hugging Face 涉足开源机器人领域,前特斯拉科学家领衔
据外媒 VentureBeat 报道,AI 创企 Hugging Face 设立开源机器人项目,前特斯拉科学家 Remi Cadene 领衔。Remi Cadene 的 X 平台动态显示,这位前特斯拉人形机器人 Optimus 团队成员加入 Hugging Face 并启动了一个开源机器人项目,招募愿在巴黎建造“真正的机器人”的工程师。参考IT之家以往报道,Hugging Face 目前主营业务均为软件形态,包括开源 AI 模型库和 AI 助手 Hugging Chat Assistants。此次组建开源机器人团队
基于DiT,支持4K图像生成,华为诺亚0.6B文生图模型PixArt-Σ来了
这个模型和 Sora 一样采用了 DiT 框架。众所周知,开发顶级的文生图(T2I)模型需要大量资源,因此资源有限的个人研究者基本都不可能承担得起,这也成为了 AIGC(人工智能内容生成)社区创新的一大阻碍。同时随着时间的推移,AIGC 社区又能获得持续更新的、更高质量的数据集和更先进的算法。于是关键的问题来了:我们能以怎样的方式将这些新元素高效地整合进现有模型,依托有限的资源让模型变得更强大?为了探索这个问题,华为诺亚方舟实验室等研究机构的一个研究团队提出一种新的训练方法:由弱到强式训练(weak-to-stro
LeCun最新专访:为什么物理世界终将成为LLM的「死穴」?
在人工智能领域,很少有像 Yann LeCun 这样的学者,在 65 岁的年龄还能高度活跃于社交媒体。一直以来,Yann LeCun 都是以「直言不讳的批评者」形象活跃于人工智能领域。他始终支持开源,并带领 Meta 的团队推出了占据如今开源大模型领域半壁江山的 Llama 2;他对很多人深感恐慌的人工智能末日论不以为然,坚信 AGI 的到来一定是件好事……近日,LeCun 又一次来到 Lex Fridman 的播客,展开了一场接近三个小时的对谈,内容涉及开源的重要性、LLM 的局限性、为什么人工智能末日论者是错误
用AI短视频「反哺」长视频理解,腾讯MovieLLM框架瞄准电影级连续帧生成
在视频理解这一领域,尽管多模态模型在短视频分析上取得了突破性进展,展现出了较强的理解能力,但当它们面对电影级别的长视频时,却显得力不从心。因而,长视频的分析与理解,特别是对于长达数小时电影内容的理解,成为了当前的一个巨大挑战。究其原因,导致模型理解长视频困难的一个主要原因是缺乏高质量、多样化的长视频数据资源,而且收集和注释这些数据需要庞大的工作量。面对这样的难题, 腾讯和复旦大学的研究团队提出了 MovieLLM,一个创新性的 AI 生成框架。MovieLLM 采用了创新性的方法,不仅可以生成高质量、多样化的视频数
奥特曼重返OpenAI董事会:看完3万份文件,调查组认定了
过山车一样的剧情。特别独立调查委员会发现,在去年 OpenAI 管理层动荡时,首席执行官萨姆・奥特曼(Sam Altman)的行为「不构成强制解雇」,现在他重新加入董事会了。历时超过 110 天,OpenAI 的宫斗剧现在迎来了盖棺定论的时刻。没有通用人工智能危机,也和神秘的技术突破 Q* 无关,国际律师事务所 WilmerHale 在大量调查之后认定,这次动荡的原因在于董事会成员之间关系破裂。现在,奥特曼和 Greg Brockman 是「OpenAI 的正确领导者」。在发布消息与记者通话时,奥特曼坐在 Greg
教授何恺明在MIT的第一堂课
700 座的大教室,相比去年增加一倍容量,仍然座无虚席:这就是麻省理工学院(MIT)计算机视觉课《Advances in Computer Vision》6.8300 在 2024 新学期的盛况。今年是四位教授,每人负责一部分课程:课程信息:,能选上这课的学生太幸运了,每节都是计算机视觉顶会 CVPR Oral 的体验。对于很多人来说,其中最为期待的自然是新晋教授何恺明的课。MIT 电气工程与计算机科学系副教授何恺明(Kaiming He)在 3 月 7 日走上讲台上完成了自己「人生中教的第一堂课」。据参与现场的同
谷歌具身智能新研究:比RT-2优秀的RT-H来了
RT-H 在一系列机器人任务中的表现都优于 RT-2。随着 GPT-4 等大型语言模型与机器人研究的结合愈发紧密,人工智能正在越来越多地走向现实世界,因此具身智能相关的研究也正受到越来越多的关注。在众多研究项目中,谷歌的「RT」系列机器人始终走在前沿(参见《大模型正在重构机器人,谷歌 Deepmind 这样定义具身智能的未来》)。谷歌 DeepMind 去年 7 月推出的 RT-2:全球第一个控制机器人的视觉 - 语言 - 动作(VLA)模型。只需要像对话一样下达命令,它就能在一堆图片中辨认出霉霉,并送给她一罐可乐
扩散模型如何构建新一代决策智能体?超越自回归,同时生成长序列规划轨迹
设想一下,当你站在房间内,准备向门口走去,你是通过自回归的方式逐步规划路径吗?实际上,你的路径是一次性整体生成的。近期的研究表明,采用扩散模型的规划模块能够同时生成长序列的轨迹规划,这更加符合人类的决策模式。此外,扩散模型在策略表征和数据合成方面也能为现有的决策智能算法提供更优的选择。来自上海交通大学的团队撰写的综述论文《Diffusion Models for Reinforcement Learning: A Survey》梳理了扩散模型在强化学习相关领域的应用。综述指出现有强化学习算法面临长序列规划误差累积、
大模型在复杂推理任务上潜力如何?多智能体互动框架ThinkThrice玩转剧本杀
剧本杀是一种广受欢迎的多角色扮演侦探游戏,要求玩家扮演不同的角色。通过阅读角色文本、理解各自的故事、搜集线索、以及逻辑推理,玩家们共同努力揭开谜团。游戏角色通常被分为平民和凶手两大类:平民的目标是找出隐藏在他们中间的凶手,而凶手则尽力隐藏自己的身份,避免被发现。那么,如果让 AI 加入游戏,会产生怎样的新变化呢? 剧本杀游戏流程。加拿大蒙特利尔大学和 Mila 研究所的研究团队带来了一项令人兴奋的新研究,将 AI 的潜力引入到剧本杀游戏中。这项
OPPO 刘作虎内部讲话:AI 手机不是噱头,3 个月内友商必定都会跟进
3 月 11 日上午消息,新浪科技获悉,OPPO 高级副总裁、首席产品官,一加创始人刘作虎近日在一加内部会中回应了行业热议的 AI 手机话题。他表示,AI 手机不是噱头,而是行业大势所趋,3 个月内友商必定都会跟进。新浪科技独家获悉的内部会视频显示,在讲话开始,刘作虎首先总结了一加的业绩情况。刘作虎透露,一加在 2023 和 2024 开年都取得了领先行业的增速,其中 2024 年开年实现了同比去年 40% 的增长。2022 年,在一加 9 周年时,OPPO 正式宣布开启双品牌时代,OPPO 线上就是一加。同时,O
基于生成式 AI 技术,汤姆猫正在研发一款语音交互陪伴机器人
感谢汤姆猫公司日前公布了新一期的“投资者关系活动记录表”,披露了公司在 AI 领域的布局。据介绍,汤姆猫公司国内研发团队与西湖心辰合作的汤姆猫 AI 讲故事等产品,已初步完成主要功能的测试,公司海外团队研发的首款 AI 手游《Talking BenAI》已在斯洛文尼亚、塞浦路斯、南非等地区开启首轮海外测试。此外,公司 AI 硬件团队正研发一款基于生成式人工智能技术的 AI 语音交互陪伴机器人,预计将为公司业务带来全新增长空间。汤姆猫透露,此前一款全新适配 MR / VR 硬件的产品原型已经在苹果 Vision
Pr
百度实战案例!百科AI对话式体验设计完整复盘
导语
近年来 AI 发展如火如荼,大模型诞生与技术的积累和不断创新,带来了人机交互方式的革新。各大厂也纷纷结合自身业务场景进行模型和应用的开发,AI 正以惊人的速度改变着我们的生活和工作方式。面对生成式 AI 的行业浪潮,百度百科产研团队也在探索如何结合大模型能力,发挥百科在泛知识领域的优势,延展百科场景 AI 特色体验,强化内容浏览的体验感及效率性,契合用户对百科的期望,带给用户更极致的知识消费体验。一、认知建立——0到1建设消费新场景
我们初步要做的是利用生成式 AI 的能力来解决词条冗长内容阅读的问题。在此基
OpenAI 视频生成服务 Sora 引发隐私担忧,意大利数据监管机构展开调查
感谢意大利数据保护机构 (Garante) 周五宣布,已对微软支持的 OpenAI 公司开发的一项服务展开调查,这个名为 Sora 的服务可以根据文本提示生成视频。监管机构要求 OpenAI 澄清其向用户和非用户告知其产品 Sora 使用的数据的方式是否符合欧盟法规。OpenAI 公司暂未对此事发表评论。意大利数据监管机构是欧盟国家中最为积极的监管机构之一,一直致力于评估人工智能平台是否符合欧盟的数据隐私法规。IT之家注意到,去年该机构就以涉嫌违规使用用户数据为由,禁止了聊天机器人 ChatGPT 在意大利的使用。
调查:AMD AI 芯片 Instinct MI300X 吸引大量用户弃用英伟达
根据最近的一项调查,大量人工智能专业人士正计划从英伟达转向采用 AMD Instinct MI300X GPU。TensorWave 联合创始人 Jeff Tatarchuk 透露,他们进行了一项独立调查,涵盖 82 名工程师和人工智能专业人士。其中,约有 50% 的受访者表示他们对 AMD Instinct MI300X GPU 充满信心,因为相比于英伟达的 H100 系列产品,MI300X 不仅拥有更出色的性价比,而且供应充足,避免了遇到货源紧张的问题。Jeff 还提到,TensorWave 公司也将采用 MI