资讯列表
攻陷短视频后,Sora将需要72万块H100 GPU
在被大规模采用后,Sora 的推理成本将很快超过训练成本。OpenAI 推出的 Sora 模型能够在各种场景下生成极其逼真的视频,吸引了全世界的目光。近日,投资机构 factorial funds 发表了一篇博文,深入探讨了 Sora 背后的一些技术细节,并对这些视频模型可能产生影响进行了探讨。最后,文中还讨论了对用于训练 Sora 等模型的算力的看法,并对训练计算与推理计算的算力比较进行了预测,这对估计未来 GPU 需求具有重要意义。机器之心对此文进行了整理。本报告的主要调查结果总结如下:Sora 是一个建立在扩
值得你花时间看的扩散模型教程,来自普渡大学
Diffusion 不仅可以更好地模仿,而且可以进行「创作」。扩散模型(Diffusion Model)是图像生成模型的一种。有别于此前 AI 领域大名鼎鼎的 GAN、VAE 等算法,扩散模型另辟蹊径,其主要思想是一种先对图像增加噪声,再逐步去噪的过程,其中如何去噪还原图像是算法的核心部分。而它的最终算法能够从一张随机的噪声图像中生成图像。近年来,生成式 AI 的惊人增长为文本到图像生成、视频生成领域等许多令人兴奋的应用提供了支持。这些生成工具背后的基本原理是扩散的概念,这是一种特殊的采样机制,克服了以前的方法中被
让智能体像孩子一样观察别人学习动作,跨视角技能学习数据集EgoExoLearn来了
在探索人工智能边界时,我们时常惊叹于人类孩童的学习能力 —— 可以轻易地将他人的动作映射到自己的视角,进而模仿并创新。当我们追求更高阶的人工智能的时候,无非是希望赋予机器这种与生俱来的天赋。由上海人工智能实验室,南京大学,中科院深圳先进技术研究院牵头,联合东京大学,复旦大学,浙江大学,中国科学技术大学等高校的学生和研究者,共同公布了跨视角技能学习数据集EgoExoLearn,为机器人赋予了通过观察他人学习新动作的能力。论文链接:: 数据集独辟蹊径,采集了第一视角与第三视角的视频素材。第一视角视频捕捉了人们学习第三视
ChatGPT现在能帮你P图了,只需简单说几个字
现在,不论是网页、iOS 还是安卓版的 ChatGPT,都可以用上 DALL-E 3 强大的编辑图像功能了。OpenAI 的 DALL-E 今天进行了多项升级,在通往 Midjourney 加 Photoshop 的道路上又前进了一大步。现在,你可以在 ChatGPT 中使用 DALL-E 组件进行复杂的图像编辑。DALL-E 现在提供预设风格建议,以帮助激发图像创作灵感 —— 与很多新一代安卓旗舰手机 AI 生成壁纸的提示类似。在 AI 画图领域,Stable Diffusion,Midjourney 与 DAL
让AI进入物理世界,首届中国具身智能大会展望智能新纪元
前不久,图灵奖得主Yann Lecun在Lex Fridman的播客中讲道:机器人行业的兴起已经等待了 10、20 年,而这个行业的发展要寄希望于AI的进步。AI 发展可谓是瞬息万变。科技巨头们不是抢占时机,比谁先发布,就是猛攻质量,比性能优劣。2022 年还被称为 AIGC 元年,而 2024 年,就已经来到了具身智能元年。何为具身智能?先不谈定义,看看下面这些展示,你有属于自己的理解吗?具身智能其实是基于物理身体进行感知和行动的智能系统,其通过智能体与环境的交互获取信息、理解问题、做出决策并实现行动,从而产生智
马斯克造大模型,从特斯拉连挖高管
要不他们可能就跳槽到 OpenAI 了。当全球首富埃隆・马斯克(Elon Musk)建立 xAI,准备与 OpenAI、谷歌竞争大模型时,他必须与众多科技巨头、初创公司争夺人才。不过,他使用了一些取巧的办法:从自家的特斯拉挖来了几名优秀工程师。该初创公司的网站显示,上个月,机器学习科学家 Ethan Knight 成为第三位投身 xAI 的特斯拉工程师。据一位前员工透露,在特斯拉,Knight 负责监督特斯拉自动驾驶技术的计算机视觉团队。而在他之前,一些在特斯拉从事超级计算、自动驾驶系统和人工智能基础设施的工作的工
CVPR 2024满分论文,英伟达开源BOP排行榜6D物体姿态第一名方法
物体姿态估计对于各种应用至关重要,例如机器人操纵和混合现实。实例级方法通常需要纹理 CAD 模型来生成训练数据,并且不能应用于测试时未见过的新物体;而类别级方法消除了这些假设(实例训练和 CAD 模型),但获取类别级训练数据需要应用额外的姿态标准化和检查步骤。为了解决这些问题,来自英伟达的研究团队提出了一个统一的框架,称为 FoundationPose,它在基于模型和无模型设置下,使用 RGBD 图像对新颖物体进行姿态估计和跟踪。如下图所示,FoundationPose 优于现有专门针对这四项任务中每一项的 SOT
弱智吧:大模型变聪明,有我一份贡献
「被门夹过的核桃,还能补脑吗?」在中文网络上流传着这样一段话:弱智吧里没有弱智。百度「弱智吧」是个神奇的地方,在这里人人都说自己是弱智,但大多聪明得有点过了头。最近几年,弱智吧的年度总结文章都可以顺手喜提百度贴吧热度第一名。所谓总结,其实就是给当年吧里的弱智发言排个名。各种高质量的段子在这里传入传出,吸引了无数人的围观和转载,这个贴吧的关注量如今已接近 300 万。你网络上看到的最新流行词汇,说不定就是弱智吧老哥的杰作。随着十几年的发展,越来越多的弱智文学也有了奇怪的风格,有心灵鸡汤,有现代诗,甚至有一些出现了哲学
德科集团发布报告:41% 高管认为企业借助 AI 可精简员工规模
最新调查报告显示,人工智能固然无法完全取代现有工作岗位,但 41% 的高级管理人员认为,人工智能技术会导致员工人数减少。图源 intelligentliving全球知名人力资源公司德科集团(Adecco Group)就 AI 技术未来发展,以及对企业发展影响,询问了全球 2000 家大型公司的高级管理人员,这是同类调查中规模最大的一次。德科询问了来自美国、英国、法国、德国、日本、西班牙、加拿大、澳大利亚和新加坡的 2000 多家大型公司,涉及国防、制药、医疗保健、物流等行业。虽然大多数受访者表示人工智能将带来革命性
谷歌安卓版 Gmail 将迎新特性:整合 Gemini,帮用户总结邮件内容
消息源 @AssembleDebug 近日发布推文,挖掘安卓版 Gmail v2024.03.31.621006929 版本更新,发现谷歌正在测试“Summarize this email”功能,帮用户总结当前邮件内容。根据曝光的截图,Gmail 新版在邮件标题下方会出现“Summarize this email”按钮,只是现阶段该功能没有生效,但从名称判断可以确认是总结当前邮件内容。网友推测在点击该按钮之后,将在屏幕底部弹出一个窗口,以要点形式显示电子邮件的摘要。这与网页上的操作方式有些类似,只是网页版会跳出侧边
3 个月增长 300%,OpenAI 企业版 ChatGPT 用户规模突破 60 万
感谢OpenAI 首席运营官布拉德・莱特凯普(Brad Lightcap)本周四接受彭博商业周刊采访时表示,当前企业版 ChatGPT 注册用户数量超过 60 万。IT之家注:OpenAI 于 2023 年 8 月发布企业版 ChatGPT,不仅可以无限制地快速访问强大的 GPT-4 模型,还可以进行更深入的数据分析,帮助企业快速理解信息,并且可以向 ChatGPT 提出更复杂的问题。OpenAI 曾于 2024 年 1 月发布报告,表示企业版 ChatGPT 注册用户数量为 15 万,也就是说在过去短短 3 个月
YouTube CEO 点名 OpenAI:若利用其平台视频训练 AI 模型属违规行为
感谢YouTube 首席执行官尼尔・莫汉(Neal Mohan)近日在采访中公开表示,尽管没有直接证据表明 OpenAI 使用 YouTube 视频来训练 Sora(文本生成视频的 AI 模型),但警告称这种行为违反了 YouTube 现行的平台服务条款。莫汉在接受彭博社采访时强调,下载 YouTube 视频,然后用于训练 Sora 等 AI 模型显然违反了平台的相关条款。莫汉表示:“从创作者的角度来看,当创作者将他们的辛勤劳动上传到我们的平台时,他们有一定的期望。其中之一就是符合 YouTube 的服务条款,不允
应对隐私 / 版权问题,5 月起 Meta Threads / Instagram 等平台将标记“疑似由 AI 生成的内容”
感谢AI 兴起产生的各种隐私 / 版权问题如今已成为科技行业许多人越来越关注的重点,而 Meta 公司今日发布新闻稿,宣布将在 5 月起在自家 Instagram、Threads 及 Facebook 平台为 AI 内容添加“水印标记”。Meta 在新闻稿中声称,这些变化来自公司内部监督委员会的建议、公共调查的结果和“学术界、民间社会组织和其他方面”的建议。IT之家注意到,Meta 公司将使用算法及真人检测“可能由 AI 生成的内容“,而用户也可以自行在图片中注释”相关图片由 AI 生成”,此类消息将作为水印添加至
人形机器人也要服“软”
机器之能报道编辑:SIA用整个身体(而不是双手),携带、搬挪更多的东西。你能想象这些台上的明星人形机器人给你一个舒适、温暖的拥抱吗?或者模仿你怀抱一堆快递包裹进门的样子?受限于刚性材料,这些人形机器人的运动能力也受到极大限制。嗯.......它们做不到。这些钢铁战士的工作方式未能跳脱传统大型工业机器人的窠臼——用一双“手(末端执行器)”干活,虽然常见但也非常低效。有什么办法能让大家做事更高效呢?想想我们平时是如何创造性地动用全身部位,像杂技演员一样应对各种情况的吧。比如,怀抱一堆快递来到楼下,好不容易腾出一只手打开
目标 10 年培养 9500 万 AI 人才,思科牵头微软等 8 家公司组建新联盟
思科公司牵头,携手微软等 8 家企业共同组建了人工智能信息与通信技术劳动力联盟,计划未来 10 年内培养超过 9500 万的 AI 领域人才。该联盟全称为 The AI-Enabled ICT Workforce Consortium,由思科公司牵头,埃森哲、Eightfold、谷歌、IBM、Indeed、英特尔、微软和 SAP 八家公司共同组建而成。此外该联盟雇佣了包括美国劳工联合会和工业组织大会、CHAIN5、美国通信工人协会、DIGITALEUROPE、欧洲职业培训协会、Khan Academy 和 SMEU
OpenAI 新动态:改善微调 API,扩展定制模型计划
感谢OpenAI 公司近日发布新闻稿,宣布改善微调(fine-tuning)API,并进一步扩展定制模型计划。IT之家翻译新闻稿中关于微调 API 的相关改进内容如下基于 Epoch 的 Checkpoint Creation在每次训练 epoch(将训练数据集中的所有样本都过一遍(且仅过一遍)的训练过程)过程中,都自动生成一个完整的微调模型检查点,便于减少后续重新训练的需要,尤其是在过拟合(overfitting,指过于紧密或精确地匹配特定数据集,以至于无法良好地拟合其他数据或预测未来的观察结果的现象)的情况下。
OpenAI 展示 Sora AI 生成的首支音乐短片《Worldweight》
感谢OpenAI 近日在其 YouTube 官方频道发布视频,介绍了由 August Kamp 参与制作,完全由文本转视频 AI 模型 Sora 生成的首支音乐短片《Worldweight》。 这支音乐短片(Music Video)完全由 Sora 生成,然后 Kamp 再拼接相关片段形成时长为 2 分 19 秒的音乐短片,宽高比为 8:3,展现了各种环境的模糊镜头。Kamp 并未透露《Worldweight》具体使用了哪些提示词,IT之家翻译该视频描述如下:身心融合,完全沉浸、徜徉在艺术世界中的那个时刻至今仍萦绕
弱智吧竟成最佳中文 AI 训练数据?中科院等:8 项测试第一,远超知乎豆瓣小红书
离大谱了,弱智吧登上正经 AI 论文,还成了最好的中文训练数据??具体来说,使用弱智吧数据训练的大模型,跑分超过百科、知乎、豆瓣、小红书等平台,甚至是研究团队精心挑选的数据集。在问答、头脑风暴、分类、生成、总结、提取等 8 项测试中取得最高分。没错,论文中的 Ruozhiba 就是指百度贴吧弱智吧,一个充满荒谬、离奇、不合常理发言的中文社区,画风通常是这样的:最离谱的是,弱智吧 AI 代码能力也超过了使用专业技术问答社区思否数据训练的 AI,这下吧友自己都闹不明白了。其他平台围观网友也纷纷蚌埠住。这项研究来自中科院