AI资讯列表 - AI在线

攻陷短视频后，Sora将需要72万块H100 GPU

在被大规模采用后，Sora 的推理成本将很快超过训练成本。OpenAI 推出的 Sora 模型能够在各种场景下生成极其逼真的视频，吸引了全世界的目光。近日，投资机构 factorial funds 发表了一篇博文，深入探讨了 Sora 背后的一些技术细节，并对这些视频模型可能产生影响进行了探讨。最后，文中还讨论了对用于训练 Sora 等模型的算力的看法，并对训练计算与推理计算的算力比较进行了预测，这对估计未来 GPU 需求具有重要意义。机器之心对此文进行了整理。本报告的主要调查结果总结如下：Sora 是一个建立在扩

值得你花时间看的扩散模型教程，来自普渡大学

Diffusion 不仅可以更好地模仿，而且可以进行「创作」。扩散模型（Diffusion Model）是图像生成模型的一种。有别于此前 AI 领域大名鼎鼎的 GAN、VAE 等算法，扩散模型另辟蹊径，其主要思想是一种先对图像增加噪声，再逐步去噪的过程，其中如何去噪还原图像是算法的核心部分。而它的最终算法能够从一张随机的噪声图像中生成图像。近年来，生成式 AI 的惊人增长为文本到图像生成、视频生成领域等许多令人兴奋的应用提供了支持。这些生成工具背后的基本原理是扩散的概念，这是一种特殊的采样机制，克服了以前的方法中被

让智能体像孩子一样观察别人学习动作，跨视角技能学习数据集EgoExoLearn来了

在探索人工智能边界时，我们时常惊叹于人类孩童的学习能力 —— 可以轻易地将他人的动作映射到自己的视角，进而模仿并创新。当我们追求更高阶的人工智能的时候，无非是希望赋予机器这种与生俱来的天赋。由上海人工智能实验室，南京大学，中科院深圳先进技术研究院牵头，联合东京大学，复旦大学，浙江大学，中国科学技术大学等高校的学生和研究者，共同公布了跨视角技能学习数据集EgoExoLearn，为机器人赋予了通过观察他人学习新动作的能力。论文链接：：数据集独辟蹊径，采集了第一视角与第三视角的视频素材。第一视角视频捕捉了人们学习第三视

ChatGPT现在能帮你P图了，只需简单说几个字

现在，不论是网页、iOS 还是安卓版的 ChatGPT，都可以用上 DALL-E 3 强大的编辑图像功能了。OpenAI 的 DALL-E 今天进行了多项升级，在通往 Midjourney 加 Photoshop 的道路上又前进了一大步。现在，你可以在 ChatGPT 中使用 DALL-E 组件进行复杂的图像编辑。DALL-E 现在提供预设风格建议，以帮助激发图像创作灵感 —— 与很多新一代安卓旗舰手机 AI 生成壁纸的提示类似。在 AI 画图领域，Stable Diffusion，Midjourney 与 DAL

让AI进入物理世界，首届中国具身智能大会展望智能新纪元

前不久，图灵奖得主Yann Lecun在Lex Fridman的播客中讲道：机器人行业的兴起已经等待了 10、20 年，而这个行业的发展要寄希望于AI的进步。AI 发展可谓是瞬息万变。科技巨头们不是抢占时机，比谁先发布，就是猛攻质量，比性能优劣。2022 年还被称为 AIGC 元年，而 2024 年，就已经来到了具身智能元年。何为具身智能？先不谈定义，看看下面这些展示，你有属于自己的理解吗？具身智能其实是基于物理身体进行感知和行动的智能系统，其通过智能体与环境的交互获取信息、理解问题、做出决策并实现行动，从而产生智

马斯克造大模型，从特斯拉连挖高管

要不他们可能就跳槽到 OpenAI 了。当全球首富埃隆・马斯克（Elon Musk）建立 xAI，准备与 OpenAI、谷歌竞争大模型时，他必须与众多科技巨头、初创公司争夺人才。不过，他使用了一些取巧的办法：从自家的特斯拉挖来了几名优秀工程师。该初创公司的网站显示，上个月，机器学习科学家 Ethan Knight 成为第三位投身 xAI 的特斯拉工程师。据一位前员工透露，在特斯拉，Knight 负责监督特斯拉自动驾驶技术的计算机视觉团队。而在他之前，一些在特斯拉从事超级计算、自动驾驶系统和人工智能基础设施的工作的工

CVPR 2024满分论文，英伟达开源BOP排行榜6D物体姿态第一名方法

物体姿态估计对于各种应用至关重要，例如机器人操纵和混合现实。实例级方法通常需要纹理 CAD 模型来生成训练数据，并且不能应用于测试时未见过的新物体；而类别级方法消除了这些假设（实例训练和 CAD 模型），但获取类别级训练数据需要应用额外的姿态标准化和检查步骤。为了解决这些问题，来自英伟达的研究团队提出了一个统一的框架，称为 FoundationPose，它在基于模型和无模型设置下，使用 RGBD 图像对新颖物体进行姿态估计和跟踪。如下图所示，FoundationPose 优于现有专门针对这四项任务中每一项的 SOT

弱智吧：大模型变聪明，有我一份贡献

「被门夹过的核桃，还能补脑吗？」在中文网络上流传着这样一段话：弱智吧里没有弱智。百度「弱智吧」是个神奇的地方，在这里人人都说自己是弱智，但大多聪明得有点过了头。最近几年，弱智吧的年度总结文章都可以顺手喜提百度贴吧热度第一名。所谓总结，其实就是给当年吧里的弱智发言排个名。各种高质量的段子在这里传入传出，吸引了无数人的围观和转载，这个贴吧的关注量如今已接近 300 万。你网络上看到的最新流行词汇，说不定就是弱智吧老哥的杰作。随着十几年的发展，越来越多的弱智文学也有了奇怪的风格，有心灵鸡汤，有现代诗，甚至有一些出现了哲学

德科集团发布报告：41% 高管认为企业借助 AI 可精简员工规模

最新调查报告显示，人工智能固然无法完全取代现有工作岗位，但 41% 的高级管理人员认为，人工智能技术会导致员工人数减少。图源 intelligentliving全球知名人力资源公司德科集团（Adecco Group）就 AI 技术未来发展，以及对企业发展影响，询问了全球 2000 家大型公司的高级管理人员，这是同类调查中规模最大的一次。德科询问了来自美国、英国、法国、德国、日本、西班牙、加拿大、澳大利亚和新加坡的 2000 多家大型公司，涉及国防、制药、医疗保健、物流等行业。虽然大多数受访者表示人工智能将带来革命性

谷歌安卓版 Gmail 将迎新特性：整合 Gemini，帮用户总结邮件内容

消息源 @AssembleDebug 近日发布推文，挖掘安卓版 Gmail v2024.03.31.621006929 版本更新，发现谷歌正在测试“Summarize this email”功能，帮用户总结当前邮件内容。根据曝光的截图，Gmail 新版在邮件标题下方会出现“Summarize this email”按钮，只是现阶段该功能没有生效，但从名称判断可以确认是总结当前邮件内容。网友推测在点击该按钮之后，将在屏幕底部弹出一个窗口，以要点形式显示电子邮件的摘要。这与网页上的操作方式有些类似，只是网页版会跳出侧边

3 个月增长 300%，OpenAI 企业版 ChatGPT 用户规模突破 60 万

感谢OpenAI 首席运营官布拉德・莱特凯普（Brad Lightcap）本周四接受彭博商业周刊采访时表示，当前企业版 ChatGPT 注册用户数量超过 60 万。IT之家注：OpenAI 于 2023 年 8 月发布企业版 ChatGPT，不仅可以无限制地快速访问强大的 GPT-4 模型，还可以进行更深入的数据分析，帮助企业快速理解信息，并且可以向 ChatGPT 提出更复杂的问题。OpenAI 曾于 2024 年 1 月发布报告，表示企业版 ChatGPT 注册用户数量为 15 万，也就是说在过去短短 3 个月

YouTube CEO 点名 OpenAI：若利用其平台视频训练 AI 模型属违规行为

感谢YouTube 首席执行官尼尔・莫汉（Neal Mohan）近日在采访中公开表示，尽管没有直接证据表明 OpenAI 使用 YouTube 视频来训练 Sora（文本生成视频的 AI 模型），但警告称这种行为违反了 YouTube 现行的平台服务条款。莫汉在接受彭博社采访时强调，下载 YouTube 视频，然后用于训练 Sora 等 AI 模型显然违反了平台的相关条款。莫汉表示：“从创作者的角度来看，当创作者将他们的辛勤劳动上传到我们的平台时，他们有一定的期望。其中之一就是符合 YouTube 的服务条款，不允

应对隐私 / 版权问题，5 月起 Meta Threads / Instagram 等平台将标记“疑似由 AI 生成的内容”

感谢AI 兴起产生的各种隐私 / 版权问题如今已成为科技行业许多人越来越关注的重点，而 Meta 公司今日发布新闻稿，宣布将在 5 月起在自家 Instagram、Threads 及 Facebook 平台为 AI 内容添加“水印标记”。Meta 在新闻稿中声称，这些变化来自公司内部监督委员会的建议、公共调查的结果和“学术界、民间社会组织和其他方面”的建议。IT之家注意到，Meta 公司将使用算法及真人检测“可能由 AI 生成的内容“，而用户也可以自行在图片中注释”相关图片由 AI 生成”，此类消息将作为水印添加至

人形机器人也要服“软”

机器之能报道编辑：SIA用整个身体（而不是双手），携带、搬挪更多的东西。你能想象这些台上的明星人形机器人给你一个舒适、温暖的拥抱吗？或者模仿你怀抱一堆快递包裹进门的样子？受限于刚性材料，这些人形机器人的运动能力也受到极大限制。嗯.......它们做不到。这些钢铁战士的工作方式未能跳脱传统大型工业机器人的窠臼——用一双“手（末端执行器）”干活，虽然常见但也非常低效。有什么办法能让大家做事更高效呢？想想我们平时是如何创造性地动用全身部位，像杂技演员一样应对各种情况的吧。比如，怀抱一堆快递来到楼下，好不容易腾出一只手打开

目标 10 年培养 9500 万 AI 人才，思科牵头微软等 8 家公司组建新联盟

思科公司牵头，携手微软等 8 家企业共同组建了人工智能信息与通信技术劳动力联盟，计划未来 10 年内培养超过 9500 万的 AI 领域人才。该联盟全称为 The AI-Enabled ICT Workforce Consortium，由思科公司牵头，埃森哲、Eightfold、谷歌、IBM、Indeed、英特尔、微软和 SAP 八家公司共同组建而成。此外该联盟雇佣了包括美国劳工联合会和工业组织大会、CHAIN5、美国通信工人协会、DIGITALEUROPE、欧洲职业培训协会、Khan Academy 和 SMEU

OpenAI 新动态：改善微调 API，扩展定制模型计划

感谢OpenAI 公司近日发布新闻稿，宣布改善微调（fine-tuning）API，并进一步扩展定制模型计划。IT之家翻译新闻稿中关于微调 API 的相关改进内容如下基于 Epoch 的 Checkpoint Creation在每次训练 epoch（将训练数据集中的所有样本都过一遍（且仅过一遍）的训练过程）过程中，都自动生成一个完整的微调模型检查点，便于减少后续重新训练的需要，尤其是在过拟合（overfitting，指过于紧密或精确地匹配特定数据集，以至于无法良好地拟合其他数据或预测未来的观察结果的现象）的情况下。

OpenAI 展示 Sora AI 生成的首支音乐短片《Worldweight》

感谢OpenAI 近日在其 YouTube 官方频道发布视频，介绍了由 August Kamp 参与制作，完全由文本转视频 AI 模型 Sora 生成的首支音乐短片《Worldweight》。这支音乐短片（Music Video）完全由 Sora 生成，然后 Kamp 再拼接相关片段形成时长为 2 分 19 秒的音乐短片，宽高比为 8:3，展现了各种环境的模糊镜头。Kamp 并未透露《Worldweight》具体使用了哪些提示词，IT之家翻译该视频描述如下：身心融合，完全沉浸、徜徉在艺术世界中的那个时刻至今仍萦绕

弱智吧竟成最佳中文 AI 训练数据？中科院等：8 项测试第一，远超知乎豆瓣小红书

离大谱了，弱智吧登上正经 AI 论文，还成了最好的中文训练数据？？具体来说，使用弱智吧数据训练的大模型，跑分超过百科、知乎、豆瓣、小红书等平台，甚至是研究团队精心挑选的数据集。在问答、头脑风暴、分类、生成、总结、提取等 8 项测试中取得最高分。没错，论文中的 Ruozhiba 就是指百度贴吧弱智吧，一个充满荒谬、离奇、不合常理发言的中文社区，画风通常是这样的：最离谱的是，弱智吧 AI 代码能力也超过了使用专业技术问答社区思否数据训练的 AI，这下吧友自己都闹不明白了。其他平台围观网友也纷纷蚌埠住。这项研究来自中科院