AI资讯列表 - AI在线

消息称马斯克的 XAI 人工智能公司寻求 30 亿美元融资，估值达 180 亿美元

感谢据华尔街日报援引知情人士消息，埃隆・马斯克 (Elon Musk) 旗下的人工智能创业公司 xAI 正与投资者洽谈融资事宜。此次融资规模达到 30 亿美元（IT之家备注：当前约 217.2 亿元人民币），这将使 XAI 的估值达到 180 亿美元（当前约 1303.2 亿元人民币）。报道称，考虑参与 xAI 融资的投资方包括风投公司 Gigafund 和投资人 Steve Jurvetson。Gigafund 由曾联合创办 PayPal 的 Stephen Oskoui 和 Luke Nosek 于 2017

报告称 OpenAI 采集了超一百万小时的 YouTube 视频来训练 GPT-4

本周早些时候，《华尔街日报》报道称 AI 公司在收集高质量训练数据方面遇到了困难。今天，《纽约时报》详细介绍了 AI 公司处理此问题的一些方法，其中涉及到属于 AI 版权法模糊灰色区域的内容。报道称，OpenAI 迫切需要训练数据，并开发了 Whisper 音频转录模型来克服困难，转录了超过 100 万小时的 YouTube 视频来训练其最先进的大型语言模型 GPT-4。报道提到，OpenAI 在 2021 年耗尽了有用的数据供应，并在耗尽其他资源后讨论了转录 YouTube 视频、播客和有声读物的可行性。此外，O

DomoAI 6大新功能详解！可自动扣除背景，支持人物一键跳舞

大家好，这里是和你们一起探索 AI 的花生~ 之前为大家介绍了一款 AI 视频工具 DomoAI，它能一键将真人视频转为多种不同的风格，比如动漫、3D 卡通、像素、中式水墨等。过去一段时间内，DomoAI 又连续推出了很多新功能，不仅风格更多样、转绘质量进一步提升，还新增了和 Viggle 一样的角色动态功能，今天我们就一起来看一下这些新功能的用法~ 相关推荐：一、DomoAI 新网站官方网站： DomoAI 用法详解：视频一键转风格！详解 AI 视频神器 DomoAI 用法 DomoAI 虽然目前依旧将视频生

拒绝白人与亚洲人同框，Meta图像生成器的「歧视」，被人挖出来了

AI 生成工具的偏见何时休？在人工智能构筑的世界中，AI 有时会像人一样存在着某种偏见或倾向性。比如对于大语言模型而言，由于训练数据的影响会不可避免地存在性别偏见、种族刻板印象，等等。当然，这种偏见或倾向性在图像生成工具中同样存在。今年 2 月，谷歌 Gemini 被曝出拒绝在图像中描绘白人，生成大量违背基本事实（性别、种族、宗教等）的图片。马斯克也被系统过分矫正了。近日，外媒 The Verge 的一篇文章指出，Meta 的 AI 图像生成器无法准确生

苹果终止电车项目后大裁员，押注家用机器人，这会是Next Big Thing吗？

新的出路，苹果能让我们耳目一新吗？苹果公司压力山大，何以见得？苹果公司的电动汽车项目在今年二月份取消了，他们还决定放弃为 Apple Watch 自主生产下一代屏幕的尝试。这两个项目都因成本超支和上市延迟而受阻。此外，混合现实眼镜还需要多年时间才能成为苹果主要的盈利点。在这样的情况下，苹果面临着巨大的收入压力。图源：彭博社电动汽车项目的一些剩余员工将被转移到苹果公司的生成式 AI 项目。其他人将有 90 天时间在公司内部找到其他角色的重新分配，否则就

Up主已经开始鬼畜，腾讯开源「AniPortrait」让照片唱歌说话

AniPortrait 模型是开源的，可以自由畅玩。「小破站鬼畜区的新质生产力工具。」近日，腾讯开源发布的一个新项目在推上获得了如此评价。这个项目是 AniPortrait，其可基于音频和一张参考图像生成高质量动画人像。话不说多，我们先看看可能会被律师函警告的 demo：动漫图像也能轻松开口说话：该项目刚上线几天，就已经收获了广泛好评：GitHub Star 数已经突破 2800。下面我们来看看 AniPortrait 的创新之处。论文标题：AniPortrait: Audio-Driven Synthesis o

ICLR 2024 | 联邦学习后门攻击的模型关键层

联邦学习使多个参与方可以在数据隐私得到保护的情况下训练机器学习模型。但是由于服务器无法监控参与者在本地进行的训练过程，参与者可以篡改本地训练模型，从而对联邦学习的全局模型构成安全序隐患，如后门攻击。本文重点关注如何在有防御保护的训练框架下，对联邦学习发起后门攻击。本文发现后门攻击的植入与部分神经网络层的相关性更高，并将这些层称为后门攻击关键层。基于后门关键层的发现，本文提出通过攻击后门关键层绕过防御算法检测，从而可以控制少量的参与者进行高效的后门攻击。论文题目：Backdoor Federated Learning

李飞飞主讲，斯坦福2024 CS231n开课，依旧座无虚席

「这是自 Karpathy 和我 2015 年启动这门课程以来的第 9 个年头，这是人工智能和计算机视觉令人难以置信的十年！」知名 AI 科学家李飞飞的计算机视觉「神课」CS231n，又一次开课了。总共 600 多位学生报名，第一堂课的现场座无虚席：从 2015 年到如今，CS231n 已经走到九个年头，也成为了一代计算机视觉专业学生心中的「必修课」：虽然课程代码不变，但可以猜到，2024 年的课程相比 2021 年版本的课程有不少新增内容，这还要归因于视觉生成技术三年来的巨大飞跃。在今年初的国际消费类电子产品展览

如何用AIGC加速设计？来看京东3C数码年货节设计复盘（上）

3CDesign 设计团队服务于京东零售 3C 数码范围内的设计项目。重点关注京东 6.18、京东 11.11、京东电器营销品类相关全案项目设计、通讯、电脑数码、配件业务、京东电竞等。团队会针对用户体验、营销、交互、品牌、研究、前端代码设计等层面服务 3C 数码事业群。从创意到商业化价值的转化，再从数据理性分析并驱动，最终形成商业设计赋能于业务帮助业务增长。同时团队是个关注设计商业化、设计价值领域的所有项目的创新设计。一、项目背景 1. 背景介绍 2024 京东 3C 数码年货节项目，旨在通过富有创意的场景化布局为

AI无人商店背后，是上千个印度人通过摄像头看美国人买西蓝花？

AI无人商店，背后疑似是1000印度人看摄像头：大厂的「拿货即走」没有走通？人们常说，有多少智能，就有多少人工。但是，亚马逊的这个项目，人工含量似乎有点高。这个项目名叫「Just Walk Out」。就像它的名字所暗示的，你可以走进亚马逊的无人购物商店里，选好东西，然后直接走出去，无需排队等待结账。因为，通过与计算机视觉和深度学习算法相结合，Just Walk Out 技术能够准确识别你拿取的商品，并完成结算，整个过程非常省心，听起来也很智能。但是，事实可能并非如此。据外媒 The Information 报道，「

攻陷短视频后，Sora将需要72万块H100 GPU

在被大规模采用后，Sora 的推理成本将很快超过训练成本。OpenAI 推出的 Sora 模型能够在各种场景下生成极其逼真的视频，吸引了全世界的目光。近日，投资机构 factorial funds 发表了一篇博文，深入探讨了 Sora 背后的一些技术细节，并对这些视频模型可能产生影响进行了探讨。最后，文中还讨论了对用于训练 Sora 等模型的算力的看法，并对训练计算与推理计算的算力比较进行了预测，这对估计未来 GPU 需求具有重要意义。机器之心对此文进行了整理。本报告的主要调查结果总结如下：Sora 是一个建立在扩

值得你花时间看的扩散模型教程，来自普渡大学

Diffusion 不仅可以更好地模仿，而且可以进行「创作」。扩散模型（Diffusion Model）是图像生成模型的一种。有别于此前 AI 领域大名鼎鼎的 GAN、VAE 等算法，扩散模型另辟蹊径，其主要思想是一种先对图像增加噪声，再逐步去噪的过程，其中如何去噪还原图像是算法的核心部分。而它的最终算法能够从一张随机的噪声图像中生成图像。近年来，生成式 AI 的惊人增长为文本到图像生成、视频生成领域等许多令人兴奋的应用提供了支持。这些生成工具背后的基本原理是扩散的概念，这是一种特殊的采样机制，克服了以前的方法中被

让智能体像孩子一样观察别人学习动作，跨视角技能学习数据集EgoExoLearn来了

在探索人工智能边界时，我们时常惊叹于人类孩童的学习能力 —— 可以轻易地将他人的动作映射到自己的视角，进而模仿并创新。当我们追求更高阶的人工智能的时候，无非是希望赋予机器这种与生俱来的天赋。由上海人工智能实验室，南京大学，中科院深圳先进技术研究院牵头，联合东京大学，复旦大学，浙江大学，中国科学技术大学等高校的学生和研究者，共同公布了跨视角技能学习数据集EgoExoLearn，为机器人赋予了通过观察他人学习新动作的能力。论文链接：：数据集独辟蹊径，采集了第一视角与第三视角的视频素材。第一视角视频捕捉了人们学习第三视

ChatGPT现在能帮你P图了，只需简单说几个字

现在，不论是网页、iOS 还是安卓版的 ChatGPT，都可以用上 DALL-E 3 强大的编辑图像功能了。OpenAI 的 DALL-E 今天进行了多项升级，在通往 Midjourney 加 Photoshop 的道路上又前进了一大步。现在，你可以在 ChatGPT 中使用 DALL-E 组件进行复杂的图像编辑。DALL-E 现在提供预设风格建议，以帮助激发图像创作灵感 —— 与很多新一代安卓旗舰手机 AI 生成壁纸的提示类似。在 AI 画图领域，Stable Diffusion，Midjourney 与 DAL

让AI进入物理世界，首届中国具身智能大会展望智能新纪元

前不久，图灵奖得主Yann Lecun在Lex Fridman的播客中讲道：机器人行业的兴起已经等待了 10、20 年，而这个行业的发展要寄希望于AI的进步。AI 发展可谓是瞬息万变。科技巨头们不是抢占时机，比谁先发布，就是猛攻质量，比性能优劣。2022 年还被称为 AIGC 元年，而 2024 年，就已经来到了具身智能元年。何为具身智能？先不谈定义，看看下面这些展示，你有属于自己的理解吗？具身智能其实是基于物理身体进行感知和行动的智能系统，其通过智能体与环境的交互获取信息、理解问题、做出决策并实现行动，从而产生智

马斯克造大模型，从特斯拉连挖高管

要不他们可能就跳槽到 OpenAI 了。当全球首富埃隆・马斯克（Elon Musk）建立 xAI，准备与 OpenAI、谷歌竞争大模型时，他必须与众多科技巨头、初创公司争夺人才。不过，他使用了一些取巧的办法：从自家的特斯拉挖来了几名优秀工程师。该初创公司的网站显示，上个月，机器学习科学家 Ethan Knight 成为第三位投身 xAI 的特斯拉工程师。据一位前员工透露，在特斯拉，Knight 负责监督特斯拉自动驾驶技术的计算机视觉团队。而在他之前，一些在特斯拉从事超级计算、自动驾驶系统和人工智能基础设施的工作的工

CVPR 2024满分论文，英伟达开源BOP排行榜6D物体姿态第一名方法

物体姿态估计对于各种应用至关重要，例如机器人操纵和混合现实。实例级方法通常需要纹理 CAD 模型来生成训练数据，并且不能应用于测试时未见过的新物体；而类别级方法消除了这些假设（实例训练和 CAD 模型），但获取类别级训练数据需要应用额外的姿态标准化和检查步骤。为了解决这些问题，来自英伟达的研究团队提出了一个统一的框架，称为 FoundationPose，它在基于模型和无模型设置下，使用 RGBD 图像对新颖物体进行姿态估计和跟踪。如下图所示，FoundationPose 优于现有专门针对这四项任务中每一项的 SOT

弱智吧：大模型变聪明，有我一份贡献

「被门夹过的核桃，还能补脑吗？」在中文网络上流传着这样一段话：弱智吧里没有弱智。百度「弱智吧」是个神奇的地方，在这里人人都说自己是弱智，但大多聪明得有点过了头。最近几年，弱智吧的年度总结文章都可以顺手喜提百度贴吧热度第一名。所谓总结，其实就是给当年吧里的弱智发言排个名。各种高质量的段子在这里传入传出，吸引了无数人的围观和转载，这个贴吧的关注量如今已接近 300 万。你网络上看到的最新流行词汇，说不定就是弱智吧老哥的杰作。随着十几年的发展，越来越多的弱智文学也有了奇怪的风格，有心灵鸡汤，有现代诗，甚至有一些出现了哲学