AI资讯列表 - AI在线

Up主已经开始鬼畜，腾讯开源「AniPortrait」让照片唱歌说话

AniPortrait 模型是开源的，可以自由畅玩。「小破站鬼畜区的新质生产力工具。」近日，腾讯开源发布的一个新项目在推上获得了如此评价。这个项目是 AniPortrait，其可基于音频和一张参考图像生成高质量动画人像。话不说多，我们先看看可能会被律师函警告的 demo：动漫图像也能轻松开口说话：该项目刚上线几天，就已经收获了广泛好评：GitHub Star 数已经突破 2800。下面我们来看看 AniPortrait 的创新之处。论文标题：AniPortrait: Audio-Driven Synthesis o

ICLR 2024 | 联邦学习后门攻击的模型关键层

联邦学习使多个参与方可以在数据隐私得到保护的情况下训练机器学习模型。但是由于服务器无法监控参与者在本地进行的训练过程，参与者可以篡改本地训练模型，从而对联邦学习的全局模型构成安全序隐患，如后门攻击。本文重点关注如何在有防御保护的训练框架下，对联邦学习发起后门攻击。本文发现后门攻击的植入与部分神经网络层的相关性更高，并将这些层称为后门攻击关键层。基于后门关键层的发现，本文提出通过攻击后门关键层绕过防御算法检测，从而可以控制少量的参与者进行高效的后门攻击。论文题目：Backdoor Federated Learning

李飞飞主讲，斯坦福2024 CS231n开课，依旧座无虚席

「这是自 Karpathy 和我 2015 年启动这门课程以来的第 9 个年头，这是人工智能和计算机视觉令人难以置信的十年！」知名 AI 科学家李飞飞的计算机视觉「神课」CS231n，又一次开课了。总共 600 多位学生报名，第一堂课的现场座无虚席：从 2015 年到如今，CS231n 已经走到九个年头，也成为了一代计算机视觉专业学生心中的「必修课」：虽然课程代码不变，但可以猜到，2024 年的课程相比 2021 年版本的课程有不少新增内容，这还要归因于视觉生成技术三年来的巨大飞跃。在今年初的国际消费类电子产品展览

如何用AIGC加速设计？来看京东3C数码年货节设计复盘（上）

3CDesign 设计团队服务于京东零售 3C 数码范围内的设计项目。重点关注京东 6.18、京东 11.11、京东电器营销品类相关全案项目设计、通讯、电脑数码、配件业务、京东电竞等。团队会针对用户体验、营销、交互、品牌、研究、前端代码设计等层面服务 3C 数码事业群。从创意到商业化价值的转化，再从数据理性分析并驱动，最终形成商业设计赋能于业务帮助业务增长。同时团队是个关注设计商业化、设计价值领域的所有项目的创新设计。一、项目背景 1. 背景介绍 2024 京东 3C 数码年货节项目，旨在通过富有创意的场景化布局为

AI无人商店背后，是上千个印度人通过摄像头看美国人买西蓝花？

AI无人商店，背后疑似是1000印度人看摄像头：大厂的「拿货即走」没有走通？人们常说，有多少智能，就有多少人工。但是，亚马逊的这个项目，人工含量似乎有点高。这个项目名叫「Just Walk Out」。就像它的名字所暗示的，你可以走进亚马逊的无人购物商店里，选好东西，然后直接走出去，无需排队等待结账。因为，通过与计算机视觉和深度学习算法相结合，Just Walk Out 技术能够准确识别你拿取的商品，并完成结算，整个过程非常省心，听起来也很智能。但是，事实可能并非如此。据外媒 The Information 报道，「

攻陷短视频后，Sora将需要72万块H100 GPU

在被大规模采用后，Sora 的推理成本将很快超过训练成本。OpenAI 推出的 Sora 模型能够在各种场景下生成极其逼真的视频，吸引了全世界的目光。近日，投资机构 factorial funds 发表了一篇博文，深入探讨了 Sora 背后的一些技术细节，并对这些视频模型可能产生影响进行了探讨。最后，文中还讨论了对用于训练 Sora 等模型的算力的看法，并对训练计算与推理计算的算力比较进行了预测，这对估计未来 GPU 需求具有重要意义。机器之心对此文进行了整理。本报告的主要调查结果总结如下：Sora 是一个建立在扩

值得你花时间看的扩散模型教程，来自普渡大学

Diffusion 不仅可以更好地模仿，而且可以进行「创作」。扩散模型（Diffusion Model）是图像生成模型的一种。有别于此前 AI 领域大名鼎鼎的 GAN、VAE 等算法，扩散模型另辟蹊径，其主要思想是一种先对图像增加噪声，再逐步去噪的过程，其中如何去噪还原图像是算法的核心部分。而它的最终算法能够从一张随机的噪声图像中生成图像。近年来，生成式 AI 的惊人增长为文本到图像生成、视频生成领域等许多令人兴奋的应用提供了支持。这些生成工具背后的基本原理是扩散的概念，这是一种特殊的采样机制，克服了以前的方法中被

让智能体像孩子一样观察别人学习动作，跨视角技能学习数据集EgoExoLearn来了

在探索人工智能边界时，我们时常惊叹于人类孩童的学习能力 —— 可以轻易地将他人的动作映射到自己的视角，进而模仿并创新。当我们追求更高阶的人工智能的时候，无非是希望赋予机器这种与生俱来的天赋。由上海人工智能实验室，南京大学，中科院深圳先进技术研究院牵头，联合东京大学，复旦大学，浙江大学，中国科学技术大学等高校的学生和研究者，共同公布了跨视角技能学习数据集EgoExoLearn，为机器人赋予了通过观察他人学习新动作的能力。论文链接：：数据集独辟蹊径，采集了第一视角与第三视角的视频素材。第一视角视频捕捉了人们学习第三视

ChatGPT现在能帮你P图了，只需简单说几个字

现在，不论是网页、iOS 还是安卓版的 ChatGPT，都可以用上 DALL-E 3 强大的编辑图像功能了。OpenAI 的 DALL-E 今天进行了多项升级，在通往 Midjourney 加 Photoshop 的道路上又前进了一大步。现在，你可以在 ChatGPT 中使用 DALL-E 组件进行复杂的图像编辑。DALL-E 现在提供预设风格建议，以帮助激发图像创作灵感 —— 与很多新一代安卓旗舰手机 AI 生成壁纸的提示类似。在 AI 画图领域，Stable Diffusion，Midjourney 与 DAL

让AI进入物理世界，首届中国具身智能大会展望智能新纪元

前不久，图灵奖得主Yann Lecun在Lex Fridman的播客中讲道：机器人行业的兴起已经等待了 10、20 年，而这个行业的发展要寄希望于AI的进步。AI 发展可谓是瞬息万变。科技巨头们不是抢占时机，比谁先发布，就是猛攻质量，比性能优劣。2022 年还被称为 AIGC 元年，而 2024 年，就已经来到了具身智能元年。何为具身智能？先不谈定义，看看下面这些展示，你有属于自己的理解吗？具身智能其实是基于物理身体进行感知和行动的智能系统，其通过智能体与环境的交互获取信息、理解问题、做出决策并实现行动，从而产生智

马斯克造大模型，从特斯拉连挖高管

要不他们可能就跳槽到 OpenAI 了。当全球首富埃隆・马斯克（Elon Musk）建立 xAI，准备与 OpenAI、谷歌竞争大模型时，他必须与众多科技巨头、初创公司争夺人才。不过，他使用了一些取巧的办法：从自家的特斯拉挖来了几名优秀工程师。该初创公司的网站显示，上个月，机器学习科学家 Ethan Knight 成为第三位投身 xAI 的特斯拉工程师。据一位前员工透露，在特斯拉，Knight 负责监督特斯拉自动驾驶技术的计算机视觉团队。而在他之前，一些在特斯拉从事超级计算、自动驾驶系统和人工智能基础设施的工作的工

CVPR 2024满分论文，英伟达开源BOP排行榜6D物体姿态第一名方法

物体姿态估计对于各种应用至关重要，例如机器人操纵和混合现实。实例级方法通常需要纹理 CAD 模型来生成训练数据，并且不能应用于测试时未见过的新物体；而类别级方法消除了这些假设（实例训练和 CAD 模型），但获取类别级训练数据需要应用额外的姿态标准化和检查步骤。为了解决这些问题，来自英伟达的研究团队提出了一个统一的框架，称为 FoundationPose，它在基于模型和无模型设置下，使用 RGBD 图像对新颖物体进行姿态估计和跟踪。如下图所示，FoundationPose 优于现有专门针对这四项任务中每一项的 SOT

弱智吧：大模型变聪明，有我一份贡献

「被门夹过的核桃，还能补脑吗？」在中文网络上流传着这样一段话：弱智吧里没有弱智。百度「弱智吧」是个神奇的地方，在这里人人都说自己是弱智，但大多聪明得有点过了头。最近几年，弱智吧的年度总结文章都可以顺手喜提百度贴吧热度第一名。所谓总结，其实就是给当年吧里的弱智发言排个名。各种高质量的段子在这里传入传出，吸引了无数人的围观和转载，这个贴吧的关注量如今已接近 300 万。你网络上看到的最新流行词汇，说不定就是弱智吧老哥的杰作。随着十几年的发展，越来越多的弱智文学也有了奇怪的风格，有心灵鸡汤，有现代诗，甚至有一些出现了哲学

德科集团发布报告：41% 高管认为企业借助 AI 可精简员工规模

最新调查报告显示，人工智能固然无法完全取代现有工作岗位，但 41% 的高级管理人员认为，人工智能技术会导致员工人数减少。图源 intelligentliving全球知名人力资源公司德科集团（Adecco Group）就 AI 技术未来发展，以及对企业发展影响，询问了全球 2000 家大型公司的高级管理人员，这是同类调查中规模最大的一次。德科询问了来自美国、英国、法国、德国、日本、西班牙、加拿大、澳大利亚和新加坡的 2000 多家大型公司，涉及国防、制药、医疗保健、物流等行业。虽然大多数受访者表示人工智能将带来革命性

谷歌安卓版 Gmail 将迎新特性：整合 Gemini，帮用户总结邮件内容

消息源 @AssembleDebug 近日发布推文，挖掘安卓版 Gmail v2024.03.31.621006929 版本更新，发现谷歌正在测试“Summarize this email”功能，帮用户总结当前邮件内容。根据曝光的截图，Gmail 新版在邮件标题下方会出现“Summarize this email”按钮，只是现阶段该功能没有生效，但从名称判断可以确认是总结当前邮件内容。网友推测在点击该按钮之后，将在屏幕底部弹出一个窗口，以要点形式显示电子邮件的摘要。这与网页上的操作方式有些类似，只是网页版会跳出侧边

3 个月增长 300%，OpenAI 企业版 ChatGPT 用户规模突破 60 万

感谢OpenAI 首席运营官布拉德・莱特凯普（Brad Lightcap）本周四接受彭博商业周刊采访时表示，当前企业版 ChatGPT 注册用户数量超过 60 万。IT之家注：OpenAI 于 2023 年 8 月发布企业版 ChatGPT，不仅可以无限制地快速访问强大的 GPT-4 模型，还可以进行更深入的数据分析，帮助企业快速理解信息，并且可以向 ChatGPT 提出更复杂的问题。OpenAI 曾于 2024 年 1 月发布报告，表示企业版 ChatGPT 注册用户数量为 15 万，也就是说在过去短短 3 个月

YouTube CEO 点名 OpenAI：若利用其平台视频训练 AI 模型属违规行为

感谢YouTube 首席执行官尼尔・莫汉（Neal Mohan）近日在采访中公开表示，尽管没有直接证据表明 OpenAI 使用 YouTube 视频来训练 Sora（文本生成视频的 AI 模型），但警告称这种行为违反了 YouTube 现行的平台服务条款。莫汉在接受彭博社采访时强调，下载 YouTube 视频，然后用于训练 Sora 等 AI 模型显然违反了平台的相关条款。莫汉表示：“从创作者的角度来看，当创作者将他们的辛勤劳动上传到我们的平台时，他们有一定的期望。其中之一就是符合 YouTube 的服务条款，不允

应对隐私 / 版权问题，5 月起 Meta Threads / Instagram 等平台将标记“疑似由 AI 生成的内容”

感谢AI 兴起产生的各种隐私 / 版权问题如今已成为科技行业许多人越来越关注的重点，而 Meta 公司今日发布新闻稿，宣布将在 5 月起在自家 Instagram、Threads 及 Facebook 平台为 AI 内容添加“水印标记”。Meta 在新闻稿中声称，这些变化来自公司内部监督委员会的建议、公共调查的结果和“学术界、民间社会组织和其他方面”的建议。IT之家注意到，Meta 公司将使用算法及真人检测“可能由 AI 生成的内容“，而用户也可以自行在图片中注释”相关图片由 AI 生成”，此类消息将作为水印添加至