AI资讯列表 - AI在线

首届“AI 小姐”选美结果出炉，但背后争议远未停歇

首届“AI 小姐”选美比赛结果已经出炉，但关于这场比赛的争议远未停歇。AI在线 6 月报道，全球首届 AI 模特小姐选美大赛 WAICAs 设置总奖池 1.6 万英镑（当前约 14.8 万元人民币），全球有超过 1500 个 AI 角色、1 万名 AI 团队成员参与。WAICAs 全称是未来派世界人工智能创造者大奖，由 Fanvue 主办，将会根据 AI 的现实性、影响力和技术性来评判人工智能的影响力。本次选美比赛冠军由 Kenza Layli 获得，这是设定来自摩洛哥的一位 AI 美女，目前在 Instagram

15 名西班牙学生因滥用 AI 生成不雅照，被判 1 年缓刑

感谢英国卫报 7 月 9 日报道，15 名学生因利用 AI 制作并传播女同学的不雅照片，被西班牙地方法院判处 1 年缓刑，此案也引发了关于滥用 Deepfake 技术的广泛讨论。生活在西班牙阿尔门德拉莱霍（Almendralejo）市的家长去年报告称，有人利用 Deepfake 技术制作其女儿的不雅照，并在当地 WhatsApp 社交应用中传播，警方随即开始调查此事。其中一名受害者的母亲说，早在去年 7 月份，在 WhatsApp 上就出现了这些 Deepfake 照片。她当时告诉路透社记者：“许多女孩完全被吓坏了

尘埃落定，英国 AI 芯片企业 Graphcore 已被软银收购

根据 Graphcore 官网，这家正处困境的英国 AI 芯片企业已被软银收购。根据协议，Graphcore 将成为软银的全资子公司，继续以现有名称运营。双方并未透露具体交易价值。Graphcore 于 2016 年成立于英国西南部城市布里斯托尔，曾推出过多代被称为 Intelligence Processing Unit（AI在线注：简称 IPU）的 AI 负载加速器。Graphcore 曾一度被视为“英国版英伟达”。然而自 2020 年以来，该企业未获得新的融资，也丢失了来自微软的重要订单，这使其资金紧张、运营

最近超火的用AI制作老照片视频，完整教程来啦！

Hello，大家好，我是益达，不知道大家有没有发现，最近小红书和抖音，出现了很多把老照片做成视频，并且数据都不错，今天我就来教大家如何制作。一、寻找或制作老照片 1. 百度寻找老照片可以在百度、谷歌搜索2. 自己制作老照片这个方法适合自己制作系列照片，统一风格，需要发内容的小伙伴，可以通过 Midjourney 或者一些 AI 绘画平台进行制作比如我用即梦做的老照片，出的风格都挺一致的，自己再做旧一下就可以使用了二、修复画质我以这张图片为例1. 腾讯 ARC 首先需要修复画质，可以通过腾讯 ARC：目前

国产开源绘画模型 Kolors！可生成中文字符，质量超越 SD3 与 MJ

大家好，这里是和你们一起探索 AI 的花生~ 最近国内科技公司快手在 AI 方面接连发力，推出了类 Sora 视频生成模型「可灵 Kling」、人像动画控制模型「Liveportait」、以及文生图扩散模型「可图 Kolors」，质量均位于同类模型前列，在国外互联网上都引起了广泛的关注和讨论，颇有异军突起之势。其中「可图 Kolors」为开源模型，它不仅在生成质量上超过了前段时间推出的 SD3，与 Midjourney v6 模型不相上下，还支持识别中文提示词和生成中文字符，可谓是国产开源绘画模型之光，今天就为大

ComfyUI 进阶篇！完整梳理 ComfyUI 的核心节点（一）

前言：学习 ComfyUI 是一场持久战。当你掌握了 ComfyUI 的安装和运行之后，会发现大量五花八门的节点。面对各种各样的工作流和复杂的节点种类，可能会让人感到不知所措。在这篇文章中，我们将用通俗易懂的语言对 ComfyUI 的核心节点进行系统梳理，并详细解释每个参数。希望大家在学习过程中培养自我思考的能力，真正掌握和理解各个节点的用法与功能。在实践中不断提升自己的技术水平。只有通过不断的探索和总结，才能在面对复杂的工作流时游刃有余。祝大家学习顺利，早日成为 ComfyUI 的高手！一、Load Check

三星 Galaxy AI 新增“作业帮手”功能，可教学生解数学题

在昨天的发布会上，三星不仅发布了两款全新折叠屏手机 Galaxy Z Fold 6 和 Galaxy Z Flip 6，还着重展示了 Galaxy AI 人工智能功能。三星自豪地宣布，到今年年底，搭载 Galaxy AI 的设备将达到 2 亿台。外媒 Sammobile 称，这是一个巨大的成就，要知道苹果尚未将任何近期发布的人工智能功能应用到手机上。而三星仍在不断推出新功能，其中一项可以帮助孩子们完成作业。据AI在线了解，“圈选搜索”是 Galaxy AI 的核心功能之一，这个功能允许用户通过长按虚拟主页键后圈选屏

商汤发布“东风”泰语大模型：全球首次实现可在泰 / 中 / 英环境下高效工作

商汤科技官方公众号今日晚间发文宣布，7 月 10 日，商汤联合泰国 DTGO 集团及旗下 Quinnnova 共同发布“东风”泰语大模型（DTLM）。“东风”号称全球首个能在泰文、中文、英文三种语言环境下高效工作的 AI 大语言模型，将商汤的基模型和算力优势与 DTGO 的泰国语言文化优势相结合，提供本地化的生成式 AI 体验。其能够实现自然、流畅的实时对话、文本阅读理解等功能。官方表示，“东风”来自在中泰两国都深受欢迎的中国古典名著《三国演义》，寓意两国自古以来的文化交流，借生成式 AI 时代的东风进一步发扬光大

人形机器人将当上银行“大堂经理”，国内首个场景训练基地在上海浦东启用

据“上海金融官微”公众号，国内首个人形机器人银行大堂经理场景训练基地在建行上海浦东分行正式启用。银行大堂经理场景训练基地是业内首个商业银行场景应用训练基地，其首次采用开放式的创新训练模式，有助于加快提升人形机器人的能力，推动关键技术、重点产品和重点场景应用。据介绍，此次参训的机器人拥有高度仿生的躯干构型和拟人化的运动控制，结合视觉、听觉、语音等人工智能技术，科学家可以通过具身智能的推理和规划等对其进行训练。目前，该银行已对智能人形机器人开展银行大堂业务咨询、业务分流、智慧柜员机个性化操作指南、反欺诈宣传等面向客户的

落幕再谈，「WAIC 2024」的一些细节与预判

机器之能报道作者：姜菁玲在这次的世界人工智能大会上，百度CEO李彦宏提到的一句话吸引了很多关注。他说，没有应用，光有基础模型，不管是开源还是闭源都一文不值。「大家不要去卷模型了，要去卷应用」。这句话虽然有些极端，但是在当下的阶段有几分代表性。正如这句话所表达的，如果说去年的WAIC上，各家厂商还在展示自己的大模型本身实力，今年的WAIC的主要观赏点则已经集中在应用上。一众AI厂商从去年的「占位」秀，来到了新阶段。应用成为新赛点大模型厂商应用大规模试错技术本身是抽象的，但应用却是具象的。在今年的WAIC现场，凝聚在观

韩国美妆业拥抱 AI：机器人调配专属粉底，还能帮你选口红色号

据路透社报道，韩国美妆巨头爱茉莉太平洋的人工智能 (AI) 美容实验室最近客似云来。在这里，机器人可以根据顾客皮肤状况调配专属粉底，还能推荐最适合顾客的口红色号。32 岁的顾客 Kwon You-jin 在体验了定制护肤品服务后表示：“每个人的肤色都独一无二，但通常只能买到市面上最常见的色号。通过 AI 生成的数据更深入了解自己的肌肤状况，并能亲眼目睹前后对比，这太棒了！”在收到一份由 AI 生成的皮肤状况报告后，一台机器人随即为她调配了完美匹配其肤色的粉底液。AI在线注意到，如今，越来越多的化妆品公司开始拥抱 A

18个月326项能力，这家大厂猛猛上新生成式AI，如今纯靠Prompt就搞定企业级应用了

构建生成式 AI 应用，现在只需要几分钟。「生成式 AI 的半衰期只有六个月，」亚马逊云科技全球 AI 产品副总裁 Matt Wood 说道。2024 开启下半年，人们发现，生成式技术和落地之间的距离，已经不能用「远」或「近」完全概括。狂热的百模大战之后，即使生成式 AI 技术展现出了前所未有的能力，为何一部分企业还没有投身到新技术的变革之中？技术门槛和高昂的研发投入、应用成本是它们保持谨慎态度的主要影响因素。今天凌晨，亚马逊云科技给全世界带来了解决方案。一系列生成式 AI 技术的重磅发布，将全球最先进的大模型技术

GitHub 8k Star，一作实习生，字节这个大模型成果被苹果选中了

字节跳动大模型团队成果 Depth Anything V2 现已被苹果官方收入 Core ML 模型库。本文介绍了 Depth Anything 系列成果的研发历程、技术挑战与解决方法，分享了团队对于 Scaling Laws 在单一视觉任务方面的思考。值得一提的是，Depth Anything V1 与 V2 两个版本论文一作是团队实习生。近日，字节跳动大模型团队开发的成果 Depth Anything V2 ，入选苹果公司 Core ML 模型库，目前已呈现在开发者相关页面中。Depth Anything 是一

AI 根据声音内容帮照片“对口型”，蚂蚁集团开源 EchoMimic 项目

蚂蚁集团 10 日开源了名为 EchoMimic 的新项目，其能够通过人像面部特征和音频来帮人物“对口型”，结合面部标志点和音频内容生成较为稳定、自然的视频。该项目具备较高的稳定性和自然度，通过融合音频和面部标志点（面部关键特征和结构，通常位于眼、鼻、嘴等位置）的特征，可生成更符合真实面部运动和表情变化的视频。其支持单独使用音频或面部标志点生成肖像视频，也支持将音频和人像照片相结合做出“对口型”一般的效果。据悉，其支持多语言（包含中文普通话、英语）及多风格，也可应对唱歌等场景。 AI在线附相关链接：项目地址： G

这些VLM竟都是盲人？GPT-4o、Sonnet-3.5相继败于「视力」测试

四大 VLM，竟都在盲人摸象？让现在最火的 SOTA 模型们（GPT-4o，Gemini-1.5，Sonnet-3，Sonnet-3.5）数一数两条线有几个交点，他们表现会比人类好吗？答案很可能是否定的。自 GPT-4V 推出以来，视觉语言模型 (VLMs) 让大模型的智能程度朝着我们想象中的人工智能水平跃升了一大步。VLMs 既能看懂画面，又能用语言来描述看到的东西，并基于这些理解来执行复杂的任务。比如，给 VLM 模型发去一张餐桌的图片，再发一张菜单的图片，它就能从两张图中分别提取啤酒瓶的数量和菜单上的单价，算

ControlNet作者又出爆款！一张图生成绘画全过程，两天狂揽1.4k Star

同样是图生视频，PaintsUndo 走出了不一样的路线。ControlNet 作者 Lvmin Zhang 又开始整活了！这次瞄准绘画领域。新项目 PaintsUndo 刚上线不久，就收获 1.4k star（还在疯狂涨）。项目地址：，用户输入一张静态图像，PaintsUndo 就能自动帮你生成整个绘画的全过程视频，从线稿到成品都有迹可循。绘制过程，线条变化多端甚是神奇，最终视频结果和原图像非常相似：我们再来看一个完整的绘画过程。PaintsUndo 先是用简单的线条勾勒出人物主体，然后画出背景，涂上颜色，最后精

CVPR'24 Highlight｜一个框架搞定人物动作生成，精细到手部运动

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]本文作者蒋楠是北京大学智能学院二年级博士生，指导教师朱毅鑫教授，与北京通用人工智能研究院黄思远博士联合开展研究工作。他的研究重点是人-物交互理解和数字人的动作生成，并于ICCV，CVPR和

视频生成新公司！马尔奖、清华特奖得主曹越创业，「风投女王」押注

继月之暗面之后，眼光毒辣的「风投女王」徐新又投了一家 AIGC 创业公司。近期，有关今日资本裁撤一级市场团队的传言在业内引发关注。7 月 10 日晚，今日资本集团总裁徐新亲自在微信朋友圈辟谣，并透露了一则投资消息：2024 年 5 月，今日资本领投了 SandAI 的早期融资轮。据 IT 桔子数据，北京 SandAI 成立于 2023 年，是一家志在「做世界有影响力的事情」的 AI 创业公司。目前，SandAI 主要聚焦于类似 OpenAI Sora 的视频生成技术，为用户提供高效、便捷的视频生成服务。公司创始人兼