AI资讯列表 - AI在线

寡姐带货国风 Polo 衫、马斯克穿牛仔走红毯：虚拟试衣新框架，只需两张图 30 秒即生成

只需两张图像，不到 30 秒，就能让马斯克穿牛仔走红毯~或者让寡姐带货国风 Polo 衫~就是二次元换装也不在话下。来自中山大学、Pixocial 等机构联合发布轻量化模型架构 CatVTON。他们是以 Stable Diffusion v1.5 inpainitng 为基础模型。来看看更多效果。用扩散模型进行虚拟试衣CatVTON 可以实现传统平铺服装图到人物的换装。不管是上衣、裤子、裙子，还是套装，各种不同品类服装都可以。其形状和纹理都能保持较高的一致性。另外，CatVTON 还可以实现人物 A 到人物 B 的

惠普 AI PC 全场景 AI 解决方案发布：惠小微智能助手 4.0 更新，接入百度文心一言和 WPS AI

“AI 用起来 —— 惠普 AI PC 全场景 AI 生态大会”于今日在北京举办。此次大会上，惠普推出了 AI PC 全场景 AI 解决方案与升级的 AI PC 产品组合，并与本土软件企业合作。AI在线汇总内容如下：惠小微智能助手 4.0首先，惠普基于四大 AI 新能力和一个 AI 整合全面应对用户的用机需求，推出惠小微智能助手 4.0 版本更新。1、AI 效率工具惠普将生成式 AI 工具“文心一言 AI”和“WPS AI”融入惠小微智能助手 4.0。升级的惠小微智能助手 4.0 接入百度“文心一言”功能，通过文心

在海外，Sora 正在被可灵替代

从没想过中国第一个让国外网友求着开放会员订阅通道的AI应用居然是出自快手。在经历一个多月的狂奔吸引上百万人排队内测之后快手可灵终于全面开放，最有意思的是直到开放测试之前还有网友表示自己没排进去内测。狗BEE 提示词：长着小狗身体的蜜蜂在花丛中飞而在内测过程中，中外网友则经历了身份互换，外网用户也体验了一把之前国内网友求手机号注册chatgpt的辛酸。

在SIGGRAPH 2024上，英伟达开始引领下一波浪潮：物理AI

「第一波是加速计算，它降低了能耗，下一代 AI 是企业级客户服务。我们希望让每个组织都有机会创建自己的 AI。」

苹果 AI 版 iOS 首日火爆：聊天秒变高情商，大模型成最强嘴替，Siri 华丽变身

它来了它来了，苹果的 Apple Intelligence 终于与果粉见面了！随着 iOS 18.1 Beta 版的上线，注册开发者从即日起就能体验到苹果 AI 的部分功能。最明显的一处就是 Siri 的全面换新，变身成了 Apple Intelligence & Siri。另一项重磅更新就是写作功能了，它可以帮忙润色推特评论，三下五除二就能把高级表达方式安排起来。甚至 dirty words 也能分分钟变得儒雅随和：开启 Apple Intelligence 后，苹果自研的端侧大模型就会被下载到设备当中。根据手快

化学逆合成SOTA！上海交大团队提出SMILES对齐技术实现高效逆合成预测

编辑 | ScienceAI逆合成规划在药物研发中扮演着至关重要的角色，而单步逆合成预测更是这一过程的核心。通过运用Transformer等先进的序列模型，将单步逆合成预测问题转化为从产物SMILES表示到反应物SMILES表示的翻译任务，已经成为一种广泛采用且效果显著的策略。然而，这种方法往往忽略了一个关键点：在反应物和产物之间，存在大量可以被直接利用的相同子结构。对这些子结构利用的不充分限制了模型预测的效率和准确性。2024年7月，上海交通大学人工智能研究院金耀辉、许岩岩研究团队在《Journal of Che

加速人形机器人发展，NVIDIA宣布扩展微服务库

今早，在美国丹佛举行的第51届SIGGRAPH图形大会上，NVIDIA宣布，将为全球领先的机器人制造商、AI模型开发者和软件制造商提供一套服务、模型以及计算平台，以开发、训练和构建下一代人形机器人。 NVIDIA带来了适用于OpenUSD语言、几何体、物理学和材质的生成式AI模型与NIM微服务。这一新服务将加速基于通用场景描述的工作流以及工业数字孪生和机器人的开发。

Meta 发布 AI Studio：让用户零编程创建、分享和定制 AI 角色

Meta 公司昨日（7 月 29 日）发布 AI Studio，目标让用户创建、分享和定制 AI 角色。Meta AI Studio 基于 Llama 3.1 模型，在不需要任何技术或者技能情况下，可以让任何人都来创建定制 AI 角色。创建者可以将所创建的 AI 角色作为其延伸，回答私信或者回复网友，从而接触到更多受众。Meta 公司在新闻稿中写到：“我们的目标是构建所有人都能利用 AI 创意能力的世界，而 AI Studio 让我们迈出了第一步，这仅仅是开始”。AI在线注：Meta AI Studio 目前提供了

QuestMobile2024中国移动互联网半年报：超级APP集体发力内嵌式AI

7月30日，知名数据监测机构QuestMobile发布了《2024年中国移动互联网半年报告》。报告显示，各种技术形态的AIGC应用正在迎来大爆发。2024年6月，AIGC类APP的月活跃用户规模达6170万，同比增长653%。与此同时，淘宝、支付宝、抖音等国内流量规模前20的超级APP，集体发力内嵌式AI应用，成为另一股主力军。《报告》显示，全网排名前20头部APP的内嵌 AI，主要分为智能助理、智能搜索、智能导购等方向，和各家业务场景强结合，突出对消费者的实用性。智能助理部分以支付宝的AI生活助理和 AI金融助

Getty 携手英伟达升级 AI 文生图服务：6 秒生成 4 张照片、提示词最多 250 个单词

Getty Images 和英伟达公司昨日（7 月 29 日）发布声明，联合推出安全的商业文生图 AI 模型，能够在 6 秒时间内生成 4 张照片，比以前的模型性能提高了一倍，速度处于行业领先水平。图源：英伟达Getty Images 表示全新文生图 AI 模型部分基于英伟达 Edify 模型架构，该架构隶属于英伟达 Picasso，主要为视觉设计搭建和部署生成式 AI 模型。英伟达 Edify 模型架构不仅能够带来更快的生成速度、更高的质量、更符合用户输入的提示词，而且该改进了 4K 采样和微调模型的能力。相比较

汇智智能CarrotAI大模型通过大模型服务备案

近日，由江苏汇智智能数字科技有限公司（以下简称汇智智能）自主研发的CarrotAI大模型通过国家大模型服务备案（上线备案号：Jiangsu-CarrotAI-202407030002）。作为南京第4家，江苏省第7家通过大模型服务备案的科创企业，此次备案的通过意味着汇智智能将面向大模型行业上下游伙伴、客户提供更有力的软硬件联合优化服务，从而推动生成式人工智能行业的可持续发展。而就在不久前，汇智智能自主研发的文本生成算法通过《第六批深度合成服务算法》备案，双备案的通过更是对汇智智能在人工智能领域的深厚积累和创新实力的认

刚刚，Meta开源「分割一切」2.0模型，视频也能分割了

还记得 Meta 的「分割一切模型」吗？这个模型在去年 4 月发布，被很多人认为是颠覆传统 CV 任务的研究。时隔一年多，刚刚，Meta 在 SIGGRAPH 上重磅宣布 Segment Anything Model 2 (SAM 2) 来了。在其前身的基础上，SAM 2 的诞生代表了领域内的一次重大进步 —— 为静态图像和动态视频内容提供实时、可提示的对象分割，将图像和视频分割功能统一到一个强大的系统中。SAM 2 可以分割任何视频或图像中的任何对象 —— 甚至是它以前没有见过的对象和视觉域，从而支持各种不同的用

又一「国产版Sora」全球上线！清华朱军创业团队，视频生成仅需30秒

AI 视频圈正「互扯头花」。国外的 Luma、Runway，国内的快手可灵、字节即梦、智谱清影…… 你方唱罢我登场。无一例外，它们对标的都是那个传说中的 Sora。其实，说起 Sora 全球挑战者，生数科技的 Vidu 少不了。早在三个月前，国内外视频生成领域还一片「沉寂」之时，生数科技突然曝出自家最新视频大模型 Vidu 的宣传视频，凭借其生动逼真、不输 Sora 的效果，惊艳了一众网友。就在今天，Vidu 正式上线。无需申请，只要有个邮箱，就能上手体验。（Vidu官网链接：www.vidu.studio）例如，

Runway深夜炸场，Gen-3 Alpha图生视频上线，11秒让你脑洞乱飞

网友不吝赞叹：AI 视觉生成又迈出了一大步。今天凌晨，Runway Gen 3 Alpha 模型的图生视频功能正式上线！用户可以使用任何图片作为视频生成的首帧。上传的图片既可以单独使用，也可以使用文本提示进行额外指导。目前，Gen 3 Alpha 支持生成的视频最长为 11 秒。作为一项重大更新，Runway 表示，图生视频功能将极大提高了生成视频的艺术控制和一致性。至于效果如何，大家可以先来欣赏以下官方给到的图生视频示例。Runway 联合创始人兼 CEO Cristóbal Valenzuela 发推表示，是时

只要一张图就能「还原」绘画过程，这篇论文比爆火的Paints-UNDO实现得更早

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]作者介绍：宋亦仁：新加坡国立大学 ShowLab 博士研究生，主要研究方向包括图像和视频生成， AI 安全性。黄施捷：新加坡国立大学硕士二年级学生，目前在 Tiamat AI 任算法工

「越狱」事件频发，如何教会大模型「迷途知返」而不是「将错就错」？

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]论文的第一作者是香港中文大学（深圳）数据科学学院二年级博士生袁尤良，指导老师为香港中文大学（深圳）数据科学学院的贺品嘉教授和腾讯 AI Lab 的涂兆鹏博士。该工作是袁尤良在腾讯AI La

AI 图像生成平台 LiblibAI 融资总额达数亿元；Meta 曝训练 Llama 3 每 3 小时「罢工」一次丨AI情报局

今日融资快报AI 图像生成平台 Liblib AI 融资总额达数亿元 AI图像生成平台 LiblibAI哩布哩布AI一年内，已经完成了三轮融资，总金额达数亿元人民币，天使轮投资方为源码资本、高榕创投和金沙江创投；第二轮由战略投资方领投；第三轮由明势资本领投；老股东持续多轮加持。其中，远识资本为多轮融资的独家财务顾问。（智能涌现）宠物共情 AI 公司 Traini 获千万天使轮融资AI应用Traini不仅能让用户听懂狗狗的叫声，还能看懂狗狗的面部表情、身体行为等语言，来了解狗狗的心理状况。

Meta SAM 2 登场：首个能在图片和视频中实时分割对象的统一开源 AI 模型

感谢Meta 公司发布 Meta Segment Anything Model 2（SAM2），SAM 2 能分割任何目标，能在一个视频中实时追踪所有镜头 —— 解锁新的视频编辑能力并在混合现实中提供新的体验。Meta 公司今天发布新闻稿，介绍了全新的 Meta Segment Anything Model 2（SAM 2）模型，先支持分割视频和图像中的对象。开源Meta 公司宣布将以 Apache 2.0 许可发布 SAM 2，因此任何人都可以使用它来构建自己的体验。Meta 还将以 CC BY 4.0 许可共享