AI资讯列表 - AI在线

CVPR 2024 | 分割一切模型SAM泛化能力差？域适应策略给解决了

第一个针对「Segment Anything」大模型的域适应策略来了！相关论文已被CVPR 2024 接收。引言大语言模型（LLMs）的成功激发了计算机视觉领域探索分割基础模型的兴趣。这些基础分割模型通常通过 Prompt Engineer 来进行 zero/few 图像分割。其中，Segment Anything Model（SAM）是最先进的图像分割基础模型。图 SAM 在多个下游任务上表现不佳但是最近的研究表明，SAM 在多种下游任务中并非具有很强的

小米 Redmi Turbo 3 手机支持 AI 隔空手势与 AI 魔法消除 Pro

感谢小米 Redmi Turbo 3 手机将于 4 月 10 日 19 点发布，搭载高通骁龙 8s Gen 3 芯片。今日，小米官方对这款新机的 AI 功能进行预热。据介绍，Redmi Turbo 3 支持 AI 隔空手势，基于高通骁龙 8s Gen 3 芯片的旗舰 AI 技术，搭配全新升级的 AON 前置摄像头实现 24 小时智能感知，实时响应用户操作。小米宣传其为“同档绝无仅有的 AI 实力”。根据网上流传的设置界面信息，隔空手势 Beta 版需要手在距离摄像头 15~40 厘米处稍作停留，待屏幕上方出现手型

马斯克预测 AI 在两年内能超越最聪明的人类

感谢特斯拉 CEO 埃隆・马斯克（Elon Musk）周一预测，AI 在明年或 2026 年就能超越最聪明的人类。马斯克当地时间周一在社交媒体平台 X（以前称为推特）语音空间上接受了挪威主权财富基金首席执行官 Nicolai Tangen 的采访。当被问及 AGI（通用人工智能）的发展时间表时，马斯克表示，如果你将 AGI 定义为比最聪明的人更聪明，我想可能是明年，或者两年内。AGI 为 Artificial General Intelligence 的首字母缩写，意为人工通用智能。通用人工智能是一个人工智能理论研

英特尔展示多模块芯片预热 Vision 2024 活动，预计为 Gaudi 3 人工智能加速器

英特尔官方账户近日在 X 平台晒出一段包含“至少十个”模块的复合芯片近照短视频，为北京时间今日 23:30 开幕的 Vision 2024 活动进行预热。根据该动态下方消息人士 Bionic_Squash 和 Raichu 的回复，以及同IT之家以往报道中概念图的对比，图中芯片基本确认为英特尔 Gaudi 3 人工智能加速器。▲ 此前报道中出现的 Gaudi 3 概念图视频显示，Gaudi 3 芯片整体包含 10 个主要模块，包含 2 个用短边相连的计算模块和 8 个内存堆栈（HBM 模块）。英特尔此前表示 Gau

特斯联完成20亿元D轮融资，推领域大模型，促AGI落地

今日，人工智能物联网（AIoT）企业特斯联宣布完成 D 轮 20 亿人民币融资交割。本轮融资由国际著名投资机构 AL Capital 与国内产业基金阳明股权投资基金共同领投，国家发改委旗下投资平台、福田资本、金地集团、重科控股、数字重庆、南昌政府平台公司、徐州产业基金、北科建集团、光大控股、商汤科技等新老股东一同跟投。据介绍，所募资金将用于完善具有多模态能力的领域大模型在园区、企业、经济、能源等多场景的应用，打造高灵活度、高性能的智算基础设施，构建技术壁垒，进一步在人工智能物联网领域的国际竞争格局中形成产业化、集群

仅次于 Meta，马斯克透露特斯拉囤积的英伟达 H100 芯片数量

埃隆・马斯克麾下的特斯拉和其神秘的以人工智能为核心的公司 xAI，储备了大量的英伟达 H100 系列芯片。特斯拉意欲借此攻克自动驾驶的终极难题 ——L5 级自动驾驶，而 xAI 则肩负着实现马斯克的“终极真相人工智能”愿景。X 平台用户“The Technology Brother”最近发布消息称，Meta 公司已经囤积了全球最多的 H100 GPU，数量达到惊人的 35 万块。然而，马斯克对该排行榜将特斯拉和 xAI 的排名边缘化表示不满（1 万颗），并指出“如果计算正确，特斯拉应该是第二名，xAI 将是第三名”

第二波！2024年4月精选实用设计工具合集

大家好，这是 2024 年 4 月的第 2 波干货合集！这一期干货合集当中，包含了 3 款 AI 工具，分别是生成网页的配色和字体排版样式的 AI 工具，专门生成产品包装设计的 AI 工具，生成 UI 界面的 AI 工具，显而易见都是好东西。另外还推荐了 3 个各有偏向的资源和设计推荐网站，它们都搜集整理了大量有用的 AI 工具和设计资源以及优秀设计。当然，在此之前记得看看往期干货中有没有你感兴趣的素材：下面我们具体看看这一期的干货： 1、基于 AI 的配色方案生成工具 UI/UX 设计师和前端的在线工具，它

实战案例！如何用 ComfyUI 给模特换服装？

一、前言当你从优设这么多高含金量的内容里面找到这我这篇，我相信你肯定不是单纯的为了工作，很好！技术的迭代其核心驱动一定是兴趣，而不仅仅是为了去打工！在工作之余，给你身边的小姐姐，小哥哥们提供适当的情绪价值，回报一定会超乎你的想象。当然，今天分享的，纯粹是技术实现路径，审美这块，我相信你肯定比我强。（在多年的甲方教育下，审美已经不存在了）闲话就说到这里，开整！二、模特换服装和场景 1. 不一样的摄影需求为什么要做这个事？在学习开始之前，整明白这个事，可以很好的帮你做好心理建设，拉高你的预期，这样在遇到

斯坦福团队新作：喊话就能指导机器人，任务成功率暴增，网友：特斯拉搞快点

斯坦福的 ALOHA 家务机器人团队，发布了最新研究成果 ——项目名为 Yell At Your Robot（简称 YAY），有了它，机器人的“翻车”动作，只要喊句话就能纠正了！而且机器人可以随着人类的喊话动态提升动作水平、即时调整策略，并根据反馈持续自我改进。比如在这个场景中，机器人没能完成系统设定的“把海绵放入袋子”的任务。这时研究者直接朝它喊话，“用海绵把袋子撑得再开一些”，之后就一下子成功了。而且，这些纠正的指令还会被系统记录下来，成为训练数据，用于进一步提高机器人的后续表现。有网友看了说，既然已经能朝着机

消息称三星与韩国互联网巨头 NAVER 启动 Mach-2 人工智能芯片联合研发

感谢据韩媒 ETNews 报道，三星电子与韩国互联网巨头 NAVER 双方已启动人工智能芯片 Mach-2 的联合研发。消息人士透露，双方正在讨论 Mach-2 芯片开发设计的重点。该芯片将由 NAVER 设计核心软件，三星电子则负责芯片的设计和生产。三星电子与 NAVER 于 2022 年达成研发合作协议，为超大规模人工智能模型（如 NAVER 的 HyperCLOVA X 模型）开发定制半导体解决方案，最近引发关注的 Mach-1 推理加速芯片就是双方合作的成果。开发双方宣称，Mach-1 采用了独特设计，在能

亚马逊云科技展示Claude 3大模型能力，生成式AI落地正在加速

上周日，亚马逊云科技宣布 Mistral AI 的 Mistral Large 模型在Amazon Bedrock上正式可用。随着知名 AI 初创公司 Mistral AI、Anthropic 的前沿的大语言模型（LLM）陆续登陆 Amazon Bedrock，人们在构建生成式 AI 应用程序时，已经有了一系列先进模型的选择。

大模型生产力的头场变革，从英特尔商用 AI PC 说起

作者丨郭思编辑丨陈彩娴「水利万物而不争。」这是英特尔公司高级副总裁、英特尔中国区董事长王锐女士常说的一句话，看似没有压迫性，却切实点出了英特尔作为 AI PC 概念提出者，这场大语言模型技术革命中的思路。在2024 年 3 月 26 日，英特尔商用 AI PC 新品发布会上，我们也确切地看到了英特尔致力于让AI无处不在的种种举措。

AI在用| Midjourney+一个提示咒语，广告摄影师可以躺平了

机器之能报道编辑：Cardinal以大模型、AIGC为代表的人工智能浪潮已经在悄然改变着我们生活及工作方式，但绝大部分人依然不知道该如何使用。因此，我们推出了「AI在用」专栏，通过直观、有趣且简洁的人工智能使用案例，来具体介绍AI使用方法，并激发大家思考。我们也欢迎读者投稿亲自实践的创新型用例。无论是打开餐厅菜单、翻开一本杂志，还是点咖啡时瞟一眼上新，我们都会看到很多质感精致，极富视觉冲击力的广告图片。人工拍摄的专业广告图片为了让食物、化妆品、日用品等产品呈现出精致、极富吸引力的视觉效果，这类专业图片（带有

千元级AI 模盒，云天励飞率先打响大模型「平民化」之战

从 Gemini、Lumiere、再到 Sora，“百模大战” 的 “战火” 延续至 2024 年。诸多的大模型已经诞生，接下来的任务是落地。但行业大模型在落地过程中，遇到的瓶颈就像是一座冰山，藏在冰山下面的问题，更加棘手。要做物理世界的解码者，为 “无形” 技术和 “有形” 世界构建通道，这是云天励飞的定位。如何构建 AI 落地的通道？2024 年，围绕 “自进化城市智能体” 的理念，云天励飞持续深耕 AI 市场，并且在 3 月发布 “深目” AI 模盒，为 AI 大模型落地长尾场景交上一份新答卷。AI 落地关键

N-S方程问题有解了？与黎曼猜想并列，千禧年数学难题胜利在望

这是数学中最著名的未解问题之一。新的工作已通过同行评审，全文可看。起猛了，流体力学迎来自己的超导时刻了？最近几天，数学圈内人们正在热烈讨论纳维 - 斯托克斯问题的正则哈密顿公式终于出现了 —— 这个数学史上悬而未决的问题可能有了解答。而在以前，人们甚至普遍认为这是不可能的。此事有多重要？纳维 - 斯托克斯方程与黎曼猜想一样，在 2000 年被列为「千禧年数学七大难题」。这七个世界级难题分别是：NP 完全问题、霍奇猜想、庞加莱猜想、黎曼假设、杨 - 米尔斯存在性与质量间隙、纳卫尔 - 斯托克斯方程、BSD 猜想。七个

超10秒高分辨率，北大Open Sora视频生成更强了，还支持华为芯片

北大团队联合兔展发起的 Sora 复现计划，现在有了新成果。OpenAI 在今年年初扔出一项重大研究，Sora 将视频生成带入一个新的高度，很多人表示，现在的 OpenAI 一出手就是王炸。然而，众多周知的是，OpenAI 一向并不 Open，关于 Sora 的更多细节我们无从得知。谁能率先发布类 Sora 研究成了一个热门话题。今年 3 月初，北大团队联合兔展启动了 Sora 复现计划 ——Open Sora Plan，该项目希望通过开源社区的力量复现 Sora。项目上线一个月，星标量已经达到 6.6k。项目地址

多模态大模型有了统一分割框架，华科PSALM多任务登顶，模型代码全开源

最近，多模态大模型（LMM）取得了一系列引人注目的成就，特别是在视觉 - 语言任务上的表现令人瞩目。它们的成功不仅展现了多模态大模型在各个领域的实用性和灵活性，也为更多视觉场景下的应用探索了新的道路。尽管如此，在将 LMM 应用到计算机视觉任务上时，我们仍面临一个关键挑战：大多数 LMM 目前只限于文本输出，这限制了它们在处理更细粒度的视觉任务，如图像分割方面的能力。此外，图像分割领域内部的需求多样化，任务各异 —— 实例分割需为每个对象分配唯一 ID 并计算类别信赖度，指代分割（RES）则需要基于描述性语句来识别

无需训练，这个新方法实现了生成图像尺寸、分辨率自由

近日，来自香港中文大学 - 商汤科技联合实验室等机构的研究者们提出了FouriScale，该方法在利用预训练扩散模型生成高分辨率图像方面取得了显著提升。近期，扩散模型凭借其出色的性能已超越 GAN 和自回归模型，成为生成式模型的主流选择。基于扩散模型的文本到图像生成模型（如 SD、SDXL、Midjourney 和 Imagen）展现了生成高质量图像的惊人能力。通常，这些模型在特定分辨率下进行训练，以确保在现有硬件上实现高效处理和稳定的模型训练。图