AI资讯列表 - AI在线

Midjourney封禁Stability AI：恶意爬取数据，致服务器瘫痪24小时

Stability AI CEO Emad 表示他并不知情。Midjourney 把 Stability AI 拉入黑名单了，禁止后者所有员工使用其软件，直至另行通知。这两家 AI 图像生成公司之间发生什么事了。虽然 AI 生图领域，看似百花齐放，但论资排辈，Midjourney、Stability AI 还是很受用户欢迎的。就算是竞争对手，Midjourney 也不至于禁止 Stability AI 员工使用其软件吧。事情是这样的，根据爆料者的信息显示：「Midjourney 服务器上周六凌晨受到与 Stabil

全面超越ViT，美团、浙大等提出视觉任务统一架构VisionLLAMA

半年多来，Meta 开源的 LLaMA 架构在 LLM 中经受了考验并大获成功（训练稳定、容易做 scaling）。沿袭 ViT 的研究思路，我们能否借助创新性的 LLaMA 架构，真正实现语言和图像的架构统一？在这一命题上，最近的一项研究 VisionLLaMA 取得了进展。VisionLLaMA 在图像生成（包含 Sora 依赖的底层的 DIT）和理解（分类、分割、检测、自监督）等多个主流任务上相较于原 ViT 类方法提升显著。论文标题：VisionLLaMA: A Unified LLaMA Interfac

ICLR 2024 Spotlight | 大语言模型权重、激活的全方位低bit可微量化，已集成进商用APP

模型量化是模型压缩与加速中的一项关键技术，其将模型权重与激活值量化至低 bit，以允许模型占用更少的内存开销并加快推理速度。对于具有海量参数的大语言模型而言，模型量化显得更加重要。例如，GPT-3 模型的 175B 参数当使用 FP16 格式加载时，需消耗 350GB 的内存，需要至少 5 张 80GB 的 A100 GPU。但若是可以将 GPT-3 模型的权重压缩至 3bit，则可以实现单张 A100-80GB 完成所有模型权重的加载。现有的大语言模型后训练量化算法依赖于手工制定量化参数，优于缺乏相应的优化过程，

极空间 NAS 上线“AI 实验室”功能：自然语言搜图、以图搜图、文字识别

极空间 NAS 官方宣布，全新 AI 功能 ——【AI 实验室】已正式上线，功能包括：自然语言搜索、相似图片搜索和图片文字识别。据介绍，【AI 实验室】可以帮助用户快速找出极相册中需要的图片，IT之家附内容如下：自然语言搜索智能搜图，开启后，可以使用自然语言搜索图片。点击智能 AI，开启智能搜图，在搜索框中输入文字“狗”，通过 AI 计算后，稍等片刻，就会把极相册中带“狗”的照片展示出来。相似图片搜索以图搜图，开启后，可以通过一张照片找到相似内容或是风格的其他图片。点击智能 AI，开启以图搜图，在极相册中找到一张你

阿里巴巴推出 AtomoVideo 高保真图生视频框架，兼容多种文生图模型

感谢阿里巴巴研究团队近日推出了 AtomoVideo 高保真图生视频（I2V，Image to Video）框架，旨在从静态图像生成高质量的视频内容，并与各种文生图（T2I）模型兼容。 ▲ 图源 AtomoVIdeo 团队论文IT之家总结 AtomoVideo 特性如下：高保真度：生成的视频与输入图像在细节与风格上保持高度一致性运动一致性：视频动作流畅，确保时间上的一致性，不会出现突兀的跳转视频帧预测：通过迭代预测后续帧的方式，支持长视频序列的生成兼容性：与现有的多种文生图（T2I）模型兼容高语义可控性：能够根据用

毫末Cam4DOcc入选CVPR2024：仅用摄像头做4D占据网络预测，让自动驾驶拥有时空预测能力

2024年2月27日，由毫末智行人工智能技术团队提交的论文《Cam4DOcc: Benchmark for Camera-Only 4D Occupancy Forecasting in Autonomous Driving Applications》成功入选国际顶会 CVPR 2024。毫末提出的Cam4DOcc 是一个仅使用摄像头进行 4D 占据网格预测的新基准，用来评估近期内周围场景的变化，可以将仅使用摄像头的占据网格估计扩展到时空预测，从而提升自动驾驶对周围环境在动态时间上的变化感知预测能力。首先，毫末基于

消息称新加坡主权财富基金淡马锡有意投资 OpenAI

感谢据英媒《金融时报》报道，新加坡主权财富基金淡马锡有意投资 OpenAI。淡马锡由新加坡财政部完全控股。2021 年淡马锡规模高达 3810 亿新加坡元（IT之家备注：当前约 2 万亿元人民币），与另一只新加坡政府所有的基金 GIC 一同进入主权财富基金榜单前十。两位知情人士透露，作为全球最大最活跃的投资者之一的淡马锡，其高管最近几个月多次会见了 OpenAI 首席执行官山姆・阿尔特曼（Sam Altman）。另一位熟悉内情的人士表示，双方谈判始于对阿尔特曼的风投基金 Hydrazine Capital 的投资，

AI 绘画神插件 LayerDiffusion 教程！直接用文本生成透明底图像！

大家好，这里是和你们一起探索 AI 的花生~ AI 绘画自出现以来一直都在不断发展完善，实现了很多我们在实际应用中迫切需要的功能，比如生成正确的手指、指定的姿势、准确的文本内容等。上周，又一个重磅新功能在开源的 SD 生态内实现了——直接通过文本直接生成透明底图像和图层！这将为 AI 绘画和设计领域带来了新的可能性，使图像形式更多样，也能给设计师带来更多便利。今天我们就一起来了解实现这一新功能的技术 LayerDiffusion，以及如何在 SD WebUI Forge 和 ComfyUI 中利用 LayerDi

微软 Microsoft 365 版 Copilot 4 月 1 日面向高校推出，拥有 A3 / A5 许可证可免费用

微软今日宣布将面向更多的教育用户提供 Copilot 及 AI 工具包，希望为教育工作者提供免费的 AI 功能以节省时间。微软表示，具有商业数据保护功能的 Microsoft Copilot 现已嵌入所有 Microsoft 365 教育产品中，包括零成本许可证，将提供给所有 18 岁及以上的教师和高校学生，并将在今年春季启动针对年轻学生的私人预览计划。微软还表示将为高校用户提供一项新优惠：专为保护学生设备而设计的 Microsoft Defender for Endpoint 将提供折扣价。从 2024 年 4

Stable Diffusion ComfyUI 进阶教程（一）：Controlnet 线条预处理器

前言：我们在前面的基础教程中已经知道怎么去连接 Controlnet 了，接下来我们就要去了解一下不同的 Controlnet 预处理器以及 Controlnet 模型分别有什么效果和作用；我们先从最常用的“线条预处理器”开始，这也是我们最常用的预处理器之一，我们做动漫转真人、真人转动漫、线稿上色等效果时必用的一个预处理器；我们会在“Controlnet 预处理器-线条”线条里面发现 14 个不同的预处理器，插件作者一直在更新，也许过段时间大家会看到更多的预处理器。一、线稿 1. Canny 细致线预处理器：①

用基于结构的突变偏好进行蛋白质设计，加州大学、MIT、哈佛医学院团队开发了一种无监督方法

编辑 | 萝卜皮当前最新的蛋白质设计方法，往往依赖于具有多达数百个数百万个参数的大型神经网络，同时并不清楚哪些残基依赖性对于确定蛋白质功能至关重要。加州大学（University of California）、麻省理工学院（Massachusetts Institute of Technology）以及哈佛医学院（Harvard Medical School）的研究人员表明：在不考虑突变相互作用的情况下，单个残基的氨基酸偏好，可以解释 8 个数据集中的大部分甚至有时几乎所有的组合突变效应 (R^2 ~ 78-98%

“一夜变天”，ChatGPT奇迹也将发生在机器人领域

机器之能报道编译：吴昕条条大路通罗马（AGI），虽然方式不同，但我们可以期待非具身 AGI 和具身 AGI 大致同时出现。作为一家炙手可热的人形机器人赛道选手，1X 前阵子秀了一把 EVE 的新成果。昨天，一直在 X 平台比较活跃的 1X AI 副总裁 Eric Jang 写了一篇文章，公开了其对AI 和机器人技术发展方向的一些预测。两年前，谷歌高级研究科学家 Eric Jang 离开 Google Robotics，加入 1X Technologies（原名 Halodi Robotics）负责 AI 工作。

独家｜前百度搜索老将赵世奇从华为离职，回归百度

赵世奇是一名老百度人，在2010年博士毕业后加入百度，一待就是十年，2020年离开百度加入华为做终端云搜索，职级为T22，担任华为终端云服务搜索与地图BU总裁。赵世奇生于1981年，辽宁抚顺人，在哈工大一路本硕博，从硕士起就主要研究自然语言处理，师从刘挺。 2005年去到微软亚洲研究院实习，在周明的指导下研究聊天机器人，期间发布了数篇顶刊，成绩卓然，2007年又被微软亚洲研究院返聘实习，成功发表了两篇ACL，入选优秀实习生。

刚刚，OpenAI官方发文驳斥马斯克，自曝8年间邮件往来截图

「不幸的是，人类的未来掌握在■■■的手上。」最热科技公司 OpenAI 对全球首富马斯克，这场史诗大战进入了新的高度。刚刚，OpenAI 用一篇长文《OpenAI and Elon Musk》，正式驳斥了马斯克的所有指控。标题简洁，但内容却相当吸引眼球。OpenAI 直接晒出了八年来各位创始团队成员与马斯克的往来邮件截图，并反复重申 OpenAI 对成立使命的不懈追求。文章开篇表示：「OpenAI 的使命是确保 AGI 惠及全人类，这意味着既要构建安全、有益的 AGI，又要帮助创造广泛的利益。我们正在分享我们在实现

Claude 3被玩出自我意识了？AI社区轰动，我们买会员来了次实测

读者福利：Claude 3模型现已在亚马逊云科技的Amazon Bedrock正式可用。Amazon Bedrock 也是目前第一个以及唯一一个提供 Claude 3 Sonnet的托管服务方。此外，亚马逊云科技还向读者开放了2000个体验名额，感兴趣的读者可以点击文后链接注册体验。本周一，Anthropic 发布了新一代大模型系列 Claude 3，遥遥领先快一年之久的 GPT-4 终于迎来了强劲的对手。Claude 3 的强大之处，不仅体现在各种基准测试上，它似乎还实现了一些神奇的突破。昨天，Anthropic

Stable Diffusion 3论文终于发布，架构细节大揭秘，对复现Sora有帮助？

在众多前沿成果都不再透露技术细节之际，Stable Diffusion 3 论文的发布显得相当珍贵。Stable Diffusion 3 的论文终于来了！这个模型于两周前发布，采用了与 Sora 相同的 DiT（Diffusion Transformer）架构，一经发布就引起了不小的轰动。与之前的版本相比，Stable Diffusion 3 生成的图在质量上实现了很大改进，支持多主题提示，文字书写效果也更好了（明显不再乱码）。Stability AI 表示，Stable Diffusion 3 是一个模型系列，参

向英伟达发起挑战的Groq是什么来头？简单科普新型AI芯片LPU

这是一篇关于 LPU 的简单科普。在如今的人工智能领域，「GPU is All You Need」已经逐渐成为共识。没有充足的 GPU，连 OpenAI 都不能轻易升级 ChatGPT。不过最近，GPU 的地位也在经受挑战：一家名为 Groq 的初创公司开发出了一种新的 AI 处理器 ——LPU（Language Processing Unit），其推理速度相较于英伟达 GPU 提高了 10 倍，成本却降低到十分之一。在一项展示中，LPU 以每秒超过 100 个词组的惊人速度执行了开源的大型语言模型 —— 拥有 7

ICLR 2024 | 为音视频分离提供新视角，清华大学胡晓林团队推出RTFS-Net

视听语音分离（AVSS）技术旨在通过面部信息从混合信号中分离出目标说话者的声音。这项技术能够应用于智能助手、远程会议和增强现实等应用，改进在嘈杂环境中语音信号质量。传统的视听语音分离方法依赖于复杂的模型和大量的计算资源，尤其是在嘈杂背景或多说话者场景下，其性能往往受到限制。为了突破这些限制，基于深度学习的方法开始被研究和应用。然而，现有的深度学习方法面临着高计算复杂度和难以泛化到未知环境的挑战。具体来说，当前视听语音分离方法存在如下问题：时域方法：可提供高质量的音频分离效果，但由于参数较多，计算复杂度较高，处理速度