图像

智源发布原生多模态世界模型 Emu3，宣称实现图像、文本、视频大一统

感谢智源研究院今日发布原生多模态世界模型 Emu3。该模型只基于下一个 token 预测，无需扩散模型或组合方法，即可完成文本、图像、视频三种模态数据的理解和生成。官方宣称实现图像、文本、视频大一统。

10/21/2024 11:25:48 PM

沛霖（实习）

RTX 4090 笔记本 0.37 秒直出大片：英伟达联手 MIT 清华祭出 Sana 架构，速度秒杀 FLUX

一台 4090 笔记本，秒生 1K 质量高清图。英伟达联合 MIT 清华团队提出的 Sana 架构，得益于核心架构创新，具备了惊人的图像生成速度，而且最高能实现 4k 分辨率。一台 16GB 的 4090 笔记本，仅需 0.37 秒，直接吐出 1024×1024 像素图片。

10/17/2024 11:35:00 PM

问舟

Adobe 推出多款 AI 工具：可构建 3D 场景、消除路人、清洁镜头

据 The Verge 今天凌晨报道，Adobe 近期展示了多款实验性的 AI 工具，可用于动画制作、图像生成、照片及视频的优化等领域，未来有望被整合到 Creative Cloud 中。Project Scenic：该工具可让用户在使用 Firefly 模型生成图像时拥有更大的控制权。其能够生成一个完整的 3D 场景，用户可以自由添加、移动、调整场景中的物体大小，最终结果会根据 3D 场景生成相应的 2D 图像。

10/16/2024 7:04:50 AM

清源

微软探索音生图 AI 模型，实时视觉化会议演讲者语音讲述的场景

科技媒体 MSPoweruser 昨日（10 月 14 日）发布博文，报道称微软公司获得了一项新的专利，描述了基于用户实时输入的语音来生成图片。根据美国商标和专利局最新公示的清单，该专利共计 20 页，微软于 2023 年 4 月 5 日提交申请，于 10 月 10 日获批。根据专利描述，该系统可以在会议或讲座中实时捕捉音频，随后通过语言模型进行总结，并生成相应的 AI 图像。

10/15/2024 11:57:27 AM

故渊

智谱开源文生图模型 CogView3-Plus，相关功能上线智谱清言 App

感谢智谱技术团队今天宣布开源文生图模型 CogView3 及 CogView3-Plus-3B ，该系列模型的能力已经上线“智谱清言”App。据介绍，CogView3 是一个基于级联扩散的 text2img 模型，其包含如下三个阶段：第一阶段：利用标准扩散过程生成 512x512 低分辨率的图像。第二阶段：利用中继扩散过程，执行 2 倍的超分辨率生成，从 512x512 输入生成 1024x1024 的图像。

10/14/2024 11:13:47 AM

清源

AIGCRank：2024年9月出海AI网站流量排行榜

AI在线发布 2024年9月全球和国内AI网站流量排行榜、全球AI网站增长率排行榜，并联合哥飞的朋友们出海社群发布出海AI网站流量排行榜！

10/8/2024 11:53:44 PM

阿里妈妈开源全新 AI 图像修复模型 FLUX-Controlnet-Inpainting

阿里妈妈创意团队宣布开源 FLUX-Controlnet-Inpainting AI 图像修复模型。该模型宣称结合了 FLUX.1-dev 和 ControlNet 的优势，能高质量修复图像。模型可以理解用户语言描述，并修复图像且支持改变风格，官方示例如下：FLUX-Controlnet-Inpainting 与 SDXL-Inpainting 相比，生成内容效果对比如下（输入图像 | 蒙版图像 | SDXL 修复 | 最终效果）：FLUX-Controlnet-Inpainting 目前处于 Alpha 测试阶段

9/30/2024 11:16:35 AM

汪淼

准确率87.6%，南农、国防科大、苏大等发布显微图像分类AI新方法

编辑 | 萝卜皮在医学显微图像分类（MIC）领域，基于 CNN 和 Transformer 的模型得到了广泛的研究。然而，CNN 在建模长距离依赖关系方面存在短板，限制了其充分利用图像中语义信息的能力。相反，Transformer 受到二次计算复杂性的制约。为了解决这些挑战，南京农业大学、国防科技大学、湘潭大学、南京邮电大学、苏州大学组成的联合研究团队提出了一个基于 Mamba 架构的模型：Microscopic-Mamba。具体来说，该团队设计了部分选择前馈网络（PSFFN）来取代视觉状态空间模块（VSSM）的最

9/23/2024 11:55:00 AM

ScienceAI

阿里提出结构保持的AI视觉算法：显著提升HDR图像转LDR图像质量

9月21日，记者在2024云栖大会上获悉，阿里巴巴达摩院计算技术实验室提出了一种基于结构保持网络的AI视觉算法，可将高动态范围（HDR）场景图像自动转换为低动态范围（LDR）图像并保持其纹理细节，在常规显示设备上的图像质量相比业界提升7%。HDR图像同时包含强光源照射下的极亮区域和阴影、逆光下的极暗区域，容易出现明亮区域过曝、或者黑暗区域纯黑的情况，必须经过宽动态技术处理才能适配常规显示设备。传统的宽动态技术由于缺失自适应的局部与全局处理方法，会损失大量信息，生成结果局部粗糙或者全局锐化。业界也在探索基于AI的宽动

9/23/2024 11:17:00 AM

新闻助手

文生图 AI Midjourney 雄心：7.0 版未来 1-2 月登场、开发新图像编辑器、探索 3D 系统、踏足硬件领域

科技媒体 The Decoder 昨日（9 月 12 日）发布博文，报道称在最近的“Office Hours”活动中，Midjourney 创始人兼首席执行官 David Holz 在 Discord 分享了当前项目的最新进展，并回答了社区的提问。Midjourney 7.0 版本Holz 更新了 Midjourney 7.0 版本时间表，表示将会在未来 1-2 月内发布。让更多人体验 MidjourneyHolz 表示公司并不急于推出新的 AI 模型，而是提高现有技术的易用性，让工具深入融入到专业人士的日常工作中

9/13/2024 7:36:39 AM

故渊

阿里通义千问推出 Qwen2-VL：开源 2B / 7B 模型，处理任意分辨率图像无需分割成块

通义千问团队今天对 Qwen-VL 模型进行更新，推出 Qwen2-VL。Qwen2-VL 的一项关键架构改进是实现了动态分辨率支持（Naive Dynamic Resolution support）。与上一代模型 Qwen-VL 不同，Qwen2-VL 可以处理任意分辨率的图像，而无需将其分割成块，从而确保模型输入与图像固有信息之间的一致性。这种方法更接近地模仿人类的视觉感知，使模型能够处理任何清晰度或大小的图像。另一个关键架构增强是 Multimodal Rotary Position Embedding（M-

8/30/2024 8:51:15 AM

沛霖（实习）

谷歌将重新开放 Gemini 生成人物图像功能，此前因“种族描述不当”引争议

感谢北京时间 29（今）日，据彭博社报道，谷歌宣布将恢复 AI 模型 Gemini 生成人物图像的功能，部分消费者将可以重新使用。谷歌表示，将开始向订阅 Gemini Advanced 套餐的英语用户推出生成人物图像功能。企业也将能够使用该工具，该功能将在未来几天内上线。谷歌产品管理高级总监戴夫・西特伦（Dave Citron）表示，该公司在通过 Imagen 3 生成人物描写方面取得了“重大进展”。“我们一直在努力对产品进行技术改进，并改进了评估集、红队练习和明确的产品原则。当然，Gemini 创建的每张图像都不

8/29/2024 10:26:42 AM

清源

Freepik Mystic 发布，号称目前最先进的 AI 图像生成器

Magnific AI 和 Freepik 今日联合推出了 Freepik Mystic，宣称是目前最先进的 AI 图像生成器，也是唯一可以直接生成全高清图像的 AI 图像生成器。与 Midjourney 和 OpenAI 的 Dall-E 不同，Mystic 并非基础模型，而是一个结合 Flux 基础模型、微调、高分辨率图像生成技术和参数调整的流程。Mystic 能够生成高质量的图像，包括写实肖像、动物、风景、奇幻场景、室内设计和建筑概念、像素艺术、游戏元素、表情包等多种类型的图像。这些图像由顶尖摄影师、数字艺术

8/28/2024 11:20:03 AM

远洋

防止黑客重建人脸，浙大 & 阿里推出人脸隐私保护新方案 FaceObfuscator

对人脸数据安全的担忧，有新解了！浙江大学与阿里安全部联手，推出了新的人脸隐私保护方案 FaceObfuscator。不法分子即使从数据库中获取到人脸特征，也无法使用各类重构攻击还原人脸数据、窃取人脸隐私。新型重构攻击，威胁人脸隐私人脸识别是一项基于人脸特征信息进行身份识别的生物识别技术，广泛应用于金融、安防与民生。在使用人脸识别系统前，首先需要录入人脸信息，这些人脸信息会以人脸特征的形式被保存在服务商的人脸数据库中用于之后的实时人脸识别与身份认证。▲ 主流的人脸识别架构然而，网络和数据安全保障机制的欠缺容易导致人脸

8/27/2024 4:27:56 PM

汪淼

云知声推出山海多模态大模型：实时生成文本、音频和图像

云知声于 23 日宣布推出山海多模态大模型。通过整合跨模态信息，山海多模态大模型能够接收文本、音频、图像等多种形式作为输入，并实时生成文本、音频和图像的任意组合输出。▲ 云知声山海助手微信小程序AI在线获悉，山海多模态大模型有如下特点：实时秒回，自由插话：与现实对话中人类的响应时间相似；支持对话随时打断，用户可在对话中任意插话感知情绪，表达情绪：通过语音文本判断用户情绪，还能捕捉用户语音的语气、节奏和音调等微妙变化，感知对方情绪状态音色自由切换：根据用户的个性化需求，自由切换音色；学习用户的音色、风格，复刻用户声音

8/26/2024 1:56:12 PM

沛霖（实习）

Meta 发布 Sapiens 视觉模型，让 AI 分析和理解图片 / 视频中人类动作

Meta Reality 实验室最新推出了名为 Sapiens 的 AI 视觉模型，适用于二维姿势预估、身体部位分割、深度估计和表面法线预测 4 种以人为中心的基本视觉任务。这些模型的参数数量各不相同，从 3 亿到 20 亿不等。它们采用视觉转换器架构，任务共享相同的编码器，而每个任务有不同的解码器头。二维姿势预估：这项任务包括检测和定位二维图像中人体的关键点。这些关键点通常与肘、膝和肩等关节相对应，有助于了解人的姿势和动作。身体部位分割：这项任务将图像分割成不同的身体部位，如头部、躯干、手臂和腿部。图像中的每个像

8/24/2024 2:36:02 PM

故渊

Meta 研发新方法：整合语言和扩散 AI 模型，降低计算量、提高运算效率、优化生成图像

Meta AI 公司最新推出了 Transfusion 新方法，可以结合语言模型和图像生成模型，将其整合到统一的 AI 系统中。AI在线援引团队介绍，Transfusion 结合了语言模型在处理文本等离散数据方面的优势，以及扩散模型在生成图像等连续数据方面的能力。Meta 解释说，目前的图像生成系统通常使用预先训练好的文本编码器来处理输入的提示词，然后将其与单独的扩散模型结合起来生成图像。许多多模态语言模型的工作原理与此类似，它们将预先训练好的文本模型与用于其他模态的专用编码器连接起来。不过 Transfusion

8/24/2024 6:57:06 AM

故渊

Meta 公司发布 Imagine Yourself：无需为特定对象微调的个性化图像生成 AI 模型

从社交媒体到虚拟现实，个性化图像生成因其在各种应用中的潜力而日益受到关注。传统方法通常需要针对每位用户进行大量调整，从而限制了效率和可扩展性，为此 Meta 公司创新提出了“Imagine Yourself” AI 模型。传统个性化图像生成方法挑战目前的个性化图像生成方法通常依赖于为每个用户调整模型，这种方法效率低下，而且缺乏通用性。虽然较新的方法试图在不进行调整的情况下实现个性化，但它们往往过度拟合，导致复制粘贴效应。Imagine Yourself 创新Imagine Yourself 模型不需要针对特定用户微

8/23/2024 1:41:31 PM

故渊

资讯热榜

企业级模型推理部署工具vllm使用指南 - 部署最新deepseek-v3-0324模型全能且实用！实战测评谷歌最新模型Gemini 2.5 Pro 大模型部署工具 Ollama 使用指南：技巧与问题解决全攻略基于 DeepSeek GRPO 的 1.5B Rust 代码生成模型训练实战 DeepSeek R1 vs OpenAI O3 vs Gemini 2 Pro—谁最适合做客服主管的AI 模态编码器|CLIP详细解读 50组多风格提示词，全面测评Midjourney V7生图效果！斯坦福2025 AI指数出炉！中美AI对决差距仅剩0.3%，DeepSeek领衔

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习 GPT 开源微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D AI设计 Anthropic 机器学习 GPU 开发者场景华为预测伟达 Transformer 百度深度学习模态苹果 AI视频驾驶文本搜索 xAI 人形机器人 Copilot 神器推荐 LLaMA 大语言模型具身智能字节跳动 Claude 算力安全应用视频生成科技视觉干货合集亚马逊 2024 AGI 特斯拉 DeepMind 架构