图像

Adobe Photoshop 引入全新 Firefly Image 3 图像 AI 模型，Beta 版开放下载

去年以来，Adobe 一直在其各种软件产品中添加大量基于 AI 的功能，其中包括基于 Firefly AI 的图像生成功能，用于 Photoshop 等 Creative Cloud 应用。今天，Adobe 宣布推出新版 Photoshop，不仅包含一些新的 AI 图像编辑功能和改进，还包含新的 Firefly Image 3 Foundation Model，用于根据文本提示制作基于 AI 的内容。Adobe 在官方新闻稿中表示，与之前的版本相比，Firefly Image 3 将能够创建质量更高、种类更多、细节

4/23/2024 6:49:01 PM

汪淼

融合 ChatGPT+DALL・E 3，贾佳亚团队新作开源畅玩：识图推理生图一站解决

在开源社区中把 GPT-4 Dall・E 3 能⼒整合起来的模型该有多强？香港中文大学终身教授贾佳亚团队提出多模态模型 Mini-Gemini：更高清图像的精确理解、更高质量的训练数据、更强的图像解析推理能力，还能结合图像推理和生成，堪称王炸。Mini-Gemini 还提供了 2B 小杯到 34B 的超大杯，最强模型在多个指标上相比谷歌的 Gemini Pro 甚至 GPT-4V 都不遑多让。目前，Mini-Gemini 从代码、模型到数据已全部开源，登上了 PaperWithCode 热榜。Mini-Gemini

4/15/2024 4:07:17 PM

清源

AI在用 | 想让手机壁纸脱胎换骨?试试Midjourney

机器之能报道编辑：Cardinal以大模型、AIGC为代表的人工智能浪潮已经在悄然改变着我们生活及工作方式，但绝大部分人依然不知道该如何使用因此，我们推出了「AI在用」专栏，通过直观、有趣且简洁的人工智能使用案例，来具体介绍AI使用方法，并激发大家思考。我们也欢迎读者投稿亲自实践的创新型用例。周末了，我们分享一个轻松有趣的玩法——用图像生成器 Midjourney （v 6.0）DIY 漂亮壁纸。来自X用户@eslwithtinaX 用户 @umesh_ai 用一个简单提示就创建非常美丽壁纸！案例地址：：w

4/12/2024 3:37:00 PM

机器之能

ChatGPT 网页 / 移动端整合文生图工具 DALL-E 3，加入图像局部修改功能

感谢今日凌晨，OpenAI 发文宣布：用户现在可以在 ChatGPT 中跨 Web、iOS 和 Android 使用 DALL-E 生成图像。除此之外，用户还可以通过添加、删除或调整图像中的元素来完善自己的 DALL-E 作品。用户可以通过选择工具选择图像的特定部分，并提供描述所需更改的文本提示。然后，DALL-E 将使用这些信息生成反映编辑内容的新版本图像。IT之家附官方演示视频：前述 DALL-E 3 的编辑功能已经在本月初发布，但当时未被整合到 ChatGPT 中。OpenAI 表示通过引入该编辑器，进一步

4/4/2024 11:52:06 AM

清源

OpenAI 为 DALL-E 3 引入编辑功能：进一步精细化调整已生成图片

OpenAI 公司近日发布公告，宣布为 DALL-E 3 引入全新的编辑界面，在基于用户文本生成图片之后，可以继续根据用户描述精细化调整已生成的图片。DALL-E 编辑器提供两种主要编辑方法：基于选择区域的编辑：在 DALL-E 3 生成图片之后，用户可以选中已生成图片中的特定区域，然后再在聊天界面，输入提示词要求 DALL-E 3 进行微调。对话式编辑：在 DALL-E 3 生成图片之后，用户无需选择特定区域，在聊天窗口中直接描述自己的编辑内容，这种方法适用于编辑调整整个图像。OpenAI 表示通过引入该编辑器，

4/2/2024 9:01:47 AM

故渊

麻省理工学院携手 Adobe 演示 DMD AI 技术：每秒可生成 20 幅图像

主流文生图模型固然已经能生成非常逼真的图片，但通常渲染时间非常缓慢。麻省理工学院携手 Adobe 公司近日研发了 DMD 方法，在尽量不影响图像质量的情况下，加快图像生成速度。DMD 技术的全称是 Distribution Matching Distillation，将多步扩散模型简化为一步图像生成解决方案。团队表示：“我们的核心理念是训练两个扩散（diffusion）模型，不仅能预估目标真实分布（real distribution）的得分函数，还能估计假分布（fake distribution）的得分函数。”研究

3/27/2024 1:48:43 PM

故渊

登Nature子刊，哈佛医学院发布迄今最大计算病理学基础模型，适用30+临床需求

编辑 | X基础模型有望为医学领域带来前所未有的进步。在计算病理学 (CPath) 中，基础模型在提高诊断准确性、预后以及预测治疗反应方面发挥着关键作用。近日，美国麻省总医院（Massachusetts General Hospital）、哈佛医学院等组成研究团队设计了迄今为止最大的两个 CPath 基础模型：UNI 和 CONCH。这些基础模型适用于 30 多种临床和诊断需求，包括疾病检测、疾病诊断、器官移植评估和罕见疾病分析。新模型克服了当前模型的局限性，不仅在研究人员测试的临床任务中表现良好，而且在识别新的、

3/21/2024 3:55:00 PM

ScienceAI

无需提示词，Stability AI 演示 MindEye：目标想什么就能生成什么

AI 浪潮席卷而来，此前不少人认为“提示词工程师”会成为新兴工种，而 MindEye 的问世表明，这个岗位或许没有存在的价值了。此前不少人认为，未来 AI 时代并不在于某个模型是否强大，而是在于人类是否能够更高效利用这些 AI 模型，完成特定任务。这也诞生了“提示词工程师”概念，该工程师能够比普通人更能理解 AI，能够提出更准确的提示词，从而让 AI 满足其要求输出。而 StabilityAI 于 2023 年 7 月推出 MindEye1，近日再次推出了 MindEye2，让“提示词工程师”的价值大幅降低，该模型

3/21/2024 8:14:18 AM

故渊

Midjourney 能让角色保持一致了！网友实测称直呼“改变游戏规则”

Midjourney 发布新功能，网友直呼“不可思议”！现在你可以让生成的图像几乎保持角色一致，belike：所有超级英雄长一个模样盯着你。甚至动漫风、写实风等跨风格生成也同样适用：保持同一风格，感觉配上文字可以讲一个故事了：面部、着装、发型可调控，换装玩法 get：新功能名为角色参照（Character Reference），和之前的风格参照类似，不过这次不是保持风格一致，而是保持生成图像的角色与给定的参照角色一致。网友们已经玩嗨了，纷纷表示这是迄今为止 Midjourney 最大的更新：还有网友认为生成式 AI

3/12/2024 10:25:25 PM

清源

微软 Microsoft Designer 屏蔽特定提示词，避免 Copilot 生成不良价值导向图片

Microsoft Designer 是一款基于 Copilot / DALLE 3.0 的视觉设计应用，可以仅用几个提示词让 AI 为你生成所需图像，还能帮用户去除图片背景，生成个性化贴纸等。CNBC 发现，Microsoft Designer 在遇到一些特定的提示词时，例如“pro-choice”“four twenty” “pro-life”等，会生成一些涉及色情、暴力方面的不良图片，目前这些特定的提示词已经被微软禁用。注：pro life 与 pro choice 是伴随堕胎合法权而产生的一组词，可以理解为

3/9/2024 5:53:33 PM

问舟

阿里巴巴推出 AtomoVideo 高保真图生视频框架，兼容多种文生图模型

感谢阿里巴巴研究团队近日推出了 AtomoVideo 高保真图生视频（I2V，Image to Video）框架，旨在从静态图像生成高质量的视频内容，并与各种文生图（T2I）模型兼容。 ▲ 图源 AtomoVIdeo 团队论文IT之家总结 AtomoVideo 特性如下：高保真度：生成的视频与输入图像在细节与风格上保持高度一致性运动一致性：视频动作流畅，确保时间上的一致性，不会出现突兀的跳转视频帧预测：通过迭代预测后续帧的方式，支持长视频序列的生成兼容性：与现有的多种文生图（T2I）模型兼容高语义可控性：能够根据用

3/7/2024 11:10:04 AM

泓澄（实习）

美图AI局部重绘技术大揭秘！想怎么改，就怎么改！美图局部重绘让你随心所欲

最近，靠着出其不意的扩图效果，“AI扩图”功能凭借搞笑的补全结果频频出圈，火爆全网。网友们踊跃尝试，180度的大反转也让网友们直呼离谱，话题热度高居不下。在带来欢笑和热度的背后，也代表人们在时刻关注着AI究竟能不能真正帮助他们解决实际问题，优化使用体验。但可以预见的是，随着AIGC技术的快速发展，正在加速推动AI应用场景落地，我们也将迎来一场全新的生产力变革。近日，美图公司旗下WHEE等产品上线AI扩图及AI改图功能，只需简单的提示性输入，用户就可以任意修改图像、移除画面元素、扩充画面，凭借便捷的操作与惊艳的效果，

3/1/2024 6:50:00 PM

新闻助手

推出不到一个月，谷歌Gemini翻车了

机器之能报道编辑：Sia谷歌下架 Gemini 人物图像生成服务。三月前，谷歌 Gemini 轰轰烈烈亮相，被描述为谷歌“最大、最有能力和最通用”的 AI 系统，并补充说它具有复杂的推理和编码能力。2 月 8 日，谷歌聊天机器人 Bard 正式更名为 Gemini，以反映新聊天机器人的“使命”——提供对“最有能力的模型系列”的访问。结果，推出不到一个月，Gemini 就捅了个大篓子。用户使用人像生成服务时发现，让 Gemini 承认白人的存好像非常困难，AI 拒绝在图像中描绘白人，以至于生成不少违背基本事实（性别、

2/23/2024 6:20:00 PM

机器之能

盘点如何用AI做动画，还有各种工具等你取用

图像生成、视频生成、整合语音合成的人脸动画、生成三维的人物运动以及 LLM 驱动的工具…… 一切都在这篇文章中。生成式 AI 已经成为互联网的一个重要内容来源，现在你能看到 AI 生成的文本、代码、音频、图像以及视频和动画。今天我们要介绍的文章来自立陶宛博主和动画师 aulerius，其中按层级介绍和分类了动画领域使用的生成式 AI 技术，包括简要介绍、示例、优缺点以及相关工具。他写道：「作为一位动画制作者，我希望一年前就有这样一份资源，那时候我只能在混乱的互联网上自行寻找可能性和不断出现的进展。」本文的目标读者是

2/19/2024 3:03:00 PM

机器之心

OPPO、锐思智芯、高通三方携手，共同推动智能手机影像AI Motion变革

2024年1月11日——OPPO，锐思智芯，高通近期发布，合作推动创新性融合视觉传感(Hybrid Vision Sensing，HVS®)技术在智能手机领域应用。通过HVS®传感器来更高效地提取运动信息和图像数据，从而帮助进一步改善拍照性能并实现影像的AI Motion功能。三方将合作开发一套完整方案，包括从Hybrid Vision Sensor获取原始视觉信息，传输至骁龙® 移动平台，并搭配专用算法。该合作方案将帮助实现智能手机影像创新功能，如拍照去模糊，超分辨率，和视频超慢动作重建等需要基于图像和运动信息结

1/11/2024 10:32:00 AM

超详细的 Stable Diffusion ComfyUI 基础教程（五）：局部重绘+智能扩图

前言：我们上一节讲了图生图，也提到了“遮罩”这个节点；我们想一下在使用 Web UI 进行局部重绘的时候都用到了那些功能？上期回顾：内容补充：在开始之前我先给大家补充个知识点，怎么在图生图的时候批量出图“右键-新建节点- Latent-批处理-复制 Latent 批次”，把“复制 Latent 批次”节点串联在“VAE 编码”和“K 采样器”之间，然后设置次数就可以了。一、创建流程 ①我们打开上节课“图生图”的流程图，我们可以看到“加载图像”节点是没有地方连接的，点住“遮罩”往外拉，松开然后选择“VAE 内补编

12/29/2023 12:03:45 AM

搞设计的花生仁

Nature | 一场人工智能革命正在医学领域酝酿，它会是什么样子？

编辑 | 绿萝10 月 24 日，《Nature》发布了一篇题为《An AI revolution is brewing in medicine. What will it look like?》的新闻专稿。文章指出 AI 模型应用于医疗的当前局限性，新兴的通才模型可以克服第一代机器学习工具在临床使用中的一些局限性。为了解决医学人工智能工具的一些局限性，研究人员一直在探索具有更广泛功能的医学人工智能。并介绍了一些大型科技公司在医疗成像的基础模型。Jordan Perchik 在美国阿拉巴马大学伯明翰分校（The U

10/25/2023 2:51:00 PM

ScienceAI

178页！GPT-4V（ision）医疗领域首个全面案例测评：离临床应用与实际决策尚有距离

上海交大&上海AI Lab发布178页GPT-4V医疗案例测评，首次全面揭秘GPT-4V医疗领域视觉性能。

10/18/2023 9:39:00 AM

FM4Medicine

资讯热榜

企业级模型推理部署工具vllm使用指南 - 部署最新deepseek-v3-0324模型全能且实用！实战测评谷歌最新模型Gemini 2.5 Pro 大模型部署工具 Ollama 使用指南：技巧与问题解决全攻略基于 DeepSeek GRPO 的 1.5B Rust 代码生成模型训练实战 DeepSeek R1 vs OpenAI O3 vs Gemini 2 Pro—谁最适合做客服主管的AI 模态编码器|CLIP详细解读 50组多风格提示词，全面测评Midjourney V7生图效果！斯坦福2025 AI指数出炉！中美AI对决差距仅剩0.3%，DeepSeek领衔

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习 GPT 开源微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D AI设计 Anthropic 机器学习 GPU 开发者场景华为预测伟达 Transformer 百度深度学习模态苹果 AI视频驾驶文本搜索 xAI 人形机器人 Copilot 神器推荐 LLaMA 大语言模型具身智能字节跳动 Claude 算力安全应用视频生成科技视觉干货合集亚马逊 2024 AGI 特斯拉 DeepMind 架构