全部标签

图像

2024年10月出海AI网站流量排行榜

AI在线发布 2024年10月全球和国内AI网站流量排行榜、全球AI网站增长率排行榜，并联合哥飞的朋友们出海社群发布出海AI网站流量排行榜！
榜单
- 1
- 0
admin11月12日
图像伪造照妖镜：北大发布多模态 LLM 图像篡改检测定位框架 FakeShield

北京大学的研究人员开发了一种新型多模态框架 FakeShield，能够检测图像伪造、定位篡改区域，并提供基于像素和图像语义错误的合理解释，可以提高图像伪造检测的可解释性和泛化能力。随着生成式人工智能（AIGC）的迅猛发展，图像编辑与合成技术变得愈加成熟与普及。这一趋势为图像内容创作带来了便捷的同时，也显著增加了篡改检测的难度。
应用
- 6
- 0
问舟10月24日
谷歌 Fluid 颠覆共识：两大因素被发现，AI 文生图领域自回归模型超越扩散模型

科技媒体 The Decoder 昨日（10 月 22 日）发布博文，报道称谷歌 DeepMind 团队携手麻省理工学院（MIT），推出了全新的“Fluid”模型，在规模达到 105 亿参数时候，能取得最佳的文生图效果。目前在文生图领域，行业内的一个共识是自回归模型（Autoregressive Models）不如扩散模型（Diffusion Models）。 AI在线简要介绍下这两种模型：扩散…
应用
- 4
- 0
故渊10月23日
AIGC时代如何打击图片造假诈骗？合合信息文档篡改检测有妙招

近日，第七届中国模式识别与计算机视觉大会（简称“PRCV 2024”）在乌鲁木齐举办。大会由中国自动化学会（CAA）、中国图象图形学学会（CSIG）、中国人工智能学会（CAAI）和中国计算机学会（CCF）联合主办，新疆大学承办。作为模式识别和计算机视觉领域学术盛会，PRCV 2024吸引了众多国内外科研工作者及行业从业者参与，分享最新理论研究进展和技术研发成果，促进产学研交流与合作。
应用
- 5
- 0
机器之心10月22日
Midjourney 下周上线新图像编辑器：让“二创”AI 图片变得更简单

首席执行官 David Holz 昨日在 Discord 平台宣布，将于下周为 Midjourney 推出全新的 AI 图像编辑器工具。用户上传图像后可展开包括放大、缩小、调整角度等多种操作，这些操作不再需要 Discord，只需简单命令即可完成；用户可以使用数字画笔进行修补，进行更精细的修改。此外该 AI 图像编辑器还可以基于上传图像的深度信息生成新图片，保留原始构图和内容不变的情况下，彻底改变…
应用
- 6
- 0
故渊10月22日
智源发布原生多模态世界模型 Emu3，宣称实现图像、文本、视频大一统

感谢智源研究院今日发布原生多模态世界模型 Emu3。该模型只基于下一个 token 预测，无需扩散模型或组合方法，即可完成文本、图像、视频三种模态数据的理解和生成。官方宣称实现图像、文本、视频大一统。
应用
- 8
- 0
沛霖（实习）10月21日
RTX 4090 笔记本 0.37 秒直出大片：英伟达联手 MIT 清华祭出 Sana 架构，速度秒杀 FLUX

一台 4090 笔记本，秒生 1K 质量高清图。英伟达联合 MIT 清华团队提出的 Sana 架构，得益于核心架构创新，具备了惊人的图像生成速度，而且最高能实现 4k 分辨率。一台 16GB 的 4090 笔记本，仅需 0.37 秒，直接吐出 1024×1024 像素图片。
应用
- 5
- 0
问舟10月17日
2024年9月出海AI网站流量排行榜

AI在线发布 2024年9月全球和国内AI网站流量排行榜、全球AI网站增长率排行榜，并联合哥飞的朋友们出海社群发布出海AI网站流量排行榜！
榜单
- 10
- 0
admin10月8日
阿里妈妈开源全新 AI 图像修复模型 FLUX-Controlnet-Inpainting

阿里妈妈创意团队宣布开源 FLUX-Controlnet-Inpainting AI 图像修复模型。该模型宣称结合了 FLUX.1-dev 和 ControlNet 的优势，能高质量修复图像。模型可以理解用户语言描述，并修复图像且支持改变风格，官方示例如下：FLUX-Controlnet-Inpainting 与 SDXL-Inpainting 相比，生成内容效果对比如下（输入图像 | 蒙版图像 …
应用
- 14
- 0
汪淼9月30日
准确率87.6%，南农、国防科大、苏大等发布显微图像分类AI新方法

编辑 | 萝卜皮在医学显微图像分类（MIC）领域，基于 CNN 和 Transformer 的模型得到了广泛的研究。然而，CNN 在建模长距离依赖关系方面存在短板，限制了其充分利用图像中语义信息的能力。相反，Transformer 受到二次计算复杂性的制约。为了解决这些挑战，南京农业大学、国防科技大学、湘潭大学、南京邮电大学、苏州大学组成的联合研究团队提出了一个基于 Mamba 架构的模型：Mic…
理论
- 20
- 0
ScienceAI9月23日
阿里提出结构保持的AI视觉算法：显著提升HDR图像转LDR图像质量

9月21日，记者在2024云栖大会上获悉，阿里巴巴达摩院计算技术实验室提出了一种基于结构保持网络的AI视觉算法，可将高动态范围（HDR）场景图像自动转换为低动态范围（LDR）图像并保持其纹理细节，在常规显示设备上的图像质量相比业界提升7%。HDR图像同时包含强光源照射下的极亮区域和阴影、逆光下的极暗区域，容易出现明亮区域过曝、或者黑暗区域纯黑的情况，必须经过宽动态技术处理才能适配常规显示设备。传统…
理论
- 2
- 0
新闻助手9月23日
文生图 AI Midjourney 雄心：7.0 版未来 1-2 月登场、开发新图像编辑器、探索 3D 系统、踏足硬件领域

科技媒体 The Decoder 昨日（9 月 12 日）发布博文，报道称在最近的“Office Hours”活动中，Midjourney 创始人兼首席执行官 David Holz 在 Discord 分享了当前项目的最新进展，并回答了社区的提问。Midjourney 7.0 版本Holz 更新了 Midjourney 7.0 版本时间表，表示将会在未来 1-2 月内发布。让更多人体验 Midjo…
应用
- 14
- 0
故渊9月13日
韩国 N 号房卷土重来：这一次是 Deepfake，波及超 200 所学校

Deepfake（深度伪造），再度深陷舆论的风波。这一次，用这项 AI 技术犯罪的严重程度被网友直呼是“韩国 N 号房 2.0”，魔爪甚至伸向了众多未成年人！事件影响之大，直接冲上了各大热搜、热榜。早在今年 5 月，《韩联社》便通报过一则消息，内容是：首尔大学毕业生朴某和姜某，从 2021 年 7 月至 2024 年 4 月，涉嫌利用 Deepfake 换脸合成色情照片和视频，并在通信软件 Tel…
应用
- 20
- 0
清源8月30日
阿里通义千问推出 Qwen2-VL：开源 2B / 7B 模型，处理任意分辨率图像无需分割成块

通义千问团队今天对 Qwen-VL 模型进行更新，推出 Qwen2-VL。Qwen2-VL 的一项关键架构改进是实现了动态分辨率支持（Naive Dynamic Resolution support）。与上一代模型 Qwen-VL 不同，Qwen2-VL 可以处理任意分辨率的图像，而无需将其分割成块，从而确保模型输入与图像固有信息之间的一致性。这种方法更接近地模仿人类的视觉感知，使模型能够处理任何…
应用
- 8
- 0
沛霖（实习）8月30日
谷歌将重新开放 Gemini 生成人物图像功能，此前因“种族描述不当”引争议

感谢北京时间 29（今）日，据彭博社报道，谷歌宣布将恢复 AI 模型 Gemini 生成人物图像的功能，部分消费者将可以重新使用。谷歌表示，将开始向订阅 Gemini Advanced 套餐的英语用户推出生成人物图像功能。企业也将能够使用该工具，该功能将在未来几天内上线。谷歌产品管理高级总监戴夫・西特伦（Dave Citron）表示，该公司在通过 Imagen 3 生成人物描写方面取得了“重大进展…
应用
- 10
- 0
清源8月29日
Freepik Mystic 发布，号称目前最先进的 AI 图像生成器

Magnific AI 和 Freepik 今日联合推出了 Freepik Mystic，宣称是目前最先进的 AI 图像生成器，也是唯一可以直接生成全高清图像的 AI 图像生成器。与 Midjourney 和 OpenAI 的 Dall-E 不同，Mystic 并非基础模型，而是一个结合 Flux 基础模型、微调、高分辨率图像生成技术和参数调整的流程。Mystic 能够生成高质量的图像，包括写实肖…
应用
- 31
- 0
远洋8月28日
防止黑客重建人脸，浙大 & 阿里推出人脸隐私保护新方案 FaceObfuscator

对人脸数据安全的担忧，有新解了！浙江大学与阿里安全部联手，推出了新的人脸隐私保护方案 FaceObfuscator。不法分子即使从数据库中获取到人脸特征，也无法使用各类重构攻击还原人脸数据、窃取人脸隐私。新型重构攻击，威胁人脸隐私人脸识别是一项基于人脸特征信息进行身份识别的生物识别技术，广泛应用于金融、安防与民生。在使用人脸识别系统前，首先需要录入人脸信息，这些人脸信息会以人脸特征的形式被保存在服…
应用
- 32
- 0
汪淼8月27日
云知声推出山海多模态大模型：实时生成文本、音频和图像

云知声于 23 日宣布推出山海多模态大模型。通过整合跨模态信息，山海多模态大模型能够接收文本、音频、图像等多种形式作为输入，并实时生成文本、音频和图像的任意组合输出。▲ 云知声山海助手微信小程序AI在线获悉，山海多模态大模型有如下特点：实时秒回，自由插话：与现实对话中人类的响应时间相似；支持对话随时打断，用户可在对话中任意插话感知情绪，表达情绪：通过语音文本判断用户情绪，还能捕捉用户语音的语气、节…
应用
- 17
- 0
沛霖（实习）8月26日
Meta 发布 Sapiens 视觉模型，让 AI 分析和理解图片 / 视频中人类动作

Meta Reality 实验室最新推出了名为 Sapiens 的 AI 视觉模型，适用于二维姿势预估、身体部位分割、深度估计和表面法线预测 4 种以人为中心的基本视觉任务。这些模型的参数数量各不相同，从 3 亿到 20 亿不等。它们采用视觉转换器架构，任务共享相同的编码器，而每个任务有不同的解码器头。二维姿势预估：这项任务包括检测和定位二维图像中人体的关键点。这些关键点通常与肘、膝和肩等关节相对…
应用
- 32
- 0
故渊8月24日
Meta 研发新方法：整合语言和扩散 AI 模型，降低计算量、提高运算效率、优化生成图像

Meta AI 公司最新推出了 Transfusion 新方法，可以结合语言模型和图像生成模型，将其整合到统一的 AI 系统中。AI在线援引团队介绍，Transfusion 结合了语言模型在处理文本等离散数据方面的优势，以及扩散模型在生成图像等连续数据方面的能力。Meta 解释说，目前的图像生成系统通常使用预先训练好的文本编码器来处理输入的提示词，然后将其与单独的扩散模型结合起来生成图像。许多多模…
应用
- 35
- 0
故渊8月24日
Meta 公司发布 Imagine Yourself：无需为特定对象微调的个性化图像生成 AI 模型

从社交媒体到虚拟现实，个性化图像生成因其在各种应用中的潜力而日益受到关注。传统方法通常需要针对每位用户进行大量调整，从而限制了效率和可扩展性，为此 Meta 公司创新提出了“Imagine Yourself” AI 模型。传统个性化图像生成方法挑战目前的个性化图像生成方法通常依赖于为每个用户调整模型，这种方法效率低下，而且缺乏通用性。虽然较新的方法试图在不进行调整的情况下实现个性化，但它们往往过度…
应用
- 22
- 0
故渊8月23日
Midjourney 官宣网页版免费用，前谷歌大佬祭出 AI 生图 Ideogram 2.0

Midjourney 一度稳居 AI 生图的第一梯队，甚至是很多人心中的 Top1。但是 Ideogram 2.0 的发布，抢夺了 Midjourney 的荣光，不仅一举拉高了图像生成质量，还打起了价格战。曾经在 AI 图像生成领域无可匹敌的领导者 Midjourney，终于听劝了，上周五推出了网页版图像编辑器。新编辑器巧妙集成了重绘、缩放等核心功能。不仅提高了操作效率，而且使整体交互逻辑更加清晰…
应用
- 18
- 0
问舟8月22日
谷歌 Pixel 9 手机的 AI 图像生成工具“放飞自我”，或成“造假利器”

谷歌上周发布了 Pixel 9 系列智能手机，其中包含一系列以人工智能为核心的新功能。所有 Pixel 9 手机均支持 Gemini 人工智能，谷歌还加入了基于人工智能的图像生成和编辑工具。然而，评测人员测试了这些新功能后发现，人工智能图像生成很可能会成为谷歌的公关噩梦。据AI在线了解，谷歌为 Pixel 手机推出了一个名为 Pixel Studio 的人工智能图像生成应用，其能够通过文本提示创建…
应用
- 13
- 0
远洋8月22日
特朗普持枪火拼、哈里斯扮作小丑……发布不到一天的Grok 2，摊上大事了！

机器之能报道编辑：杨文Grok 2，你是懂如何背刺自家老板的。Grok 2 刚发布不到一天，就摊上事了。事情是这样的：昨天，马斯克旗下的 xAI 发布新一代大模型 Grok 2，并称已与初创公司 Black Forest Labs 展开合作，试验他们的 FLUX 模型。本来是强强联合的一件好事，但由于 FLUX 模型对于生成的图像没有严格的限制，导致 X 上充斥着大量让人瞠目结舌的图像。例如，扮作…
应用
- 13
- 0
机器之能8月15日