北大开源全新图像压缩感知网络:参数量、推理时间大幅节省,性能显著提升 | 顶刊TPAMI
压缩感知(Compressed Sensing,CS)是一种信号降采样技术,可大幅节省图像获取成本,其核心思想是「无需完整记录图像信息,通过计算即可还原目标图像」。 CS的典型应用包括:降低相机成本:利用廉价设备就能拍摄出高质量图像;加速医疗成像:将核磁共振成像(MRI)时间从40分钟缩短至10分钟内,减少被检查者的不适;探索未知世界,助力科学研究:将「看不见」的事物变为「看得见」,如观测细胞活动…- 975
- 0
图像领域再次与LLM一拍即合!idea撞车OpenAI强化微调,西湖大学发布图像链CoT
OpenAI最近推出了在大语言模型LLM上的强化微调(Reinforcement Finetuning,ReFT),能够让模型利用CoT进行多步推理之后,通过强化学习让最终输出符合人类偏好。 无独有偶,齐国君教授领导的MAPLE实验室在OpenAI发布会一周前公布的工作中也发现了图像生成领域的主打方法扩散模型和流模型中也存在类似的过程:模型从高斯噪声开始的多步去噪过程也类似一个思维链,逐步「思考」…- 972
- 0
CCF-CV携手合合信息打造技术分享论坛,聚焦大模型时代中的视觉安全前沿热点
近期,《咬文嚼字》杂志发布了2024年度十大流行语,“智能向善”位列其中,过去一年时间里,深度伪造、AI诈骗等话题屡次登上热搜,AI技术“野蛮生长”引发公众担忧。 今年9月,全国网络安全标准化技术委员会发布了《人工智能安全治理框架》,指出人工智能既面临自身技术缺陷、不足带来的内生风险,也面临不当使用、滥用甚至恶意利用带来的外部风险。 为探寻AI安全治理道路,近期,由中国计算机学会计算机视觉专委会主…- 973
- 0
九大成像模式一键解析,生物医学图像AI再迎突破!微软、UW等BiomedParse登Nature子刊
作者 | BiomedParse团队编辑 | ScienceAI生物医学图像解析在癌症诊断、免疫治疗和疾病进展监测中至关重要。 然而,不同的成像模式(如MRI、CT和病理学)通常需要单独的模型,造成资源浪费和效率低下,未能充分利用模式间的共性知识。 微软团队最新发布的基础模型BiomedParse,开创性地通过文本驱动图像解析将九种成像模式整合于一个统一的模型中,通过联合预训练处理对象识别、检测与…- 987
- 0
图像伪造照妖镜:北大发布多模态 LLM 图像篡改检测定位框架 FakeShield
北京大学的研究人员开发了一种新型多模态框架 FakeShield,能够检测图像伪造、定位篡改区域,并提供基于像素和图像语义错误的合理解释,可以提高图像伪造检测的可解释性和泛化能力。 随着生成式人工智能(AIGC)的迅猛发展,图像编辑与合成技术变得愈加成熟与普及。 这一趋势为图像内容创作带来了便捷的同时,也显著增加了篡改检测的难度。- 10
- 0
谷歌 Fluid 颠覆共识:两大因素被发现,AI 文生图领域自回归模型超越扩散模型
科技媒体 The Decoder 昨日(10 月 22 日)发布博文,报道称谷歌 DeepMind 团队携手麻省理工学院(MIT),推出了全新的“Fluid”模型,在规模达到 105 亿参数时候,能取得最佳的文生图效果。 目前在文生图领域,行业内的一个共识是自回归模型(Autoregressive Models)不如扩散模型(Diffusion Models)。 AI在线简要介绍下这两种模型:扩散…- 8
- 0
AIGC时代如何打击图片造假诈骗?合合信息文档篡改检测有妙招
近日,第七届中国模式识别与计算机视觉大会(简称“PRCV 2024”)在乌鲁木齐举办。大会由中国自动化学会(CAA)、中国图象图形学学会(CSIG)、中国人工智能学会(CAAI)和中国计算机学会(CCF)联合主办,新疆大学承办。作为模式识别和计算机视觉领域学术盛会,PRCV 2024吸引了众多国内外科研工作者及行业从业者参与,分享最新理论研究进展和技术研发成果,促进产学研交流与合作。- 6
- 0
Midjourney 下周上线新图像编辑器:让“二创”AI 图片变得更简单
首席执行官 David Holz 昨日在 Discord 平台宣布,将于下周为 Midjourney 推出全新的 AI 图像编辑器工具。用户上传图像后可展开包括放大、缩小、调整角度等多种操作,这些操作不再需要 Discord,只需简单命令即可完成;用户可以使用数字画笔进行修补,进行更精细的修改。此外该 AI 图像编辑器还可以基于上传图像的深度信息生成新图片,保留原始构图和内容不变的情况下,彻底改变…- 23
- 0
智源发布原生多模态世界模型 Emu3,宣称实现图像、文本、视频大一统
感谢智源研究院今日发布原生多模态世界模型 Emu3。该模型只基于下一个 token 预测,无需扩散模型或组合方法,即可完成文本、图像、视频三种模态数据的理解和生成。官方宣称实现图像、文本、视频大一统。- 22
- 0
RTX 4090 笔记本 0.37 秒直出大片:英伟达联手 MIT 清华祭出 Sana 架构,速度秒杀 FLUX
一台 4090 笔记本,秒生 1K 质量高清图。英伟达联合 MIT 清华团队提出的 Sana 架构,得益于核心架构创新,具备了惊人的图像生成速度,而且最高能实现 4k 分辨率。一台 16GB 的 4090 笔记本,仅需 0.37 秒,直接吐出 1024×1024 像素图片。- 5
- 0
阿里妈妈开源全新 AI 图像修复模型 FLUX-Controlnet-Inpainting
阿里妈妈创意团队宣布开源 FLUX-Controlnet-Inpainting AI 图像修复模型。该模型宣称结合了 FLUX.1-dev 和 ControlNet 的优势,能高质量修复图像。模型可以理解用户语言描述,并修复图像且支持改变风格,官方示例如下:FLUX-Controlnet-Inpainting 与 SDXL-Inpainting 相比,生成内容效果对比如下(输入图像 | 蒙版图像 …- 42
- 0
准确率87.6%,南农、国防科大、苏大等发布显微图像分类AI新方法
编辑 | 萝卜皮在医学显微图像分类(MIC)领域,基于 CNN 和 Transformer 的模型得到了广泛的研究。然而,CNN 在建模长距离依赖关系方面存在短板,限制了其充分利用图像中语义信息的能力。相反,Transformer 受到二次计算复杂性的制约。为了解决这些挑战,南京农业大学、国防科技大学、湘潭大学、南京邮电大学、苏州大学组成的联合研究团队提出了一个基于 Mamba 架构的模型:Mic…- 24
- 0
阿里提出结构保持的AI视觉算法:显著提升HDR图像转LDR图像质量
9月21日,记者在2024云栖大会上获悉,阿里巴巴达摩院计算技术实验室提出了一种基于结构保持网络的AI视觉算法,可将高动态范围(HDR)场景图像自动转换为低动态范围(LDR)图像并保持其纹理细节,在常规显示设备上的图像质量相比业界提升7%。HDR图像同时包含强光源照射下的极亮区域和阴影、逆光下的极暗区域,容易出现明亮区域过曝、或者黑暗区域纯黑的情况,必须经过宽动态技术处理才能适配常规显示设备。传统…- 2
- 0
文生图 AI Midjourney 雄心:7.0 版未来 1-2 月登场、开发新图像编辑器、探索 3D 系统、踏足硬件领域
科技媒体 The Decoder 昨日(9 月 12 日)发布博文,报道称在最近的“Office Hours”活动中,Midjourney 创始人兼首席执行官 David Holz 在 Discord 分享了当前项目的最新进展,并回答了社区的提问。Midjourney 7.0 版本Holz 更新了 Midjourney 7.0 版本时间表,表示将会在未来 1-2 月内发布。让更多人体验 Midjo…- 22
- 0
韩国 N 号房卷土重来:这一次是 Deepfake,波及超 200 所学校
Deepfake(深度伪造),再度深陷舆论的风波。这一次,用这项 AI 技术犯罪的严重程度被网友直呼是“韩国 N 号房 2.0”,魔爪甚至伸向了众多未成年人!事件影响之大,直接冲上了各大热搜、热榜。早在今年 5 月,《韩联社》便通报过一则消息,内容是:首尔大学毕业生朴某和姜某,从 2021 年 7 月至 2024 年 4 月,涉嫌利用 Deepfake 换脸合成色情照片和视频,并在通信软件 Tel…- 35
- 0
阿里通义千问推出 Qwen2-VL:开源 2B / 7B 模型,处理任意分辨率图像无需分割成块
通义千问团队今天对 Qwen-VL 模型进行更新,推出 Qwen2-VL。Qwen2-VL 的一项关键架构改进是实现了动态分辨率支持(Naive Dynamic Resolution support)。与上一代模型 Qwen-VL 不同,Qwen2-VL 可以处理任意分辨率的图像,而无需将其分割成块,从而确保模型输入与图像固有信息之间的一致性。这种方法更接近地模仿人类的视觉感知,使模型能够处理任何…- 8
- 0
谷歌将重新开放 Gemini 生成人物图像功能,此前因“种族描述不当”引争议
感谢北京时间 29(今)日,据彭博社报道,谷歌宣布将恢复 AI 模型 Gemini 生成人物图像的功能,部分消费者将可以重新使用。谷歌表示,将开始向订阅 Gemini Advanced 套餐的英语用户推出生成人物图像功能。企业也将能够使用该工具,该功能将在未来几天内上线。谷歌产品管理高级总监戴夫・西特伦(Dave Citron)表示,该公司在通过 Imagen 3 生成人物描写方面取得了“重大进展…- 12
- 0
Freepik Mystic 发布,号称目前最先进的 AI 图像生成器
Magnific AI 和 Freepik 今日联合推出了 Freepik Mystic,宣称是目前最先进的 AI 图像生成器,也是唯一可以直接生成全高清图像的 AI 图像生成器。与 Midjourney 和 OpenAI 的 Dall-E 不同,Mystic 并非基础模型,而是一个结合 Flux 基础模型、微调、高分辨率图像生成技术和参数调整的流程。Mystic 能够生成高质量的图像,包括写实肖…- 49
- 0
防止黑客重建人脸,浙大 & 阿里推出人脸隐私保护新方案 FaceObfuscator
对人脸数据安全的担忧,有新解了!浙江大学与阿里安全部联手,推出了新的人脸隐私保护方案 FaceObfuscator。不法分子即使从数据库中获取到人脸特征,也无法使用各类重构攻击还原人脸数据、窃取人脸隐私。新型重构攻击,威胁人脸隐私人脸识别是一项基于人脸特征信息进行身份识别的生物识别技术,广泛应用于金融、安防与民生。在使用人脸识别系统前,首先需要录入人脸信息,这些人脸信息会以人脸特征的形式被保存在服…- 41
- 0
云知声推出山海多模态大模型:实时生成文本、音频和图像
云知声于 23 日宣布推出山海多模态大模型。通过整合跨模态信息,山海多模态大模型能够接收文本、音频、图像等多种形式作为输入,并实时生成文本、音频和图像的任意组合输出。▲ 云知声山海助手微信小程序AI在线获悉,山海多模态大模型有如下特点:实时秒回,自由插话:与现实对话中人类的响应时间相似;支持对话随时打断,用户可在对话中任意插话感知情绪,表达情绪:通过语音文本判断用户情绪,还能捕捉用户语音的语气、节…- 24
- 0
Meta 发布 Sapiens 视觉模型,让 AI 分析和理解图片 / 视频中人类动作
Meta Reality 实验室最新推出了名为 Sapiens 的 AI 视觉模型,适用于二维姿势预估、身体部位分割、深度估计和表面法线预测 4 种以人为中心的基本视觉任务。这些模型的参数数量各不相同,从 3 亿到 20 亿不等。它们采用视觉转换器架构,任务共享相同的编码器,而每个任务有不同的解码器头。二维姿势预估:这项任务包括检测和定位二维图像中人体的关键点。这些关键点通常与肘、膝和肩等关节相对…- 41
- 0
图像
❯
个人中心
今日签到
搜索
扫码打开当前页
返回顶部
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
- ¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!