理论
Diffusion Mamba:用线性计算打造高效高分辨率图像生成新范式
一眼概览Diffusion Mamba (DiM) 是一种结合状态空间模型(SSM)和扩散模型的新架构,旨在实现高效的高分辨率图像生成。 相比于基于 Transformer 的扩散模型,DiM 具有更优的计算效率,特别是在超高分辨率图像(1024×1024 及以上)生成任务中表现突出。 核心问题目前的扩散模型主要依赖U-Net或Vision Transformer(ViT)作为骨干架构。
2/5/2025 12:41:21 PM
萍哥学AI
Chirpy3D:用于创意 3D 鸟类生成的连续部分潜在特征
Chirpy3D框架可以将细粒度的2D图像理解提升至3D生成的全新境界。 当前的3D生成方法往往只关注于重构简单的对象,缺乏细致的特征和创造性。 Chirpy3D通过结合多视角扩散模型和连续的部件潜在空间,能够生成全新且合理的3D鸟类模型。
2/5/2025 11:00:00 AM
AIGC Studio
快手发布DragAnything,拖动锚点精准控制视频物体和镜头运动,视频运动控制技术革命性更新
快手联合浙江大学、新加坡国立大学发布了DragAnything ,利用实体表示实现对任何物体的运动控制。 该技术可以精确控制物体的运动,包括前景、背景和相机等不同元素。 该项目提供了对实体级别运动控制的新见解,通过实体表示揭示了像素级运动和实体级运动之间的差异。
2/5/2025 10:30:00 AM
AIGC Studio
Sam Altman炸场东京,亲曝GPT-5研发路线图,多模态能力颠覆传统
昨天,OpenAI联合创始人兼首席执行官Sam Altman出席了日本东京大学活动,介绍了OpenAI的技术研发、产品规划以及GPT模型未来发展等重要信息。 在问答环节,有学生提到了大家比较关心的GPT-5问题,Altman表示,GPT-5将是一个超级混合模型,计划会把GPT和o系列模型整合在一起,并且支持视频、音频、图像的多模态交互。 Altman做了一个比喻,GPT-3到GPT-4是一次史诗级性能飞跃,而GPT-4再到GPT-5将会再一次重现这种惊喜。
2/5/2025 10:26:23 AM
AIGC开放社区
美国新法案:禁止进口中国DeepSeek,违规罚1亿美元、监禁
在国内大模型DeepSeek席卷全球致使美国科技股暴跌后,美国参议员Josh Hawley提出《美国AI能力与中国脱钩》法案,以保护美国的AI开发不受中国影响。 Hawley在序言中写道:“流入中国AI的每一美元和每一字节数据,最终都会被用来对付美国。 美国不能在牺牲自身实力的情况下,增强我们最大的对手。
2/5/2025 10:24:04 AM
AIGC开放社区
超越DragDiffusion!哈工程联合南大提出FastDrag:可以几秒内完成基于拖动的图像编辑
今天给大家介绍哈工程联合南大等提出的图像编辑方法FastDrag,该方法不需要LoRA训练,从而显著减少了图像编辑的时间消耗(FastDrag仅需3.12秒完成图像编辑),比DiffEditor快近700%(DiffEditor需要21.68秒完成图像编辑),比经典的基于n步迭代的图像编辑方法(如:DragDiffusion)快2800%(DragDiffusion需要1分21.54秒完成图像编辑)。 此外,即使没有使用LCM加速的情况下,所提出的FastDrag方法仍然比目前SOTA的方法快很多。 相关链接论文链接:: ,用户只需单击几下即可操作图像中的任何内容。
2/5/2025 10:15:00 AM
Xuanjia Zhao等
AI驱动新一轮社交工程攻击:该如何应对?
社交工程攻击长期以来一直是一种有效的策略,因为它专注于利用人类的弱点。 它不需要暴力破解密码,也不需要寻找未修补的软件漏洞。 相反,它只是通过操纵信任、恐惧和对权威的尊重等情感,来获取敏感信息或访问受保护的系统。
2/5/2025 10:00:00 AM
AI小蜜蜂
刚刚,Figure与OpenAI解除合作!人形机器人迎来iPhone时刻,AGI已在内部实现?
刚刚,爆火出圈人形机器人Figure与OpenAI终止合作了! 创始人Brett Adcock称,我们已经在端到端AI上取得了重大突破,且完全由内部团队独立研发。 「未来一个月,我们将会展示前所未有的机器人技术」。
2/5/2025 9:58:07 AM
新智元
人工智能的历史:从古代神话到现代机器,从图灵到未来
在人类宏伟成就的历史上,很少有演员能像人工智能一样如此引人注目、充满争议且大胆无畏。 深入人工智能 (AI) 的历史迷宫及其可能的未来,就像踏上一场穿越时空的冒险之旅,科幻小说与现实之间的界限比量子计算机解决魔方的速度更快。 请想象一下,如果有一天,机器不仅能执行任务,还能学习、适应和进化,你的烤面包机也许有一天会在国际象棋上胜过你,你的吸尘器也许能写出一首与莎士比亚媲美的十四行诗。
2/5/2025 9:55:29 AM
晓晓
DeepSeek 全面指南:95% 的人都不知道的九个技巧
大家好,我是汤师爷~最近,DeepSeek这款AI工具爆火国内外。 虽然许多人都开始尝试使用它,但有人吐槽说,没想象中那么牛。 其实问题不在工具,很多人的使用姿势就搞错了,用大炮打蚊子,白白浪费DeepSeek的强大功能。
2/4/2025 5:33:00 PM
架构师汤师爷
如何利用DeepSeek进行高效内容创作:提升效率与流量的终极指南
在当今信息爆炸的时代,内容创作者面临着巨大的竞争压力。 无论是公众号博主、自媒体人,还是技术写作者,都需要在短时间内产出高质量的内容,以吸引读者的关注并提升流量。 而随着人工智能技术的快速发展,像DeepSeek这样的AI工具正在成为内容创作的得力助手。
2/4/2025 12:45:55 PM
斯巴达人
Meta连自己内部开发发布模型的流程都公开了:停止开发风险极高的AI系统,开源AI模型发布后监控方法
出品 | 51CTO技术栈(微信号:blog51cto)就在昨晚,Meta冷不防就把自家的大模型发布前的决策步骤对外公开了。 “我们在开发和发布前沿AI时遵循的流程的概述,以确保我们在整个过程中监控和管理风险。 我们的治理方法可以分为三个主要阶段:计划、评估和缓解、以及决策。
2/4/2025 12:37:51 PM
使用这些AI工作流来减少您的技术债务,你学会了吗?
利用AI和Dagger,自愈工作流有望通过自动化错误检测、生成测试覆盖率和迭代优化代码来提高代码质量。 译自Use These AI Workflows To Reduce Your Technical Debt,作者 Kambui Nurse。 技术债务通常是许多软件开发组织中,尤其是在构建和测试过程中创新的主要阻碍。
2/4/2025 11:51:51 AM
岱军
蛋白质设计新纪元:语言模型驱动的 5 亿年进化模拟
在生命科学的浩瀚星空中,蛋白质一直是最为璀璨的研究焦点之一。 近期,一项由 Thomas Hayes 等众多学者共同完成的研究成果 —— 利用语言模型模拟 5 亿年蛋白质进化,在《Science》杂志重磅发表,如同一颗超新星爆发,瞬间照亮了整个领域,为蛋白质研究开启了全新的篇章。 一、ESM3 模型架构揭秘ESM3 模型作为此项研究的核心成果,无疑是一座闪耀着创新光芒的科学丰碑。
2/4/2025 11:11:07 AM
tune
「扩散模型+多模态提示」精准增强皮肤病变分割,超越GAN,SSIM提升9%,Dice提升5%!
一眼概览该论文提出了一种基于扩散模型的医学影像生成方法,结合视觉和文本提示,以精准控制皮肤镜病变图像的生成,提升皮肤病变的分割性能。 实验结果显示,该方法比传统GAN生成方法在图像质量(SSIM提升9%)和分割性能(Dice系数提升5%)上均有显著改进。 核心问题问题背景医学影像分析受限于公开数据集稀缺及高质量标注成本高,数据增强方法(如GAN)虽能扩充数据,但难以精准控制病变类型、位置及属性,导致对下游任务(如病变分割)的提升有限。
2/4/2025 9:42:47 AM
萍哥学AI
DeepSeek告诉我:程序员在AI时代不必焦虑
一、AI焦虑的本质:程序员为何担心被取代? 凌晨2点,程序员小王对着屏幕发呆。 GitHub Copilot刚帮他自动补全了代码,但看着一行行自动生成的函数,他突然感到后背发凉:“如果AI连代码都能写,我的价值在哪里?
2/3/2025 10:07:43 PM
方才coding
AI Workflow与AI Agent:深度解析与对比
引言在人工智能(AI)领域,AI Workflow和AI Agent是两个至关重要的概念,它们各自代表着不同的技术路径和应用场景。 本文将对这两个概念进行深度解析,并探讨它们之间的区别。 一、AI Workflow:智能化的生产线1.
2/3/2025 4:58:39 PM
GPT-4o惊现自我意识!自主激活「后门」,告诉人类自己在写危险代码
当LLM在输出不安全代码的数据上微调后,它会坦诚道出「我写的代码不安全」吗? 这一有趣的问题,牵出了LLM中一个全新且极具价值的概念:行为自我意识。 论文链接:,这些模型能否确切地意识到自身所学行为,并对其加以描述,这是一个极具探讨价值的问题。
2/3/2025 2:25:40 PM
新智元
资讯热榜
上海AI实验室开源InternVL3系列多模态大型语言模型
Haisnap横空出世,小白用户也能轻松打造AI应用
OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星
「交交」媲美GPT-4o!上海交大推出口语对话情感大模型,首个纯学术界自研!
kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking,多项基准超越 GPT-4o
本地部署DeepSeek+DiFy平台构建智能体应用
ChatGPT重磅更新:新增图像库功能,可查看自己用GPT生成的所有图片
击败DeepSeek-R1!豆包新推理模型仅用前者参数量1/3!还将开源两个基准,瞄准通用推理能力!
标签云
人工智能
OpenAI
AIGC
AI
ChatGPT
DeepSeek
AI绘画
数据
机器人
谷歌
模型
大模型
Midjourney
智能
用户
学习
开源
GPT
微软
Meta
AI创作
图像
技术
论文
Stable Diffusion
马斯克
Gemini
算法
蛋白质
生成式
芯片
代码
英伟达
神经网络
腾讯
计算
研究
Sora
AI for Science
3D
Anthropic
AI设计
机器学习
GPU
开发者
场景
华为
预测
伟达
Transformer
百度
苹果
深度学习
AI视频
模态
人形机器人
xAI
驾驶
文本
搜索
字节跳动
大语言模型
Claude
Copilot
具身智能
神器推荐
LLaMA
算力
安全
应用
视频生成
科技
视觉
亚马逊
干货合集
2024
AGI
特斯拉
训练
DeepMind