AI
港大&Adobe提出通用生成框架UniReal:通过学习真实世界动态实现通用图像生成和编辑
本文经AIGC Studio公众号授权转载,转载请联系出处。 今天给大家介绍的文章来自公众号粉丝投稿,由香港大学,Adobe提出的统一图像生产与编辑方法UniReal,将多种图像任务统一成视频生成的范式,并且在大规模视频中学习真实的动态与变化,在指令编辑、图像定制化、图像组合等多种任务达到最佳水准。 上图为UniReal多功能性的展示。
1/20/2025 11:15:00 AM
AIGC Studio
阿里发布新ID保持项目EcomID, 可从单个ID参考图像生成定制的保ID图像,ComfyUI可使用
阿里妈妈发布了一个新的ID保持项目EcomID,旨在从单个ID参考图像生成定制的保ID图像,优势在于很强的语义一致性,同时受人脸关键点控制。 EcomID 方法结合了 PuLID 和 InstantID 的优点,以获得更好的背景一致性、面部关键点控制、更真实的面部以及更高的相似度。 目前,EcomID 的 Comfyui 原生实现官方插件也已经发布,大家可以从文章中的链接获取。
1/20/2025 11:00:00 AM
AIGC Studio
知乎直答:AI 搜索产品从 0 到 1 实践探索
一、知乎直答产品介绍知乎直答是具有强社区属性的通用 AI 搜索产品,但并非社区版 AI 搜索。 知乎直答具有以下几大优势:认真专业:与知乎专注专业内容生产的调性相符,严格把控参考来源与质量,确保回答认真且专业。 连接创作者:可在使用中关注、与创作者交流互动获取专业见解。
1/20/2025 10:40:08 AM
王界武
东京大学 | Adobe 提出InstructMove,可通过观察视频中的动作来实现基于指令的图像编辑
InstructMove是一种基于指令的图像编辑模型,使用多模态 LLM 生成的指令对视频中的帧对进行训练。 该模型擅长非刚性编辑,例如调整主体姿势、表情和改变视点,同时保持内容一致性。 此外,该方法通过集成蒙版、人体姿势和其他控制机制来支持精确的局部编辑。
1/20/2025 10:36:00 AM
AIGC Studio
LineArt:无需训练的高质量设计绘图生成方法,可保留结构准确性并生成高保真外观
本文经AIGC Studio公众号授权转载,转载请联系出处。 今天给大家介绍一种无需训练的基于扩散模型的高质量设计绘图外观迁移方法LineArt,该方法可以将复杂外观转移到详细设计图上的框架,可促进设计和艺术创作。 现有的图像生成技术在细节保留和风格样式一致性方面存在局限,尤其是在处理专业设计图时。
1/20/2025 10:23:00 AM
AIGC Studio
Github热门机器学习笔记:「从零构建大型语言模型」
本文经AIGC Studio公众号授权转载,转载请联系出处。 今天给大家推荐一份GitHub上很火的机器学习学习笔记《从零构建大型语言模型》,目前已经收获1.4K stars,,这份笔记完美展示了从零构建LLM的技术路线图,既有理论深度,又包含实践要点。 每个核心概念都配有清晰的示意图,便于理解和实践。
1/20/2025 9:41:29 AM
AIGC Studio
o1不是聊天模型!前SpaceX工程师:这样用o1才能解决复杂问题
「我是如何从讨厌o1到每天用它来解决我最重要的问题的? 我学会了如何正确使用它。 」Ben Hylak曾是SpaceX软件工程师、苹果VisionOS人机交互设计师,后来离职创立了Dawn Analytics。
1/20/2025 9:28:00 AM
新智元
扩散模型低位量化突破!有效扩散量化的极限推向2-4位,W2A4位宽下FID降低58%,超越SOTA方法
降低扩散模型生成的计算成本,性能还保持在高水平! 最新研究提出一种用于极低位差分量化的混合精度量化方法。 △图1 W2A6位宽下基线和MPQ-DM生成的样本可视化目前,扩散模型在生成任务中受到了广泛关注。
1/20/2025 9:20:00 AM
量子位
Search版o1:推理过程会主动查资料,整体性能优于人类专家,清华人大出品
一个新框架,让Qwen版o1成绩暴涨:在博士级别的科学问答、数学、代码能力的11项评测中,能力显著提升,拿下10个第一! 这就是人大、清华联手推出的最新「Agentic搜索增强推理模型框架」Search-o1的特别之处。 项目团队成员发现,o1和o1类模型在推理过程中表现突出,但却存在“知识不足”的明显缺陷——推理步骤太长/模型知识不足时,推理过程就很容易卡壳,导致推理链中的错误传递。
1/20/2025 9:05:00 AM
量子位
代码生成「神⋅提示」,比新手程序员快100倍!地位堪比make it more X
2023年11月,在ChatGPT支持DALL-3功能后,一个爆火的图像生成玩法是,不断迭代提示词「make it more X」,生成的图片越来越抽象。 圣诞老人越来越严肃把这个思路用在LLM任务上,比如代码生成,会怎么样? 最近,BuzzFeed的高级数据科学家Max Woolf在博客上分享了一个实验,通过设计不同的提示词、不断迭代模型输出,最终实现代码性能的100倍提升!
1/20/2025 8:17:00 AM
新智元
AI 变革音乐创作:未来体验更像游戏,更具互动性
IT之家援引 Shulman 观点,AI 将让听众与音乐的关系更具互动性和参与性,就像玩电子游戏一样,不再是被动聆听,而是主动参与,AI 音乐创作工具将带来类似多人游戏的体验,让朋友一起创作音乐变得更加有趣。
1/20/2025 8:03:56 AM
故渊
OpenAI o3 碾压式 AI 数学成绩遭质疑:既当选手又是裁判,翻版 Theranos 世纪骗局
科技媒体 TechCrunch 昨日(1 月 19 日)发布博文,报道称 Epoch AI 因未及时披露 OpenAI 的资助而引发争议,其开发的数学基准测试 FrontierMath 的客观性受到质疑。
1/20/2025 7:47:24 AM
故渊
AI 造梦师:香港大学携手快手科技推出 GameFactory 框架,突破游戏场景泛化难题
香港大学携手快手科技,组建科研团队,提出名为 GameFactory 的创新框架,目标是解决游戏视频生成中的场景泛化难题。该框架利用在开放域视频数据上预训练的视频扩散模型,能够创造全新且多样化的游戏场景。
1/20/2025 7:24:54 AM
故渊
5090跑《黑神话》飙到200+帧,英伟达DLSS也用上Transformer了
现在,打个游戏都用上Transformer了? 老黄的DLSS进行了一波大升级,换上了基于Transformer的新大脑。 用上新模型之后,光线重建和超分辨率,效果都变得更细腻了。
1/20/2025 7:00:00 AM
量子位
Perplexity寻求与TikTok合并,网友:饿疯了。特朗普采访透露:给TikTok90天时间是不错的选择,可能会考虑
出品 | 51CTO技术栈(微信号:blog51cto)美东时间,本周五在最高法院宣布维持对 TikTok “不出售就停用”的决定后,没想到很快就迎来了新进展。 据 CNBC 报道,AI 搜索领域的当红小生 Perplexity AI 于周六正式对 TikTok 发出竞购合并请求,CEO Aravind Srinivas 已经向 TikTok母公司字节跳动提交了一份竞标报价,计划将 Perplexity、TikTok US 和新的资本合作伙伴合并成一个新的实体。 据一位知情人士透露,新的结构将允许字节跳动的大多数现有投资者保留其股权,同时为 Perplexity 提供更多的视频。
1/19/2025 1:52:29 PM
复盘旷视十三年:高光、谷底与重生
01 年轻人的时代印奇对人工智能的执著,比旷视成立要早几年。 2006 年,这个 88 年出生的安徽小伙在清华自主招生考试与全国高考中均取得十分优秀的成绩。 报考专业时,他特地询问招生办的老师:“我想研究人工智能,应该选什么系?
1/18/2025 4:54:00 PM
陈彩娴
微软开源 140 亿参数小语言 AI 模型 Phi-4,性能比肩 GPT-4o Mini
在 2024 年 12 月 12 日发布后,微软昨日(1 月 8 日)在 Hugging Face 平台上,开源小语言模型 Phi-4,感兴趣的开发者和尝鲜者可以下载、微调和部署该 AI 模型。
1/9/2025 1:55:32 PM
故渊
资讯热榜
标签云
人工智能
OpenAI
AIGC
AI
ChatGPT
DeepSeek
AI绘画
数据
机器人
谷歌
模型
大模型
Midjourney
智能
用户
学习
开源
GPT
微软
Meta
AI创作
图像
技术
论文
Stable Diffusion
马斯克
Gemini
算法
蛋白质
生成式
芯片
代码
英伟达
腾讯
神经网络
计算
研究
Sora
AI for Science
3D
Anthropic
AI设计
机器学习
GPU
开发者
场景
华为
预测
伟达
Transformer
百度
苹果
人形机器人
深度学习
AI视频
模态
xAI
驾驶
字节跳动
文本
搜索
大语言模型
Claude
Copilot
具身智能
神器推荐
LLaMA
算力
安全
应用
视频生成
科技
视觉
亚马逊
干货合集
2024
AGI
特斯拉
训练
大型语言模型