AI

港大&Adobe提出通用生成框架UniReal：通过学习真实世界动态实现通用图像生成和编辑

本文经AIGC Studio公众号授权转载，转载请联系出处。今天给大家介绍的文章来自公众号粉丝投稿，由香港大学，Adobe提出的统一图像生产与编辑方法UniReal，将多种图像任务统一成视频生成的范式，并且在大规模视频中学习真实的动态与变化，在指令编辑、图像定制化、图像组合等多种任务达到最佳水准。上图为UniReal多功能性的展示。

1/20/2025 11:15:00 AM

AIGC Studio

阿里发布新ID保持项目EcomID, 可从单个ID参考图像生成定制的保ID图像，ComfyUI可使用

阿里妈妈发布了一个新的ID保持项目EcomID，旨在从单个ID参考图像生成定制的保ID图像，优势在于很强的语义一致性，同时受人脸关键点控制。 EcomID 方法结合了 PuLID 和 InstantID 的优点，以获得更好的背景一致性、面部关键点控制、更真实的面部以及更高的相似度。目前，EcomID 的 Comfyui 原生实现官方插件也已经发布，大家可以从文章中的链接获取。

1/20/2025 11:00:00 AM

AIGC Studio

知乎直答：AI 搜索产品从 0 到 1 实践探索

一、知乎直答产品介绍知乎直答是具有强社区属性的通用 AI 搜索产品，但并非社区版 AI 搜索。知乎直答具有以下几大优势：认真专业：与知乎专注专业内容生产的调性相符，严格把控参考来源与质量，确保回答认真且专业。连接创作者：可在使用中关注、与创作者交流互动获取专业见解。

1/20/2025 10:40:08 AM

王界武

东京大学 | Adobe 提出InstructMove，可通过观察视频中的动作来实现基于指令的图像编辑

InstructMove是一种基于指令的图像编辑模型，使用多模态 LLM 生成的指令对视频中的帧对进行训练。该模型擅长非刚性编辑，例如调整主体姿势、表情和改变视点，同时保持内容一致性。此外，该方法通过集成蒙版、人体姿势和其他控制机制来支持精确的局部编辑。

1/20/2025 10:36:00 AM

AIGC Studio

LineArt：无需训练的高质量设计绘图生成方法，可保留结构准确性并生成高保真外观

本文经AIGC Studio公众号授权转载，转载请联系出处。今天给大家介绍一种无需训练的基于扩散模型的高质量设计绘图外观迁移方法LineArt，该方法可以将复杂外观转移到详细设计图上的框架，可促进设计和艺术创作。现有的图像生成技术在细节保留和风格样式一致性方面存在局限，尤其是在处理专业设计图时。

1/20/2025 10:23:00 AM

AIGC Studio

Github热门机器学习笔记:「从零构建大型语言模型」

本文经AIGC Studio公众号授权转载，转载请联系出处。今天给大家推荐一份GitHub上很火的机器学习学习笔记《从零构建大型语言模型》，目前已经收获1.4K stars，，这份笔记完美展示了从零构建LLM的技术路线图，既有理论深度，又包含实践要点。每个核心概念都配有清晰的示意图，便于理解和实践。

1/20/2025 9:41:29 AM

AIGC Studio

o1不是聊天模型！前SpaceX工程师：这样用o1才能解决复杂问题

「我是如何从讨厌o1到每天用它来解决我最重要的问题的？我学会了如何正确使用它。」Ben Hylak曾是SpaceX软件工程师、苹果VisionOS人机交互设计师，后来离职创立了Dawn Analytics。

1/20/2025 9:28:00 AM

新智元

扩散模型低位量化突破！有效扩散量化的极限推向2-4位，W2A4位宽下FID降低58%，超越SOTA方法

降低扩散模型生成的计算成本，性能还保持在高水平！最新研究提出一种用于极低位差分量化的混合精度量化方法。 △图1 W2A6位宽下基线和MPQ-DM生成的样本可视化目前，扩散模型在生成任务中受到了广泛关注。

1/20/2025 9:20:00 AM

量子位

Search版o1：推理过程会主动查资料，整体性能优于人类专家，清华人大出品

一个新框架，让Qwen版o1成绩暴涨：在博士级别的科学问答、数学、代码能力的11项评测中，能力显著提升，拿下10个第一！这就是人大、清华联手推出的最新「Agentic搜索增强推理模型框架」Search-o1的特别之处。项目团队成员发现，o1和o1类模型在推理过程中表现突出，但却存在“知识不足”的明显缺陷——推理步骤太长/模型知识不足时，推理过程就很容易卡壳，导致推理链中的错误传递。

1/20/2025 9:05:00 AM

量子位

代码生成「神⋅提示」，比新手程序员快100倍！地位堪比make it more X

2023年11月，在ChatGPT支持DALL-3功能后，一个爆火的图像生成玩法是，不断迭代提示词「make it more X」，生成的图片越来越抽象。圣诞老人越来越严肃把这个思路用在LLM任务上，比如代码生成，会怎么样？最近，BuzzFeed的高级数据科学家Max Woolf在博客上分享了一个实验，通过设计不同的提示词、不断迭代模型输出，最终实现代码性能的100倍提升！

1/20/2025 8:17:00 AM

新智元

AI 变革音乐创作：未来体验更像游戏，更具互动性

IT之家援引 Shulman 观点，AI 将让听众与音乐的关系更具互动性和参与性，就像玩电子游戏一样，不再是被动聆听，而是主动参与，AI 音乐创作工具将带来类似多人游戏的体验，让朋友一起创作音乐变得更加有趣。

1/20/2025 8:03:56 AM

故渊

深度学习图像增强方法全总结！

一、什么是图像增强？图像增强是指通过一系列技术和方法对图像进行处理，以改善其视觉效果和特征表现。 1.

1/20/2025 8:00:00 AM

小喵学AI

OpenAI o3 碾压式 AI 数学成绩遭质疑：既当选手又是裁判，翻版 Theranos 世纪骗局

科技媒体 TechCrunch 昨日（1 月 19 日）发布博文，报道称 Epoch AI 因未及时披露 OpenAI 的资助而引发争议，其开发的数学基准测试 FrontierMath 的客观性受到质疑。

1/20/2025 7:47:24 AM

故渊

AI 造梦师：香港大学携手快手科技推出 GameFactory 框架，突破游戏场景泛化难题

香港大学携手快手科技，组建科研团队，提出名为 GameFactory 的创新框架，目标是解决游戏视频生成中的场景泛化难题。该框架利用在开放域视频数据上预训练的视频扩散模型，能够创造全新且多样化的游戏场景。

1/20/2025 7:24:54 AM

故渊

5090跑《黑神话》飙到200+帧，英伟达DLSS也用上Transformer了

现在，打个游戏都用上Transformer了？老黄的DLSS进行了一波大升级，换上了基于Transformer的新大脑。用上新模型之后，光线重建和超分辨率，效果都变得更细腻了。

1/20/2025 7:00:00 AM

量子位

Perplexity寻求与TikTok合并，网友：饿疯了。特朗普采访透露：给TikTok90天时间是不错的选择，可能会考虑

出品 | 51CTO技术栈（微信号：blog51cto）美东时间，本周五在最高法院宣布维持对 TikTok “不出售就停用”的决定后，没想到很快就迎来了新进展。据 CNBC 报道，AI 搜索领域的当红小生 Perplexity AI 于周六正式对 TikTok 发出竞购合并请求，CEO Aravind Srinivas 已经向 TikTok母公司字节跳动提交了一份竞标报价，计划将 Perplexity、TikTok US 和新的资本合作伙伴合并成一个新的实体。据一位知情人士透露，新的结构将允许字节跳动的大多数现有投资者保留其股权，同时为 Perplexity 提供更多的视频。

1/19/2025 1:52:29 PM

复盘旷视十三年：高光、谷底与重生

01 年轻人的时代印奇对人工智能的执著，比旷视成立要早几年。 2006 年，这个 88 年出生的安徽小伙在清华自主招生考试与全国高考中均取得十分优秀的成绩。报考专业时，他特地询问招生办的老师：“我想研究人工智能，应该选什么系？

1/18/2025 4:54:00 PM

陈彩娴

微软开源 140 亿参数小语言 AI 模型 Phi-4，性能比肩 GPT-4o Mini

在 2024 年 12 月 12 日发布后，微软昨日（1 月 8 日）在 Hugging Face 平台上，开源小语言模型 Phi-4，感兴趣的开发者和尝鲜者可以下载、微调和部署该 AI 模型。

1/9/2025 1:55:32 PM

故渊

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片 OPPO 小布助手网页版上线，接入满血版 DeepSeek 本地部署DeepSeek+DiFy平台构建智能体应用 kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度苹果人形机器人深度学习 AI视频模态 xAI 驾驶字节跳动文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉训练大型语言模型