理论

OminiControl：一个新的FLUX通用控制模型，单个模型实现图像主题控制和深度控制

OminiControl 也开源了其可控生成模型。 OminiControl 是一个最小但功能强大的FLUX通用控制框架，可以一个模型实现图像主题控制和深度控制。比如一个提示词加一个服装图片就能让生成的人物穿上服装。

1/21/2025 10:20:00 AM

AIGC Studio

DeepSeek是新源神！推理模型o1性能1/50价格，微调/数据/商用全免费，蒸馏1.5B小模型可比GPT-4o

DeepSeek新发布远超预期，Reddit/𝕏狂暴刷屏中。这次大事共有3件：开源DeepSeek-R1推理大模型，与o1性能相近。开源DeepSeek-R1-Zero，预训练模型直接RL，不走SFT，堪称语言模型的AlphaZero。

1/21/2025 10:10:56 AM

港科大提出端侧文生图模型SnapGen，参数仅SD十分之一，1.4秒内生成1024分辨率图像

本文经AIGC Studio公众号授权转载，转载请联系出处。这项工作提出了一种新颖且高效的 T2I 模型SnapGen，SnapGen 是第一个可以在1.4秒内在移动设备上合成高分辨率图像（1024x1024 ）的图像生成模型（379M ），并在 GenEval 指标上达到0.66。该模型全面超越了许多现有的数十亿参数模型，例如 SDXL、Lumina-Next 和 Playgroundv2。

1/21/2025 9:50:00 AM

AIGC Studio

震惊 AI 界！DeepSeek-R1 ：纯RL打造推理王者，AI 自主学习里程碑「技术报告解读」

刚看完DeepSeek R1技术报告论文《DeepSeek-R1：强化学习驱动的大语言模型推理能力提升》，这篇论文最令人震惊的点在于：DeepSeek-R1-Zero 作为一个完全没有使用任何监督微调（SFT）数据，仅通过纯粹的强化学习（RL）训练的模型，展现出了惊人的推理能力，推理基准测试上可以媲美乃至超越 OpenAI 的 o1 系列模型（如 o1-0912），完全开源，报告毫无保留的奉上了R1的训练秘密，值得注意的是，这是第一个开放研究验证了 LLM 的推理能力可以完全通过 RL 来激励，而不需要 SFT。这一突破为该领域的未来发展铺平了道路具体来说，以下几点尤其令人震惊：纯 RL 的成功：以往的模型在提升推理能力时，通常依赖于 SFT 作为预训练步骤。 DeepSeek-R1-Zero 打破了这一常规，证明了仅通过设计合适的奖励机制和训练模板，就可以让模型在没有 SFT 的情况下（冷启动），通过自我博弈和进化，自发地学习到复杂的推理策略，这让我想起了AlphaZero--从零开始掌握围棋、将棋和国际象棋，而无需先模仿人类大师的棋步，这是整个技术报告最重要的启示惊人的性能提升： DeepSeek-R1-Zero 在 AIME 2024 基准测试上，pass@1 分数从 15.6% 提升到了 71.0%，通过多数投票更是达到了 86.7%，与 OpenAI-01-0912 的表现相当甚至更好。

1/21/2025 9:36:51 AM

AI寒武纪

特朗普时代再临：科学界喜忧参半，AI与太空探索或成最大赢家

今天，特朗普将宣誓就任美国第47任总统，开启他的第二任期。回看特朗普在第一任期（2017-2021）否认气候变化风险，并试图大幅削减科研资金的举措，科学界对于这位即将上任的美国总统的看法是：鉴于特朗普一直宣扬的要砍掉大量科研经费与大力支持马斯克的「政府效率部门」，预计他将放弃对环境和传染病等基础研究的支持，但可能会推动人工智能、量子研究和太空探索方面的工作。科学家和工程师们因此也出现了两种截然不同的前景展望：科技公司、太空爱好者、人工智能（AI）开发者等期待未来几年他们将迎来有利政策，并对探索新的可能而感到无比兴奋。

1/21/2025 9:30:00 AM

新智元

人大、东北大学联合开发「图机器学习库」Jittor Geometric！性能超越PYG、DGL

近日，中国人民大学与东北大学联合开发了图机器学习库Jittor Geometric，其1.0版本近日已正式发布。 Jittor Geometric以国产深度学习框架Jittor为基础技术架构，聚焦图数据，在图存储、图计算、图学习等方面作了细致优化，整合、加速了现有多类图神经网络模型，模型运行时间在多种图学习任务上较Pytorch Geometric（PyG）、Deep Graph Library（DGL）等同类型框架提升10%~50%。同时，Jittor Geometric简洁、易用、跨平台通用性强、用户学习成本低，目前已用于研究生课程教学。

1/21/2025 9:15:00 AM

新智元

Kimi硬刚多模态满血版o1，首曝训练细节！强化学习scaling新范式诞生

还记得吗，AI大神Karpathy曾说过，「英文是最热门的编程语言」。两年后的现在，这个规则彻底要被颠覆了。从今天起，中文很有可能成为全球最热门的编程语言！

1/21/2025 9:00:00 AM

新智元

不到4小时，谷歌Gemini写完10万字商业战略书籍！人类全程没碰一个字

「文章本天成，妙手偶得之。」本来充满创意与想象的写作，LLM已经可以上手了。这次更是直接，LLM不光可以写文章了，大部头的书籍也要被拿下了？

1/21/2025 8:30:00 AM

新智元

机器学习的下一个前沿—量子扩展

译者 | 陈峻审校 | 重楼现如今，机器学习的速度比以往任何时候都快得多，也能够解决那些曾被认为完全无法解决的问题。将来，在量子计算潜力的驱动下，人工智能（AI）模型会越来越大、越来越强，甚至会超越我们对其训练的工具。说到模型训练，其计算和能源的消耗成本日趋高启。

1/21/2025 8:11:24 AM

陈峻

追平满血版o1的国产多模态模型终于来了！训练细节全部公开

春节前最后一周，能媲美 Open AI 满血版 o1（Full Version，而非 preview）的模型终于出现了！刚刚，月之暗面公布了他们的 Kimi k 系列模型最新版本 ——k1.5 多模态思考模型。新模型在数学、代码、多模态推理能力等方面全面对标 Open AI 满血版 o1，而且是 OpenAI 之外首个多模态 o1。

1/21/2025 8:00:00 AM

机器之心

Sam Altman称OpenAI将在几周内发布推理AI模型o3-mini

为了在人工智能技术竞赛中保持领先地位，OpenAI现在已经准备好了最新的人工智能模型，名为“o3-mini”该公司已经完成了其最新推理AI模型的第一个版本，OpenAI首席执行官Sam Altman在他的X帖子中证实了这一点。经过外部安全研究人员的测试，新模型将在几周内推出。值得注意的是，在2024年12月，ChatGPT制造商正式宣布开发和测试其先进的推理模型——o3和o3-mini。

1/20/2025 7:52:50 PM

AI未来之路：五大发展预测

AI创新持续加速，重塑我们的工作方式、生活方式和互动方式。从变革性的商业策略到日常技术，AI的影响无处不在。尽管有些宣传可能过于夸张，但AI的采用速度仍然是前所未有的。

1/20/2025 7:12:53 PM

Scott Likens

在北京，英伟达透露了人形机器人的未来：50年发展路缩至5年，靠“三台计算机”

2025，人形机器人量产元年。 CES上老黄带着14台机器人亮相这一幕刚过去不久，SemiAnalysis分析师的一条预测再次引起热议。英伟达最终将成为一家机器人公司，而不仅仅是半导体公司。

1/20/2025 4:27:56 PM

量子位

给大模型制作图文并茂的教科书: 从2.5年的教学视频里挖掘多模态语料

近期关于 scaling law 的讨论甚嚣尘上，很多观点认为 scale law is dead. 然而，我们认为，高质量的 “无监督” 数据才是 scaling law 的关键，尤其是教科书级别的高质量的知识语料。此外，尽管传统的语料快枯竭了，但是互联网上还有海量的视频并没有被利用起来，它们囊括了丰富的多种模态的知识，可以帮助 VLMs 更好好地理解世界。

1/20/2025 4:17:58 PM

机器之心