AI在线 AI在线

理论

OminiControl:一个新的FLUX通用控制模型,单个模型实现图像主题控制和深度控制

OminiControl 也开源了其可控生成模型。 OminiControl 是一个最小但功能强大的FLUX通用控制框架,可以一个模型实现图像主题控制和深度控制。 比如一个提示词加一个服装图片就能让生成的人物穿上服装。
1/21/2025 10:20:00 AM
AIGC Studio

DeepSeek是新源神!推理模型o1性能1/50价格,微调/数据/商用全免费,蒸馏1.5B小模型可比GPT-4o

DeepSeek新发布远超预期,Reddit/𝕏狂暴刷屏中。 这次大事共有3件:开源DeepSeek-R1推理大模型,与o1性能相近。 开源DeepSeek-R1-Zero,预训练模型直接RL,不走SFT,堪称语言模型的AlphaZero。
1/21/2025 10:10:56 AM

港科大提出端侧文生图模型SnapGen,参数仅SD十分之一,1.4秒内生成1024分辨率图像

本文经AIGC Studio公众号授权转载,转载请联系出处。 这项工作提出了一种新颖且高效的 T2I 模型SnapGen,SnapGen 是第一个可以在1.4秒内在移动设备上合成高分辨率图像(1024x1024 ) 的图像生成模型(379M ) ,并在 GenEval 指标上 达到0.66。 该模型全面超越了许多现有的数十亿参数模型,例如 SDXL、Lumina-Next 和 Playgroundv2。
1/21/2025 9:50:00 AM
AIGC Studio

震惊 AI 界!DeepSeek-R1 :纯RL打造推理王者,AI 自主学习里程碑「技术报告解读」

刚看完DeepSeek R1技术报告论文《DeepSeek-R1:强化学习驱动的大语言模型推理能力提升》,这篇论文最令人震惊的点在于:DeepSeek-R1-Zero 作为一个完全没有使用任何监督微调(SFT)数据,仅通过纯粹的强化学习(RL)训练的模型,展现出了惊人的推理能力,推理基准测试上可以媲美乃至超越 OpenAI 的 o1 系列模型(如 o1-0912),完全开源,报告毫无保留的奉上了R1的训练秘密,值得注意的是,这是第一个开放研究验证了 LLM 的推理能力可以完全通过 RL 来激励,而不需要 SFT。 这一突破为该领域的未来发展铺平了道路具体来说,以下几点尤其令人震惊:纯 RL 的成功: 以往的模型在提升推理能力时,通常依赖于 SFT 作为预训练步骤。 DeepSeek-R1-Zero 打破了这一常规,证明了仅通过设计合适的奖励机制和训练模板,就可以让模型在没有 SFT 的情况下(冷启动),通过自我博弈和进化,自发地学习到复杂的推理策略,这让我想起了AlphaZero--从零开始掌握围棋、将棋和国际象棋,而无需先模仿人类大师的棋步,这是整个技术报告最重要的启示惊人的性能提升: DeepSeek-R1-Zero 在 AIME 2024 基准测试上,pass@1 分数从 15.6% 提升到了 71.0%,通过多数投票更是达到了 86.7%,与 OpenAI-01-0912 的表现相当甚至更好。
1/21/2025 9:36:51 AM
AI寒武纪

特朗普时代再临:科学界喜忧参半,AI与太空探索或成最大赢家

今天,特朗普将宣誓就任美国第47任总统,开启他的第二任期。 回看特朗普在第一任期(2017-2021)否认气候变化风险,并试图大幅削减科研资金的举措,科学界对于这位即将上任的美国总统的看法是:鉴于特朗普一直宣扬的要砍掉大量科研经费与大力支持马斯克的「政府效率部门」,预计他将放弃对环境和传染病等基础研究的支持,但可能会推动人工智能、量子研究和太空探索方面的工作。 科学家和工程师们因此也出现了两种截然不同的前景展望:科技公司、太空爱好者、人工智能(AI)开发者等期待未来几年他们将迎来有利政策,并对探索新的可能而感到无比兴奋。
1/21/2025 9:30:00 AM
新智元

人大、东北大学联合开发「图机器学习库」Jittor Geometric!性能超越PYG、DGL

近日,中国人民大学与东北大学联合开发了图机器学习库Jittor Geometric,其1.0版本近日已正式发布。 Jittor Geometric以国产深度学习框架Jittor为基础技术架构,聚焦图数据,在图存储、图计算、图学习等方面作了细致优化,整合、加速了现有多类图神经网络模型,模型运行时间在多种图学习任务上较Pytorch Geometric(PyG)、Deep Graph Library(DGL)等同类型框架提升10%~50%。 同时,Jittor Geometric简洁、易用、跨平台通用性强、用户学习成本低,目前已用于研究生课程教学。
1/21/2025 9:15:00 AM
新智元

Kimi硬刚多模态满血版o1,首曝训练细节!强化学习scaling新范式诞生

还记得吗,AI大神Karpathy曾说过,「英文是最热门的编程语言」。 两年后的现在,这个规则彻底要被颠覆了。 从今天起,中文很有可能成为全球最热门的编程语言!
1/21/2025 9:00:00 AM
新智元

不到4小时,谷歌Gemini写完10万字商业战略书籍!人类全程没碰一个字

「文章本天成,妙手偶得之。 」本来充满创意与想象的写作,LLM已经可以上手了。 这次更是直接,LLM不光可以写文章了,大部头的书籍也要被拿下了?
1/21/2025 8:30:00 AM
新智元

机器学习的下一个前沿—量子扩展

译者 | 陈峻审校 | 重楼现如今,机器学习的速度比以往任何时候都快得多,也能够解决那些曾被认为完全无法解决的问题。 将来,在量子计算潜力的驱动下,人工智能(AI)模型会越来越大、越来越强,甚至会超越我们对其训练的工具。 说到模型训练,其计算和能源的消耗成本日趋高启。
1/21/2025 8:11:24 AM
陈峻

追平满血版o1的国产多模态模型终于来了!训练细节全部公开

春节前最后一周,能媲美 Open AI 满血版 o1(Full Version,而非 preview)的模型终于出现了! 刚刚,月之暗面公布了他们的 Kimi k 系列模型最新版本 ——k1.5 多模态思考模型。 新模型在数学、代码、多模态推理能力等方面全面对标 Open AI 满血版 o1,而且是 OpenAI 之外首个多模态 o1。
1/21/2025 8:00:00 AM
机器之心

Sam Altman称OpenAI将在几周内发布推理AI模型o3-mini

为了在人工智能技术竞赛中保持领先地位,OpenAI现在已经准备好了最新的人工智能模型,名为“o3-mini”该公司已经完成了其最新推理AI模型的第一个版本,OpenAI首席执行官Sam Altman在他的X帖子中证实了这一点。 经过外部安全研究人员的测试,新模型将在几周内推出。 值得注意的是,在2024年12月,ChatGPT制造商正式宣布开发和测试其先进的推理模型——o3和o3-mini。
1/20/2025 7:52:50 PM
Yu

AI未来之路:五大发展预测

AI创新持续加速,重塑我们的工作方式、生活方式和互动方式。 从变革性的商业策略到日常技术,AI的影响无处不在。 尽管有些宣传可能过于夸张,但AI的采用速度仍然是前所未有的。
1/20/2025 7:12:53 PM
Scott Likens

在北京,英伟达透露了人形机器人的未来:50年发展路缩至5年,靠“三台计算机”

2025,人形机器人量产元年。 CES上老黄带着14台机器人亮相这一幕刚过去不久,SemiAnalysis分析师的一条预测再次引起热议。 英伟达最终将成为一家机器人公司,而不仅仅是半导体公司。
1/20/2025 4:27:56 PM
量子位

给大模型制作图文并茂的教科书: 从2.5年的教学视频里挖掘多模态语料

近期关于 scaling law 的讨论甚嚣尘上,很多观点认为 scale law is dead. 然而,我们认为,高质量的 “无监督” 数据才是 scaling law 的关键,尤其是教科书级别的高质量的知识语料。 此外,尽管传统的语料快枯竭了,但是互联网上还有海量的视频并没有被利用起来,它们囊括了丰富的多种模态的知识,可以帮助 VLMs 更好好地理解世界。
1/20/2025 4:17:58 PM
机器之心

小红书AI翻译加急上线,网友评论区玩起Prompt,背后大模型被扒出

网友盛赞“最有用的大模型应用”,小红书AI翻译功能上线了! (Doge)一整个实测发现,实在是太好用了。 翻译软件做到的它能做,翻译软件不能做的它也能做。
1/20/2025 3:50:00 PM
量子位

CIO面临抉择:AI投资的快速回报与创新目标

一些企业已经开始看到早期AI投资的回报,而另一些企业则在着眼长远。 专家表示,最佳路径应兼顾二者。 当今CIO的AI战略是一个相互竞争的议程故事:一方面是快速见效的生产力提升,另一方面是改变游戏规则的长期创新。
1/20/2025 3:48:25 PM
Grant Gross

OpenAI博士级「超级智能体」即将登场?与ChatGPT深度集成,可操控计算机

就在刚刚,一则消息曝出,OpenAI已经在内部开始测试Operator,并将很快在ChatGPT macOS中推出。 这意味着,AI即将迎来一个「全新版本」的应用范式。 它不再仅仅是和你进行对话,被动式的给出参考答案来辅助你解决问题。
1/20/2025 3:32:41 PM
新智元

小红书翻译紧急上线,见证历史:大模型翻译首次上线C端应用!AI竟自称是GPT-4?网友变身“测试狂魔”,疯狂套话,效果拉满了!

编辑 | 伊风出品 | 51CTO技术栈(微信号:blog51cto)程序员键盘敲冒烟,小红书翻译功能这不是就来了吗! 之前大家各种吐槽美国人用的翻译机器不准确,导致大家交流起来“人机感很重”,一些美网友还需要额外用ChatGPT才能实现无缝交流。 这翻译功能一出来,语言障碍什么的都不存在了。
1/20/2025 1:52:45 PM
伊风