理论
OminiControl:一个新的FLUX通用控制模型,单个模型实现图像主题控制和深度控制
OminiControl 也开源了其可控生成模型。 OminiControl 是一个最小但功能强大的FLUX通用控制框架,可以一个模型实现图像主题控制和深度控制。 比如一个提示词加一个服装图片就能让生成的人物穿上服装。
1/21/2025 10:20:00 AM
AIGC Studio
DeepSeek是新源神!推理模型o1性能1/50价格,微调/数据/商用全免费,蒸馏1.5B小模型可比GPT-4o
DeepSeek新发布远超预期,Reddit/𝕏狂暴刷屏中。 这次大事共有3件:开源DeepSeek-R1推理大模型,与o1性能相近。 开源DeepSeek-R1-Zero,预训练模型直接RL,不走SFT,堪称语言模型的AlphaZero。
1/21/2025 10:10:56 AM
港科大提出端侧文生图模型SnapGen,参数仅SD十分之一,1.4秒内生成1024分辨率图像
本文经AIGC Studio公众号授权转载,转载请联系出处。 这项工作提出了一种新颖且高效的 T2I 模型SnapGen,SnapGen 是第一个可以在1.4秒内在移动设备上合成高分辨率图像(1024x1024 ) 的图像生成模型(379M ) ,并在 GenEval 指标上 达到0.66。 该模型全面超越了许多现有的数十亿参数模型,例如 SDXL、Lumina-Next 和 Playgroundv2。
1/21/2025 9:50:00 AM
AIGC Studio
震惊 AI 界!DeepSeek-R1 :纯RL打造推理王者,AI 自主学习里程碑「技术报告解读」
刚看完DeepSeek R1技术报告论文《DeepSeek-R1:强化学习驱动的大语言模型推理能力提升》,这篇论文最令人震惊的点在于:DeepSeek-R1-Zero 作为一个完全没有使用任何监督微调(SFT)数据,仅通过纯粹的强化学习(RL)训练的模型,展现出了惊人的推理能力,推理基准测试上可以媲美乃至超越 OpenAI 的 o1 系列模型(如 o1-0912),完全开源,报告毫无保留的奉上了R1的训练秘密,值得注意的是,这是第一个开放研究验证了 LLM 的推理能力可以完全通过 RL 来激励,而不需要 SFT。 这一突破为该领域的未来发展铺平了道路具体来说,以下几点尤其令人震惊:纯 RL 的成功: 以往的模型在提升推理能力时,通常依赖于 SFT 作为预训练步骤。 DeepSeek-R1-Zero 打破了这一常规,证明了仅通过设计合适的奖励机制和训练模板,就可以让模型在没有 SFT 的情况下(冷启动),通过自我博弈和进化,自发地学习到复杂的推理策略,这让我想起了AlphaZero--从零开始掌握围棋、将棋和国际象棋,而无需先模仿人类大师的棋步,这是整个技术报告最重要的启示惊人的性能提升: DeepSeek-R1-Zero 在 AIME 2024 基准测试上,pass@1 分数从 15.6% 提升到了 71.0%,通过多数投票更是达到了 86.7%,与 OpenAI-01-0912 的表现相当甚至更好。
1/21/2025 9:36:51 AM
AI寒武纪
特朗普时代再临:科学界喜忧参半,AI与太空探索或成最大赢家
今天,特朗普将宣誓就任美国第47任总统,开启他的第二任期。 回看特朗普在第一任期(2017-2021)否认气候变化风险,并试图大幅削减科研资金的举措,科学界对于这位即将上任的美国总统的看法是:鉴于特朗普一直宣扬的要砍掉大量科研经费与大力支持马斯克的「政府效率部门」,预计他将放弃对环境和传染病等基础研究的支持,但可能会推动人工智能、量子研究和太空探索方面的工作。 科学家和工程师们因此也出现了两种截然不同的前景展望:科技公司、太空爱好者、人工智能(AI)开发者等期待未来几年他们将迎来有利政策,并对探索新的可能而感到无比兴奋。
1/21/2025 9:30:00 AM
新智元
人大、东北大学联合开发「图机器学习库」Jittor Geometric!性能超越PYG、DGL
近日,中国人民大学与东北大学联合开发了图机器学习库Jittor Geometric,其1.0版本近日已正式发布。 Jittor Geometric以国产深度学习框架Jittor为基础技术架构,聚焦图数据,在图存储、图计算、图学习等方面作了细致优化,整合、加速了现有多类图神经网络模型,模型运行时间在多种图学习任务上较Pytorch Geometric(PyG)、Deep Graph Library(DGL)等同类型框架提升10%~50%。 同时,Jittor Geometric简洁、易用、跨平台通用性强、用户学习成本低,目前已用于研究生课程教学。
1/21/2025 9:15:00 AM
新智元
Kimi硬刚多模态满血版o1,首曝训练细节!强化学习scaling新范式诞生
还记得吗,AI大神Karpathy曾说过,「英文是最热门的编程语言」。 两年后的现在,这个规则彻底要被颠覆了。 从今天起,中文很有可能成为全球最热门的编程语言!
1/21/2025 9:00:00 AM
新智元
不到4小时,谷歌Gemini写完10万字商业战略书籍!人类全程没碰一个字
「文章本天成,妙手偶得之。 」本来充满创意与想象的写作,LLM已经可以上手了。 这次更是直接,LLM不光可以写文章了,大部头的书籍也要被拿下了?
1/21/2025 8:30:00 AM
新智元
机器学习的下一个前沿—量子扩展
译者 | 陈峻审校 | 重楼现如今,机器学习的速度比以往任何时候都快得多,也能够解决那些曾被认为完全无法解决的问题。 将来,在量子计算潜力的驱动下,人工智能(AI)模型会越来越大、越来越强,甚至会超越我们对其训练的工具。 说到模型训练,其计算和能源的消耗成本日趋高启。
1/21/2025 8:11:24 AM
陈峻
追平满血版o1的国产多模态模型终于来了!训练细节全部公开
春节前最后一周,能媲美 Open AI 满血版 o1(Full Version,而非 preview)的模型终于出现了! 刚刚,月之暗面公布了他们的 Kimi k 系列模型最新版本 ——k1.5 多模态思考模型。 新模型在数学、代码、多模态推理能力等方面全面对标 Open AI 满血版 o1,而且是 OpenAI 之外首个多模态 o1。
1/21/2025 8:00:00 AM
机器之心
Sam Altman称OpenAI将在几周内发布推理AI模型o3-mini
为了在人工智能技术竞赛中保持领先地位,OpenAI现在已经准备好了最新的人工智能模型,名为“o3-mini”该公司已经完成了其最新推理AI模型的第一个版本,OpenAI首席执行官Sam Altman在他的X帖子中证实了这一点。 经过外部安全研究人员的测试,新模型将在几周内推出。 值得注意的是,在2024年12月,ChatGPT制造商正式宣布开发和测试其先进的推理模型——o3和o3-mini。
1/20/2025 7:52:50 PM
Yu
AI未来之路:五大发展预测
AI创新持续加速,重塑我们的工作方式、生活方式和互动方式。 从变革性的商业策略到日常技术,AI的影响无处不在。 尽管有些宣传可能过于夸张,但AI的采用速度仍然是前所未有的。
1/20/2025 7:12:53 PM
Scott Likens
在北京,英伟达透露了人形机器人的未来:50年发展路缩至5年,靠“三台计算机”
2025,人形机器人量产元年。 CES上老黄带着14台机器人亮相这一幕刚过去不久,SemiAnalysis分析师的一条预测再次引起热议。 英伟达最终将成为一家机器人公司,而不仅仅是半导体公司。
1/20/2025 4:27:56 PM
量子位
给大模型制作图文并茂的教科书: 从2.5年的教学视频里挖掘多模态语料
近期关于 scaling law 的讨论甚嚣尘上,很多观点认为 scale law is dead. 然而,我们认为,高质量的 “无监督” 数据才是 scaling law 的关键,尤其是教科书级别的高质量的知识语料。 此外,尽管传统的语料快枯竭了,但是互联网上还有海量的视频并没有被利用起来,它们囊括了丰富的多种模态的知识,可以帮助 VLMs 更好好地理解世界。
1/20/2025 4:17:58 PM
机器之心
小红书AI翻译加急上线,网友评论区玩起Prompt,背后大模型被扒出
网友盛赞“最有用的大模型应用”,小红书AI翻译功能上线了! (Doge)一整个实测发现,实在是太好用了。 翻译软件做到的它能做,翻译软件不能做的它也能做。
1/20/2025 3:50:00 PM
量子位
CIO面临抉择:AI投资的快速回报与创新目标
一些企业已经开始看到早期AI投资的回报,而另一些企业则在着眼长远。 专家表示,最佳路径应兼顾二者。 当今CIO的AI战略是一个相互竞争的议程故事:一方面是快速见效的生产力提升,另一方面是改变游戏规则的长期创新。
1/20/2025 3:48:25 PM
Grant Gross
OpenAI博士级「超级智能体」即将登场?与ChatGPT深度集成,可操控计算机
就在刚刚,一则消息曝出,OpenAI已经在内部开始测试Operator,并将很快在ChatGPT macOS中推出。 这意味着,AI即将迎来一个「全新版本」的应用范式。 它不再仅仅是和你进行对话,被动式的给出参考答案来辅助你解决问题。
1/20/2025 3:32:41 PM
新智元
小红书翻译紧急上线,见证历史:大模型翻译首次上线C端应用!AI竟自称是GPT-4?网友变身“测试狂魔”,疯狂套话,效果拉满了!
编辑 | 伊风出品 | 51CTO技术栈(微信号:blog51cto)程序员键盘敲冒烟,小红书翻译功能这不是就来了吗! 之前大家各种吐槽美国人用的翻译机器不准确,导致大家交流起来“人机感很重”,一些美网友还需要额外用ChatGPT才能实现无缝交流。 这翻译功能一出来,语言障碍什么的都不存在了。
1/20/2025 1:52:45 PM
伊风
资讯热榜
标签云
人工智能
OpenAI
AIGC
AI
ChatGPT
DeepSeek
AI绘画
数据
机器人
谷歌
模型
大模型
Midjourney
智能
用户
学习
开源
GPT
微软
Meta
AI创作
图像
技术
论文
Stable Diffusion
马斯克
Gemini
算法
蛋白质
生成式
芯片
代码
英伟达
腾讯
神经网络
计算
研究
Sora
AI for Science
3D
Anthropic
AI设计
机器学习
GPU
开发者
场景
华为
预测
伟达
Transformer
百度
人形机器人
苹果
深度学习
AI视频
模态
字节跳动
xAI
驾驶
文本
搜索
大语言模型
Claude
Copilot
具身智能
神器推荐
LLaMA
算力
安全
应用
视频生成
科技
视觉
亚马逊
干货合集
2024
AGI
特斯拉
训练
大型语言模型