资讯列表
CVPR 2024 Spotlight | 解锁图像编辑新境界, 北大、腾讯提出DiffEditor,让精细编辑更简单!
本文经AIGC Studio公众号授权转载,转载请联系出处。 在图像生成领域,大型文本到图像(T2I)扩散模型近年来取得了革命性的突破。 然而,将这些强大的生成能力转化为精细的图像编辑任务,仍面临诸多挑战。
搅动推理 AI 模型风云:谷歌被曝 1 月 23 日发布增强版 Gemini 2.0 Flash Thinking
消息源 @sir04680280 于 1 月 19 日发布博文,报道称观看谷歌黑客马拉松直播时,发现谷歌升级版 Gemini AI 模型“Gemini 2.0 Flash Thinking Exp-0123”,暗示 1 月 23 日发布。
OpenAI ChatGPT Operator 探索自动化新高度:你的专属 AI 秘书,即将上岗
科技媒体 TestingCatalog 昨日(1 月 20 日)发布博文,报道称通过挖掘最新 macOS 版 ChatGPT 应用代码,OpenAI 公司即将推出名为“Operator”的全新 AI 功能,充当自主 AI 智能体,自动执行各种计算机任务。
OminiControl:一个新的FLUX通用控制模型,单个模型实现图像主题控制和深度控制
OminiControl 也开源了其可控生成模型。 OminiControl 是一个最小但功能强大的FLUX通用控制框架,可以一个模型实现图像主题控制和深度控制。 比如一个提示词加一个服装图片就能让生成的人物穿上服装。
AI 版“Cookie”:OpenAI ChatGPT 搜索测试整合记忆功能
科技媒体 testingcatalog 今天(1 月 21 日)发布博文,报道称 OpenAI 公司正探索为其搜索功能整合 Memory 记忆功能,从而赋予 ChatGPT 更个性化的搜索能力。
AI加速优化求解,达摩院连续两年获求解器全国赛事冠军
以“AI 优化求解器”助力能源绿色转型,达摩院自研“敏迭”求解器连续获得权威赛事冠军。 1月17日消息,达摩院自主研发的“敏迭”求解器在工信部产业发展促进中心组织的第二届能源电子产业创新大赛上,再次斩获“国产求解器技术专题赛”冠军。 这是继近期入选工信部“人工智能赋能新型工业化”典型应用案例后的又一殊荣。
DeepSeek是新源神!推理模型o1性能1/50价格,微调/数据/商用全免费,蒸馏1.5B小模型可比GPT-4o
DeepSeek新发布远超预期,Reddit/𝕏狂暴刷屏中。 这次大事共有3件:开源DeepSeek-R1推理大模型,与o1性能相近。 开源DeepSeek-R1-Zero,预训练模型直接RL,不走SFT,堪称语言模型的AlphaZero。
港科大提出端侧文生图模型SnapGen,参数仅SD十分之一,1.4秒内生成1024分辨率图像
本文经AIGC Studio公众号授权转载,转载请联系出处。 这项工作提出了一种新颖且高效的 T2I 模型SnapGen,SnapGen 是第一个可以在1.4秒内在移动设备上合成高分辨率图像(1024x1024 ) 的图像生成模型(379M ) ,并在 GenEval 指标上 达到0.66。 该模型全面超越了许多现有的数十亿参数模型,例如 SDXL、Lumina-Next 和 Playgroundv2。
震惊 AI 界!DeepSeek-R1 :纯RL打造推理王者,AI 自主学习里程碑「技术报告解读」
刚看完DeepSeek R1技术报告论文《DeepSeek-R1:强化学习驱动的大语言模型推理能力提升》,这篇论文最令人震惊的点在于:DeepSeek-R1-Zero 作为一个完全没有使用任何监督微调(SFT)数据,仅通过纯粹的强化学习(RL)训练的模型,展现出了惊人的推理能力,推理基准测试上可以媲美乃至超越 OpenAI 的 o1 系列模型(如 o1-0912),完全开源,报告毫无保留的奉上了R1的训练秘密,值得注意的是,这是第一个开放研究验证了 LLM 的推理能力可以完全通过 RL 来激励,而不需要 SFT。 这一突破为该领域的未来发展铺平了道路具体来说,以下几点尤其令人震惊:纯 RL 的成功: 以往的模型在提升推理能力时,通常依赖于 SFT 作为预训练步骤。 DeepSeek-R1-Zero 打破了这一常规,证明了仅通过设计合适的奖励机制和训练模板,就可以让模型在没有 SFT 的情况下(冷启动),通过自我博弈和进化,自发地学习到复杂的推理策略,这让我想起了AlphaZero--从零开始掌握围棋、将棋和国际象棋,而无需先模仿人类大师的棋步,这是整个技术报告最重要的启示惊人的性能提升: DeepSeek-R1-Zero 在 AIME 2024 基准测试上,pass@1 分数从 15.6% 提升到了 71.0%,通过多数投票更是达到了 86.7%,与 OpenAI-01-0912 的表现相当甚至更好。
特朗普时代再临:科学界喜忧参半,AI与太空探索或成最大赢家
今天,特朗普将宣誓就任美国第47任总统,开启他的第二任期。 回看特朗普在第一任期(2017-2021)否认气候变化风险,并试图大幅削减科研资金的举措,科学界对于这位即将上任的美国总统的看法是:鉴于特朗普一直宣扬的要砍掉大量科研经费与大力支持马斯克的「政府效率部门」,预计他将放弃对环境和传染病等基础研究的支持,但可能会推动人工智能、量子研究和太空探索方面的工作。 科学家和工程师们因此也出现了两种截然不同的前景展望:科技公司、太空爱好者、人工智能(AI)开发者等期待未来几年他们将迎来有利政策,并对探索新的可能而感到无比兴奋。
豆包App更新实时语音通话功能,中文对话断崖式领先,人机难辨!
1月20日,豆包APP更新实时语音通话功能,面向所有用户开放。 该功能基于最新豆包实时语音大模型(Doubao Realtime Voice Model)。 更新后,豆包中文场景的对话能力在语音真实感和“喜怒哀乐”的情绪表现上近乎达到“人机难辨”的AI交互效果,可以模仿不同声线,并且在“逻辑思考”和“情绪感知”上有明显提升。
人大、东北大学联合开发「图机器学习库」Jittor Geometric!性能超越PYG、DGL
近日,中国人民大学与东北大学联合开发了图机器学习库Jittor Geometric,其1.0版本近日已正式发布。 Jittor Geometric以国产深度学习框架Jittor为基础技术架构,聚焦图数据,在图存储、图计算、图学习等方面作了细致优化,整合、加速了现有多类图神经网络模型,模型运行时间在多种图学习任务上较Pytorch Geometric(PyG)、Deep Graph Library(DGL)等同类型框架提升10%~50%。 同时,Jittor Geometric简洁、易用、跨平台通用性强、用户学习成本低,目前已用于研究生课程教学。
Kimi硬刚多模态满血版o1,首曝训练细节!强化学习scaling新范式诞生
还记得吗,AI大神Karpathy曾说过,「英文是最热门的编程语言」。 两年后的现在,这个规则彻底要被颠覆了。 从今天起,中文很有可能成为全球最热门的编程语言!
不到4小时,谷歌Gemini写完10万字商业战略书籍!人类全程没碰一个字
「文章本天成,妙手偶得之。 」本来充满创意与想象的写作,LLM已经可以上手了。 这次更是直接,LLM不光可以写文章了,大部头的书籍也要被拿下了?
机器学习的下一个前沿—量子扩展
译者 | 陈峻审校 | 重楼现如今,机器学习的速度比以往任何时候都快得多,也能够解决那些曾被认为完全无法解决的问题。 将来,在量子计算潜力的驱动下,人工智能(AI)模型会越来越大、越来越强,甚至会超越我们对其训练的工具。 说到模型训练,其计算和能源的消耗成本日趋高启。
追平满血版o1的国产多模态模型终于来了!训练细节全部公开
春节前最后一周,能媲美 Open AI 满血版 o1(Full Version,而非 preview)的模型终于出现了! 刚刚,月之暗面公布了他们的 Kimi k 系列模型最新版本 ——k1.5 多模态思考模型。 新模型在数学、代码、多模态推理能力等方面全面对标 Open AI 满血版 o1,而且是 OpenAI 之外首个多模态 o1。
人类全程没碰一个字,谷歌 Gemini 不到 4 小时写完 10 万字商业战略书籍
初创公司 DeepWriter 宣布:世界第一部完全由 AI 写作的 10 万字商业竞争书籍诞生了!全程没有人类参与工作,不到 4 小时,即可完成约 10 万单词的商业书籍创作。
跨维科技发布 DexForce W1 具身机器人:34 个动力单元,可感知真实世界
其采用高度仿人结构,具备34个动力单元,可做到高度灵活与多场景通用;配备了跨维纯视觉空间智能传感器,可做到实时感知、精准控制。