模型

DeepSeek新注意力机制引热议!梁文锋亲自提交预印本,目标明确降低计算成本

DeepSeek新注意力机制论文一出,再次引爆讨论热度。 依然是熟悉的画风,熟悉的味道——那边马斯克疯狂烧了20万张卡训出Grok 3,这厢DeepSeek重点关注的依然是压缩计算和推理成本。 具体来说,新论文提出了一种可原生训练的稀疏注意力机制,名为NSA(Native Sparse Attention)。

OpenAI掀「百万美金」编程大战!Claude 3.5 Sonnet狂赚40万拿下第一

昨天马斯克刚刚发布了号称「地表最聪明」的Grok 3模型,抢走了所有关注。 这边OpenAI就开始坐不住了,立刻扔出了SWE-Lancer(AI编码测试基准),看一下AI到底能在现实任务中挣到多少钱。 SWE-Lance是一个全新的、更贴近现实的基准测试,用于评估AI模型的编码性能。

奥特曼押注惨败,爆火Ai Pin已死!ChatGPT版iPhone终结,惠普1.16亿美元接盘

谁也没想到,曾红极一时爆火硬件Ai Pin直接挂了! 刚刚,惠普以1.16亿美元收购了前苹果夫妻高管联手创办的AI初创Humane。 曾经,AI硬件这个领域被奥特曼寄予厚望,为此他大力投资了消费硬件初创Humane。

宇树机器人跳舞被疑AI合成,王兴兴发新视频自证,小红书:还是疑似AI合成

“这机器人绝对是AI或CG合成的! ”“这也太假了。 ”在一片质疑声之下,宇树科技CEO王兴兴在小红书上发了段自家机器人的最新视频:这段视频是宇树G1机器人的实拍,最大特点就是在机器人后边放了块大镜子。

英伟达CEO老黄预言:未来,每个人都有自己的AI导师!

AI导师时代来临,学习门槛将大幅降低! 在近日接受《财富》杂志采访时,黄仁勋直言:「AI的迅猛发展正在彻底改变知识获取的方式。 」以往学习一门新技能或进入陌生领域,需要投入大量时间和精力,而AI导师的出现让这一切发生了翻天覆地的变化。

DeepSeek满血微调秘籍开源!站在巨人肩膀打造私有模型,一手教程在此

DeepSeek爆火甚至引发API低价内卷……但是别忘了开源模型的最大好处是提供了“巨人的肩膀”啊! 微调DeepSeek-V3/R1,低成本打造高质量私有模型、提高业务竞争力,或许才是当下行业内更迫切的需求。 就在刚刚,已收获近4万GitHub StarColossal-AI发布开源大模型后训练工具箱,它包含:DeepSeek-V3/R1满血671B LoRA低成本SFT微调;完整的强化学习工具链PPO、GRPO、DPO、SimPO等;无缝适配DeepSeek系列蒸馏模型在内的HuggingFace开源模型;兼容支持英伟达GPU、华为昇腾NPU等多种硬件;支持混合精度训练,gradient checkpoint等训练加速降低成本;灵活的训练配置接口,支持自定义奖励函数、损失函数等;提供灵活的并行策略配置接口,包括数据并行、模型并行、专家并行、ZeRO和Offload等,以适应不同硬件规模。

全球首测!OpenAI开源SWELancer,大模型冲击100万年薪

今天凌晨2点,OpenAI开源了一个全新评估大模型代码能力的测试基准——SWE-Lancer。 目前,测试模型代码能力的基准主要有SWE-Bench和SWE-BenchVerified,但这两个有一个很大的局限性,主要针对孤立任务,很难反映现实中软件工程师的复杂情况。 例如,开发人员需处理全技术栈的工作,要考虑代码库间的复杂交互和权衡。

官宣!OpenAI前CTO新公司:北大校友翁荔加盟,创始29人2/3来自OpenAI

正式官宣! OpenAI前CTO Mira Murati 成立新公司——Thinking Machines Lab。 整个创业团队可以说前所未有之豪华了,三分之二的都是以前的OpenAI旧部追随——其中包括OpenAI前研究(后训练)副总裁Barret Zoph,担任公司CTO;刚刚离职Anthropic、OpenAI离职联创John Schulman,任公司首席科学家,还有包括前OpenAI VP、北大校友翁荔等等。

马斯克“地表最强”Grok 3炸场,竞技场首超1400分

刚刚,马斯克xAI的Grok 3终于亮相(超300万人次围观)! 一出道即巅峰,竞技场(lmarena.ai)官方给出了这样的评价:Grok 3是首个突破1400分的模型,并且在所有类别中排名第一。 而且,Grok 3还是首个在10万张(后扩展到20万)H100集群上训练出的模型。

微软开放3.1T token高质量数据!通用/代码/数学/问答,全领域超越开源

过去几年,大型语言模型(LLMs)已经成为人工智能研究的一个关键领域,从大规模的自然语言数据中学习,使其能够以极高的准确率执行各种与语言相关的任务。 得益于模型扩展性方面的进展,研究人员能够创建具有前所未有复杂度的模型。 当前的研究趋势是致力于构建更大、更复杂的模型,具有数百/数千亿个参数,但大型语言模型的训练需要海量的训练数据,尤其随着模型参数量的上升,对于优质数据数量的要求也将进一步加大,优质数据量的缺乏极大限制了模型能力的进一步增长。

马斯克20万块GPU炼出Grok-3,暴击DeepSeek R1数学屠榜!疯狂复仇OpenAI

人类史上首个在20万块GPU上训出的模型终于问世! 刚刚,马斯克带队三位xAI成员在线开启直播,官宣Grok-3全家桶——Grok-3(Beta)、Grok-3 mini首个推理模型Grok-3 Reasoning(Beta)、Grok-3 mini Reasoning:击败o3-mini/DeepSeek-R1,解锁推理时计算首个AI智能体「DeepSearch」:联网深入搜索一股OpenAI发布会的味道扑面而来据介绍,三代Grok的训练计算量竟是Grok-2的10倍,那么实际表现又如何? 世界最大超算集群Colossus已有20万块GPU:10万块GPU同步训练(第一阶段用时122天搭建);20万GPU(第二阶段用时92天)在多项基准测试中,Grok-3在数学(AIME 2024)、科学问答(GPQA)、编码(LCB)上刷新SOTA,大幅超越DeepSeek-V3、Gemini-2 Pro、GPT-4o。

OpenAI突宣开源计划:端侧模型or小模型二选一!奥特曼在线征集投票全球最大开源视频模型,现在也Created in China了,阶跃出品

刚刚,阶跃星辰联合吉利汽车集团,开源了两款多模态大模型! 新模型共2款:全球范围内参数量最大的开源视频生成模型Step-Video-T2V行业内首款产品级开源语音交互大模型Step-Audio多模态卷王开始开源多模态模型,其中Step-Video-T2V采用的还是最为开放宽松的MIT开源协议,可任意编辑和商业应用。 (老规矩,GitHub、抱抱脸、魔搭直通车可见文末)在两款大模型的研发过程中,双方在算力算法、场景训练等领域优势互补,“显著增强了多模态大模型的性能表现”。

嚯!大语言扩散模型来了,何必只预测下一个token | 人大高瓴&蚂蚁

用扩散模型替代自回归,大模型的逆诅咒有解了!人大高瓴人工智能研究院、蚂蚁共同提出LLaDA(a Large Language Diffusion with mAsking)。 LLaDA-8B在上下文学习方面与LLaMA3-8B能力相当,而且在反转诗歌任务中超越GPT-4o。 在大语言模型领域,反转诗歌是一个特殊任务,它用来评估模型在处理语言模型的双向依赖关系和逻辑推理能力。

阿里提出文生卡通新方法Textoon:一分钟内生成丰富多彩、可交互的Live2D格式角色

阿里提出了一种基于文本描述生成多样化2D卡通角色的新方法Textoon, Textoon利用先进的语言和视觉模型,能够在短短一分钟内生成丰富多彩、可交互的Live2D格式角色。 这种方法不仅提高了生成效率,还降低了对计算资源的需求,使得2D卡通角色的创作更加便捷和高效。 Textoon:根据文本描述生成生动的 2D 卡通人物相关链接论文::: 卡通风格是数字角色创作中一种重要的艺术形式,尤其受到年轻观众的欢迎。

北大、KAUST、字节联合提出“可逆扩散模型”赋能图像重建,代码已开源!

本篇文章来自公众号粉丝投稿,论文提出了一种可逆扩散模型(Invertible Diffusion Models,IDM)。 这一方法通过引入(1)端到端的训练框架与(2)可逆网络设计,有效提升了图像重建的性能与效率。 一、论文信息论文标题:Invertible Diffusion Models for Compressed Sensing论文作者:Bin Chen(陈斌), Zhenyu Zhang(张振宇), Weiqi Li(李玮琦), Chen Zhao(赵琛), Jiwen Yu(余济闻), Shijie Zhao(赵世杰), Jie Chen(陈杰) and Jian Zhang(张健)作者单位:北京大学信息工程学院、阿卜杜拉国王科技大学、字节跳动发表刊物:IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI)发表时间:2025年2月5日正式版本:::、任务背景扩散模型作为当前非常知名且强大的生成模型之一,已在图像重建任务中展现出极大的潜力。

刚刚,Ilya被曝正筹资超10亿美元、估值超300亿美元,知名创投Greenoaks牵头

一觉醒来,Ilya Sutskever 及其创业公司 Safe SuperIntelligence(SSI)又有了新消息! 而在几天前,这家公司刚被传出正以 200 亿美元估值洽谈融资。 据彭博社援引知情人士的消息,Ilya Sutskever 正在为其创业公司 SSI 筹集 超过 10 亿美元资金,估值将超过 300 亿美元。

大决战!OpenAI可能发布GPT-4.5,狙击马斯克Gork3

今天凌晨1点,OpenAI首席执行官兼联合创始人SamAltman表示,对于高要求的测试者来说,试用 GPT - 4.5 带来的感受AGI的体验,远比我预期的要深刻得多! 这说明 GPT - 4.5已经进入测试阶段,离正式发布非常近了。 而马斯克在上周日宣布,将在美国太平洋时间周一晚上8点,直播发布“地球最聪明的AI”——Gork3。

老友记搬沙发难题终结,60年数学谜题破解!119页论文惊人证明:有最优解

臭名昭著的「搬沙发」难题,已经困扰了数学家们60年。 《老友记》经典的一幕,就是Ross找人帮忙搬新沙发时,无论如何也无法使沙发顺利通过拐角。 Ross大喊「Pivot!