模型

Nature认证DeepSeek成科研工具全能者，国内高校如何借力大模型？

DeepSeek的风，也是飘到了科研领域——最新消息，同济大学通过百度智能云千帆大模型平台接入并调用DeepSeek-R1/V3系列模型；包括浙大、北大清华等知名高校也是纷纷出动，要么接入模型推出智能体，又或者出品干货课程、使用手册《从入门到精通》等等，几度都登上热搜。 Nature更是几度发文，因为DeepSeek开源低成本易部署等优势，科学家们纷纷涌向DeepSeek，这种模型已经是科研AI工具中的全能者。感知到的是，大模型在科研探索中发挥的价值远比以往任何时候都深入。

2/20/2025 1:30:00 PM

量子位

物理直觉不再是人类专属？LeCun等新研究揭示AI可如何涌现出此能力

在当今的 AI 领域，图灵奖得主 Yann LeCun 算是一个另类。即便眼见着自回归 LLM 的能力越来越强大，能解决的任务也越来越多，他也依然坚持自己的看法：自回归 LLM 没有光明的未来。在近期的一次演讲中，他将自己的观点总结成了「四个放弃」：放弃生成式模型、放弃概率模型、放弃对比方法、放弃强化学习。

2/20/2025 12:37:57 PM

机器之心

复旦主导，中美等8个国家25家单位44名学者联合发布大模型安全技术综述

近年来，随着大模型的快速发展和广泛应用，其安全问题引发了社会各界的广泛关注。例如，近期发生的「全球首例利用 ChatGPT 策划的恐袭事件」再次敲响了警钟，凸显了大模型安全问题的紧迫性和重要性。为应对这一挑战，来自中美英德等 8 个国家 25 家高校和科研机构的 44 位 AI 安全领域学者联合发布了一篇系统性技术综述论文。

2/20/2025 11:31:31 AM

机器之心

英伟达开源4K图像生成模型Sana，可在16G显存电脑部署，支持ComfyUI和LoRA训练

英伟达开源了一个可以直接生成 4K 图片的模型 Sana。 Sana-0.6B 可以在 16GB 的笔记本电脑 GPU 上部署。生成 1024 × 1024 分辨率的图像只需不到 1 秒钟。

2/20/2025 9:55:01 AM

AIGC Studio

腾讯优图提出首个基于DiT的高保真虚拟试衣算法FitDiT

今天介绍的文章来自公众号粉丝投稿，腾讯优图提出首个基于DiT的高保真虚拟试衣算法FitDiT，给定一个人像图像和一个衣物图像，就可以生成一个展示人物穿着所提供衣物的图像。 FitDiT 在虚拟试穿中表现出色，解决了各种场景中与纹理感知保存和尺寸感知试穿相关的挑战。引言基于图像的虚拟试穿是当前电商场景流行且前景看好的图像合成技术，能够显著改善消费者的购物体验并降低服装商家的广告成本。

2/20/2025 9:36:45 AM

AIGC Studio

再谈什么是神经网络，透过现象看本质

面对着网络上各种各样关于神经网络的内容，很多想学习神经网络的人都无从下手，包括作者自己；面对各种乱七八糟的概念，名词，很多人都被这些东西蒙住了眼睛。所以，今天我们就抛开各种高大上的概念，从本质出发来学习什么网络；我们今天不讨论CNN，RNN，Transformer，LSTM等各种神经网络架构；只讨论什么是神经网络。神经网络对神经网络有过了解的人应该都知道，神经网络就是仿生学的一种实现，使用的是数学模型模拟人类的大脑神经系统；具体的可以看一下上一篇文章——从一个简单的神经网络模型开始。

2/20/2025 8:10:00 AM

AI探索时代

从一个简单的神经网络模型开始

关于神经网络的文章写的也不少了，但一直没弄明白神经网络到底是怎么运作的；而现有的神经网络模型又太复杂，如Transformer，CNN，RNN，以及各种应用场景(NLP，CV，分类任务，回归任务等等)；导致我们无法看到神经网络最本质的东西。所以，今天我们就来从最简单的神经网络开始学起。简单神经网络神经网络的基本原理很简单，那就是模仿由人类大脑神经元构成的神经网络；神经元结构如下图所示：上图是生物学中神经元的基本结构，神经元由树突和轴突以及细胞核组成；而不同神经元之间通过轴突进行连接；当然这些都是中学生物学的基础，就不多说了。

2/19/2025 6:00:00 PM

AI探索时代

Kimi新论文再次“撞车”DeepSeek，都谈到了长文注意力机制

Kimi背后的长上下文处理机制曝光了！这项名为MoBA的新型注意力机制，能将处理1M长文本的速度一下子提升6.5倍，而且还是经过Kimi平台实际验证的那种。概括而言，这项耗时一年半的工作主要看点在：把完整上下文划分成块，让每个查询token自动去关注最相关的KV块，这样就能高效处理长序列数据；提出一种新的参数无关的top-k门控机制，它能给每个查询token挑选出最相关的块，保证模型只聚焦在最有用信息的块上；支持在全注意力和稀疏注意力模式之间轻松切换；一言以蔽之，MoBA将MoE（专家混合）应用于注意力机制，通过遵循一种“less structure” 原则，允许模型自主决定关注哪些区域或位置。

2/19/2025 4:01:37 PM

量子位

DeepSeek新注意力机制引热议！梁文锋亲自提交预印本，目标明确降低计算成本

DeepSeek新注意力机制论文一出，再次引爆讨论热度。依然是熟悉的画风，熟悉的味道——那边马斯克疯狂烧了20万张卡训出Grok 3，这厢DeepSeek重点关注的依然是压缩计算和推理成本。具体来说，新论文提出了一种可原生训练的稀疏注意力机制，名为NSA（Native Sparse Attention）。

2/19/2025 4:01:37 PM

量子位

OpenAI掀「百万美金」编程大战！Claude 3.5 Sonnet狂赚40万拿下第一

昨天马斯克刚刚发布了号称「地表最聪明」的Grok 3模型，抢走了所有关注。这边OpenAI就开始坐不住了，立刻扔出了SWE-Lancer（AI编码测试基准），看一下AI到底能在现实任务中挣到多少钱。 SWE-Lance是一个全新的、更贴近现实的基准测试，用于评估AI模型的编码性能。

2/19/2025 4:01:37 PM

新智元

奥特曼押注惨败，爆火Ai Pin已死！ChatGPT版iPhone终结，惠普1.16亿美元接盘

谁也没想到，曾红极一时爆火硬件Ai Pin直接挂了！刚刚，惠普以1.16亿美元收购了前苹果夫妻高管联手创办的AI初创Humane。曾经，AI硬件这个领域被奥特曼寄予厚望，为此他大力投资了消费硬件初创Humane。

2/19/2025 2:02:23 PM

新智元

宇树机器人跳舞被疑AI合成，王兴兴发新视频自证，小红书：还是疑似AI合成

“这机器人绝对是AI或CG合成的！ ”“这也太假了。 ”在一片质疑声之下，宇树科技CEO王兴兴在小红书上发了段自家机器人的最新视频：这段视频是宇树G1机器人的实拍，最大特点就是在机器人后边放了块大镜子。

2/19/2025 2:02:18 PM

量子位

英伟达CEO老黄预言：未来，每个人都有自己的AI导师！

AI导师时代来临，学习门槛将大幅降低！在近日接受《财富》杂志采访时，黄仁勋直言：「AI的迅猛发展正在彻底改变知识获取的方式。」以往学习一门新技能或进入陌生领域，需要投入大量时间和精力，而AI导师的出现让这一切发生了翻天覆地的变化。

2/19/2025 2:02:11 PM

新智元

DeepSeek满血微调秘籍开源！站在巨人肩膀打造私有模型，一手教程在此

DeepSeek爆火甚至引发API低价内卷……但是别忘了开源模型的最大好处是提供了“巨人的肩膀”啊！微调DeepSeek-V3/R1，低成本打造高质量私有模型、提高业务竞争力，或许才是当下行业内更迫切的需求。就在刚刚，已收获近4万GitHub StarColossal-AI发布开源大模型后训练工具箱，它包含：DeepSeek-V3/R1满血671B LoRA低成本SFT微调；完整的强化学习工具链PPO、GRPO、DPO、SimPO等；无缝适配DeepSeek系列蒸馏模型在内的HuggingFace开源模型；兼容支持英伟达GPU、华为昇腾NPU等多种硬件；支持混合精度训练，gradient checkpoint等训练加速降低成本；灵活的训练配置接口，支持自定义奖励函数、损失函数等；提供灵活的并行策略配置接口，包括数据并行、模型并行、专家并行、ZeRO和Offload等，以适应不同硬件规模。

2/19/2025 2:02:11 PM

量子位

全球首测！OpenAI开源SWELancer，大模型冲击100万年薪

今天凌晨2点，OpenAI开源了一个全新评估大模型代码能力的测试基准——SWE-Lancer。目前，测试模型代码能力的基准主要有SWE-Bench和SWE-BenchVerified，但这两个有一个很大的局限性，主要针对孤立任务，很难反映现实中软件工程师的复杂情况。例如，开发人员需处理全技术栈的工作，要考虑代码库间的复杂交互和权衡。

2/19/2025 9:40:58 AM

AIGC开放社区

官宣！OpenAI前CTO新公司：北大校友翁荔加盟，创始29人2/3来自OpenAI

正式官宣！ OpenAI前CTO Mira Murati 成立新公司——Thinking Machines Lab。整个创业团队可以说前所未有之豪华了，三分之二的都是以前的OpenAI旧部追随——其中包括OpenAI前研究（后训练）副总裁Barret Zoph，担任公司CTO；刚刚离职Anthropic、OpenAI离职联创John Schulman，任公司首席科学家，还有包括前OpenAI VP、北大校友翁荔等等。

2/19/2025 9:20:30 AM

量子位

马斯克“地表最强”Grok 3炸场，竞技场首超1400分

刚刚，马斯克xAI的Grok 3终于亮相（超300万人次围观）！一出道即巅峰，竞技场（lmarena.ai）官方给出了这样的评价：Grok 3是首个突破1400分的模型，并且在所有类别中排名第一。而且，Grok 3还是首个在10万张（后扩展到20万）H100集群上训练出的模型。

2/18/2025 3:09:07 PM

量子位

微软开放3.1T token高质量数据！通用/代码/数学/问答，全领域超越开源

过去几年，大型语言模型（LLMs）已经成为人工智能研究的一个关键领域，从大规模的自然语言数据中学习，使其能够以极高的准确率执行各种与语言相关的任务。得益于模型扩展性方面的进展，研究人员能够创建具有前所未有复杂度的模型。当前的研究趋势是致力于构建更大、更复杂的模型，具有数百/数千亿个参数，但大型语言模型的训练需要海量的训练数据，尤其随着模型参数量的上升，对于优质数据数量的要求也将进一步加大，优质数据量的缺乏极大限制了模型能力的进一步增长。

2/18/2025 3:03:58 PM

新智元

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o 韩国初创公司 RLWRLD 获 1480 万美元融资，致力于机器人基础模型开发击败DeepSeek-R1！豆包新推理模型仅用前者参数量1/3！还将开源两个基准，瞄准通用推理能力！谷歌 Gemini AI 新功能 Circle Screen 曝光：圈选截屏特定区域，实现精准搜索 ChatGPT重大更新，能翻出所有历史对话，网友被AI聊破防了

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度深度学习苹果 AI视频模态人形机器人驾驶 xAI 文本搜索字节跳动大语言模型 Copilot Claude 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉 DeepMind 训练