数据

微软论文意外「走光」，OpenAI参数全泄密！GPT-4o仅200B，o1 300B

谁能想到，微软在一篇医学领域的论文里，竟然把OpenAI模型的参数全「曝光」了！ GPT-4参数约1.76万亿GPT-4o参数约2000亿GPT-4o mini参数约80亿o1-preview参数约3000亿o1-mini参数约1000亿Claude 3.5 Sonnet参数约1750亿研究人员：参数均为估算值让所有人难以置信的是，GPT-4o系列的参数如此少，mini版甚至只有8B。有网友猜测，4o mini是一个大约有40B参数的MoE模型，其中激活参数为8B。

1/2/2025 1:00:00 PM

新智元

GitHub 7.5k star量，各种视觉Transformer的PyTorch实现合集整理好了

近一两年，Transformer 跨界 CV 任务不再是什么新鲜事了。自 2020 年 10 月谷歌提出 Vision Transformer (ViT) 以来，各式各样视觉 Transformer 开始在图像合成、点云处理、视觉 - 语言建模等领域大显身手。之后，在 PyTorch 中实现 Vision Transformer 成为了研究热点。

1/2/2025 9:32:54 AM

计算机视觉研究院

OpenAI o1「作弊」修改系统，强行击败专业象棋AI！全程无需提示

OpenAI的推理模型o1-preview最近展示了它不按常理出牌的能力。 o1-preview在与专用国际象棋引擎Stockfish比赛时，为了强行取得胜利，居然采用了入侵测试环境的卑劣手段。而这一切都不需要任何对抗性提示。

1/2/2025 9:30:00 AM

新智元

【多模态&LLM】LLaVA系列算法架构演进：LLaVA（1.0->1.5->Next(1.6)->NeXT(Video)）

LLaVA模型架构目标是结合预训练LLM和视觉模型的能力，llava使用Vicuna作为的LLM （语言解码器），CLIP作为视觉编码器。训练过程分两阶段：LLaVA 1.5LLaVA1.5是LLaVA改进版本，主要在网络结构、数据集规模上进行改进。 LLaVA 1.5模型结构还是之前的llava模型结构，但是做了一些小修改：将视觉-语言连接器由线性投影修改成一个两层的mlp（前期文章的NVLM-D也是两层的mlp链接视觉-语言模型）；将224分辨率的视觉编码器修改为336pix的视觉编码器(带有MLP投影的CLIP-ViT-L-336px)。

12/31/2024 3:18:42 PM

余俊晖

ViT作者飞机上也要读的改进版Transformer论文，花2个小时详细批注解读分享出来

ViT核心作者Lucas Beyer，长文分析了一篇改进Transformer架构的论文，引起推荐围观。他前不久从谷歌跳槽到OpenAI，这次是在飞机上阅读论文并写下了分析。这篇论文被他简写为DiffTranformer，不过不是Sora底层架构的那个Diffusion Transformer，而是不久前来自微软的Differencial Transformer。

12/31/2024 2:30:00 PM

量子位

2024年AI编程有多强？谷歌工程主管揭秘残酷真相

2024年，AI编程已然渗透了各行各业，影响着软件的整个生命周期。那么问题来了，AI coding用过都说好，但我们平时用的软件咋感觉没啥进步呢？近日，Addy Osmani，谷歌的工程主管，同时也是一位亚马逊畅销书作家，为我们揭示了AI辅助编码在一线开发中的真实情况。

12/31/2024 1:30:00 PM

新智元

AAAI 2025 | 用于韦伯区位问题的去奇异性次梯度方法

暨南大学通用机器学习课题组由网络空间安全学院和信息科学技术学院的多名青年教师、博士生、硕士生和本科生共同组成，研究方向包括通用逼近理论、分布外泛化、非凸优化、稀疏学习、深度学习框架的基础模块开发、优化器开发、隐私保护与增强等。自 2024 年 4 月至 12 月，课题组作为第一单位已获得所有 CCF A 机器学习国际顶级会议 ICML（2 篇）、NeurIPS 和人工智能国际顶级会议 IJCAI、AAAI 录用论文共 5 篇。本文第一作者为课题组负责人赖兆荣，通讯作者为博士生李程，其他合作作者为课题组教师吴小天、方良达、陈子良。

12/30/2024 2:00:00 PM

机器之心

港科大开源VideoVAE+，视频重建质量全面超越最新模型

港科大团队重磅开源 VideoVAE ，提出了一种强大的跨模态的视频变分自编码器（Video VAE），通过提出新的时空分离的压缩机制和创新性引入文本指导，实现了对大幅运动视频的高效压缩与精准重建，同时保持很好的时间一致性和运动恢复。论文地址：：模型大幅超过最新模型包括英伟达在 2024.11 发布的 Cosmos Tokenizer，同时也超越一众方法包括腾讯在 2024.12 发布的 Hunyuan Video，CogvideoX VAE，WF-VAE，CV-VAE，Open Sora，Open Sora Plan, Easy Animate-VAE。什么是 VideoVAE 模型VideoVAE 模型（Video Variational Autoencoder）是一种基于深度学习的生成模型，用于对视频数据进行压缩、重建和生成，讲视频从 RGB 像素空间投影到低维度的 latent 空间。

12/30/2024 1:40:00 PM

机器之心

稚晖君开源百万机器人真机数据集

年末大礼包，稚晖君他又双叒来开源了！百万真机数据集开源项目AgiBot World，也是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。该项目由稚晖君具身智能创业项目智元机器人，携手上海AI Lab、国家地方共建人形机器人创新中心以及上海库帕思联合发布。

12/30/2024 12:41:52 PM

量子位

南大周志华：百万模型进入学件基座系统，很多我们没预期过的事也有可能实现 | MEET 2025

大模型时代，全世界AI从业者追赶OpenAI GPT系列的脚步仍未停歇，但也有人，坚持深耕在国产原创的另一条大模型之路上。南京大学副校长、国际人工智能联合会理事会主席周志华教授，就是其中代表。他提出的“学件范式”，旨在从数据隐私角度着手，通过模型规约的方式构建基座系统，让用户的需求能被自动匹配到合适的模型、模型组合上，安全、可靠地复用他人开发的模型工具。

12/30/2024 12:30:00 PM

量子位

低精度只适用于未充分训练的LLM？腾讯提出LLM量化的scaling laws

论文标题：Low-Bit Quantization Favors Undertrained LLMs: Scaling Laws for Quantized LLMs with 100T Training Tokens论文链接：（low-bit quantization）和低比特大语言模型（low-bit LLM）近期受到了广泛的关注，因为有一些研究发现，它们能够以更小的模型规模、更低的内存占用和更少的计算资源，取得与 fp16 或 bf16 精度相当的性能表现。这一发现让低比特语言模型一度被认为是实现模型高效化的一个非常有前景的方向。然而，这一观点受到了腾讯 AI Lab 的挑战。

12/30/2024 10:35:00 AM

机器之心

机器人空间泛化也有Scaling Law！清华新国大新算法框架让机器人操作更加鲁棒

在机器人空间泛化领域，原来也有一套Scaling Law！来自清华和新加坡国立大学的团队，发现了空间智能的泛化性规律。在此基础上，他们提出了一套新颖的算法框架——ManiBox，让机器人能够在真实世界中应对多样化的物体位置和复杂的场景布置。

12/30/2024 10:20:00 AM

量子位

一道题烧几千美元，OpenAI新模型o3：这34道题我真不会

前几天，OpenAI 已经完成了 12 连更的最后一更 —— 如外界所料，是新的推理系列模型 o3 和 o3-mini 。从 o1 开始，OpenAI 所指出的推理 Scaling Law 似乎带来了全新的实现 AGI 的希望。此次被用来验证 o3 推理能力的基准是 ARC-AGI，这项基准已经提出了 5 年时间，但一直未被攻克。

12/30/2024 9:55:00 AM

机器之心

DeepSeek V3“报错家门”：我是ChatGPT

要说这两天大模型圈的顶流话题，那绝对是非DeepSeek V3莫属了。不过在网友们纷纷测试之际，有个bug也成了热议的焦点——只是少了一个问号，DeepSeek V3竟然称自己是ChatGPT。甚至让它讲个笑话，生成的结果也是跟ChatGPT一样：加之DeepSeek V3这次爆火的一个亮点，就是训练只花了557.6万美元的成本。

12/30/2024 9:25:00 AM

量子位

超越ControlNet++！腾讯优图提出动态条件选择新架构

超越ControlNet ，让文生图更可控的新框架来了！腾讯优图、南洋理工、浙大等研究机构联合推出DynamicControl，直接将多模态大语言模型（MLLM）的推理能力集成到文本生成图像（T2I)）任务中。而且还提出了一种新颖、高效的多控制适配器，可以自适应地选择不同的条件，从而实现动态多控制对齐。

12/30/2024 8:50:00 AM

量子位

北大数学家独作论文登数学顶刊！袁新意统一了算术与几何Bogomolov猜想

四大顶刊之一的《数学年刊》，正式接收北大袁新意独作论文。在困扰数学界多年的Uniform Bogomolov猜想问题上取得重要进展。值得一提的是，这篇论文还在预印版状态时就已获得一定引用，据称还在不同的学术会议中被讨论。

12/30/2024 8:30:00 AM

量子位

CPO薪资倒挂CEO，创业公司薪酬情况大起底

初创公司里，平均薪酬最高的不是CEO？你还真别说，事实上，CEO薪酬不仅远远落后CPO（首席产品官，Chief Product Officer）。甚至COO（首席运营官，Chief Operating Officer）、CTO（首席技术官，Chief Technology Officer）都比CEO要高。

12/30/2024 8:10:00 AM

量子位

RoboMIND：国家地方共建具身智能机器人创新中心与北京大学计算机学院联合创建的具身智能数据集和Benchmark

获取论文全部内容：文章链接：：，具身智能产业迅猛发展，赋予机器人类人化的泛化能力是具身智能机器人技术的核心目标之一，实现这一目标的关键在于如何使各类机器人本体在面对多样化的环境和任务时，能够展现出卓越的性能。正如ChatGPT需要海量文本数据来训练一样，想要培养出一个能力全面的机器人，也需要大量优质的训练数据，数据集是具身智能技术发展的重要基石。与视觉或语言数据的获取相比，收集机器人训练数据远比收集文本或图像数据困难得多，需要在专门的环境中记录机器人的每个关节动作和末端执行器的信息，这个过程不仅需要昂贵的硬件设备，还需投入大量人力来确保数据质量，因而业内目前最具通用性的机器人操作策略主要依赖于在有限多样性条件下收集的数据，大规模多构型具身智能数据集和Benchmark是极为稀缺的资源。

12/27/2024 2:53:00 PM

新闻助手

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ Haisnap横空出世，小白用户也能轻松打造AI应用 OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星 kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片本地部署DeepSeek+DiFy平台构建智能体应用 OPPO 小布助手网页版上线，接入满血版 DeepSeek

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度苹果深度学习 AI视频模态人形机器人 xAI 驾驶文本搜索字节跳动大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉训练 DeepMind