理论 - AI在线

DeepSeek创始人是谁？这个问题DeepSeek也整不会了！

梁文锋到底有多低调？你问DeepSeek官网，连自家的产品都整不会“DeepSeek的创始人是谁”这个问题。事情是这样的。

GPU 内存交换技术，知多少？

Hello folks，我是 Luga，今天我们来聊一下人工智能应用场景 - 构建高效、灵活的计算架构的 GPU 内存交换机技术。众所周知，LLMs 虽然在诸多任务中表现出色，但其庞大的模型体积和复杂的计算需求，使得高效利用 GPU 资源成为一大难题。尤其是在高并发场景下，如何快速加载和卸载模型，避免 GPU 闲置，成为影响推理性能和成本的关键因素...一、GPU 设备资源调度的当前现状与困境随着AI 产业的持续落地，越来越多的公司开始将大型语言模型（LLMs）部署到生产环境，并确保能够大规模服务于用户。

ImageNet-D 详解：严格评估神经网络的鲁棒性

神经网络在零样本图像分类中取得了惊人的成就，但它们真的能“看”得有多好呢？现有的用于评估这些模型鲁棒性的数据集仅限于网络上的图像或通过耗时且资源密集的手动收集创建的图像。这使得系统评估这些模型在面对未见数据和真实世界条件（包括背景、纹理和材质的变化）时的泛化能力变得困难。

DeepSeek相关人士已辟谣：融资消息均为谣言阿里股价微跌0.88%

出品 | 51CTO技术栈（微信号：blog51cto）针对外媒称“DeepSeek 首次考虑筹集外部资金”的消息，DeepSeek相关人士今天上午已经进行了辟谣——融资消息均为谣言。（图1）但作为另一主角的阿里，尚无回应。腾讯科技报道，阿里美股股价微跌0.88%。

超越炒作：四个应用实例揭示GenAI的实际奏效之处

如果说2023年是GenAI的初探之年，那么2024年无疑是它深入企业骨髓，展现真正实力的关键时期。 IBM在12月发布的一项针对2300名IT决策者的调查显示，47%的受访者已经见证了AI投资的回报，33%表示达到了收支平衡，仅有14%表示亏损。更令人振奋的是，66%的公司计划增加对AI的投资，而计划减少投资的公司仅占5%。

小红书等给AI图像检测上难度！数据集均通过人类感知“图灵测试” | ICLR 2025

量：图像分辨率从720P到4K不等，提供了更高质量的图像数据，增加了检测模型的挑战性。 AIDE模型：多专家融合的检测框架在AI生成图像检测领域，现有的检测方法往往只能从单一角度进行分析，难以全面捕捉AI生成图像与真实图像之间的细微差异。为了解决这一问题，研究者们提出了简单且有效的AIDE（AI-generated Image DEtector with Hybrid Features）模型，该模型通过融合多种专家模块，从低级像素统计和高级语义两个层面全面捕捉图像特征，实现了对AI生成图像的精准检测。

「开源类脑芯片」二代发布！支持反向传播突触学习规则和并行神经元计算

神经形态计算的研究主要基于脉冲神经网络（SNN）模型，这是一种生物启发的计算范式，旨在模拟大脑的信息处理机制。具体而言，该领域的目标是通过融合神经生物学和计算神经科学的理论知识，构建能够实现类人智能的计算系统。为了解决传统计算架构在处理大量数据时面临的效率瓶颈和高功耗问题，研究者们提出了基于人脑神经元结构的神经形态芯片，以显著提升计算效率和能效比。

法国核聚变重大突破，等离子体运行1337秒刷新世界纪录！全球核电时代一步之遥

创纪录的1,337秒！ 2月12日，法国WEST托卡马克装置，成功实现了创纪录的等离子体持续时间——超过22分钟。这比几周前中国EAST装置的1066秒提升了25%。

突发，Grok-3免费上线！答对9.11和9.9谁大，1分攻克MIT积分难题

世界首个20万块GPU（另有说法是10万）训出的Grok-3，官宣人人可用了！ DeepSearch、Think两大模式，同时上线。唯独遗憾的是，Big Brain还在雪藏。

Nature认证DeepSeek成科研工具全能者，国内高校如何借力大模型？

DeepSeek的风，也是飘到了科研领域——最新消息，同济大学通过百度智能云千帆大模型平台接入并调用DeepSeek-R1/V3系列模型；包括浙大、北大清华等知名高校也是纷纷出动，要么接入模型推出智能体，又或者出品干货课程、使用手册《从入门到精通》等等，几度都登上热搜。 Nature更是几度发文，因为DeepSeek开源低成本易部署等优势，科学家们纷纷涌向DeepSeek，这种模型已经是科研AI工具中的全能者。感知到的是，大模型在科研探索中发挥的价值远比以往任何时候都深入。

手掌大小芯片碾压全球算力！微软量子计算核弹级突破，纳德拉：构建全新物质状态

想象一下，一个放在手掌上的芯片，能解决当今地球上所有计算机加起来都无法解决的问题。 Nature报道：量子计算，再迎新突破——微软推出Majorana 1，这是首款基于新型拓扑核心架构的量子芯片。官方称，有望在数年内实现能够解决工业级别规模问题的量子计算机。

视频版IC-Light来了！Light-A-Video提出渐进式光照融合，免训练一键视频重打光

本文作者来自于上海交通大学，中国科学技术大学以及上海人工智能实验室等。其中第一作者周彧杰为上海交通大学二年级博士生，师从牛力副教授。数字化时代，视频内容的创作与编辑需求日益增长。

物理直觉不再是人类专属？LeCun等新研究揭示AI可如何涌现出此能力

在当今的 AI 领域，图灵奖得主 Yann LeCun 算是一个另类。即便眼见着自回归 LLM 的能力越来越强大，能解决的任务也越来越多，他也依然坚持自己的看法：自回归 LLM 没有光明的未来。在近期的一次演讲中，他将自己的观点总结成了「四个放弃」：放弃生成式模型、放弃概率模型、放弃对比方法、放弃强化学习。

简单示例提升DeepSeek-R1美国数学邀请赛AIME分数：以步骤为粒度对齐上下文学习与推理

仅需简单提示，满血版DeepSeek-R1美国数学邀请赛AIME分数再提高。上海交大、港中文、上海AI实验室等带来最新成果BoostStep对齐推理和上下文学习粒度，大幅提升上下文学习性能，突破少样本学习上限。图片大语言模型使用多步推理解决复杂数学问题，即先将复杂问题分解为多个步骤并逐步进行推理。

复旦主导，中美等8个国家25家单位44名学者联合发布大模型安全技术综述

近年来，随着大模型的快速发展和广泛应用，其安全问题引发了社会各界的广泛关注。例如，近期发生的「全球首例利用 ChatGPT 策划的恐袭事件」再次敲响了警钟，凸显了大模型安全问题的紧迫性和重要性。为应对这一挑战，来自中美英德等 8 个国家 25 家高校和科研机构的 44 位 AI 安全领域学者联合发布了一篇系统性技术综述论文。

量子计算里程碑！微软单芯片可百万量子比特，Nature研究爆火

重大突破！本周四，微软宣布造出了一款前所未有的量子计算芯片 Majorana 1，并称可以在单块芯片上让数百万量子比特协同工作，解决之前无法的解决的问题，从新药物研发到创造革命性的新材料。微软 CEO 萨提亚・纳德拉为此专门撰写了一条长推文，短时间内就已经收获了上千万阅读量，其中提到 Majorana 1 是首款建立在拓扑核心（topological core）上的量子处理单元，而这一成就的基础是他们创造的「一种全新的物质状态」，而这又解锁了一类新材料。

OpenAI的GPT-5即将问世：目前我们所知道的一切

想象一下，一个能浏览互联网、理解世界、记忆事物，还能像人一样自然聊天并进行复杂推理的AI。这听起来像科幻电影里的情节，但实际上，这样的技术已经离我们不远了。随着ChatGPT的不断进化，其最新版本GPT-5即将横空出世，预示着AI正朝着通用智能的目标大步迈进。

新突破！中国电信复现DeepSeek R1，探索行业大模型建设新路径

DeepSeek是由深度求索开发的低成本、高性能开源大语言模型，该模型通过强化学习与混合专家结构（MOE）的技术创新，以工程优化突破硬件限制，实现了“算力需求下降但性能提升”的反共识路径。开源策略重塑了AI生态，为全球开发者提供普惠工具，标志着从“算力堆砌”向“算法效率”的产业转型。中国电信政企信息服务事业群DeepSeek攻坚团队紧跟技术潮流，基于行业数据复现R1模型，提出行业大模型优化的新思路。

理论