理论

模型训练之数据集操作：矩阵变换

对神经网络技术有所了解的人应该都知道，要想训练一个高性能的神经网络模型，除了神经网络本身的设计之外，还一个非常重要的前提就是数据集的质量问题；因此，打造一个高质量的数据集就是一个必不可少的过程。但具体怎么才能开发一个合格的数据集，这时就离不开对数据集的各种操作；而由于在神经网络中，数据的主要载体是多维数组，也就是矩阵；因此一般情况下，数据集的数据格式也会以矩阵的形式存在。而学会对矩阵的操作就是一个必不可少的技能之一；下面我们就以MINST数据集为例，来简单介绍一下对数据集的操作过程。

2/24/2025 8:40:00 AM

AI探索时代

构建一个完全本地的语音激活的实用RAG系统

译者 | 布加迪审校 | 重楼本文将探讨如何构建一个RAG系统并使其完全由语音激活。 RAG（检索增强生成）是一种将外部知识用于额外上下文以馈入到大语言模型（LLM），从而提高模型准确性和相关性的技术。这是一种比不断微调模型可靠得多的方法，可以改善生成式AI的结果。

2/24/2025 8:39:08 AM

布加迪

AI智能体结对编程秒杀人类，90分钟神作惊动OpenAI总裁！引全网140万围观

无需人类插手，AI智能体联手AI智能体竟完成了程序开发。这简直太疯狂了！最近，AI开发者Lamar将OpenAI Operator和Replit Agent配对后，让其构建应用程序。

2/24/2025 8:36:00 AM

新智元

DeepSeek、OpenAI、Kimi视觉推理到底哪家强？港中文MMLab推出推理基准MME-COT

OpenAI o1和DeepSeek-R1靠链式思维（Chain-of-Thought, CoT）展示了超强的推理能力，但这一能力能多大程度地帮助视觉推理，又应该如何细粒度地评估视觉推理呢？为此，来自港中文MMLab的研究者们提出了MME-CoT。这是一个全面且专门用于评估LMMs中视觉推理能力的Benchmark，包括了数学、科学、OCR、逻辑、时空和通用场景。

2/24/2025 8:30:00 AM

量子位

DeepSeek热度正盛，被神话还是确有实力？

2025年年初，中国初创公司DeepSeek以一种近乎现象级的速度崛起，引发了全球科技界的热议。其模型在苹果应用商店的下载量超越ChatGPT、训练成本仅为竞争对手的零头、技术能力被冠以“颠覆性”标签……这些标签让DeepSeek迅速成为舆论焦点。然而，在铺天盖地的赞誉与争议中，一个核心问题亟待回答：DeepSeek的“神话”究竟是资本市场的造势，还是AI实力的真实体现？

2/24/2025 8:28:30 AM

如何用 11 款 AI 工具让工作效率提升 300 倍

爱因斯坦有句名言：「如果还在重复做同样的事情，却期待会有不同结果，那么就等于疯狂。」如果想在接下来的日子里提高效率，不妨往下看看。 Promptmetheus —— 不再花时间“修饰”Promptimage.png如果你玩过 ChatGPT，就知道写出好的 Prompt 有时像玄学。

2/24/2025 8:24:39 AM

dev

AI写代码新姿势：一个截图，代替千行代码

现在写代码，最fashion的“姿势”应该是什么？答案或许就是：截图。没错，就像这样，先随便找个网页，截取想要的那部分界面，然后“喂”给AI，并附上一句Prompt：参考这个页面，生成一个类似的HTML页面。

2/24/2025 8:20:00 AM

量子位

解决 NLP 任务的 Transformer 为什么可以应用于计算机视觉？

几乎所有的自然语言处理任务，从语言建模和masked词预测到翻译和问答，在2017年Transformer架构首次亮相后都经历了革命性的变化。 Transformer在计算机视觉任务中也表现出色，只用了2-3年的时间。在这篇文章中，我们探索了两种基础架构，它们使Transformer能够闯入计算机视觉的世界。

2/24/2025 8:20:00 AM

二旺

谷歌Fellow级大佬出走！17年老将吴永辉加盟字节，亲自操刀大模型研发

谷歌17年老将，正式加入字节跳动。据报道，吴永辉博士已确认离职谷歌，加盟字节负责AI基础研究领域的工作。他将在字节担任大模型团队Seed基础研究负责人，专注于大模型基础研究搜索、AI for Science科研工作，直接向CEO梁汝波汇报。

2/24/2025 8:15:00 AM

新智元

忘掉 DeepSeek：Qwen 2.5 VL 与 Qwen Max 来了

Qwen 系列又推出了两款令人瞩目的新模型：Qwen 2.5 VL 和 Qwen 2.5 Max。如果还停留在“DeepSeek 是最强”那一档，就可能要重新考虑一下，因为这两款模型的实力相当惊艳。什么是 Qwen 2.5 VL？

2/24/2025 8:10:00 AM

使用共享神经网络扩展机器学习模型

译者 | 崔皓审校 | 重楼随着机器学习模型的复杂性和规模不断增长，任何企业或者组织在部署、扩展模型上都面临着巨大的挑战。迫在眉睫的挑战是如何在内存限制与模型规模之间取得平衡，并保持高性能和成本效益。本文探讨了一种创新的架构解决方案，通过将共享神经编码器与专门的预测头结合的混合方法来应对这些挑战。

2/24/2025 8:00:00 AM

崔皓

AI+C#落地指南：用SemanticKernel+本地模型开发智能应用

在人工智能快速发展的当下，将AI技术与传统编程语言相结合，成为了推动创新应用的重要途径。 C#作为一种广泛应用于企业级开发的编程语言，与微软的AI生态整合，尤其是借助SemanticKernel和本地模型，为开发者打开了全新的智能应用开发大门。本文将深入探讨如何利用这些工具实现AI C#的落地，并通过开源项目示例，让你快速上手。

2/24/2025 2:00:00 AM

conan

2025最新版DeepSeek保姆级安装教程：本地部署+避坑指南

本文旨在提供一个全面且详细的DeepSeek本地部署指南，帮助大家在自己的设备上成功运行DeepSeek模型。无论你是AI领域的初学者还是经验丰富的开发者，都能通过本文的指导，轻松完成DeepSeek的本地部署。一、本地部署的适用场景DeepSeek本地部署适合以下场景：高性能硬件配置：如果你的电脑配置较高，特别是拥有独立显卡和足够的存储空间，那么本地部署将能充分利用这些硬件资源。

2/24/2025 12:00:09 AM

DeepSeek R-1 能否解答这五道“刁钻”AI 问题？

每当有新的语言模型公开发布时，我总会忍不住拿它来做一些看似简单、实则暗藏难点的小测试。我把这当作给模型做“压力测试”，用来检验它们在逻辑推理上到底行不行。 DeepSeek R-1 刚发布不久，就因为它是开源、且推理能力强大而备受关注。

2/24/2025 12:00:00 AM

dev

慢思考助力医学大语言模型突破数据瓶颈：上海交大联合上海AI Lab推出MedS3系统

编辑 | ScienceAIOpenAI o1、DeepSeek R1 等模型成功实现了在数学、编程等领域的智能慢思考推理，通过自我反思和修正实现了运行时的性能外推。然而，在医疗领域，仍然很少有模型可以实现具有长链慢思考的推理。目前医疗领域的推理模型大多是通过在医疗考试题上对 OpenAI 系列的模型进行蒸馏，并没有考虑推理过程的可验证性，以及医疗任务的覆盖度。

2/21/2025 4:04:00 PM

ScienceAI

清华大学AIR联合水木分子开源DeepSeek版多模态生物医药大模型BioMedGPT-R1

编辑 | ScienceAI2025 年初，DeepSeek给全球引发了 AI 大模型的新一轮热议。多家市场咨询公司指出，在 DeepSeek 的影响下，从大模型供应商到基础设施和平台供应商的整个 AI 产业生态都掀起了一波「新浪潮」。 DeepSeek R1 以其强大的推理能力，为各行各业带来了智能化升级新机遇。

2/21/2025 4:03:00 PM

ScienceAI

从概念到应用，清华团队开发DeepTFBU工具包助力基因表达精准调控

编辑 | 萝卜皮增强子通过与转录因子 (TF) 相互作用，在各种生物过程中充当基因表达的关键调节器。虽然转录因子结合位点 (TFBS) 被广泛认为是 TF 结合和增强子活性的关键决定因素，但其周围背景序列的重要作用仍有待定量表征。清华大学的研究团队提出了转录因子结合单元（transcription factor binding unit，TFBU）概念，通过使用深度学习模型量化 TFBS 周围上下文序列的影响，模块化地建模增强子。

2/21/2025 4:01:00 PM

ScienceAI

无需联网！DeepSeek-R1+本地化RAG，打造私有智能文档助手

1、写在前面官方开源的版本除了满血的 671b 外，还有 1.5b，7b，8b，14b，32b，70b 六个蒸馏后的尺寸，笔者使用 Ollama 在电脑本地部署了 7b 的模型，在终端中测试了虽然回答没有满血版的那么惊艳，但凑活能用。作为一款高阶模型开源，确实要 salute 一下。不过进一步的问题是，我们面对这样的强思维链模型，除了在官网间或 Chat 一下，如何进一步的将其变成工作或生活场景的生产力工具？

2/21/2025 3:56:42 PM

韦东东

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星本地部署DeepSeek+DiFy平台构建智能体应用 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片 kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o OpenAI 发布“智能体构建实战指南”实用性文档（附文档资源）

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度人形机器人苹果深度学习 AI视频模态字节跳动 xAI 驾驶文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉大型语言模型训练