深度学习

CMU等提出超实用「模型泛化性」指标，分布外准确率提升6% | ICML 2024 Oral

当前许多深度学习分类模型通常在大规模数据中训练以找到足以区分不同类别的特征。然而，这种方式不可避免地学到伪相关特征（Spurious Correlation），导致训练的分类器在分布偏移（Distribution Shift）下往往会失效。因此，如何在衡量一个训练好的模型的泛化性（Generalization）一直是一个关键问题。

12/26/2024 3:30:00 PM

新智元

新SOTA，浙大、中科院深度学习模型可靠、准确预测蛋白-配体，助力药物开发

编辑 | 萝卜皮准确预测蛋白质-配体相互作用对于理解细胞过程至关重要，目前仍面临着诸多挑战。中国科学院、浙江大学的研究人员提出了 SurfDock，这是一种深度学习方法，通过将蛋白质序列、三维结构图和表面级特征整合到等变架构中来解决这一挑战。 SurfDock 在非欧几里德流形上采用生成扩散模型，优化分子平移、旋转和扭转以生成可靠的结合姿势。

12/18/2024 2:24:00 PM

ScienceAI

机械系统也能自主学习！密歇根大学团队构建了全新数学框架，登上Nature Communications

编辑丨&受人脑复杂运作的启发，神经网络已经彻底改变了各个领域的生产研究现状。然而，考虑到基于计算机的神经网络需求的大量计算与极高能耗，特别是传统数字处理器的能源效率，机械神经网络的发展逐步被提上日程。在光学神经网络中，波-物质相互作用被用来实现机器学习，类似的思路也可以被用来建立机械神经网络（MNN）的学习框架。

12/11/2024 2:29:00 PM

ScienceAI

从方向导数到梯度：深度学习中的关键数学概念详解

方向导数作为标量量，表征了函数在特定方向上的变化率。其数学表示为 ∇ᵤf(x) 或 Dᵤf(x)。对于标量函数 f(x): Rⁿ → R，其梯度由函数的偏导数构成向量场。

12/9/2024 2:08:13 PM

Dr. Irene Markelic

精确属性控制，湖大、西电从头药物设计AI方法，登Nature子刊

编辑 | 萝卜皮深度生成模型在药物从头设计领域受到广泛关注。然而，针对新靶点合理设计配体分子仍然具有挑战性，特别是在控制生成分子的性质方面。在这里，受到 DNA 编码化合物库技术的启发，湖南大学和西安电子科技大学的研究人员提出了 DeepBlock，这是一种基于块（block）的配体生成深度学习方法，可根据目标蛋白质序列进行定制，同时实现精确的属性控制。

12/2/2024 2:59:00 PM

ScienceAI

使用 YOLO 和 EasyOCR 从视频文件中检测车牌

本文将介绍如何通过Python中的YOLO（ou Only Look Once）和EasyOCR（光学字符识别）技术来实现从视频文件中检测车牌。本技术依托于深度学习，以实现车牌的即时检测与识别。从视频文件中检测车牌先决条件在我们开始之前，请确保已安装以下Python包：复制实施步骤步骤1：初始化库我们将首先导入必要的库。

11/28/2024 3:56:05 PM

二旺

压缩率达10的48次方，实现蛋白序列空间极端压缩，清华EvoAI登Nature子刊

编辑 | 萝卜皮设计功能更佳的蛋白质需要深入了解序列和功能之间的关系，这是一个难以探索的广阔空间。通过识别功能上重要的特征来有效压缩这一空间的能力极其宝贵。清华大学的研究团队建立了一种称为 EvoScan 的方法，用于全面分割和扫描高适应度序列空间，以获得能够捕捉其基本特征（尤其是在高维度中）的锚点。

11/27/2024 3:55:00 PM

ScienceAI

如何为深度学习选择优秀 GPU ？

Hello folks，我是 Luga，今天我们继续来聊一下人工智能生态相关技术 - 用于加速构建 AI 核心算力的 GPU 硬件技术。众所周知，对于绝大多数的深度学习模型的训练，尤其是参数规模较为庞大的模型，其往往是整个开发流程中最耗时、资源消耗最大的环节。在传统的 CPU .

11/25/2024 4:15:14 PM

架构驿站

基于视觉 Transformer（ViT）进行图像分类

近年来，Transformer 架构彻底改变了自然语言处理（NLP）任务。视觉Transformer（ViT）将这一创新更进一步，将变换器架构适应于图像分类任务。本教程将指导您使用ViT对花卉图像进行分类。

11/21/2024 4:06:02 PM

二旺

为了了解DNA与疾病的关系，美国洛斯阿拉莫斯国家实验室的科学家开发了第一个多模态深度学习模型EPBDxDNABERT-2，该模型能够利用DNA“呼吸”，即双螺旋结构自发打开和关闭，来确定转录因子（调节基因活动的蛋白质）之间的精确关系。该模型有可能帮助设计用于治疗源于基因活性疾病的药物。与DNA链结合的转录因子蛋白的表示洛斯阿拉莫斯国家实验室研究员、该论文的第一作者Anowarul Kabir说：“转录因子有很多种，人类基因组的规模大得令人生畏。

11/19/2024 1:13:54 PM

AI情报室

提高深度学习模型效率的三种模型压缩方法

译者 | 李睿审校 | 重楼近年来，深度学习模型在自然语言处理（NLP）和计算机视觉基准测试中的性能稳步提高。虽然这些收益的一部分来自架构和学习算法的改进，但数据集大小和模型参数的增长是重要的驱动因素。下图显示了top-1 ImageNet分类精度作为GFLOPS的函数，GFLOPS可以用作模型复杂性的指标。

11/18/2024 8:08:21 AM

李睿

多模态大模型技术方向和应用场景

多模态大模型（Multimodal Large Language Models，MLLM）是一种结合了大型语言模型（LLM）和大型视觉模型（LVM）的深度学习模型，它们能够处理和理解多种类型的数据，如文本、图像和音频，从而在跨模态任务中展现出卓越的性能。核心特点对于多模态输入-文本输出的典型 MLLM，其架构一般包括编码器、连接器以及 LLM。如要支持更多模态的输出(如图片、音频、视频)，一般需要额外接入生成器，如下图所示:MLLM 架构图模态编码器负责将原始的信息(如图片)编码成特征，连接器则进一步将特征处理成LLM 易于理解的形式，即视觉 Token。

11/11/2024 3:11:23 PM

天涯咫尺TGH

PyTorch 深度学习的十个核心概念

深度学习是当前最热门的技术之一，而 PyTorch 是一个非常受欢迎的深度学习框架。今天，我们将深入探讨 PyTorch 中的 10 个核心概念，帮助你更好地理解和使用这个强大的工具。张量（Tensor）张量是 PyTorch 中最基本的数据结构，类似于 NumPy 的数组，但可以在 GPU 上运行，从而加速计算。

11/11/2024 8:00:00 AM

小白PythonAI编程

优化计算机视觉和图像处理中的图像格式：OpenCV 中的 PNG、JPG 和 WEBP

在计算机视觉和图像处理应用中，选择正确的图像格式可以影响性能和质量。无论你是在预处理数据以训练深度学习模型、在实时系统上运行推理，还是处理大型数据集，了解PNG、JPG和WEBP的优势和劣势可以帮助你做出明智的选择。让我们深入了解每种格式在图像处理方面的独特特性，并提供实际的代码示例，展示如何使用Python中的OpenCV加载和保存这些格式。

11/7/2024 4:03:09 PM

二旺

Keras vs JAX，我该选哪个？

译者 | 布加迪审校 | 重楼近年来，Keras和Tensorflow组合遇到了一种与之竞争的框架：JAX，它在深度学习开发者社区逐渐变得很重要。那么JAX到底是什么？它有哪些功能？

11/6/2024 4:07:39 PM

布加迪

一种实现符号钢琴音乐声音和谱表分离的GNN新方法

译者 | 朱先忠审校 | 重楼本文涵盖了我最近在ISMIR 2024上发表的论文《聚类和分离：一种用于乐谱雕刻的声音和谱表预测的GNN方法》的主要内容。简介以MIDI等格式编码的音乐，即使包含量化音符、拍号或小节信息，通常也缺少可视化的重要元素，例如语音和五线谱信息。这种限制也适用于音乐生成、转录或编曲系统的输出。

11/5/2024 8:19:11 AM

朱先忠

快多个数量级，清华更高精度、更泛化的深度学习电子结构计算方法登Nature子刊

编辑 | KX两年前，清华大学物理系徐勇、段文晖研究组开发出高效精确的第一性原理电子结构深度学习方法 DeePH，可极大加速电子结构计算。近日，该团队开发了一种准确而有效的实空间重构方法（real-space reconstruction），将 DeepH 方法从原先仅支持原子基组推广至适用于平面波基组，使得 DeepH 方法可与所有密度泛函理论（DFT）程序兼容。而且，该重构方法比传统的基于投影的方法快几个数量级。这给深度学习电子结构计算方法带来了更高的精度和更好的泛化能力，并打通了其利用电子结构大数据作深度学习

10/10/2024 12:09:00 PM

ScienceAI

用最直观的动画，讲解LLM如何存储事实，3Blue1Brown的这个视频又火了

本文根据视频整理而来，有听错或理解不当之处欢迎在评论区指出。向大模型输入「Michael Jordan plays the sport of _____（迈克尔・乔丹从事的体育运动是……）」，然后让其预测接下来的文本，那么大模型多半能正确预测接下来是「basketball（篮球）」。这说明在其数以亿计的参数中潜藏了有关这个特定个人的相关知识。用户甚至会感觉这些模型记忆了大量事实。但事实究竟如何呢？近日，3Blue1Brown 的《深度学习》课程第 7 课更新了，其中通过生动详实的动画展示了 LLM 存储事实的方式。

9/2/2024 2:53:00 PM

机器之心

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！全日程揭晓！ICLR 2025论文分享会我们北京见 5分钟直出46页论文！谷歌Deep Research完爆OpenAI，最强Gemini 2.5加持 kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o 击败DeepSeek-R1！豆包新推理模型仅用前者参数量1/3！还将开源两个基准，瞄准通用推理能力！ ChatGPT重大更新，能翻出所有历史对话，网友被AI聊破防了

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度深度学习苹果 AI视频模态驾驶文本人形机器人 xAI 搜索大语言模型 Copilot Claude 字节跳动具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉 DeepMind 训练

深度学习

CMU等提出超实用「模型泛化性」指标，分布外准确率提升6% | ICML 2024 Oral

新SOTA，浙大、中科院深度学习模型可靠、准确预测蛋白-配体，助力药物开发

机械系统也能自主学习！密歇根大学团队构建了全新数学框架，登上Nature Communications

从方向导数到梯度：深度学习中的关键数学概念详解

精确属性控制，湖大、西电从头药物设计AI方法，登Nature子刊

使用 YOLO 和 EasyOCR 从视频文件中检测车牌

压缩率达10的48次方，实现蛋白序列空间极端压缩，清华EvoAI登Nature子刊

如何为深度学习选择优秀 GPU ？

基于视觉 Transformer（ViT）进行图像分类

新AI模型提高与疾病相关基因组学的预测能力

提高深度学习模型效率的三种模型压缩方法

多模态大模型技术方向和应用场景

PyTorch 深度学习的十个核心概念

优化计算机视觉和图像处理中的图像格式：OpenCV 中的 PNG、JPG 和 WEBP

Keras vs JAX，我该选哪个？

一种实现符号钢琴音乐声音和谱表分离的GNN新方法

快多个数量级，清华更高精度、更泛化的深度学习电子结构计算方法登Nature子刊

用最直观的动画，讲解LLM如何存储事实，3Blue1Brown的这个视频又火了