算法

终于把 LSTM 算法搞懂了！！！

今天给大家分享一个强大的算法模型，LSTMLSTM（长短期记忆网络）是一种特殊类型的循环神经网络（RNN），它能够有效地解决传统 RNN 在处理长序列时遇到的梯度消失和梯度爆炸问题。 LSTM 的核心思想是通过多个门控机制来控制信息的流动，这些门控机制可以选择性地保留或丢弃输入数据，从而帮助网络捕捉长时间跨度的依赖关系。 LSTM的工作原理LSTM 的核心思想是通过引入记忆单元来存储信息，并使用三个主要的门（输入门、遗忘门、输出门）来决定哪些信息应该保留，哪些信息应该遗忘，以及哪些信息应该更新。

12/3/2024 8:16:57 AM

程序员小寒

人工智能的“记忆”：个人和组织的革命性生产力

随着人工智能的不断发展，一个概念脱颖而出，成为实现个性化体验的关键：记忆（Memory）。在Madrona与微软人工智能首席执行官Mustafa Suleyman的IA峰会炉边谈话中，他强调记忆不仅是一种功能，而且是一种重塑人工智能与人类互动方式的变革力量。记忆使人工智能不仅可以结合智商（IQ），还可以结合情商（EQ），从而创造一种更有意义、更像人类的关系。

12/2/2024 2:30:46 PM

AI情报室

NeurIPS 2024 | 数学推理场景下，首个分布外检测研究成果来了

本文将介绍数学推理场景下的首个分布外检测研究成果。该篇论文已被 NeurIPS 2024 接收，第一作者王一鸣是上海交通大学计算机系的二年级博士生，研究方向为语言模型生成、推理，以及可解释、可信大模型。该工作由上海交通大学和阿里巴巴通义实验室共同完成。

12/2/2024 1:30:00 PM

机器之心

审稿人直呼简洁，单点PageRank终极版！人大STOC论文让复杂度优化至「理论最优」

在信息爆炸的互联网时代，应如何根据重要性对搜索得到的网页进行排名并呈现给用户？这个问题困扰了无数早期的搜索引擎。破局者来自Google，创始人Sergey Brin和Lawrence Page提出的网页排名算法PageRank为这个难题提供了一个开创性的解决方案：为每个网页都计算了一个重要性得分，即PageRank得分，得分越高表示该网页质量越好，在信息检索时的重要性越高。

11/29/2024 2:00:07 PM

新智元

扩散模型=进化算法！生物学大佬用数学揭示本质

扩散模型居然就是生物的进化算法！这个结论来自「新常春藤」塔夫茨大学（Tufts University）于近日发表的一项研究：论文地址： Levin，博士毕业于哈佛大学，目前担任塔夫茨大学Allen Discovery Center主任。 Michael Levin长期从事生物电、人工生命和许多其他生物学相关主题的研究，曾在NeurIPS 2018上发表了题为「What Bodies Think About：Bioelectric Computation Outside the Nervous System」的精彩演讲：视频地址： 2020上，Michael Levin还阐述了有关「机器人癌症」的话题：「what the bioelectrics of embryogenesis and regeneration can teach us about unconventional computing, cognition, and the software of life」。

11/26/2024 9:30:00 AM

新智元

AdaBoost分类器完全图解

译者 | 朱先忠审校 | 重楼本文将通过完整的源码与图解方式向你展示AdaBoost算法运行逻辑，并指出其优点与不足，还将其与随机森林算法进行对比分析。简介每个人都会犯错，即使是机器学习领域最简单的决策树也存在这个问题。 AdaBoost（自适应增强）算法不会忽略这些错误，而是会做一些不同的事情：它会从这些错误中学习（或适应）以变得更好。

11/20/2024 8:29:26 AM

朱先忠

澳门大学最新！CVPR'24 ALOcc：自适应再出山，精度与速度的完美均衡！

写在前面 & 笔者的个人理解基于视觉的语义占用和流量预测在为自动驾驶等现实世界任务提供时空线索方面发挥着至关重要的作用。现有方法优先考虑更高的精度，以满足这些任务的需求。在这项工作中，通过引入一系列针对3D语义占用预测和流量估计的有针对性的改进来提高性能。

11/19/2024 9:40:00 AM

Dubing Chen等

终于把 Seq2Seq 算法搞懂了！！

Seq2Seq（Sequence-to-Sequence）模型是一种用于处理序列数据的神经网络架构，广泛应用于自然语言处理（NLP）任务，如机器翻译、文本生成、对话系统等。它通过编码器-解码器架构将输入序列（如一个句子）映射到输出序列（另一个句子或序列）。图片模型结构Seq2Seq 模型由两个主要部分组成。

11/14/2024 12:16:46 AM

程序员小寒

快速学会一个算法，卷积神经网络

大家好，我是小寒今天给大家介绍一个强大的算法模型，卷积神经网络卷积神经网络（CNN）是一种专门用于处理图像、视频等具有网格结构数据的深度学习模型。 CNN 通过局部连接和参数共享的方式，大幅减少了模型的计算量，能有效提取数据的局部和全局特征，被广泛应用于计算机视觉领域，如图像分类、物体检测、图像分割等。图片卷积神经网络的基本结构卷积神经网络的主要包括卷积层、池化层和全连接层。

11/11/2024 12:00:02 AM

程序员小寒

AI开源项目 | FastGPT- 深入解析 FastGPT 的知识库逻辑与检索机制：让 AI 更聪明的秘密

如何让 AI 更加智能化、精准化，成为了研究者和开发者们关注的焦点。 FastGPT 作为一款前沿的 AI 模型，其知识库逻辑与检索机制无疑是其成功的关键所在。本文将为您详细解析 FastGPT 的知识库逻辑与检索机制，并结合知识库的特性，提供实用的教学意义，帮助您更好地理解这一技术背后的原理与应用。

11/5/2024 1:16:11 PM

hpstream

大模型压缩KV缓存新突破，中科大提出自适应预算分配，工业界已落地vLLM框架

改进KV缓存压缩，大模型推理显存瓶颈迎来新突破——中科大研究团队提出Ada-KV，通过自适应预算分配算法来优化KV缓存的驱逐过程，以提高推理效率。打破KV Cache压缩将所有注意力头分配相同压缩预算的常规做法，针对不同的注意力头进行适配性压缩预算分配展开来说，由于大模型在自回归生成过程中，每生成一个新token都需要将对应的KV矩阵存储下来，这导致缓存随着生成序列长度的增加而急剧膨胀，引发内存和I/O延迟问题，尤其在长序列推理中尤为突出。因此，KV缓存压缩成为了一项必要的优化。

11/4/2024 8:30:00 AM

量子位

提升 1.5~20 倍吞吐量，字节豆包大模型团队与香港大学发布并开源全新 RLHF 框架

字节跳动豆包大模型团队与香港大学公开联合研究成果 —— HybridFlow。官方宣称，HybridFlow（开源项目名：veRL）是一个灵活且高效的大模型 RL 训练框架，兼容多种训练和推理框架，支持灵活的模型部署和多种 RL 算法实现。该框架采用混合编程模型，融合单控制器（Single-Controller）的灵活性和多控制器（Multi-Controller）的高效性，可更好实现和执行多种 RL 算法，显著提升训练吞吐量，降低开发和维护复杂度。

11/3/2024 3:24:59 PM

沛霖（实习）

豆包大模型团队开源RLHF框架，训练吞吐量最高提升20倍

强化学习（RL）对大模型复杂推理能力提升有关键作用，但其复杂的计算流程对训练和部署也带来了巨大挑战。近日，字节跳动豆包大模型团队与香港大学联合提出 HybridFlow。这是一个灵活高效的 RL/RLHF 框架，可显著提升训练吞吐量，降低开发和维护复杂度。

11/1/2024 2:44:00 PM

新闻助手

养猪业新神器，AI 工具可解读猪叫声背后的情绪

路透社于 10 月 24 日发布博文，报道称欧洲科学家开发了一种能够解读猪叫声的人工智能（AI）算法，从而帮助猪农了解猪的情绪和压力状态。根据共同领导该研究的哥本哈根大学行为生物学家埃洛迪・曼德尔-布里费尔的说法，该算法有可能提醒农民注意猪的负面情绪，从而改善它们的福祉。该研究由来自丹麦、德国、瑞士、法国、挪威和捷克共和国的科学家共同进行，核心是通过分析数千个不同情境下的猪叫声，理解它们所表达的情感。

10/30/2024 1:41:24 PM

故渊

逐际动力发布多形态双足机器人 TRON 1：可选双点足 / 双足 / 双轮足，6.98 万元起

逐际动力今天宣布发售首款多形态双足机器人 TRON 1，中国和海外同步上架，标准版早鸟价 6.98 万起。据介绍，TRON 1 采用“三合一”模块化设计，一机支持多形态算法研发，配合三种足端可兼顾人形机器人双腿结构的简易构型和多种足端的灵活切换（AI在线注：分别为双点足 / 双足 / 双轮足，可根据不同模式实现站立行走、全地形移动等能力）。根据足端拆装后的形态变化，TRON 1 可实现足端自适应识别，进行运控模式自动切换，为科研用户提供多形态、多用途的研究平台。

10/16/2024 11:03:50 AM

清源

中国科学院利用人工智能，发现迄今为止距其主星最近的最小行星

感谢由中国科学院上海天文台葛健教授带领的国际团队，研发了一种结合 GPU 相位折叠和卷积神经网络的深度学习算法，并在开普勒（Kepler）2017 年释放的恒星测光数据中发现了五颗直径小于地球、轨道周期短于 1 天的超短周期行星。▲ 已知行星半径和行星轨道半长轴分布以及五个新发现的超短周期行星（红点）其中四颗是迄今为止发现的距其主星最近的最小行星，类似火星大小。这是天文学家首次利用人工智能一次性完成搜寻疑似信号和识别真信号的任务。

10/14/2024 12:51:34 PM

沛霖（实习）

AI 赋能游戏开发：Valve 工程师借助 ChatGPT 改进《Deadlock》匹配算法

感谢Valve 工程师 Fletcher Dunn 昨日在社交媒体上分享了他使用 ChatGPT 改进《Deadlock》匹配算法的经历。他表示，ChatGPT 就像一个高级搜索引擎，能够帮助他找到所需的解决方案。Dunn 在《Deadlock》的测试阶段向 ChatGPT 提出了改进匹配算法的需求，ChatGPT 建议他使用匈牙利算法。Dunn 采纳了这个建议，并表示他对 ChatGPT 的强大功能感到惊讶。Dunn 认为，ChatGPT 的强大之处在于能够理解自然语言并提供相关信息。即使在专业领域如游戏开发，C

10/4/2024 6:40:36 PM

远洋

提速1400倍，准确标注酶活性位点，浙大、澳门理工多模态深度学习方法，登Nature子刊

编辑 | 萝卜皮注释酶中的活性位点对于药物发现、疾病研究、酶工程和合成生物学等多个领域的发展至关重要。尽管已经开发出许多自动注释算法，但速度和准确性之间的重大权衡限制了它们的大规模实际应用。浙江大学、澳门理工大学等机构的联合研究团队引入了 EasIFA，一种酶活性位点注释算法，它融合了来自蛋白质语言模型和 3D 结构编码器的潜在酶表示，然后使用多模态交叉注意框架将蛋白质水平信息与酶促反应知识对齐。EasIFA 比 BLASTp 速度提升 10 倍，召回率、准确率、f1 分数和 MCC 分别提升 7.57%、13.0

8/30/2024 5:00:00 PM

ScienceAI

资讯热榜

企业级模型推理部署工具vllm使用指南 - 部署最新deepseek-v3-0324模型上海AI实验室开源InternVL3系列多模态大型语言模型 50组多风格提示词，全面测评Midjourney V7生图效果！全日程揭晓！ICLR 2025论文分享会我们北京见斯坦福2025 AI指数出炉！中美AI对决差距仅剩0.3%，DeepSeek领衔 5分钟直出46页论文！谷歌Deep Research完爆OpenAI，最强Gemini 2.5加持击败DeepSeek-R1！豆包新推理模型仅用前者参数量1/3！还将开源两个基准，瞄准通用推理能力！ ChatGPT重大更新，能翻出所有历史对话，网友被AI聊破防了

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D AI设计 Anthropic 机器学习 GPU 开发者场景华为预测伟达 Transformer 百度深度学习苹果模态 AI视频驾驶文本 xAI 搜索人形机器人大语言模型 Copilot 神器推荐 LLaMA 字节跳动具身智能 Claude 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉 DeepMind 训练