自然语言

标点符号成大模型训练神器！KV缓存狂减一半，可处理400万Tokens长序列，来自华为港大等 | 开源

文字中貌似不起眼的标点符号，竟然可以显著加速大模型的训练和推理过程？来自华为、港大、KAUST和马普所的研究者，就提出了一种新的自然语言建模视角——SepLLM。起因是团队发现某些看似无意义的分隔符，在注意力得分中占据了不成比例的重要地位。

3/4/2025 9:00:00 AM

量子位

解锁IDEA新姿势：DeepSeek带你飞

一、引言在科技飞速发展的当下，人工智能（AI）已如潮水般涌入各个领域，编程界自然也不例外。从早期简单的代码自动补全，到如今能根据自然语言描述生成复杂代码逻辑，AI 在编程领域的进化可谓日新月异。它正逐步改变着开发者的工作方式，成为提升开发效率的强大助力。

2/17/2025 11:41:14 AM

iron guo

大语言模型的解码策略与关键优化总结

本文系统性地阐述了大型语言模型(Large Language Models, LLMs)中的解码策略技术原理及其实践应用。通过深入分析各类解码算法的工作机制、性能特征和优化方法，为研究者和工程师提供了全面的技术参考。主要涵盖贪婪解码、束搜索、采样技术等核心解码方法，以及温度参数、惩罚机制等关键优化手段。

2/17/2025 10:13:27 AM

佚名

谷歌 Gemini AI 智能家居控制功能全面上线

谷歌近日宣布，其 Gemini 应用程序中的智能家居控制功能已向所有用户推出。这一更新不仅让用户可以更方便地调整智能灯光、温控、音响等兼容设备，还新增了一些实用的功能，旨在提升用户的智能家居体验。自去年11月首次预览以来，谷歌一直在不断优化 Gemini 的智能家居控制能力。

1/24/2025 9:30:00 AM

AI在线

ELMo模型可用于训练动态词向量，该模型有哪些优缺点？与BERT模型之间的区别是什么？｜深度学习｜大模型

ELMo（Embeddings from Language Models）是一种基于深度学习的动态词向量模型，它通过双向LSTM（长短期记忆网络）来生成词的表示，相较于传统的静态词向量方法，如Word2Vec和GloVe，ELMo能够根据上下文生成不同的词向量。这使得ELMo能够更好地处理同义词、歧义词以及多义词的上下文依赖关系，从而提升自然语言处理（NLP）任务的表现。然而，ELMo也存在一些局限性，例如模型训练复杂、计算资源消耗较大以及缺乏对长距离依赖的建模等。

12/18/2024 3:00:31 PM

亦然1

2024 ACL Fellow名单出炉！微软高剑峰等4位华人科学家入选

2024 ACL Fellow的名单正式出炉了！今年，国际计算语言学协会（ACL）评选了9位来自全球的科学家，其中华人学者占了4席。他们分别是：微软高剑峰、哈尔滨工业大学（深圳）张民、Meta FAIR实验室Scott Wen-tau Yih、滑铁卢大学Jimmy Lin。

12/12/2024 4:00:00 PM

新智元

自然语言处理（NLP）：开启人机交互新篇章

在数字化时代，我们与智能设备的交互日益频繁，从设置闹钟到获取产品推荐，这些便捷的操作背后，离不开一项关键技术——自然语言处理（Natural Language Processing, NLP）。 NLP作为计算机科学的一个重要分支，正逐步改变着我们与机器的交流方式，使计算机能够更智能地理解和响应人类语言。本文将深入探讨NLP的基本概念、关键技术、应用场景以及未来发展，带领读者走进这一充满无限可能的领域。

12/6/2024 12:19:43 PM

AGI

终于把神经网络中的知识蒸馏搞懂了！！！

大家好，我是小寒今天给大家分享神经网络中的一个关键知识点，知识蒸馏知识蒸馏是一种模型压缩方法，用于将大型神经网络（教师模型）中的知识转移到较小的神经网络（学生模型）中。这一技术能够在保持或接近原始模型性能的情况下，显著减小模型的体积，从而提升推理效率。知识蒸馏在很多场景中非常有用，尤其是在计算资源有限或需要部署到边缘设备的应用中。

12/2/2024 1:10:04 AM

程序员小寒

LLM-R：基于RAG和层次化Agent落地案例解析

在这个由智能设备主导的时代，维护工作的重要性愈发凸显，几乎成了生产活动的守护神。想象一下，当一台精密的机器在深夜突发故障，而维护手册却像天书一样难以理解，这时，交互式电子技术手册（IETMs）就像一束温暖的灯塔，指引着维护人员安全渡过难关。面对从图形用户界面（GUIs）到自然语言用户界面（LUIs）的转变，以及复杂逻辑关系的梳理，传统的IETMs显得有些力不从心。

11/14/2024 6:39:23 PM

哎呀AIYA

整合海量公共数据，谷歌开源 AI 统计学专家 DataGemma

准确的统计数据、时效性强的信息，一直是大语言模型产生幻觉的重灾区。知识是现成的，但学是不可能学的。并非此身惰怠，只因现实太多阻碍。对于这个问题，谷歌在近日推出了自己筹划已久的大型数据库 Data Commons，以及在此基础上诞生的大模型 DataGemma。论文地址： Commons 是一个庞大的开源公共统计数据存储库，包含来自联合国（UN）、疾病控制与预防中心（CDC）、人口普查局、卫生部、环境机构、经济部门、非政府组织和学术机构等可信来源的大量统计数据。目前，整个语料库包含超过 2500 亿个数据点和超过 2

10/2/2024 11:06:38 PM

汪淼

新型人形机器人 Menteebot 亮相：人类可用自然语言向其发号施令

初创公司 Mentee Robotics 今日展示了旗下首款人形机器人的原型，号称在所有操作层都继承了人工智能，也是“你可以指导的”个性化人工智能机器人。 IT之家汇总该产品大致信息：它可以奔跑、侧身行走甚至转弯，官方称其具有与人类相同的平衡和控制力。据介绍，它在举起重物时还会调整步态。功能层面，该机器人内置人工智能算法、自然语言处理模型和软件，可以启动“高级训练技术”。该公司表示，这意味着机器人不会受限于有限的命令集，甚至可以与人类进行对话，用户可以通过自然语言向机器人发出指令。此外，其内置的自然语言处理模型

4/17/2024 10:13:59 PM

清源

斯坦福NLP课程XCS224U视频全部放出，干货满满，速来听讲

50 个视频任君学习！从对话智能体到搜索查询，自然语言理解（NLP）是当今许多最令人兴奋的技术的基础。如何建立这些模型来高效、可靠地理解语言？如果你还没有那么清楚的话，是否会找个课程来听呢？但是有些课程不仅天价还很难报名，有些课程不仅质量极高还免费公开。谁不想要这后者呢？没错，今天机器之心为大家介绍的是斯坦福 XCS224U：自然语言理解（2023）课程。它干货满满，讲师 Christopher Potts 让这门课充满魅力。更重要的是，这堂课已经放出了全部视频，50 个视频任君学习。视频地址：、自然语言处理和机

10/7/2023 11:45:00 AM

机器之心

哥伦比亚大学计算机系副教授俞舟老师招聘博士后

本期将为大家介绍哥伦比亚大学计算机系副教授俞舟老师招聘博士后的相关信息。

4/29/2023 1:06:00 PM

机器之心

模型鲁棒性好不好，复旦大学一键式评测平台告诉你

复旦大学自然语言处理实验室发布模型鲁棒性评测平台 TextFlint。该平台涵盖 12 项 NLP 任务，囊括 80 余种数据变形方法，花费超 2 万 GPU 小时，进行了 6.7 万余次实验，验证约 100 种模型，选取约 10 万条变形后数据进行了语言合理性和语法正确性人工评测，为模型鲁棒性评测及提升提供了一站式解决方案。

4/6/2021 2:43:00 PM

机器之心

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！本地部署DeepSeek+DiFy平台构建智能体应用 kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o 韩国初创公司 RLWRLD 获 1480 万美元融资，致力于机器人基础模型开发击败DeepSeek-R1！豆包新推理模型仅用前者参数量1/3！还将开源两个基准，瞄准通用推理能力！ ChatGPT重大更新，能翻出所有历史对话，网友被AI聊破防了

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度苹果深度学习 AI视频模态人形机器人驾驶 xAI 文本搜索字节跳动大语言模型 Copilot Claude 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉 DeepMind 训练

自然语言

标点符号成大模型训练神器！KV缓存狂减一半，可处理400万Tokens长序列，来自华为港大等 | 开源

解锁IDEA新姿势：DeepSeek带你飞

大语言模型的解码策略与关键优化总结

​谷歌 Gemini AI 智能家居控制功能全面上线

ELMo模型可用于训练动态词向量，该模型有哪些优缺点？ 与BERT模型之间的区别是什么？｜深度学习｜大模型

2024 ACL Fellow名单出炉！微软高剑峰等4位华人科学家入选

自然语言处理（NLP）：开启人机交互新篇章

终于把神经网络中的知识蒸馏搞懂了！！！

LLM-R：基于RAG和层次化Agent落地案例解析

整合海量公共数据，谷歌开源 AI 统计学专家 DataGemma

新型人形机器人 Menteebot 亮相：人类可用自然语言向其发号施令

斯坦福NLP课程XCS224U视频全部放出，干货满满，速来听讲

哥伦比亚大学计算机系副教授俞舟老师招聘博士后

模型鲁棒性好不好，复旦大学一键式评测平台告诉你

谷歌 Gemini AI 智能家居控制功能全面上线

ELMo模型可用于训练动态词向量，该模型有哪些优缺点？与BERT模型之间的区别是什么？｜深度学习｜大模型