自然语言
标点符号成大模型训练神器!KV缓存狂减一半,可处理400万Tokens长序列,来自华为港大等 | 开源
文字中貌似不起眼的标点符号,竟然可以显著加速大模型的训练和推理过程? 来自华为、港大、KAUST和马普所的研究者,就提出了一种新的自然语言建模视角——SepLLM。 起因是团队发现某些看似无意义的分隔符,在注意力得分中占据了不成比例的重要地位。
3/4/2025 9:00:00 AM
量子位
解锁IDEA新姿势:DeepSeek带你飞
一、引言在科技飞速发展的当下,人工智能(AI)已如潮水般涌入各个领域,编程界自然也不例外。 从早期简单的代码自动补全,到如今能根据自然语言描述生成复杂代码逻辑,AI 在编程领域的进化可谓日新月异。 它正逐步改变着开发者的工作方式,成为提升开发效率的强大助力。
2/17/2025 11:41:14 AM
iron guo
大语言模型的解码策略与关键优化总结
本文系统性地阐述了大型语言模型(Large Language Models, LLMs)中的解码策略技术原理及其实践应用。 通过深入分析各类解码算法的工作机制、性能特征和优化方法,为研究者和工程师提供了全面的技术参考。 主要涵盖贪婪解码、束搜索、采样技术等核心解码方法,以及温度参数、惩罚机制等关键优化手段。
2/17/2025 10:13:27 AM
佚名
谷歌 Gemini AI 智能家居控制功能全面上线
谷歌近日宣布,其 Gemini 应用程序中的智能家居控制功能已向所有用户推出。 这一更新不仅让用户可以更方便地调整智能灯光、温控、音响等兼容设备,还新增了一些实用的功能,旨在提升用户的智能家居体验。 自去年11月首次预览以来,谷歌一直在不断优化 Gemini 的智能家居控制能力。
1/24/2025 9:30:00 AM
AI在线
ELMo模型可用于训练动态词向量,该模型有哪些优缺点? 与BERT模型之间的区别是什么?|深度学习|大模型
ELMo(Embeddings from Language Models)是一种基于深度学习的动态词向量模型,它通过双向LSTM(长短期记忆网络)来生成词的表示,相较于传统的静态词向量方法,如Word2Vec和GloVe,ELMo能够根据上下文生成不同的词向量。 这使得ELMo能够更好地处理同义词、歧义词以及多义词的上下文依赖关系,从而提升自然语言处理(NLP)任务的表现。 然而,ELMo也存在一些局限性,例如模型训练复杂、计算资源消耗较大以及缺乏对长距离依赖的建模等。
12/18/2024 3:00:31 PM
亦然1
2024 ACL Fellow名单出炉!微软高剑峰等4位华人科学家入选
2024 ACL Fellow的名单正式出炉了! 今年,国际计算语言学协会(ACL)评选了9位来自全球的科学家,其中华人学者占了4席。 他们分别是:微软高剑峰、哈尔滨工业大学(深圳)张民、Meta FAIR实验室Scott Wen-tau Yih、滑铁卢大学Jimmy Lin。
12/12/2024 4:00:00 PM
新智元
自然语言处理(NLP):开启人机交互新篇章
在数字化时代,我们与智能设备的交互日益频繁,从设置闹钟到获取产品推荐,这些便捷的操作背后,离不开一项关键技术——自然语言处理(Natural Language Processing, NLP)。 NLP作为计算机科学的一个重要分支,正逐步改变着我们与机器的交流方式,使计算机能够更智能地理解和响应人类语言。 本文将深入探讨NLP的基本概念、关键技术、应用场景以及未来发展,带领读者走进这一充满无限可能的领域。
12/6/2024 12:19:43 PM
AGI
终于把神经网络中的知识蒸馏搞懂了!!!
大家好,我是小寒今天给大家分享神经网络中的一个关键知识点,知识蒸馏知识蒸馏是一种模型压缩方法,用于将大型神经网络(教师模型)中的知识转移到较小的神经网络(学生模型)中。 这一技术能够在保持或接近原始模型性能的情况下,显著减小模型的体积,从而提升推理效率。 知识蒸馏在很多场景中非常有用,尤其是在计算资源有限或需要部署到边缘设备的应用中。
12/2/2024 1:10:04 AM
程序员小寒
LLM-R:基于RAG和层次化Agent落地案例解析
在这个由智能设备主导的时代,维护工作的重要性愈发凸显,几乎成了生产活动的守护神。 想象一下,当一台精密的机器在深夜突发故障,而维护手册却像天书一样难以理解,这时,交互式电子技术手册(IETMs)就像一束温暖的灯塔,指引着维护人员安全渡过难关。 面对从图形用户界面(GUIs)到自然语言用户界面(LUIs)的转变,以及复杂逻辑关系的梳理,传统的IETMs显得有些力不从心。
11/14/2024 6:39:23 PM
哎呀AIYA
整合海量公共数据,谷歌开源 AI 统计学专家 DataGemma
准确的统计数据、时效性强的信息,一直是大语言模型产生幻觉的重灾区。知识是现成的,但学是不可能学的。并非此身惰怠,只因现实太多阻碍。对于这个问题,谷歌在近日推出了自己筹划已久的大型数据库 Data Commons,以及在此基础上诞生的大模型 DataGemma。论文地址: Commons 是一个庞大的开源公共统计数据存储库,包含来自联合国(UN)、疾病控制与预防中心(CDC)、人口普查局、卫生部、环境机构、经济部门、非政府组织和学术机构等可信来源的大量统计数据。目前,整个语料库包含超过 2500 亿个数据点和超过 2
10/2/2024 11:06:38 PM
汪淼
新型人形机器人 Menteebot 亮相:人类可用自然语言向其发号施令
初创公司 Mentee Robotics 今日展示了旗下首款人形机器人的原型,号称在所有操作层都继承了人工智能,也是“你可以指导的”个性化人工智能机器人。 IT之家汇总该产品大致信息:它可以奔跑、侧身行走甚至转弯,官方称其具有与人类相同的平衡和控制力。据介绍,它在举起重物时还会调整步态。功能层面,该机器人内置人工智能算法、自然语言处理模型和软件,可以启动“高级训练技术”。该公司表示,这意味着机器人不会受限于有限的命令集,甚至可以与人类进行对话,用户可以通过自然语言向机器人发出指令。此外,其内置的自然语言处理模型
4/17/2024 10:13:59 PM
清源
斯坦福NLP课程XCS224U视频全部放出,干货满满,速来听讲
50 个视频任君学习!从对话智能体到搜索查询,自然语言理解(NLP)是当今许多最令人兴奋的技术的基础。如何建立这些模型来高效、可靠地理解语言?如果你还没有那么清楚的话,是否会找个课程来听呢?但是有些课程不仅天价还很难报名,有些课程不仅质量极高还免费公开。谁不想要这后者呢?没错,今天机器之心为大家介绍的是斯坦福 XCS224U:自然语言理解 (2023)课程。它干货满满,讲师 Christopher Potts 让这门课充满魅力。更重要的是,这堂课已经放出了全部视频,50 个视频任君学习。视频地址:、自然语言处理和机
10/7/2023 11:45:00 AM
机器之心
模型鲁棒性好不好,复旦大学一键式评测平台告诉你
复旦大学自然语言处理实验室发布模型鲁棒性评测平台 TextFlint。该平台涵盖 12 项 NLP 任务,囊括 80 余种数据变形方法,花费超 2 万 GPU 小时,进行了 6.7 万余次实验,验证约 100 种模型,选取约 10 万条变形后数据进行了语言合理性和语法正确性人工评测,为模型鲁棒性评测及提升提供了一站式解决方案。
4/6/2021 2:43:00 PM
机器之心
- 1
资讯热榜
标签云
人工智能
OpenAI
AIGC
AI
ChatGPT
DeepSeek
AI绘画
数据
机器人
谷歌
模型
大模型
Midjourney
智能
用户
学习
开源
GPT
微软
Meta
AI创作
图像
技术
论文
Stable Diffusion
马斯克
Gemini
算法
蛋白质
生成式
芯片
代码
英伟达
神经网络
腾讯
计算
研究
Sora
AI for Science
3D
Anthropic
AI设计
机器学习
GPU
开发者
场景
华为
预测
伟达
Transformer
百度
苹果
深度学习
AI视频
模态
人形机器人
驾驶
xAI
文本
搜索
字节跳动
大语言模型
Copilot
Claude
具身智能
神器推荐
LLaMA
算力
安全
应用
视频生成
科技
视觉
亚马逊
干货合集
2024
AGI
特斯拉
DeepMind
训练