LLM

如何理解模型的蒸馏和量化

在LLM领域内,经常会听到两个名词:蒸馏和量化。 这代表了LLM两种不同的技术,它们之间有什么区别呢? 本次我们就来详细聊一下。

智谱携Agentic LLM参加巴塞罗那通信展

在3月3日,由华为举办的“移动AI产业峰会”上,智谱副总裁林超婷受邀发表题为《LLM – Transformative Revolution in Technology and Industry》的演讲。 林超婷指出,Agentic LLM正在改变整个手机产业,借助AI能力重新定义下一代互联网入口。 将来,Agentic AI助手,可以像人一样可以收集和总结信息,听说读写和思考,记住个人偏好等等。

全面增强LLM推理/规划/执行力!北航提出全新「内置CoT」思考方法

用户已经习惯于将大模型如ChatGPT、Llama-3-chat等当作聊天对象,然而在用户和聊天助手的会话中,有的用户提示(例如一些命令或请求)不能在一轮会话中结束,需要大语言模型和用户进行多轮会话。 这种跨越多轮的会话目前仍然存在一些问题:大语言模型的回答容易出错,不能帮助用户达到目标,且随着会话轮数增加出错概率会增大。 对同一个命令或问题,大语言模型比较难以根据实际需求产生不同流程的响应,在需要大语言模型与环境交互时,目前比较流行的做法是使用函数调用或工具调用,但不够优雅和高效,而且由于上下文窗口的限制,能支持的工具调用数量有限。

DeepSeek搭建个人知识库教程,你学会了吗?

各位朋友,是不是经常被 AI 气得火冒三丈,恨不得把键盘给砸了? 你让它查公司去年的财务数据,它却开始背诵经济学原理;你让它分析竞品的策略,它却大谈特谈马斯洛需求理论。 我太能理解这种感受了,这就好比你花钱雇了个助理,结果这助理啥都不会,只会照搬百度百科的内容!

LLM 大语言模型定义以及关键技术术语认知

大语言模型定义LLM(Large Language Models)是基于 Transformer 架构(可以理解为不同寻常的大脑)的深度神经网络,通过海量文本数据训练获得语言理解和生成能力。 其核心特征包括:参数规模达数十亿级别(GPT-3 175B参数)知识储备惊人,可以理解为脑细胞数量是普通人的千亿倍(1750亿参数),相当于把整个图书馆的书都装进大脑自回归生成机制(逐词预测)说话方式像接龙,当它写作文时,就像我们玩词语接龙:先写"今天",然后根据"今天"想"天气",接着根据"今天天气"想"晴朗",逐字逐句生成内容。 注意力机制实现长程依赖建模特别会抓重点就像我们读小说时,会自动记住关键人物关系(比如注意到"陈平安喜欢宁姚"),它能自动捕捉文字间的深层联系。

RAG(一)RAG开山之作:知识密集型NLP任务的“新范式”

在AI应用爆发的时代,RAG(Retrieval-Augmented Generation,检索增强生成)技术正逐渐成为AI 2.0时代的“杀手级”应用。 它通过将信息检索与文本生成相结合,突破了传统生成模型在知识覆盖和回答准确性上的瓶颈。 不仅提升了模型的性能和可靠性,还降低了成本,增强了可解释性。

2025年的五大AI趋势:智能体、开源和多模型

随着AI技术的飞速发展,2025年的AI领域将迎来前所未有的变革。 从开源AI的崛起,到多模态AI的普及,再到本地AI的蓬勃发展,以及AI成本的显著降低和智能体的广泛应用,这五大趋势将深刻影响企业和个人的未来发展。 2025年,AI领域不再仅仅局限于大型语言模型(LLM),而是聚焦于更智能、更廉价、更专业和更本地的AI解决方案,这些方案能够处理多种数据类型,并实现自主行动。

LLM表现出类似人类的“认知”下降迹象

GenAI问世不到两年,就在各个行业带来了众多创新,包括科学突破和前所未有的自动化和数据处理效率。 大型语言模型(LLM)经常被比作人类智能。 一些人工智能系统甚至在某些任务中表现优于人类。

探索跳跃式思维链:DeepSeek创造力垫底,Qwen系列接近人类顶尖水平

AIxiv专栏是AI在线发布学术、技术内容的栏目。 过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。 如果您有优秀的工作想要分享,欢迎投稿或者联系报道。

AI驱动的模拟科学家,涉及生理学、生物物理学、物理化学和量子力学多个领域,登Nature子刊

编辑 | 萝卜皮大型语言模型(LLM)是一种人工智能系统,以自然语言的形式封装大量知识。 这些系统擅长许多复杂任务,包括创意写作、讲故事、翻译、问答、总结和计算机代码生成。 尽管 LLM 已在自然科学领域得到初步应用,但其推动科学发现的潜力仍未得到充分开发。

大语言模型:表面的推理能力背后是出色的规划技巧

译者 | 刘汪洋审校 | 重楼大语言模型(LLMs)在技术发展上取得了显著突破。 OpenAI 的 o3、Google 的 Gemini 2.0和 DeepSeek 的R1展现出了卓越的能力:它们能处理复杂问题、生成自然的对话内容,甚至精确编写代码。 业界常把这些先进的LLMs 称为"推理模型",因为它们在分析和解决复杂问题时表现非凡。

DeepSeek 入门指导手册——从入门到精通

DeepSeek 是由杭州深度求索人工智能基础技术研究有限公司精心打造的一款大型语言模型(LLM)。 该模型集自然语言处理(NLP)、计算机视觉(CV)、强化学习(RL)以及多模态融合技术等核心功能于一体。 DeepSeek 在国际上获得了高度关注:下载量:DeepSeek 应用在美国苹果应用商店的免费下载排行榜中超越了 ChatGPT,攀升至榜首位置。

​OpenAI 最新研究揭示:最先进的 AI 仍难以解决编码问题

近日,OpenAI 的研究人员在一篇新发布的论文中坦言,尽管目前的 AI 技术已经相当先进,但这些模型依然无法与人类程序员相媲美。 OpenAI 首席执行官山姆・阿尔特曼曾表示,预计到今年底,AI 将能够战胜 “低级” 软件工程师,但研究结果却显示,这些 AI 模型仍然面临重大挑战。 图源备注:图片由AI生成,图片授权服务商Midjourney在研究中,OpenAI 团队使用了一种名为 SWE-Lancer 的新基准测试,评估了从自由职业网站 Upwork 上提取的1400多项软件工程任务的表现。

TOMG-Bench:大语言模型开放域分子生成新基准

编辑 | ScienceAI科学家提出了一个新的基准测试——TOMG-Bench,用于评估 LLM 在分子领域的开放域生成能力。 项目主页::: Datasets::、材料科学等领域进步的关键环节。 然而,传统的分子发现方法往往依赖于反复实验和数据分析,效率低下且成本高昂。

短短10天,Ilya神秘初创SSI再融10亿美元!仅凭一个主页估值300亿

彭博独家称,Ilya神秘初创SSI即将融资超10亿美元,估值超300亿美元。 图片据介绍,总部位于旧金山的风险投资公司Greenoaks Capital Partners领投,计划投资5亿美元。 Greenoaks同时也是AI明星公司Scale AI和Databricks的投资者。

自主式AI崛起是否意味着SaaS的终结?

自主式AI崛起:SaaS的终结?不,是新的开始!在科技日新月异的今天,一个名为自主式AI的新星正在冉冉升起,它以其独特的魅力和无限的潜力,让人们对未来充满了遐想。 自主式AI,这种能够独立行动、自主决策的人工智能,正悄然改变着企业的运营模式,预示着软件应用的新纪元即将到来。 要点:动态AI生态系统:软件应用正从静态、单一的模式转变为动态、由AI驱动的生态系统,无缝集成各种业务需求。

Meta首席AI科学家认为当前GenAI和LLM将很快过时

Meta首席人工智能科学家Yann LeCun表示,目前的生成式人工智能(GenAI)和大型语言模型(LLM)范式可能很快就会过时。 他认为,这些系统需要新的突破来理解物理世界并与之互动。 LeCun在达沃斯世界经济论坛上谈到GenAI系统时表示:“没有人会再使用它们,至少不会将其作为人工智能系统的核心组件。

还在忙NSFC申报?试试DeepSeek R1结合牛津的推理Agent用变分推理生成国家自然科学基金申请书

又到了一年一度的国家自然科学基金申报季,众多科研工作者正在为申报书的撰写绞尽脑汁。 如何在有限的时间内,产出一份既专业严谨又富有创新性的申报材料,成为了许多研究者面临的挑战。 本文介绍了一种基于DeepSeek R1大模型与牛津大学最新推理Agent框架相结合的智能辅助方案。