LLM

"是我创造了第一个LLM"！Kaggle前首席科学家一句话引发AI学术圈考古行动

论如何在技术圈争论中一句话噎到对方：哥们，是我创造了第一个大语言模型。发言者Jeremy Howard为澳大利亚昆士兰大学名誉教授、曾任Kaggle创始总裁和首席科学家，现answer.ai与fast.ai创始人，。事情的起因是有人质疑他最近的项目llms.txt在帮助大模型爬取互联网信息上并没太大作用，从而引发了这段争论，迅速引起众人围观。

Mozilla发布LocalScore：简化本地AI模型基准测试的新工具

大模型部署工具 Ollama 使用指南：技巧与问题解决全攻略

一、Ollama 是什么？ Ollama 是一个开源的本地大模型部署工具，旨在简化大型语言模型（LLM）的运行和管理。通过简单命令，用户可以在消费级设备上快速启动和运行开源模型（如 Llama、DeepSeek 等），无需复杂配置。

AI也有人格面具，竟会讨好人类？大模型的「小心思」正在影响人类判断

你是否想过，LLM也有着自己的小心思？最新研究揭示了一个有趣的现象：LLM在被研究人员测试时，会有意识地改变自己的行为。在面对那些旨在评估人格特质的问题时，它们给出的答案会尽可能地讨人喜欢，符合社会期望。

LLM「想太多」有救了！高效推理让大模型思考过程更精简

LLM的推理能力显著增强，然而，这个「超级大脑」也有自己的烦恼。有时候回答会绕好大一个圈子，推理过程冗长又复杂，虽能得出正确答案，但耗费了不少时间和计算资源。比如问它「2加3等于多少」，它可能会从数字的概念、加法原理开始，洋洋洒洒说上一大通，这在实际应用中可太影响效率啦。

MCP模型上下文协议（Model Context Protocol，简称 MCP）是一种开放标准，旨在标准化大型语言模型（LLM）与外部数据源和工具之间的交互方式。由 Anthropic 于 2024 年 11 月推出，MCP 通过定义统一的接口，使 AI 应用能够安全、灵活地访问和操作本地及远程数据资源，提升模型的功能性和可扩展性。图片Transports（传输层）在 MCP 协议中，传输层提供了客户端与服务器之间通信的基础，其负责处理消息的发送与接收的底层机制。

75年后，图灵测试终被GPT-4.5破解！73%人类被骗过，彻底输给AI

什么？ AI竟然通过了标准的三方图灵测试，而且还是拿出了实打实证据的那种！来自加州大学圣迭戈分校的研究人员系统评估了4个AI系统，证明大语言模型（LLM）通过了图灵测试。

从零到一，用 Dify 打造 NL2SQL

近期 AI 大火，朋友圈很多都在晒成果。我也禁不住尝试，使用Dify这一开发平台做了第一个 AI 应用。整体感觉下来还是非常方便的，也是由于Dify的出现大大降低了构建 AI 应用的门槛，相信未来真的可以解放人的双手，让 AI 帮助我们解决更多的问题。

RAG（八）自反思检索增强生成--Self-RAG

大语言模型具有显著的能力，但它们常常因为仅依赖于其参数化知识而产生包含事实错误的响应。传统的检索增强生成（Retrieval-Augmented Generation, RAG）方法虽然能减少这些问题，但是存在无差别地检索和结合固定数量的段落，没有考虑检索是否必要或检索结果的相关性，都会削弱语言模型的灵活性，或者导致无益的响应生成。现在LLM RAG（检索增强）的技术方案已成为LLM在众多应用场景的主流。

模型上下文协议（MCP）开发实战——构建LangChain代理客户端

译者 | 朱先忠审校 | 重楼简介什么是模型上下文协议（Model Context Protocol）？让我们深入了解MCP背后的概念。以下是官方MCP文档对MCP的介绍：“MCP是一种开放协议，它标准化了应用程序向LLM提供上下文的方式。

基于DeepSeek推理的文本聚类

译者 | 李睿审校 | 重楼开发人员需要开发和理解一种新的文本聚类方法，并使用DeepSeek推理模型解释推理结果。本文将探索大型语言模型（LLM）中的推理领域，并介绍DeepSeek这款优秀工具，它能帮助人们解释推论结果，构建能让终端用户更加信赖的机器学习系统。在默认情况下，机器学习模型是一种黑盒，不会为决策提供开箱即用的解释（XAI）。

五分钟读懂 LLM：DeepSeek、ChatGPT 背后的核心技术

LLM（Large Language Model）是大型语言模型的简称，像DeepSeek、ChatGPT等都属于不同公司开发的LLM。你可以把它想象成一个超级聪明的聊天机器人和写作助手，它通过学习了海量文字资料，变得非常擅长理解和生成人类语言。简单来说，它能听懂你说什么，也能像模像样地跟你聊天、写文章等等。

大模型不再是路痴！空间推理的答案是RAG：旅游规划、附近推荐全解锁

近年来，大型语言模型（LLMs）的进展已经在机器学习（ML）的许多领域带来了变革，特别是在理解和生成类人文本方面，激发了人们通过直接从LLMs中提取空间知识来弥合空间问答与自然语言之间的差距，研究成果涵盖了广泛的应用，包括地理百科全书问答、地理定位和自动高精度地图生成等。然而，当涉及到空间推理任务时，LLMs的表现却显得力不从心，甚至在处理基本的空间任务时也遇到困难，例如地理解析和理解相对空间关系。这种差距在处理现实世界的空间推理任务时尤为明显，例如图1中所示的场景：图1 现实世界中空间推理问题示例。

Agent太火！看这一篇综述，知识就不会学杂了丨华东师大&东华大学出品

火，Agent可太火了！关于Agent的进展俯拾皆是，根本看不过来……看过来——这篇综述可能能帮你厘清很多问题：来自华东师大和东华大学的研究团队发表了“A Survey on the Optimization of Large Language Model-based Agents（大模型智能体的优化方法综述）”，首次从系统化视角对LLM智能体优化策略进行了全面梳理与分析。论文将将现有方法划分为两大类：参数驱动的优化与参数无关的优化。

星辰与代码：DeepSeek的发展历程

技术突破阶段2024 年，DeepSeek 强势开启生态扩张与技术爆发的新纪元，成为全球 AI 领域瞩目的焦点。年初 1 月，DeepSeek 便以 DeepSeek-MoE 震撼登场，创新性架构设计以仅 60% 的计算量损耗，成功超越 Llama 2-7B 性能，为后续技术突破奠定坚实基础，在模型效率优化上迈出关键一步。紧接着 2 月，DeepSeekMath 在 MATH 基准测试中表现惊艳，成绩飙升至 51.7%，无限逼近 GPT-4 水平，数学推理能力实现质的飞跃，极大提升了模型在复杂数学问题求解上的可靠性与精准度。

爆火Block Diffusion引发LLM架构变革？自回归+扩散模型完美结合

扩散模型被广泛应用于生成图像和视频，并且在生成离散数据（如文本或生物序列）任务上的效果也越来越好，与自回归模型相比，扩散模型有望加速「生成过程」并提高模型输出的「可控性」。然而，离散扩散模型目前仍然有三个局限性：在聊天系统等应用中，模型需要生成任意长度的输出序列（例如，对用户问题的回答），但大多数现有的扩散架构只能生成固定长度的向量；离散扩散在生成过程中使用双向上下文，因此无法利用键值缓存（KV caching）复用之前的计算，使得推理效率较低。从困惑度等标准指标来看，离散扩散模型的质量仍落后于自回归方法，也进一步限制了其应用范围。

击败思维链（CoT），草稿链（CoD）称王！推理成本降低近94%，低时延，准确率更高！

编辑 | 言征作者 | Ashish Bamania出品 | 51CTO技术栈（微信号：blog51cto）推理 LLM 是当今 AI 研究中的热门话题。我们从 GPT-1 开始，一直到像 Grok-3 这样的高级推理器。这段旅程非常了不起，一路上发现了一些非常重要的推理方法。

基于代理知识蒸馏技术克服文档提取和RAG策略失败问题

译者 | 朱先忠审校 | 重楼简介当下，许多生成式AI应用场景仍然围绕检索增强生成（RAG）展开，但始终未能满足用户的期望。尽管对RAG改进的研究越来越多，甚至在流程中添加了代理技术，但许多解决方案仍然无法返回详尽的结果，遗漏了文档中很少提及的关键信息，需要多次搜索迭代，并且通常难以协调多个文档中的关键主题。最糟糕的是，许多实现方案仍然依赖于将尽可能多的“相关”信息与详细的系统和用户提示一起塞入模型的上下文窗口。