上下文

月之暗面 Kimi 开放平台上下文缓存 Cache 存储费用降价 50%：现价 5 元 / 1M tokens / min
感谢AI 独角兽公司月之暗面今日宣布，Kimi 开放平台的上下文缓存 Cache 存储费用降价 50%，Cache 存储费用由 10 元 / 1M tokens / min 降低至 5 元 / 1M tokens / min，即日起生效。7 月 1 日，Kimi 开放平台上下文缓存（Context Caching）功能开启公测。官方表示，该技术在 API 价格不变的前提下，可为开发者降低最高 90…
应用
- 41
- 0
清源8月7日
无一大模型及格！北大 / 通研院提出超难基准 LooGLE，专门评估长文本理解生成
在长文本理解能力这块，竟然没有一个大模型及格！北大联合北京通用人工智能研究院提出了一个新基准数据集：LooGLE，专门用于测试和评估大语言模型（LLMs）长上下文理解能力。该数据集既能够评估 LLMs 对长文本的处理和检索能力，又可以评估其对文本长程依赖的建模和理解能力。结果不评不知道，一评估发现这些模型在复杂的长依赖任务中的多信息检索、时间重排序、计算、理解推理能力表现均不乐观。比如像 Clau…
应用
- 18
- 0
汪淼8月7日
科大讯飞星火 Spark Pro-128K 大模型开放调用，最低 0.21 元 / 万 tokens
科大讯飞今日宣布，讯飞星火 API 正式开放长上下文版本 —— Spark Pro-128K 大模型，价格最低 0.21 元 / 万 tokens。据介绍，用户与大模型之间的对话交流，通常被认为是短期记忆。一旦对话长度超过了其上下文承载能力，超出的部分就可能会被模型遗忘。区别于传统的文本处理模型，长文本模型具备更准确的文本理解和生成能力以及更强大的跨领域迁移能力，可以一次性理解和生成更多的信息，适…
应用
- 15
- 0
汪淼7月18日
大脑如何处理语言？普林斯顿团队对Transformer模型进行分析
编辑 | 萝卜皮在处理语言时，大脑会部署专门的计算来从复杂的语言结构中构建含义。基于 Transformer 架构的人工神经网络是自然语言处理的重要工具。普林斯顿大学的研究人员探讨了 Transformer 模型和人类大脑在语言处理中的功能特殊化问题。Transformer 通过结构化电路计算整合单词间的上下文信息。不过，当前的研究主要集中于这些电路生成的内部表征（「嵌入」）。研究人员直接分析电路…
理论
- 8
- 0
ScienceAI7月17日
吴恩达团队新作：多模态百般本上下文进修，无需微调快速适应新恣意
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]本研讨评估了先进多模态底子模型在 10 个数据集上的百般本上下文进修…
AI
- 11
- 0
机器之心6月19日
OpenAI 把 GPT-4 原始版给了瑞士洛桑联邦理工团队：钻研不微调只靠提醒词能走多远
除了 OpenAI 自己，居然还有别人能用上 GPT-4-Base 版？？也就是未经微调的预训练版，还不会对话谈天，只会补全句子的模型。EPFL（瑞士洛桑联邦理工）团队申请到了造访权力，用于钻研“上下文进修足以让大模型跟从指令吗？”。也就是不用监督微调、也不用 RHLF 或其他强化进修对齐要领，只靠提醒词能走多远？预训练模型，究竟能不能一步登天，直接改造成谈天机器人或 AI 帮忙？如果可行，将大大…
AI
- 37
- 0
清源6月3日
六位一线 AI 工程师分享自身归纳，公开大模型使用摸爬滚打一年心得
六位一线 AI 工程师和创业者，把在大模型使用开发上摸爬滚打一整年的心得，全！分！享！了！（奇怪的六一儿童节大礼包出现了）这篇干货长文，一时间成为开发者社区热议的话题。有网友评价为，大模型领域少有的“有操作性”的实用见解，非常值得一读。这 6 位作家来自不同背景，比如有大厂工程师，也有独立开发者，还有咨询顾问。但他们的共同之处，是过去一年里一直在大模型之上构建真实使用程序，而不只是炫酷的 Demo…
AI
- 6
- 0
清源6月1日
为百亿参数LLM化学应用提供新范式，香港理工大学提出上下文份子微调
作者 | 香港理工大学李佳潼编辑 | ScienceAI去年，香港理工大学研究团队开发了一个基于检索的提示范式MolReGPT，利用大型谈话模型探索份子发现，在份子和份子文本形容之间进行翻译。近日，香港理工大学、上海交通大学和上海人工智能实行室联合发表了题为《Large Language Models are In-Context Molecule Learners》的文章，也是MolReGPT[…
理论
- 21
- 0
ScienceAI5月29日
Anthropic 用 256 轮对话「灌醉」大模型，Claude 被骗造出炸弹
【新智元导读】Anthropic 发现了大模型的惊人马脚。经过 256 轮对话后，Claude 2 逐渐被「灌醉」，开始疯狂逃狱，帮人类造出炸弹！谁能想到，它的超长上下文，反而成了软肋。大模型又被曝出宁静题目？这次是长上下文窗口的锅！今天，Anthropic 发表了自己的最新研讨：如何绕过 LLM 的宁静限度？一次逃狱不够，那就多来几次！论文地址： Claude3 一家叫板 OpenAI 之余，A…
AI
- 5
- 0
清源4月3日
马斯克 xAI 推出 Grok-1.5 大语言模型：提升推理能力，可处理 128k 上下文
感谢马斯克旗下人工智能公司 xAI 今天在民间博客中宣布，正式推出 Grok-1.5 大语言模型。Grok-1.5 具有改良的推理能力和 128k 的上下文长度，其中最显著的改良之一是其在编码和数学相关任务中的表现。Grok-1.5 将在未来几天内在 𝕏 平台上向早期尝试人员和现有的 Grok 用户推出。在民间尝试中，Grok-1.5 在 MATH 基准上博得了 50.6% 的成果，在 GSM8K…
AI
- 8
- 0
汪淼3月29日
致命幻觉题目、开发GPU替代品，大模型还面临这10大挑战
ChatGPT、GPT-4 等的发布，让我们在见识到大模型（LLM）的魅力后，伴随而来的是其所面临的各种挑战。如何让 LLM 变得更好？面对大模型，到底有哪些需求解决的题目？成为 AI 领域重要的研究课题。
AI
- 10
- 0
机器之心23年8月27日
言语模型悄悄偷懒？新研究：上下文太长，模型会略过中间不看
言语模型：太长我不看。
AI
- 9
- 0
机器之心23年7月24日
将上下文长度扩大到 256k，无限上下文版本的OpenLLaMA来了？
大语言模型处理上下文 token 的能力，是越来越长了。
AI
- 11
- 0
机器之心23年7月10日
基于Transformer的大模型是如何运行的？Meta从全部和上下文进修揭秘
本文旨在更好地理解基于 Transformer 的大型谈话模型（LLM）的内部体制，以提高它们的可靠性和可解释性。
AI
- 12
- 0
机器之心23年6月22日