上下文
Anthropic 即将发布 Claude 3.7,支持 50 万上下文窗口
Anthropic 公司计划推出新版本的 Claude3.7Sonnet,该版本将支持500,000个上下文窗口,相比当前的200,000个窗口大幅提升。 根据 TestingCatalog 的消息,这一扩展功能已经在功能标记中显现出来。 此次更新将使用户能够在提示中输入更大容量的内容。
3/27/2025 5:53:00 PM
AI在线
月之暗面 Kimi 开放平台上下文缓存 Cache 存储费用降价 50%:现价 5 元 / 1M tokens / min
感谢AI 独角兽公司月之暗面今日宣布,Kimi 开放平台的上下文缓存 Cache 存储费用降价 50%,Cache 存储费用由 10 元 / 1M tokens / min 降低至 5 元 / 1M tokens / min,即日起生效。7 月 1 日,Kimi 开放平台上下文缓存(Context Caching)功能开启公测。官方表示,该技术在 API 价格不变的前提下,可为开发者降低最高 90% 的长文本旗舰大模型使用成本,并提升模型响应速度。AI在线附 Kimi 开放平台上下文缓存功能公测详情如下:技术简介据
8/7/2024 1:41:26 PM
清源
无一大模型及格!北大 / 通研院提出超难基准 LooGLE,专门评估长文本理解生成
在长文本理解能力这块,竟然没有一个大模型及格!北大联合北京通用人工智能研究院提出了一个新基准数据集:LooGLE,专门用于测试和评估大语言模型(LLMs)长上下文理解能力。该数据集既能够评估 LLMs 对长文本的处理和检索能力,又可以评估其对文本长程依赖的建模和理解能力。结果不评不知道,一评估发现这些模型在复杂的长依赖任务中的多信息检索、时间重排序、计算、理解推理能力表现均不乐观。比如像 Claude3-200k,GPT4-32k、GPT4-8k、GPT3.5-turbo-6k、LlamaIndex 这种商业模型,
8/7/2024 12:46:42 PM
汪淼
科大讯飞星火 Spark Pro-128K 大模型开放调用,最低 0.21 元 / 万 tokens
科大讯飞今日宣布,讯飞星火 API 正式开放长上下文版本 —— Spark Pro-128K 大模型,价格最低 0.21 元 / 万 tokens。据介绍,用户与大模型之间的对话交流,通常被认为是短期记忆。一旦对话长度超过了其上下文承载能力,超出的部分就可能会被模型遗忘。区别于传统的文本处理模型,长文本模型具备更准确的文本理解和生成能力以及更强大的跨领域迁移能力,可以一次性理解和生成更多的信息,适用于复杂的对话、长篇内容创作和详细的数据分析等任务,能提升模型解决问题的边界。6 月 27 日,讯飞星火 V4.0 发布
7/18/2024 6:24:36 PM
汪淼
大脑如何处理语言?普林斯顿团队对Transformer模型进行分析
编辑 | 萝卜皮在处理语言时,大脑会部署专门的计算来从复杂的语言结构中构建含义。基于 Transformer 架构的人工神经网络是自然语言处理的重要工具。普林斯顿大学的研究人员探讨了 Transformer 模型和人类大脑在语言处理中的功能特殊化问题。Transformer 通过结构化电路计算整合单词间的上下文信息。不过,当前的研究主要集中于这些电路生成的内部表征(「嵌入」)。研究人员直接分析电路计算:他们将这些计算解构为功能专门的「transformations」,将跨词语的上下文信息整合在一起。利用参与者聆听自
7/17/2024 2:18:00 PM
ScienceAI
吴恩达团队新作:多模态多样本上下文学习,无需微调快速适应新任务
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]本研究评估了先进多模态基础模型在 10 个数据集上的多样本上下文学习,揭示了持续的性能提升。批量查询显著降低了每个示例的延迟和推理成本而不牺牲性能。这些发现表明:利用大量演示示例可以快速适
6/19/2024 3:12:00 PM
机器之心
OpenAI 把 GPT-4 原始版给了瑞士洛桑联邦理工团队:研究不微调只靠提示词能走多远
除了 OpenAI 自己,居然还有别人能用上 GPT-4-Base 版??也就是未经微调的预训练版,还不会对话聊天,只会补全句子的模型。EPFL(瑞士洛桑联邦理工)团队申请到了访问权限,用于研究“上下文学习足以让大模型跟随指令吗?”。也就是不用监督微调、也不用 RHLF 或其他强化学习对齐方法,只靠提示词能走多远?预训练模型,究竟能不能一步登天,直接改造成聊天机器人或 AI 助手?如果可行,将大大降低类 ChatGPT 大模型的开发难度。免微调对齐靠谱吗?免微调对齐,让刚出炉的预训练模型不止会“文本补全”,只从提示
6/3/2024 6:38:37 PM
清源
六位一线 AI 工程师分享自身总结,公开大模型应用摸爬滚打一年心得
六位一线 AI 工程师和创业者,把在大模型应用开发上摸爬滚打一整年的心得,全!分!享!了!(奇怪的六一儿童节大礼包出现了)这篇干货长文,一时间成为开发者社区热议的话题。有网友评价为,大模型领域少有的“有操作性”的实用见解,非常值得一读。这 6 位作者来自不同背景,比如有大厂工程师,也有独立开发者,还有咨询顾问。但他们的共同之处,是过去一年里一直在大模型之上构建真实应用程序,而不只是炫酷的 Demo 演示,他们认为:现在正是非机器学习工程师或科学家,也能把 AI 构建到产品中的时候。在他们的一系列分享中,网友热议的亮
6/1/2024 6:54:15 PM
清源
为百亿参数LLM化学应用提供新范式,香港理工大学提出上下文分子微调
作者 | 香港理工大学李佳潼编辑 | ScienceAI去年,香港理工大学研究团队开发了一个基于检索的提示范式MolReGPT,利用大型语言模型探索分子发现,在分子和分子文本描述之间进行翻译。近日,香港理工大学、上海交通大学和上海人工智能实验室联合发表了题为《Large Language Models are In-Context Molecule Learners》的文章,也是MolReGPT[1]的续作。论文链接::,大语言模型在生物化学领域展现出了优异的性能,尤其是分子-描述翻译任务[1],这减小了自然语言描
5/29/2024 4:17:00 PM
ScienceAI
Anthropic 用 256 轮对话「灌醉」大模型,Claude 被骗造出炸弹
【新智元导读】Anthropic 发现了大模型的惊人漏洞。经过 256 轮对话后,Claude 2 逐渐被「灌醉」,开始疯狂越狱,帮人类造出炸弹!谁能想到,它的超长上下文,反而成了软肋。大模型又被曝出安全问题?这次是长上下文窗口的锅!今天,Anthropic 发表了自己的最新研究:如何绕过 LLM 的安全限制?一次越狱不够,那就多来几次!论文地址: Claude3 一家叫板 OpenAI 之余,Anthropic 仍然不忘初心,时刻关注着他的安全问题。一般情况下,如果我们直接向 LLM 提出一个有害的问题,LLM
4/3/2024 1:36:17 PM
清源
致命幻觉问题、开发GPU替代品,大模型还面临这10大挑战
ChatGPT、GPT-4 等的发布,让我们在见识到大模型(LLM)的魅力后,伴随而来的是其所面临的各种挑战。如何让 LLM 变得更好?面对大模型,到底有哪些需要解决的问题?成为 AI 领域重要的研究课题。
8/27/2023 8:28:00 PM
机器之心
基于Transformer的大模型是如何运行的?Meta从全局和上下文学习揭秘
本文旨在更好地理解基于 Transformer 的大型语言模型(LLM)的内部机制,以提高它们的可靠性和可解释性。
6/22/2023 1:25:00 PM
机器之心
- 1
资讯热榜
上海AI实验室开源InternVL3系列多模态大型语言模型
Haisnap横空出世,小白用户也能轻松打造AI应用
「交交」媲美GPT-4o!上海交大推出口语对话情感大模型,首个纯学术界自研!
本地部署DeepSeek+DiFy平台构建智能体应用
kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking,多项基准超越 GPT-4o
韩国初创公司 RLWRLD 获 1480 万美元融资,致力于机器人基础模型开发
击败DeepSeek-R1!豆包新推理模型仅用前者参数量1/3!还将开源两个基准,瞄准通用推理能力!
谷歌 Gemini AI 新功能 Circle Screen 曝光:圈选截屏特定区域,实现精准搜索
标签云
人工智能
OpenAI
AIGC
AI
ChatGPT
DeepSeek
AI绘画
数据
机器人
谷歌
模型
大模型
Midjourney
智能
用户
学习
开源
GPT
微软
Meta
AI创作
图像
技术
论文
Stable Diffusion
马斯克
Gemini
算法
蛋白质
生成式
芯片
代码
英伟达
神经网络
腾讯
计算
研究
Sora
AI for Science
3D
Anthropic
AI设计
机器学习
GPU
开发者
场景
华为
预测
伟达
Transformer
百度
苹果
深度学习
AI视频
模态
人形机器人
驾驶
xAI
文本
搜索
字节跳动
大语言模型
Copilot
Claude
具身智能
神器推荐
LLaMA
算力
安全
应用
视频生成
科技
视觉
亚马逊
干货合集
2024
AGI
特斯拉
DeepMind
训练