缓存

月之暗面 Kimi 开放平台上下文缓存 Cache 存储费用降价 50%：现价 5 元 / 1M tokens / min
感谢AI 独角兽公司月之暗面今日宣布，Kimi 开放平台的上下文缓存 Cache 存储费用降价 50%，Cache 存储费用由 10 元 / 1M tokens / min 降低至 5 元 / 1M tokens / min，即日起生效。7 月 1 日，Kimi 开放平台上下文缓存（Context Caching）功能开启公测。官方表示，该技术在 API 价格不变的前提下，可为开发者降低最高 90…
应用
- 41
- 0
清源8月7日
最火 AI 角色扮演流量已达google搜索 20%：每秒处理两万推理要求，Transformer 作者公开优化窍门
什么 AI 应用每秒处理 20000 个 AI 推理要求，达到 2024 年google搜索流量的 1/5？答案是独角兽 Character.ai，由 Transformer 作者 Noam Shazeer（后面简称沙哥）创办。刚刚，沙哥公布了推理优化独门窍门，迅速引起业界热议。具体来说 Character.ai 在整个服务堆栈中实现了如下成绩：内存高效架构设计：将 KV 缓存巨细增加 20 倍以…
AI
- 11
- 0
汪淼6月21日
月之暗面 Kimi 开放平台将启动 Context Caching 内测：提供预设实质 QA Bot、固定文档集合查询
月之暗面官宣 Kimi 开放平台 Context Caching 性能将启动内测，届时将支持长文本大模型，可实现上下文缓存性能。▲ 图源 Kimi 开放平台民间公众号，下同据介绍，Context Caching（上下文缓存）是由 Kimi 开放平台提供的一项高级性能，可通过缓存反复的 Tokens 实质，降低用户在哀求相同实质时的成本，原理以下：民间表示，Context Caching 可提升 A…
AI
- 42
- 0
归泷（实习）6月19日
不到1000行代码，PyTorch团队让Llama 7B提速10倍
PyTorch 团队亲自教你如何减速大模型推理。在过去的一年里，生成式 AI 发展迅猛，在这当中，文本生成一直是一个特别受欢迎的领域，很多开源项目如 llama.cpp、vLLM 、 MLC-LLM 等，为了取得更好的效果，都在进行不停的优化。作为机器学习社区中最受欢迎框架之一的 PyTorch，自然也是抓住了这一新的机遇，不断优化。为此让大家更好的了解这些创新，PyTorch 团队专门设置了系列…
AI
- 21
- 0
机器之心23年12月5日