小模型

解读小模型—SLM

大模型的世界几乎每天都在发生变化。 一方面,人们越来越重视开发更大、更强大的语言模型,以实现通用人工智能(AGI)。 这些大模型通常位于拥有数十万GPU的大型数据中心中。

一夜小模型王座易主!英伟达发布超强小模型,新混合架构威力超Transformer,性能、速率、缓存全面超越Llama3.2!

编辑 |言征小模型王座一夜易主了! 冷不防,英伟达就丢出了一个新混合架构,以后不再只是Transformer的天下了。 日前,NVIDIA刚刚发布了Hymba-1.5B-Base,这是一个将Transformer注意力机制与状态空间模型(SSM)集成的小型语言模型。

OpenAI 终于发布 GPT-4o mini,但比中国大模型晚了半年

美国时间 7 月18 日,OpenAI 正式发布了多模态小模型 GPT-4o mini,在海内外引起了广泛关注。 此前,OpenAI 凭借 GPT-3 开拓了 AI 模型的“暴力美学”时代,同时也以训练超大参数规模的模型能力建立起 AGI 同赛道的护城河。 但在其推出 GPT-4o 的“Mini”版本之后,OpenAI 似乎走向了原有优势的反方向,开始卷“小模型”,而值得注意的是:在 Mini 这条路上,欧洲与中国的大模型团队已经率先研究了大半年。
  • 1