大规模语言模型
日本AI专家评DeepSeek:中国AI新星崛起,技术实力接近OpenAI
中国初创企业DeepSeek(深度求索)开发的高性能、低成本生成式AI大规模语言模型(LLM)近日引发全球关注。 日本AI研究领域的权威、东京大学教授松尾丰在接受日本经济新闻采访时,对DeepSeek的技术水平、开源战略及其对日本企业的影响进行了深入分析。 松尾丰表示,DeepSeek的技术非常出色,其性能与美国OpenAI开发的ChatGPT接近。
从模型、数据和框架三个视角出发,这里有份54页的高效大语言模型综述
大规模语言模型(LLMs)在很多关键任务中展现出显著的能力,比如自然语言理解、语言生成和复杂推理,并对社会产生深远的影响。然而,这些卓越的能力伴随着对庞大训练资源的需求(如下图左)和较长推理时延(如下图右)。因此,研究者们需要开发出有效的技术手段去解决其效率问题。同时,我们从图右还可以看出,近来较为火热的高效 LLMs,例如 Mistral-7B,在确保和 LLaMA1-33B 相近的准确度的情况下可以大大减少推理内存和降低推理时延,可见已有部分可行的高效手段被成功应用于 LLMs 的设计和部署中。在本综述中,来自
- 1