开源社区为人工智能发展做了什么?
开源(OS)在驱动生成式 AI 的创新。得益于像 GitHub 和 Hugging Face 等学术研究平台,我们得以见证 AI 技术的蓬勃发展。但值得注意的是,OpenAI、Anthropic 等越来越多的科技公司选择不公开模型的代码和权重。
指责庞大科技公司闭源的声音从未停止,昨天,前特斯拉 AI 总监,OpenAI 的创始成员 Andrej Karpathy 发了一条推特暗指「闭源」对人才的限制:
在人工智能范畴,我认为你数不出来 30 个 30 岁以下的闻名者。在公司结构图里,他们在 CEO 的 5 层之下。他们通常不上 Twitter,他们的 LinkedIn 没有维护,他们不上播客,他们可能曾经发表过文章,但现在不再发表。他们是今天的爱因斯坦,直接发明和创造奇迹。我希望他们不被隐藏在大科技公司和首创公司里,以换取丰厚的薪水,但事实就是如此。
Meta 首席 AI 科学家、图灵奖获得者 Yann LeCun 也立马附和道:
如果他们在一家实行开源研究的公司工作,他们的名字就会出现在论文和 Github 上,他们会在会议和研讨会上发表演讲,他们会被邀请在学术界举办研讨会,他们甚至可能会获奖。但是他们没有选择这样,我们将再也无法听到他们的声音。
尽管闭源的技术巨头为 AI 技术开发投入了大量金钱、计算资源、数据等成本,但开源社区的发展速度和成果表现总能迎头赶上。
最近,数据洞察首创公司 Synaptic 对开源社区 2023 年的发展情况进行了全面细致的归纳总结,以下是总结文章的核心内容。
2023 年,一份由谷歌泄露的内部文件吸引了大批「吃瓜群众」。谷歌观察到开源 AI 已经巧妙而有效地抢占了谷歌和 OpenAI 等庞大科技公司的市场份额,并且开源 AI 在速度、适应性、隐私性和整体效益等方面都更强。有些开源 AI 模型,如 Mistral、Llama 在受欢迎程度和功能方面在迅速超越闭源模型。
因此,开源 AI 吸引了来自开发人员、研究人员和投资者的极大兴趣。2023 年,Github 见证了开发者对生成式 AI 项目的贡献同比增长了 148%。过去 2 年,开源 AI 范畴接收的投资超过 80 亿美元。
OS AI 生态系统:
AI 项目和贡献者大幅增长
对于生成式 AI 模型而言,「开源」意味着模型的源代码、所有用于训练模型权重和参数都是可公开访问、可用、可修改的,并且允许转载。
基于这个定义,开源人工智能栈包括构建生成式 AI 应用程序的一套综合工具,其中包含基础模型(如 Llama、Mistral)、开发工具和框架(如 Langchain、Fixie)、模型训练平台(如 Weights & Biases、Anyscale)和监控工具(Datadog、Seldon)。
更多的开发人员和新项目持续加入,开源 AI 蓬勃发展
开源的生成式 AI 项目在显著增长,贡献者数量也在不断增加。去年,Github 的贡献者数量同比增长 148%,通生成式 AI 项目总数同比增长 248%。截至 2023 年,Github 上有 6 万个通用人工智能项目,Huggingface 上有超过 40 万个模型。
贡献者不再局限于美国和欧洲,来源越来越全球化
大多数开源项目确实来自美国和欧洲,然而,在 2023 年,对生成式 AI 贡献最多的个人开发者却来自印度和日本。到 2027 年,印度预计将超过美国,成为 Github 上最大的开发者社区。
第一季度后观光团热度减退,深度贡献者数量稳步增加
2023 这一年,生成式 AI 经历了从「广泛炒作」到「更加专注和价值为导向的参与」到「幻灭低谷」三个阶段的转变。年初 ChatGPT 掀起的 AI 热潮在第一季度达到顶点后逐步「退烧」,最初的兴奋让位于长期专注的研究。
在 GitHub 代码库中,标星数量的增长趋势也出现了相似的变化 —— 自第一季度以来,增长速度开始放缓。与此同时,专注于研发的开发者数量稳步增长,2023 年累计增加了 148%。
Python 是开源 AI 的首选语言
尽管 Javascript 是 2023 年度 Github 上最受欢迎的编程语言,但在 AI 范畴,Python 却成为了首选。这得益于 Python 内置的如 TensorFlow 和 PyTorch 等综合机器学习库,它们为机器学习项目提供了强大的支持,并能扩展到各种生成式 AI 项目中。Python 在数据处理方面的灵活性以及其独立于平台的特性,使其成为各种 AI 项目的理想选择。
Mojo 是 Python 的一个变种,它兼备 Python 的实用性与 C++ 的功能,越来越受开发者的欢迎。在 2023 年的第四季度,Mojo 在 Github 上的 Star 数增长了 73%,这说明 Mojo 受到了开发人员们的喜爱。
AI 代码仓库倾向于更具保护性的许可
有相当一部份 AI 代码仓库使用 Apache 许可证,开发人员可以根据该许可证对衍生项目申请专利。Apache 许可证具备完备的法条,因此相比其他许可证能提供更好的专利保护。尽管在 Github 上最受欢迎的是开源的 MIT 许可证,但可以预见的是,生成式 AI 开发者希望通过更具保护性的许可来保护他们的心血。
市场趋势:多个项目 / 首创公司
在生成式 AI 技术堆栈中涌现
基础模型和开发工具是首创公司的重点范畴
在生成式 AI 范畴,超过 60% 的新公司都选择了基础模型和开发者工具作为核心项目。这是 AI 堆栈的核心要素,也是构成、部署和管理各种用途的生成式 AI 应用的基础。模型训练、微调工具、监控工具和云计算服务等其他范畴的创新围绕着这些核心要素展开。
高质量的开源 AI 减少了对专有技术大公司的依赖,但数据是关键
开源 AI 技术的数量和质量的不断增强,为开发人员和首创企业提供了与专有技术的大公司竞争的实力。Mixtral 8x7B 在聊天对话以及整体功能方面均优于闭源的 GPT 3.5。其他模型如 Llama、Yi 也不遑多让。
然而,闭源庞大科技公司仍具备一个重要优势:它们能够获得大量数据资源。最近的一些开源模型(如 Llama-2 或 Mistral 7B)并未公开其训练数据,这表明数据很可能是生成式 AI 取得突破的关键专有要素。
投资概况:2022-23 年融资活动强劲
由于对大量数据、研究人力和计算资源的严重依赖,与普通企业相比,开源 AI 需要更大的资金投入。
2022 至 23 年,有 75% 的开源 AI 首创公司获得了资本投资。基础模型和模型训练 / 微调软件吸引了 70% 以上的投资资金。
英伟达是人工智能芯片的领先制造商,也是该范畴的战略投资者,它领投了 Mistral AI 和 Adept AI 等顶级首创公司。
基础模型:开源模型的普及程度
和功能在赶超闭源模型
基础模型的开放程度各不相同,例如,Llama-2 的代码可以公开访问,但其训练数据尚未公开。当模型的核心组件(源代码、训练权重和参数)可公开获取,且使用、修改和发布不受限制时,模型才是真正的「开源」模型。
开源 LLM Falcon 和 Bloom 获得了大量拥护
阿布扎比技术创新研究所(Abu Dhabi's Technology Innovation Institute)开发的庞大语言模型 Falcon 和合作研究组织 BigScience 创建的 BLOOM 在 Huggingface 上的下载量最高,超过了 Meta 的 Llama2。
近期推出的 Mistral AI 模型 Mistral 7B 和 Mixtral 8x7B 也很受欢迎,在 Huggingface 上的下载量超过了许多成熟的模型。
开源模型并不落后于闭源模型
虽然 GPT4 和 Claude 等闭源大模型在聊天机器人排行榜上名列前茅,但 Mistral、Vicuna、Yi、Llama 等开源模型在迎头赶上,这对生态系统来说是个好兆头。
不过根据 MMLU 基准,闭源模型仍然领先一步。MMLU 基准包含人文、社会科学和 STEM 等 57 个学科的知识和解决问题的技能测试,衡量的是一个模型的综合功能,在这方面,GPT 和 Gemini 等闭源模型仍然优于开源模型。
开源开发提高了模型的效益
使用开源人工智能的首创公司并不像庞大科技公司那样拥有丰富的数据资源或计算能力,因此它们有动力创建更高效的模型,以更低的计算需求提供高质量的结果。Mixtral 8x7B 是一个 85B 参数的「专家混合」模型,其算力仅相当于一个 14B 模型。就效益和效果而言,它优于所有其他开源模型,包括更大的 Llama-2 70B。这对于模型的本地应用(如移动语音助手)至关重要。
Github 数据显示开发人员的兴趣所在
作为开发人员与开源 AI 项目互动并做出贡献的主要平台,GitHub 的数据往往可以反映开源项目的吸引力。
AutoGPT、Modular 的 Mojo 受到了开发人员的高度关注。
AutoGPT 是一款基于 GPT-4 构建的自主人工智能助手,受到了开发人员的极大关注。该模型能够充当 AI 智能体,将庞大任务分解为各种子任务,而无需用户输入,然后将这些子任务链接在一起并按顺序执行以产生更大的结果。AutoGPT 还能够连接到互联网,从而可以检索其任务的最新信息。
Modular 的 Mojo 是 Python 的变体,专为高功能 AI 应用程序量身定制,平衡了 C++ 和 Rust 等语言的效益与 Python 的简单性。Mojo 的核心目标是简化 AI 开发、无缝集成 AI/ML 基础设施并提供强大的功能。
此外,Pytorch、Huggingface、AutoGPT 和 Supabase 在 Github 项目参与度方面脱颖而出。
展望未来
1、开源不仅仅是生成式 AI 的「游乐场」,它还是创新的前沿。
开源人工智能在积极创新。2023 年,Github 的贡献者年增长率为 148%,生成式 AI 项目的年增长率为 248%,HuggingFace 拥有超过 40 万个模型。生成式 AI 的开源堆栈在各个类别(从基础模型到基础设施和工具)都具有竞争力或优于专有产品。
2、开源模型在功能上与旗舰版专有模型相差不远,并且在效益上处于领先地位,以较低的计算量和数据量就能实现其功能。
Mistral、Vicuna、Yi 和 Llama 等开源模型在迅速追赶 GPT-4 和 Claude 等闭源模型,Mixtral-8x7B 在 Elo 和 MMLU 评级中甚至超过了 GPT-3.5。开源社区在构建计算效益更高的模型,这对于在边缘设备(例如手机)上本地部署人工智能至关重要。
3、获取高质量、丰富的数据将成为 OS AI 模型的限制功能。
数据将成为大模型开发的关键战场。最近的模型,例如以「开源」形式发布的 Llama-2、Mistral-7B,选择不公开其模型训练数据。当然,庞大科技公司将在数据方面拥有显著的优势。合成数据平台(如 Gretel)可以潜在地增强训练和微调,但预计数据保护将会加强。
4、大量关于 AI 智能体的开发在进行,预计基于 AI 智能体的应用程序很快就会上市。
虽然 AI 智能体在面向客户的应用程序中仍然处于实验阶段和新生阶段,但 Github 数据表明开发人员对智能体有浓厚且持续的兴趣。截至目前,Github 上有 70 多个 AI Agent 存储库,其中 AutoGPT、Bloop、XAgent 等存储库获得了显著的关注度(8-10K+ star)和参与度(30 + 个贡献者)。AI 智能体绝对是一个值得关注的范畴。
5、预计优秀的开源人工智能项目将在 2024 年吸引大笔融资。
开源人工智能范畴的首创公司已经看到了一些非常大的交易和跨阶段的活跃融资。Mistral AI 在最近完成4.87 亿美元的交易后成为 AI 独角兽。AutoGPT、Supabase 和 DeciAI 准备在未来 1-2 年内进行几轮融资。
参考链接:
https://synaptic.com/resources/free-weights-open-source-ai.html?continueFlag=d8af5585700ff63ab0513fb2db85ed31
In AI at least, the real 30 under 30 imo you have never heard of. They are 5 layers down the org chart from the CEO. They are usually not on Twitter, they have an unmaintained LinkedIn, they don’t go on podcasts, and they maybe published at one point but don’t do so anymore. They…
— Andrej Karpathy (@karpathy) January 20, 2024
If they work in a company that practices open research, they'll have their name on papers and Github repos, they will give talks at conferences and workshops, they'll be invited to give seminars in academia, they may even win awards.
If not, we'll never hear from them.
Their…— Yann LeCun (@ylecun) January 21, 2024