【新智元导读】微软昨夜刚上演了一波 AI PC 革命,今天又全是 Copilot。而最让人意外的,竟是阿尔特曼本人登台预告了下一代模型将会带来新的模态和整体智能。
AI 生产力的革命,微软怎会缺席?
在今天的开发者大会上,曾经誓要「颠覆」10 亿打工人的 Copilot,依然是全程的主角。
▲ 没想到 70 年后,还是要靠微软重新定义软件不仅有 Copilot 加持的全新 AI PC,日常生活助手 Copilot,还有为全世界开发者提供的 AI 工具堆栈。
更惊喜的是,Sam Altman 竟然在发布会的最后,被 CTO Kevin Scott 请上了台!
两人开场先是一波寒暄,然后共同感慨,这简直是疯狂的一周,疯狂的一年!
针对前段时间的 OpenAI 离职潮,阿尔特曼似乎用了一些隐晦的话语来暗戳戳回应:「为了让 GPT 变得稳健、安全,我们做了很多工作。OpenAI 创建了众多团队来确保 LLM 按预期工作。」
三大杀器
过去的一年半里,世界发生了诸多变化,其中最令 Altman 本人震惊的事是什么?
Altman 表示,数百万开发者是推动过去一年里世界巨变的核心。
从 GPT-4 ,再到 GPT-4o 的发布,尽管模型 API 推出时间不久,但我从未见过一项技术能如此迅速地得到有意义的应用。
人们正在构建我们从未想过的创新应用,完全展现了开放 API 的价值所在。
而 Kevin Scott 也调侃道:看得出来,你们很好地利用了手里的超强超算。
▲ 2020 年交付的「鲨鱼」级超算训出了 GPT-3,接下来的「虎鲸」级超算训出 GPT-4,而现在「鲸鱼」级超算微软正交付给 OpenAI阿尔特曼还表示,新的模态和整体智能将是 OpenAI 下一个模型的关键。
他预计模型将会变得更智能、更强大,更安全,而且 GPT-4o 将会速度更快,成本更低。
是的,就像摩尔定律推动信息革命一样,Scaling Law 和模型架构一起,改变了我们使用数据、生成数据的方式。
在这些缩放定律的影响下,我们拥有一个新的自然用户界面,这是一个模型,这意味着支持文本、语音、图像、视频作为输入和输出。
Microsoft Copilot,是日常生活中的助手;Copilot stack,则可以让我们构建 AI 程序、解决方案等。
还有一个重头戏,当然就是昨天发布的全新 Copilot+ PC,它直接打破了纪录,成为有史以来最快的 AI 电脑!
如今,Windows 成为了构建 AI 应用的最佳平台。而这种影响,不啻于 Win 32 对图形用户界面的意义。
GitHub Copilot「插件商店」首发
继 Copilot 成为最流行的代码补全工具和「个人助理」之后,微软本次又更新了这个效率提升神器。
微软表示,很多开发者在代码之外花费了 75% 的时间,比如追踪工作流、以及撰写需求文档和规格说明等。
不仅如此,定位和修复 bug 的工作往往需要频繁进行上下文切换,开发者在数据库、IDE、代码仓库、监控工具、云平台之间疲于奔命,无法专注于代码本身。
这正是全新 GitHub Copilot 可以发挥作用的地方。
它可以通过对话的方式将所有流程整合在一起,帮你调用所有工具和平台,开发者只需要专注于 IDE 界面的核心代码内容,最大限度减少上下文切换。
不仅如此,基于强大的网络搜索和推理决策能力,Copilot 还能回答关于开发过程的问题。
比如在下面这个 demo 中,用西班牙语描述需求,Copilot 就可以自动编写出代码,并为 Azure 上的部署提供建议。
GitHub 产品副总裁表示:「使用自然语言编程将继续降低软件开发的门槛。未来,10 亿人可以利用 GitHub Copilot,以自然语言的方式与开发技术栈中的任何工具集成,在 GitHub 上构建代码。」
GitHub Copilot 支持各种各样的开发工具和平台,包括 DataStax, Docker, MongoDB, Octopus Deploy, Pangea, Pinecone, Product Science, ReadMe, Sentry, Stripe 以及微软自家的 Office 全家桶、Azure 和 Teams。
GitHub 产品高级副总裁 Mario Rodriguez 表示:「我们的目标是使 GitHub Copilot 成为最集成、最强大、最智能的 AI 平台。」
在此基础上延伸出的 Copilot Workspace 更是提高了开发团队使用 GitHub 管理项目代码的效率。
之前,用户只能通过 Git Bash 命令行上传项目文件,图形化界面能进行的操作非常有限。
有了 Copilot Workspace,各种时间线和代码分支一目了然,上传文件也容易很多。
而且还提供了非常清晰的代码变动可视化界面,让你自始至终都对项目有满满的掌控感。
截止目前,GitHub Copilot 仍处于内测阶段,之后将在 GitHub 插件市场中发布。
不仅如此,对开发者来说,更酷的是 —— 你可以定制自己的 Copilot 插件!
3 种方式,定义自己的 Copilot 插件
SharePoint
SharePoint 是微软开发的用于组织内部存储、管理和共享内容的平台,每天上传数量超过 20 亿条。
为了减少工作中搜索和筛选内容的时间,微软开发了从 SharePoint 创建 Copilot 的功能。
任何拥有 SharePoint 网站编辑权限的人,只需点击几下就可以自定义 Copilot 功能,还可以通过 Teams 聊天框、电子邮件等方式将创建好的 Copilot 分享给团队中其他成员。
点选好 SharePoint 中允许访问的内容范围,以及 Copilot 的身份和行为等信息,它就可以立刻投入工作了。
比如内容回答问题、总结信息或者查找文件,基于你之前授权给它的内容,Copilot 可以提供最新、最准确的响应。
想要在 SharePoint 之外创建自己的 Copilot?
没问题!微软还发布了 Copilot Studio,提供更灵活的自定义功能。
Copilot Studio
在 SharePoint 之外,Copilot Studio 支持超过 1000 个数据连接器,方便你将各种数据源导入 Copilot。
Copilot Studio 依旧采用类似 SharePoint 中「对话驱动」的界面,你可以像聊天一样描述 —— 想要 Copilot 有什么样的知识和功能,Copilot Studio 就可以立即创建,并支持实时的测试、修改和发布。
为了用户更容易上手使用,Studio 中还内置了各种 Copilot 模板,比如用于组织清晰度的 Organizatiion Navigator、用于员工健康管理的 Wellness 等,未来几个月还会有更多 Copilot 模板发布。
使用 Copilot Studio,你会有一种一切尽在掌握的感觉。
VSCode
如果你是一个高端玩家,更喜欢用代码优先的方式构建插件,也可以使用 Visual Studio Code 和 Teams Toolkit,编写函数来精准定义 Copilot 的工作流。
Copilot 新能力解锁
Copilot 早就不止步于代码补全功能,而是已经演变「个人助理」,成为打工人们的效率提升神器,而且与多种工具和平台合作,构建起一套完整的「Copilot 生态」。
本次 Build 大会上,微软又为 Copilot 解锁了一系列新功能。
Team Copilot
Team Copilot 将功能延伸到「个人助理」之外,开始成为团队的一员。
它能承担单独的职责,提升整个团队的工作效率,比如组织并记录会议、跟踪讨论内容等,甚至可以充当项目经理,为成员分配任务并及时跟进 ddl。
对于聊天界面中团队成员们的讨论进展,Copilot 还能实时更新自己的记录内容。
可以在 Microsoft 自家开发的 Teams、Loop 或者 Planner 等协作办公软件中使用 Team Copilot。
这项功能将在今年晚些时候以预览版形式向有 Copilot 许可证的用户发布。
Agents Copilot
如果 Copilot 仅仅进化到团队助手,你可能还是小看了微软。
就像用户可以自定义 Copilot 插件一样,你也可以使用 Copilot Studio 自定义一个 Copilot Agent。
它不再像原来一样被动地等着你问问题或者分配任务,而是变成「事件触发」的智能体,像虚拟员工一样工作并自动执行任务。
这意味着,Copilot Agent 不仅需要记忆、上下文推理以及根据反馈学习的能力,而且需要更加主动,能够在后台自发执行任务。
这样的 Copilot 岂不是会让一大批白领失业?
微软业务应用程序和平台公司副总裁 Charles Lamanna 在采访中表示,它可以消除一些重复、琐碎的工作,例如数据输入等,也许都是没有人真正想做的事情。
GPT-4o 上新,多款基础模型可用
除了 Copilot 华丽的演示之外,在开篇提到的三个平台中,最核心的是构建最完整的端到端堆栈 ——Copilot stack。
其中,最底层是基础设施,然后是基础模型层。
基础设施
为了 AI 工作负载,微软特意构建了全新的数据中心。
因此,微软可以用每一兆瓦的功率,来降低 AI 的成本和功耗。
截止 2024 年 5 月,Azure 超算能力已经实现了 30 倍的增长!
可以说,他们提供了世界上最先进的 AI 加速器,开发者可以拥有最完整的 AI 加速器选择。
从 GPT-4 到 GPT-4o,不仅模型的速度提高了 6 倍,成本更是便宜了 12 倍。
而这背后,是微软与英伟达、AMD 的深度合作,以及自研芯片的大力推进。
英伟达关键平台产品,都会引入微软的云中。
而说到和 AMD 的合作,微软是第一个提供最新 ND MI300X v5 虚拟机的云服务供应商。
无论对于 AMD,还是对于微软,这都是一个意义重大的里程碑。
自研 Azure Maia 100,只要你用过微软的服务,或多或少都会接触到。
而最新 Azure Cobalt 也开始进行公开预览了,目前已经为 Microsoft Teams 等服务提供了数十亿次对话的支持。
基础模型
在基础模型方面,微软与 OpenAI 展开了深度合作,而现在 GPT-4o 可以在 Azure 上进行训练。
一张图,展示了 GPT-4o 依旧是最强的模型。
而在如此强大的模型的加持下,Copilot 甚至已经「进化」到指导我们怎么玩游戏了!
举个例子,你想弄清如何在《我的世界》中制作一把剑,却毫无头绪。
Copilot 会从头教你:为了造一把剑,你需要先收集材料。按 E 键,就能打开自己的材料库了。
Copilot 发现,我们缺少制作剑刃的材料,为此,需要收集木材、石头、铁、金或者钻石。
忽然出现的小人,让玩家吓了一跳。
Copilot 提示道:这是一场僵尸赛跑,我们需要尽快摆脱它们。要么快速建一座方块塔,或者快速找到一个避难场所,还可以挖到山的另一侧。
此外,微软首次介绍了十分强大的 Agent 能力。
想露营但找不到合适的鞋怎么办?给它看一眼你的鞋,就能让它给你提意见了。
Agent 分析道,这款非常适合夏季远足、让双脚保持凉爽,然而却不是这次的最佳选择。
既然如此,我们就让 Agent 直接挑一款最合适的。
Agent 发现,这次最合适的产品是 TrekReady Hawking,它为脚踝提供了支撑,还能在寒冷的山区为脚部提供保暖。然后,它还帮我们把这双鞋添加到购物车中。
当然,除了 OpenAI 的模型之外,微软 Azure 平台还将提供多款可用的模型。
并且,微软依旧拥抱开源社区,与 Hugging Face 合作。
最强小语言模型:Phi-3
除了引入外部模型之外,微软一直以来都在押注小模型,并引领了一场 SLM 革命。
从去年 6 月 Phi-1 面世,到 Phi-1.5、Phi-2,再到如今 Phi-3,微软小模型已经完成四次迭代升级。
今天,Phi-3 家族正式官宣新成员:
Phi-3-vision、Phi-3-small,Phi-3-medium。
其实,Phi-3-small,Phi-3-medium 对于每个人来说,或许并不陌生了。
上个月,微软首次亮相 Phi-3-mini,经过 3.3 万亿 token 训练仅有 38 亿参数,而且还可以部署在手机上,性能与 Mixtral 8x7B 和 GPT-3.5 相媲美。
论文地址:https://arxiv.org/pdf/2404.14219
另外,技术报告中,还首次展示了经过 4.8T token 训练的 7B 模型 Phi-3-small,以及 14B 模型 Phi-3-medium。
具体来说,Phi-3-small 提供了 8k 和 128k 上下文,实力与 Llama-3-8B-In、Gemma 7B,以及 Mistral 7B 相当。
而提供了 4k 和 128k 上下文的 Phi-3-medium,性能可以超越 Mistral 8x7B。
而现在,这些模型已经在 Hugging Face 上发布,开发者们可以下载权重并使用。
多模态 Phi-3
真正引人关注的是,Phi-3 在今天正式推出了多模态模型 Phi-3-vision,有 42 亿参数,128k 上下文。
它可以完成一般的视觉推理任务,比如现场演示中,询问图表中的信息。
甚至,人们还可以使用 Phi-3-vision 进行 OCR、表格理解、一般图像理解等。
值得一提的是,这款轻量模型仅用了一天半的时间,在 512 块 H100 上完成了训练。
它使用了 500B 视觉和文本 token,其中「教科书数据集」一直以来是 Phi 系列模型的训练核心。
这次,Phi-3-vision 的训练的图像数据来自,精选高质量图文搭配的内容,还有新创建的「教科书」式的综合数据。
其中包括,图表、表格、示意图、幻灯片等教授的数学、编码、常识推理等。
尽管参数量级非常小,在多模态基准测试中,Phi-3-vision 的性能超越了 Claude 3 haiku、LlaVa 和 Gemini 1.0 Pro。
甚至,各项性能非常接近 GPT-4V。
一些开发者已经上手体验了,并称令人印象极为深刻。
还有一些开发者们也决定尝试一番。
以上 Phi-3 模型,不仅可以在云端运行,甚至可以在本地运行。
SOTA 小模型 Phi-Silica
此外,纳德拉还在今天发布了 Phi 系列的 SOTA 模型 ——Phi-Silica。
微软称,这是一款专为 Copilot+ PC 设计的 33 亿参数模型,每秒可以处理 650 token 的,功率消耗约为 1.5 瓦。
这就意味着,Phi-Silica 不会占用大量算力,并可以释放 PC 的 CPU 和 GPU 来处理其他计算。
另外,它的 token 生成会重用 NPU 的 KV 缓存,并在 CPU 上运行,大约每秒可输出 27 个 token。
微软表示,「Phi-Silica 的不同之处在于,它是 Windows 首个本地部署的语言模型」。
它针对 Copilot+PC NPU 进行了优化,可在本地设备上实现超快的推理响应速度。
这是 Windows 将先进的 AI 技术直接带给第三方开发者的一个里程碑时,为他们开发出色的 Windows 原生体验和第三方体验铺平了道路。
Phi-3 模型最新的应用,便是微软还和可汗学院联合打造教育模型。
在模型的帮助下,学生们不仅得到了个性化的 AI 指导,老师们也感受到了自己的价值。
更重要的是,在 Phi-3 的加持下,能够免费提供给教育工作者的 Khanmigo,必将极大地改变美国的教育界。
Windows
Copilot+ PC 将重新定义任何一个人在 PC 所做的一切。
Pavan Davuluri 展示了 Copilot 加持下的玩家,不用谷歌搜索,询问即可通过被卡住的关卡。
通过将 Copilot 集成到 Xbox 中,可以大幅提升游戏体验。
此外,微软还与 Quest 联手,将 Copilot 带进 VR 世界,并为 Quest 带来可扩展到 3D 空间的 Windows 应用程序。
微软 Build 2024 开发者大会专题