昨天,就在 OpenAI 12 天连发的第一天发布火遍全网的同时,微软也发布了一款重量级 AI 产品:Copilot Vision。这是一款集成在 Edge 浏览器中的 AI 助手,可以与你实时「协作上网」,并能随时提供帮助。
微软 AI CEO Mustafa Suleyman 的推文。
据微软博客介绍:「Copilot 现在可以理解您在线活动的全部上下文。当您选择启用 Copilot Vision 时,它会查看您正在浏览的页面,并与您一起阅读,然后你们可以一起讨论遇到的问题。浏览不必再是一种只有您和所有标签页的孤独体验。」
需要注意,目前 Copilot Vision 仅有数量有限的 Pro 版订阅者可以抢先使用。
Copilot Vision 发布后,虽然没能得到 OpenAI ο1 正式版那样的关注,但也有些 Copilot Labs 的 Pro 用户进行了尝试。
Copilot Vision 发布后不久,微软 AI CEO Mustafa Suleyman 还接受了著名 AI Newsletter「The Rundown AI」运营者 Rowan Cheung 的专访,他在其中介绍了 Copilot Vision 的基本功能和工作方式以及其它很多话题。他在介绍 Copilot Vision 时使用了「AI 伴侣(AI companion)」这个词。
详细采访请访问:https://x.com/rowancheung/status/1864716671317086384
AI 伴侣正是他们想要达成的目标。Suleyman 指出:「在我看来,AI 伴侣能听你所听,见你所见,本质上就是陪同你一起生活。你的 AI 伴侣有能力记忆你说过的一切,理解你浏览的网页内容,还能够像人一样与你交谈。」
值得一提的是,Copilot Vision 是一项完全可选的体验,用户必须明确授予 Copilot Vision 权限才能读取 Microsoft Edge 浏览器中的网页。
例如,让它帮助你计划如何在博物馆度过有趣的一天,Copilot Vision 会在你参观之前指出你需要知道的所有信息。
或者 Vision 可以帮助你进行假日购物,指出页面上哪些产品符合自己的需求和偏好。
下面更详细地展示了一个旅行规划的演示:Vision 甚至可以简化信息和学习。观看 Vision 帮助你学习如何玩新游戏,例如 Geoguessr。
至于 Copilot Vision 的工作方式,微软暂时并未详细说明,但 Suleyman 在接受采访时稍微透露了一些。Copilot Vision 包含三个组件:
一是底层 LLM,它具备网络上的知识。
第二,它能即时读取你正在浏览的网页上的所有文本,并且无需用户执行滚动等操作。
第三,它能看到你能看到的所有图片,实现多模态理解。
Suleyman 还简单预测了十年后人们的智能生活。他指出,现在人们常用的计算机图形界面就是为不懂编程的人设计的,而十年之后,这些东西将被 AI 接替,因为 AI 助手或 AI 伴侣将有能力理解有关你的一切,不管是情绪状态还是日程安排,又或是兴趣爱好、个人知识图谱、人际关系。它们还能根据我们日常的所见所闻、所思所想进行推理。
AI 将「不仅仅是一个交互接口,而是一个新的连接面,将会有根本性的不同。」Suleyman 甚至将其比作是一个新的数字种族(new digital species),就像是人们的一个家庭成员或第二大脑。
隐私安全
微软也强调了对安全的重视,该公司称在构建 Copilot Vision 时,将用户的安全、控制和隐私作为首要任务。首先,Vision 完全是选择性加入的,因此用户可以决定何时启用或打开它,作为用户在网络上的第二双眼睛。
此外,一旦用户结束与 Vision 的会话,有关用户所说内容以及用户与 Copilot 共享的上下文的所有数据都将被删除。每次使用 Vision 时,用户的数据都会根据 Microsoft 隐私声明进行处理和保护。仅记录 Copilot 的响应以改进安全系统。
目前,Vision 仅能与一组选定的网站进行交互。随着时间的推移,微软会谨慎地扩大这个网站列表。微软承诺,Vision 不会捕获、存储或使用来自出版商的任何数据来训练模型。
对于这个被 OpenAI o1 光芒掩盖的产品发布,你有什么看法?
参考链接:
https://www.microsoft.com/en-us/microsoft-copilot/blog/2024/12/05/copilot-vision-now-in-preview-a-new-way-to-browse/
https://x.com/rowancheung/status/1864716671317086384?t=688