微软「AI伴侣」Copilot Vision,让你用嘴浏览网页,还能和你一起打游戏

昨天,就在 OpenAI 12 天连发的第一天发布火遍全网的同时,微软也发布了一款重量级 AI 产品:Copilot Vision。 这是一款集成在 Edge 浏览器中的 AI 助手,可以与你实时「协作上网」,并能随时提供帮助。                                 微软 AI CEO Mustafa Suleyman 的推文。

昨天,就在 OpenAI 12 天连发的第一天发布火遍全网的同时,微软也发布了一款重量级 AI 产品:Copilot Vision。这是一款集成在 Edge 浏览器中的 AI 助手,可以与你实时「协作上网」,并能随时提供帮助。

图片

                                微软 AI CEO Mustafa Suleyman 的推文。

据微软博客介绍:「Copilot 现在可以理解您在线活动的全部上下文。当您选择启用 Copilot Vision 时,它会查看您正在浏览的页面,并与您一起阅读,然后你们可以一起讨论遇到的问题。浏览不必再是一种只有您和所有标签页的孤独体验。」

需要注意,目前 Copilot Vision 仅有数量有限的 Pro 版订阅者可以抢先使用。

Copilot Vision 发布后,虽然没能得到 OpenAI ο1 正式版那样的关注,但也有些 Copilot Labs 的 Pro 用户进行了尝试。

图片

Copilot Vision 发布后不久,微软 AI CEO Mustafa Suleyman 还接受了著名 AI Newsletter「The Rundown AI」运营者 Rowan Cheung 的专访,他在其中介绍了 Copilot Vision 的基本功能和工作方式以及其它很多话题。他在介绍 Copilot Vision 时使用了「AI 伴侣(AI companion)」这个词。

图片

                                  详细采访请访问:https://x.com/rowancheung/status/1864716671317086384

AI 伴侣正是他们想要达成的目标。Suleyman 指出:「在我看来,AI 伴侣能听你所听,见你所见,本质上就是陪同你一起生活。你的 AI 伴侣有能力记忆你说过的一切,理解你浏览的网页内容,还能够像人一样与你交谈。」

值得一提的是,Copilot Vision 是一项完全可选的体验,用户必须明确授予 Copilot Vision 权限才能读取 Microsoft Edge 浏览器中的网页。

例如,让它帮助你计划如何在博物馆度过有趣的一天,Copilot Vision 会在你参观之前指出你需要知道的所有信息。微软「AI伴侣」Copilot Vision,让你用嘴浏览网页,还能和你一起打游戏

或者 Vision 可以帮助你进行假日购物,指出页面上哪些产品符合自己的需求和偏好。

下面更详细地展示了一个旅行规划的演示:微软「AI伴侣」Copilot Vision,让你用嘴浏览网页,还能和你一起打游戏Vision 甚至可以简化信息和学习。观看 Vision 帮助你学习如何玩新游戏,例如 Geoguessr。 微软「AI伴侣」Copilot Vision,让你用嘴浏览网页,还能和你一起打游戏

至于 Copilot Vision 的工作方式,微软暂时并未详细说明,但 Suleyman 在接受采访时稍微透露了一些。Copilot Vision 包含三个组件:

  • 一是底层 LLM,它具备网络上的知识。

  • 第二,它能即时读取你正在浏览的网页上的所有文本,并且无需用户执行滚动等操作。

  • 第三,它能看到你能看到的所有图片,实现多模态理解。

Suleyman 还简单预测了十年后人们的智能生活。他指出,现在人们常用的计算机图形界面就是为不懂编程的人设计的,而十年之后,这些东西将被 AI 接替,因为 AI 助手或 AI 伴侣将有能力理解有关你的一切,不管是情绪状态还是日程安排,又或是兴趣爱好、个人知识图谱、人际关系。它们还能根据我们日常的所见所闻、所思所想进行推理。

AI 将「不仅仅是一个交互接口,而是一个新的连接面,将会有根本性的不同。」Suleyman 甚至将其比作是一个新的数字种族(new digital species),就像是人们的一个家庭成员或第二大脑。

图片

隐私安全

微软也强调了对安全的重视,该公司称在构建 Copilot Vision 时,将用户的安全、控制和隐私作为首要任务。首先,Vision 完全是选择性加入的,因此用户可以决定何时启用或打开它,作为用户在网络上的第二双眼睛。

此外,一旦用户结束与 Vision 的会话,有关用户所说内容以及用户与 Copilot 共享的上下文的所有数据都将被删除。每次使用 Vision 时,用户的数据都会根据 Microsoft 隐私声明进行处理和保护。仅记录 Copilot 的响应以改进安全系统。

目前,Vision 仅能与一组选定的网站进行交互。随着时间的推移,微软会谨慎地扩大这个网站列表。微软承诺,Vision 不会捕获、存储或使用来自出版商的任何数据来训练模型。

对于这个被 OpenAI o1 光芒掩盖的产品发布,你有什么看法?

参考链接:

https://www.microsoft.com/en-us/microsoft-copilot/blog/2024/12/05/copilot-vision-now-in-preview-a-new-way-to-browse/

https://x.com/rowancheung/status/1864716671317086384?t=688

相关资讯

微软颠覆生产力:Copilot推自定义版,AI PC原生支持PyTorch,奥特曼预告新模型

180 万人在用 Github Copilot,已在改变世界。AI 生产力的未来会是什么样子?全世界都在等待微软的答案。5 月 22 日凌晨,微软 Build 2024 开发者大会在美国西雅图召开,今天的发布有关 AI 技术,更有关 AI 带来的新工具。「三十多年来,微软对于计算机一直有两个梦想 —— 首先是让计算机理解我们,而不是我们去理解计算机;其次,在信息不断增加的世界中,让计算机帮助我们根据信息有效地进行推理、计划和行动。人工智能浪潮已经为我们的梦想找到了答案,」微软 CEO 萨蒂亚・纳德拉说道。今天 Bu

微软 Phi-3-vision 基准测试:和 Claude 3-haiku、Gemini 1.0 Pro 相当

微软在 Build 2024 大会上发布了 Phi-3 家族的最新成员--Phi-3-vision,主打“视觉能力”,能够理解图文内容,同时据称可以在移动平台上流畅高效运行。Phi-3-vision 是一款多模态小型语言模型(SLM),主要用于本地 AI 场景,该模型参数量为 42 亿,上下文长度为 128k token,能够为常规视觉推理任务和其他任务提供支持。那么 Phi-3-vision 有多厉害?微软今天发布了新的论文 [PDF],表示该 SLM 和 Claude 3-haiku、Gemini 1.0 Pr

微软 AI 图片生成器被自家员工举报:可生成有害图像

感谢据 CNBC 报道,一位微软工程师向美国联邦贸易委员会 (FTC) 举报该公司的人工智能图片生成器 Copilot Designer 存在安全隐患。这位名叫 Shane Jones 的工程师在微软工作了六年,他致信 FTC 称,尽管他反复警告 Copilot Designer 可能会生成有害图像,但微软却“拒绝”下架该工具。在测试 Copilot Designer 的安全问题和缺陷时,Jones 发现该工具会生成“与堕胎权术语相关的恶魔和怪物、手持突击步枪的青少年、暴力场景中性化的女性图像以及未成年人饮酒和吸毒