Vision

微软 Phi-3-vision 基准测试:和 Claude 3-haiku、Gemini 1.0 Pro 相当

微软在 Build 2024 大会上发布了 Phi-3 家族的最新成员--Phi-3-vision,主打“视觉能力”,能够理解图文内容,同时据称可以在移动平台上流畅高效运行。Phi-3-vision 是一款多模态小型语言模型(SLM),主要用于本地 AI 场景,该模型参数量为 42 亿,上下文长度为 128k token,能够为常规视觉推理任务和其他任务提供支持。那么 Phi-3-vision 有多厉害?微软今天发布了新的论文 [PDF],表示该 SLM 和 Claude 3-haiku、Gemini 1.0 Pr

马斯克 xAI 展示首个多模态模型 Grok-1.5V:可将流程图转成 Python 代码

感谢马斯克旗下人工智能公司 xAI 于 3 月下旬推出 Grok-1.5 大语言模型之后,近日再次推出首个多模态模型 Grok-1.5 Vision。xAI 表示将于近期邀请早期测试者和现有的 Grok 用户测试 Grok-1.5 Vision(Grok-1.5V),不仅能理解文本,还能处理文档、图表、截图和照片中的内容。xAI 表示:“Grok-1.5V 在多学科推理、文档理解、科学图表、表格处理、屏幕截图和照片等多个领域都能媲美现有的前沿多模态模型”。xAI 在官方新闻稿中演示了 7 个 Grok-1.5V 案

融合视觉能力,OpenAI 向开发人员提供 GPT-4 Turbo with Vision

感谢OpenAI 宣布,具有视觉能力的最新 GPT-4 Turbo 模型 GPT-4 Turbo with Vision 现已通过 OpenAI API 向开发人员普遍提供。据IT之家了解,该模型延续了 GPT-4 Turbo 系列 128,000 个 token 的窗口大小以及截止至 2023 年 12 月的知识库,最大的革新之处在于其新增的视觉理解能力。在过去,开发者需要调用不同的模型来处理文本和图像信息,而 GPT-4 Turbo with Vision 则将两者合二为一,极大简化了开发流程,并带来了广泛的应

传苹果VisionPro 4或5月登陆中国,大厂应用火速跟进

机器之能报道编辑:SiaApple Vision Pro 目前仅在美国推出,但从一开始就有报道称它将很快在国际上推广。《华尔街新闻》快讯报道,供应链预计该产品最早可能于 4 月份在中国发布。它明确表示“最早四月(但不晚于五月)”。目前还没有更多细节,但供应链还声称“工信部的注册程序已接近完成”。消息预计,首批 Apple Vision Pro 在中国供应“将会紧张”。据南华早报报道,国内已有数十家商家愿意以官方价格的两倍将该产品从美国运送到中国。目前社交媒体已经在流传国内海关扣留 4 台入境 Vision Pro
  • 1