Vision

微软 Phi-3-vision 基准测试：和 Claude 3-haiku、Gemini 1.0 Pro 相当
微软在 Build 2024 大会上发布了 Phi-3 家族的最新成员--Phi-3-vision，主打“视觉能力”，能够理解图文内容，同时据称可以在移动平台上流畅高效运行。Phi-3-vision 是一款多模态小型说话模型（SLM），主要用于本地 AI 场景，该模型参数量为 42 亿，上下文长度为 128k token，能够为常规视觉推理任务和其他任务提供支持。那么 Phi-3-vision 有…
AI
- 31
- 0
故渊5月28日
马斯克 xAI 展示首个多模态模型 Grok-1.5V：可将流程图转成 Python 代码
感谢马斯克旗下人工智能公司 xAI 于 3 月下旬推出 Grok-1.5 大语言模型之后，近日再次推出首个多模态模型 Grok-1.5 Vision。xAI 表示将于近期邀请早期尝试者和现有的 Grok 用户尝试 Grok-1.5 Vision（Grok-1.5V），不仅能懂得文本，还能处置文档、图表、截图和照片中的内容。xAI 表示：“Grok-1.5V 在多学科推理、文档懂得、科学图表、表格处…
AI
- 7
- 0
故渊4月13日
融合视觉能力，OpenAI 向开发人员供应 GPT-4 Turbo with Vision
感谢OpenAI 宣布，具有视觉能力的最新 GPT-4 Turbo 模型 GPT-4 Turbo with Vision 现已通过 OpenAI API 向开发人员普遍供应。据IT之家了解，该模型延续了 GPT-4 Turbo 系列 128,000 个 token 的窗口大小以及截止至 2023 年 12 月的知识库，最大的革新之处在于其新增的视觉理解能力。在过去，开发者需要调用不同的模型来处理文…
AI
- 7
- 0
远洋4月10日
传苹果VisionPro 4或5月登陆华夏，大厂使用火速跟进
机器之能报导编辑：SiaApple Vision Pro 暂时仅在美国推出，但从一开始就有报导称它将很快在国际上推广。《华尔街新闻》快讯报导，供应链预计该产品最早可能于 4 月份在华夏发布。它明确表示“最早四月（但不晚于五月）”。暂时还没有更多细节，但供应链还声称“工信部的注册程序已接近完成”。消息预计，首批 Apple Vision Pro 在华夏供应“将会紧张”。据南华早报报导，国际已有数十家…
应用
- 5
- 0
机器之能2月8日