Vision

Cohere发布全新多模态AI模型Aya Vision，提供32B和8B两个版本

人工智能初创公司 Cohere 的非营利研究实验室本周发布了一款多模态 “开放” AI 模型 ——Aya Vision。该实验室声称，该模型在行业内处于领先地位。 Aya Vision 能够执行多项任务，包括撰写图片说明、回答与照片相关的问题、翻译文本以及生成23种主要语言的摘要。

3/6/2025 2:54:00 PM

AI在线

Apple Intelligence 四月登陆 Vision Pro，加入写作、表情、图像功能

据彭博社记者马克·古尔曼报道，苹果计划最早于四月将 Apple Intelligence 集成至 Vision Pro 头戴设备。该 AI 套件最初于2024年6月发布，此次将通过 visionOS2.4软件更新引入，预计本周向开发者开放。就在 Apple Intelligence 于2024年6月首次发布几周后，Gurman 报道称，苹果正寻求将其 AI 工具套件引入 Vision Pro，尽管关于如何重新构想这些工具以实现混合现实体验仍存在一些问题。

2/17/2025 9:34:00 AM

AI在线

微软 Phi-3-vision 基准测试：和 Claude 3-haiku、Gemini 1.0 Pro 相当

微软在 Build 2024 大会上发布了 Phi-3 家族的最新成员--Phi-3-vision，主打“视觉能力”，能够理解图文内容，同时据称可以在移动平台上流畅高效运行。Phi-3-vision 是一款多模态小型语言模型（SLM），主要用于本地 AI 场景，该模型参数量为 42 亿，上下文长度为 128k token，能够为常规视觉推理任务和其他任务提供支持。那么 Phi-3-vision 有多厉害？微软今天发布了新的论文 [PDF]，表示该 SLM 和 Claude 3-haiku、Gemini 1.0 Pr

5/28/2024 8:45:08 AM

故渊

马斯克 xAI 展示首个多模态模型 Grok-1.5V：可将流程图转成 Python 代码

感谢马斯克旗下人工智能公司 xAI 于 3 月下旬推出 Grok-1.5 大语言模型之后，近日再次推出首个多模态模型 Grok-1.5 Vision。xAI 表示将于近期邀请早期测试者和现有的 Grok 用户测试 Grok-1.5 Vision（Grok-1.5V），不仅能理解文本，还能处理文档、图表、截图和照片中的内容。xAI 表示：“Grok-1.5V 在多学科推理、文档理解、科学图表、表格处理、屏幕截图和照片等多个领域都能媲美现有的前沿多模态模型”。xAI 在官方新闻稿中演示了 7 个 Grok-1.5V 案

4/13/2024 1:35:07 PM

故渊

融合视觉能力，OpenAI 向开发人员提供 GPT-4 Turbo with Vision

感谢OpenAI 宣布，具有视觉能力的最新 GPT-4 Turbo 模型 GPT-4 Turbo with Vision 现已通过 OpenAI API 向开发人员普遍提供。据IT之家了解，该模型延续了 GPT-4 Turbo 系列 128,000 个 token 的窗口大小以及截止至 2023 年 12 月的知识库，最大的革新之处在于其新增的视觉理解能力。在过去，开发者需要调用不同的模型来处理文本和图像信息，而 GPT-4 Turbo with Vision 则将两者合二为一，极大简化了开发流程，并带来了广泛的应

4/10/2024 6:55:27 AM

远洋

传苹果VisionPro 4或5月登陆中国，大厂应用火速跟进

机器之能报道编辑：SiaApple Vision Pro 目前仅在美国推出，但从一开始就有报道称它将很快在国际上推广。《华尔街新闻》快讯报道，供应链预计该产品最早可能于 4 月份在中国发布。它明确表示“最早四月（但不晚于五月）”。目前还没有更多细节，但供应链还声称“工信部的注册程序已接近完成”。消息预计，首批 Apple Vision Pro 在中国供应“将会紧张”。据南华早报报道，国内已有数十家商家愿意以官方价格的两倍将该产品从美国运送到中国。目前社交媒体已经在流传国内海关扣留 4 台入境 Vision Pro

2/8/2024 11:04:00 AM

机器之能

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！本地部署DeepSeek+DiFy平台构建智能体应用 kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o 韩国初创公司 RLWRLD 获 1480 万美元融资，致力于机器人基础模型开发击败DeepSeek-R1！豆包新推理模型仅用前者参数量1/3！还将开源两个基准，瞄准通用推理能力！谷歌 Gemini AI 新功能 Circle Screen 曝光：圈选截屏特定区域，实现精准搜索

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度苹果深度学习 AI视频模态人形机器人驾驶 xAI 文本搜索字节跳动大语言模型 Copilot Claude 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉 DeepMind 训练