多模态AI

MiniMax MCP Server正式上线，开启多模态AI新纪元

人工智能技术的边界正在不断拓展。 AIbase从社交媒体获悉，中国AI初创公司MiniMax稀宇科技于近日宣布，其MiniMax MCP Server正式上线。这一服务器通过简单的文本输入，即可调用视频生成、图像生成、语音生成及声音克隆等多项能力，并兼容多种主流MCP客户端，为开发者与创作者提供了强大的多模态AI工具。

4/15/2025 12:02:39 PM

AI在线

报道称OpenAI下周重磅发布GPT-4.1系列，包含Mini版和Nano版

人工智能领域的领跑者OpenAI即将在下周掀起新一波技术热潮!据科技媒体 The Verge 报道，OpenAI计划推出包括GPT-4.1系列、o3系列以及其他多款AI模型在内的重大更新。这一波密集发布不仅彰显了OpenAI加速创新的雄心，也为行业带来了更强大的AI工具。 GPT-4.1系列:多模态能力的全面升级作为GPT-4.0的继任者，GPT-4.1系列被认为是OpenAI在多模态AI领域的又一力作。

4/13/2025 7:34:52 AM

AI在线

联想CTO：押注多模态AI协作，打造模型工厂加速智能体落地

在联想集团2025/26财年誓师大会上，首席技术官Tolga Kurtoglu强调，当前AI应用仍处于快速迭代的技术演示阶段，远未真正释放为用户创造价值的成熟能力。他指出，未来AI发展的关键在于将技术转化为以用户为中心的解决方案，构建联想独特的差异化优势。 Kurtoglu描绘了未来以用户为中心的AI图景:它将不再受限于单一模型、芯片、设备或形态，而是由端侧、云端、边缘等多种模型和智能体协同运作，无缝地为用户提供服务。

3/31/2025 12:00:49 PM

AI在线

马斯克xAI收购视频生成初创公司Hotshot，AI视频领域竞争再升级

硅谷科技巨头的版图扩张再添新篇!埃隆·马斯克旗下的xAI公司今日宣布收购专注于视频生成AI技术的初创公司Hotshot，这一战略收购将为xAI在多模态AI技术领域注入新的活力。 Hotshot首席执行官Aakash Sastry在X平台上正式宣布了这一消息，但未透露具体的交易金额。作为曾获得Reddit联合创始人Alexis Ohanian和SV Angel等知名投资方支持的新锐科技公司，Hotshot（正式名称为Natural Synthetics Inc.）在AI视频生成领域积累了独特的技术优势。

3/18/2025 11:35:00 AM

AI在线

微软团队推多模态AI模型Magma：整合视觉、语言和动作决策技能

近日，微软研究团队联合多所高校的研究人员，发布了一款名为 “Magma” 的多模态 AI 模型。这款模型的设计旨在处理和整合图像、文本和视频等多种数据类型，以便在数字和物理环境中执行复杂任务。随着科技的不断进步，多模态 AI 代理正在被广泛应用于机器人技术、虚拟助手和用户界面自动化等领域。

2/20/2025 9:30:00 AM

AI在线

智谱AI：Agentic GLM全面登陆三星Galaxy S25系列

2025年2月11日，北京智谱华章科技有限公司宣布，其研发的Agentic GLM全面登陆三星最新款手机Galaxy S25系列。这一合作标志着全球首款支持多模态AI交互的智能手机正式推向市场，为用户带来了前所未有的智能体验。智谱华章自2023年4月开启Agent智能体相关研究，并于2024年10月推出首个Agent产品AutoGLM，率先提出Phone Use理念。

2/12/2025 8:59:00 AM

AI在线

DeepSeek深夜再放大招，发布全新多模态大模型Janus-Pro

国产大模型DeepSeek发布了全新的Janus-Pro多模态大模型，正式进军文生图领域。这一举动标志着DeepSeek在多模态AI技术上的重大突破。在GenEval和DPG-Bench基准测试中，Janus-Pro-7B不仅击败了OpenAI的DALL-E3，还超越了Stable Diffusion、Emu3-Gen等热门模型。

2/9/2025 8:59:26 AM

AI在线

消息称阿里引入顶级人工智能科学家或将加码AI To C业务

近期，阿里巴巴在AI领域迎来了一位重量级人物。据业内人士透露，一位全球顶级人工智能科学家已于近期正式入职阿里巴巴，未来或将专注于AI To C业务的基础大模型研发与应用。这位科学家在工业界和学术界均拥有超过20年的经验，尤其在多模态AI领域成果丰硕，曾主导发表过上百篇大模型顶级论文。

2/4/2025 2:08:00 PM

AI在线

谷歌押注多模态AI，BigQuery湖仓一体是核心支柱

根据多家调研机构的预测，未来几年，全球多模态AI市场的年增长率将超过35%，而谷歌正在积极布局，以期在这一蓬勃发展的市场中占据领先地位。谷歌云计算部门最近宣称，将文本、图像、视频、音频和其他非结构化数据与生成式人工智能（GenAI）处理相结合的多模态AI，将成为2025年五大人工智能趋势之一。 BigQuery湖仓一体引领谷歌多模态AI战略谷歌负责数据、分析和人工智能战略的产品主管Yasmeen Ahmad表示，BigQuery数据仓库是谷歌多模态AI战略的核心支柱，公司正致力于将其重塑为能够整合并分析多样化数据类型的湖仓一体（Data Llakehouse）。

1/21/2025 5:02:14 PM

极客IT

多模态AI是医学的未来，谷歌推出三个新模型，Med-Gemini迎来大升级

编辑 | 白菜叶许多临床任务需要了解专业数据，例如医学图像、基因组学，这类专业知识信息在通用多模态大模型的训练中通常不存在。在上一篇论文的描述中，Med-Gemini 在各种医学成像任务上超越 GPT-4 系列模型实现了 SOTA！在这里，Google DeepMind 撰写了第二篇关于 Med-Gemini 的论文。在 Gemini 的多模态模型的基础上，该团队为 Med-Gemini 系列开发了多个模型。这些模型继承了 Gemini 的核心功能，并通过 2D 和 3D 放射学、组织病理学、眼科、皮肤病学和基因组

5/13/2024 3:58:00 PM

ScienceAI

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！全日程揭晓！ICLR 2025论文分享会我们北京见 5分钟直出46页论文！谷歌Deep Research完爆OpenAI，最强Gemini 2.5加持 kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o 击败DeepSeek-R1！豆包新推理模型仅用前者参数量1/3！还将开源两个基准，瞄准通用推理能力！ ChatGPT重大更新，能翻出所有历史对话，网友被AI聊破防了

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度深度学习苹果 AI视频模态驾驶文本人形机器人 xAI 搜索大语言模型 Copilot Claude 字节跳动具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉 DeepMind 训练

多模态AI

MiniMax MCP Server正式上线，开启多模态AI新纪元

报道称OpenAI下周重磅发布GPT-4.1系列，包含Mini版和Nano版

联想CTO：押注多模态AI协作，打造模型工厂加速智能体落地

马斯克xAI收购视频生成初创公司Hotshot，AI视频领域竞争再升级

微软团队推多模态AI模型Magma：整合视觉、语言和动作决策技能

智谱AI：Agentic GLM全面登陆三星Galaxy S25系列

DeepSeek深夜再放大招，发布全新多模态大模型Janus-Pro

消息称阿里引入顶级人工智能科学家 或将加码AI To C业务

谷歌押注多模态AI，BigQuery湖仓一体是核心支柱

多模态AI是医学的未来，谷歌推出三个新模型，Med-Gemini迎来大升级

消息称阿里引入顶级人工智能科学家或将加码AI To C业务