模态

腾讯副总裁蒋杰：混元大模型正部署从多模态到全模态的技术，很快即可体验

据界面新闻报道，在今天的 2024 世界人工智能大会（WAIC 2024）上，腾讯集团副总裁、腾讯混元大模型负责人蒋杰谈及大模型多模态相关问题。蒋杰表示，大模型行业正从最初的单模态向多模态过渡。其认为对于腾讯混元大模型来说，多模态是一道“必答题”，目前混元大模型正在积极部署从多模态到全模态的技术，用户将很快可在腾讯元宝 App、腾讯内部业务及场景中体验，同时会通过腾讯云向外部应用开放。而在 5 月 17 日，蒋杰曾在腾讯生成式 AI 产业应用峰会上透露，今年三季度将开源混元“最核心”的文生文模型。腾讯内部已开始对三

7/5/2024 4:45:51 PM

清源

蚂蚁百灵大模型：多模态能力提升，将应用在支付宝智能助理等

IT之家从蚂蚁集团获悉，蚂蚁集团自研的百灵大模型的多模态能力全面提升。多模态能力让大模型能“看”会“听”，能“说”会“画”，可支持音、视、图、文等多模态理解与生成，可以让大模型更像人一样感知和互动，未来将应用在支付宝智能助理、AI 金融管家和 AI 就医助理等多个 AI 智能体。支付宝智能助理是基于蚂蚁集团自研的百灵大模型研发的一款全新的生活办事 AI 产品，它围绕用户的吃、喝、行、游、办事、买票、娱乐等数十种生活场景，只需要“问一问”，可以获得出行、健康、政务、金融等领域的超 8000 项数字生活服务。据介绍，“

7/5/2024 4:31:01 PM

沛霖（实习）

支付宝AI新进展：发布多模态医疗大模型，携手20家机构发起AI医疗共建计划

7月5日，在2024世界人工智能大会“可信大模型论坛”上，支付宝公布了其AI技术在医疗领域布局的最新进展：发布多模态医疗大模型，同时，全新推出包括医疗可信一体机、可信云等多款数智化解决方案。现场，支付宝还与人民卫生出版社、北京大学医学部、浙江省卫生健康委等20家机构，联合发起AI医疗共建计划，共同探索AI数智技术底座与创新应用服务。支付宝多模态医疗大模型亮相经过半年多测试打磨，支付宝医疗大模型正式亮相，这也是国内首批多模态医疗大模型之一。蚂蚁集团大模型应用部总经理顾进杰介绍了背后的技术研发。蚂蚁百灵大模型已具备能“

7/5/2024 2:31:00 PM

新闻助手

蚂蚁百灵大模型最新进展：已具备原生多模态能力

7月5日，在2024世界人工智能大会“可信大模型助力产业创新发展”论坛上，蚂蚁集团公布了其自研的百灵大模型最新研发进展：百灵大模型已具备能“看”会“听”、能“说”会“画”的原生多模态能力，可以直接理解并训练音频、视频、图、文等多模态数据。原生多模态被认为是通往AGI的必经之路，在国内，目前只有为数不多的大模型厂商实现了这一能力。记者从大会现场的演示看到，多模态技术可以让大模型更像人一样感知和互动，支撑智能体体验升级，百灵的多模态能力已应用于“支付宝智能助理”上，未来还将支持支付宝上更多智能体升级。（蚂蚁集团副总裁徐

7/5/2024 2:13:00 PM

新闻助手

交互效果对标 GPT-4o，商汤发布国内首个所见即所得模型“日日新 5o”

商汤科技发布“日日新 SenseNova 5.5”大模型体系，并发布国内首个所见即所得模型“日日新 5o”，交互效果对标 GPT-4o。通过整合跨模态信息，基于声音、文本、图像和视频等多种形式，“日日新 5o”带来全新的 AI 交互模式 —— 实时的流式多模态交互。据介绍，“日日新 5o”能听、会看、更会找话题，就如同“真人聊天一般”，这种交互模式适用于实时对话和语音识别等应用，能够在同一模型中自然处理多种任务，且根据不同上下文自适应调整行为和输出。日日新 5.5 是国内首个正式发布的流式原生多模态交互模型，模型训

7/5/2024 1:51:36 PM

沛霖（实习）

整合多组学数据，华大基因团队图神经网络模型SpatialGlue登Nature子刊

编辑 | KX空间转录组学是继单细胞转录组学出现以来，在生物样本分析领域的又一重大进展。多组学数据的整合至关重要。近日，新加坡科技研究局（A*STAR）、华大基因和上海交通大学医学院附属仁济医院等组成的研究团队，提出了一种具有双注意力机制的图神经网络模型 SpatialGlue，能够以空间感知的方式整合多组学数据。SpatialGlue 能够有效地将多种数据模态与其各自的空间背景相结合，以揭示组织样本的组织学相关结构。研究证明，与其他方法相比，SpatialGlue 可以捕获更多的解剖细节，更准确地解析空间域，例如

7/3/2024 12:03:00 PM

ScienceAI

15 个 AI 模型只有 3 个得分超 50%，SIUO 跑分被提出：评估多模态 AI 模型的安全性

最新发表在 arXiv 的研究论文指出，包括 GPT-4V、GPT-4o 和 Gemini 1.5 在内的大部分主流多模态 AI 模型，处理用户的多模态输入（例如一起输入图片和文本内容）之后，输出结果并不安全。这项研究标题为《跨模态安全调整》（Cross-Modality Safety Alignment），提出了一个全新的“安全输入但不安全输出”（SIUO），涉及道德、危险行为、自残、侵犯隐私、信息误读、宗教信仰、歧视和刻板印象、争议性话题以及非法活动和犯罪等 9 个安全领域。研究人员说，大型视觉语言模型（LVL

6/25/2024 9:12:58 AM

故渊

百度文库宣布“橙篇”行业首创 10 万字长文生成及多模态编辑能力

百度文库昨日宣布，新产品“橙篇”行业首创 10 万字长文生成及多模态编辑能力，成为行业首个“查阅创编”一站式 AI 自由创作平台。据IT之家此前报道，百度文库于 5 月 30 日发布 AI 原生应用“橙篇”，“橙篇”是一个知识检索和问答、超长图文理解和生成、深度编辑和跨模态自由创作的综合性 AI 产品。“橙篇”有以下功能：长文生成写作资料搜索：专业学术搜索与 AI 全网搜索文档总结：支持超长 / 多个 / 多种格式（包括各类型格式文件、URL 链接、图片等）文档全文智能校正制作图表：自动理解并提取文本数据文本翻译百

6/20/2024 10:31:19 AM

沛霖（实习）

松鼠Ai全新多模态智适应大模型发布会重磅召开，智适应教育软硬件全面升级

近日，松鼠Ai全新多模态智适应大模型发布会于上海隆重召开。本次发布会盛况空前，不仅震撼揭晓了松鼠Ai多模态智适应教育大模型及系统的全方位升级，还重磅推出了多款全新智适应教育硬件产品。凭借软硬件生态的全面革新，松鼠Ai不仅展示了其在教育科技领域的全面突破，更宣告了智适应教育新时代的到来。智适应教育大模型重磅升级，迈向多模态大模型新纪元此次发布上，松鼠Ai揭晓了重磅升级的智适应教育大模型，其在多模态智能错因分析与追根溯源、多模态智能人机互动、多模态智能测试与评估三大维度实现了全面迭代，标志着教育科技领域正式迈向多模态大

6/19/2024 9:34:00 AM

新闻助手

GPT-4o 更容易越狱？北航 & 南洋理工上万次测试给出详细分析

GPT-4o，比上一代更容易被越狱攻击了？来自北航和南洋理工的研究人员，通过上万次的 API 查询，对 GPT-4o 各种模态的安全性进行了详细测试。结果发现，GPT-4o 新引入的语音模态带来了新的攻击面，而且多模态整体安全性不敌 GPT-4V。具体来说，研究人员针对 4 个常用的基准测试，对 GPT-4o 支持的三种模态（文本、图像、音频）进行了测试。测试一共涉及到 4000 初始文本查询的优化，8000 响应判断，16000 次 OpenAI 的 API 查询。基于此，研究人员撰写了详细的报告，给

6/12/2024 3:44:32 PM

清源

ECCV 2024 Workshop自动驾驶难例场景多模态理解与视频生成征稿与挑战赛火热启动！

Workshop主页：。近年来，多模态大模型（如GPT-4V）展示了其在多模态感知与理解方面前所未有的进步。然而，利用MLLMs来应对自动驾驶中复杂场景，特别是罕见但关键的难例场景，仍然是一个未解的挑战难题。本次Workshop旨在促进多模态大模型感知与理解、先进的AIGC技术在自动驾驶系统中的应用、端到端自动驾驶等方面的创新研究。Workshop征稿本次论文征稿关注自动驾驶场景多模态感知与理解、自动驾驶场景图像与视频生成、端到端自动驾驶、下一代工业级自动驾驶解决方案等主题，包括但不限于：Corner case m

6/3/2024 9:19:00 AM

新闻助手

百度文库发布 AI 原生应用“橙篇”：长文理解、总结、生成与编辑

2024 百度移动生态万象大会今日在苏州举办，会上百度副总裁、文库事业部负责人王颖发布了综合性 AI 原生应用“橙篇”。利用“橙篇”，用户可以对“超大量、超多格式、超长内容”的文件进行理解、总结与问答。该应用还支持“超长篇幅”的长文生成、深度编辑以及多模态的自由创作。依托百度文库、百度学术以及全网数十亿的专业信息和资料，用户可以在“橙篇”上进行 AI 全网智能检索和学术检索。IT之家注意到，百度在会上还宣布了百度文库的最新情报：百度文库经大模型重构为一站式 AI 内容获取和创作平台后，汇集 12 亿文档资源，发布上

5/30/2024 2:17:10 PM

沛霖（实习）

港大字节提出多模态大模型新范式，模拟人类先感知后认知，精确定位图中物体

当前，多模态大模型（MLLM）在多项视觉任务上展现出了强大的认知理解能力。然而大部分多模态大模型局限于单向的图像理解，难以将理解的内容映射回图像上。比如，模型能轻易说出图中有哪些物体，但无法将物体在图中准确标识出来。定位能力的缺失直接限制了多模态大模型在图像编辑，自动驾驶，机器人控制等下游领域的应用。针对这一问题，港大和字节跳动商业化团队的研究人员提出了一种新范式 Groma——通过区域性图像编码来提升多模态大模型的感知定位能力。在融入定位后，Groma 可以将文本内容和图像区域直接关联起来，从而显著提升对话的交

5/27/2024 3:46:53 PM

清源

面壁智能推出 MiniCPM-Llama3-V 2.5 开源端侧多模态模型：8B 参数、高效部署手机

感谢面壁智能昨晚推出并开源 MiniCPM 系列最新的端侧多模态模型 MiniCPM-Llama3-V 2.5，支持 30 种语言，宣称可实现：最强端侧多模态综合性能：超越 Gemini Pro 、GPT-4VOCR 能力 SOTA（IT之家注：State-of-the-Art）：9 倍像素更清晰，难图长图长文本精准识别图像编码快 150 倍：首次端侧系统级多模态加速▲ OpenCompass 模型量级对比MiniCPM-Llama3-V 2.5 总参数量为 8B，多模态综合性能超越 GPT-4V-1106、Ge

5/21/2024 4:07:14 PM

泓澄（实习）

Meta 首发「变色龙」挑战 GPT-4o，34B 参数引领多模态革命！10 万亿 token 训练刷新 SOTA

【新智元导读】GPT-4o 发布不到一周，首个敢于挑战王者的新模型诞生！最近，Meta 团队发布了「混合模态」Chameleon，可以在单一神经网络无缝处理文本和图像。10 万亿 token 训练的 34B 参数模型性能接近 GPT-4V，刷新 SOTA。GPT-4o 的横空出世，再次创立了一个多模态模型发展的新范式！为什么这么说？OpenAI 将其称为「首个『原生』多模态」模型，意味着 GPT-4o 与以往所有的模型，都不尽相同。传统的多模态基础模型，通常为每种模态采用特定的「编码器」或「解码器」，将不同的模态分

5/19/2024 6:54:10 PM

清源

vivo 自研蓝心大模型升级“自研 AI 多模态大模型”

在正在举行的 vivo 影像新蓝图暨 X 系列新品发布会上，vivo 宣布自研蓝心大模型升级「自研 AI 多模态大模型」，多模态技术让大模型从最原始的视觉、声音、空间等方面接触、感知、理解世界，让大模型更全面、更聪明、更强大。此外，vivo 看见 | 多模态大模型技术应用 ——「vivo 看见蓝心升级版」，帮助视障用户更好地“看见”世界。去年 11 月 1 日，在 2023 vivo 开发者大会上，vivo 发布自研通用大模型矩阵 —— 蓝心大模型，带来 vivo 基于蓝心大模型开发的首款全局智能辅助蓝心小 V、自

5/13/2024 7:17:08 PM

远洋

从基因组到蛋白质组连续翻译，南开大学开发通用跨模态数据分析方法

编辑 | 萝卜皮近期，科学家在单个细胞内同时分析多组学模态的进展，使得细胞异质性和分子层次结构的研究成为可能。然而，技术限制导致多模态数据的高噪声和高昂的成本。在这里，南开大学的研究团队提出了 scButterfly，一种基于双对齐变分自动编码器和数据增强方案的多功能单细胞跨模态翻译方法。通过对多个数据集的全面实验，研究人员证明 scButterfly 在保留细胞异质性、同时翻译各种背景的数据集和揭示细胞类型特异性生物学解释方面优于基线方法。同时，scButterfly 可应用于单模态数据的综合多组学分析、低质量单

5/4/2024 7:13:00 PM

ScienceAI

参数量不到10亿的OctopusV3，如何媲美GPT-4V和GPT-4？

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]。

5/1/2024 4:26:00 PM

机器之心

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用 OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片 kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o 本地部署DeepSeek+DiFy平台构建智能体应用 OPPO 小布助手网页版上线，接入满血版 DeepSeek

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度苹果深度学习 AI视频模态人形机器人 xAI 驾驶字节跳动文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉训练大型语言模型