模态

图像伪造照妖镜：北大发布多模态 LLM 图像篡改检测定位框架 FakeShield
北京大学的研究人员开发了一种新型多模态框架 FakeShield，能够检测图像伪造、定位篡改区域，并提供基于像素和图像语义错误的合理解释，可以提高图像伪造检测的可解释性和泛化能力。随着生成式人工智能（AIGC）的迅猛发展，图像编辑与合成技术变得愈加成熟与普及。这一趋势为图像内容创作带来了便捷的同时，也显著增加了篡改检测的难度。
应用
- 7
- 0
问舟10月24日
智源发布原生多模态世界模型 Emu3，宣称实现图像、文本、视频大一统
感谢智源研究院今日发布原生多模态世界模型 Emu3。该模型只基于下一个 token 预测，无需扩散模型或组合方法，即可完成文本、图像、视频三种模态数据的理解和生成。官方宣称实现图像、文本、视频大一统。
应用
- 16
- 0
沛霖（实习）10月21日
中国移动发布九天善智多模态基座大模型及 30+ 款自研行业大模型
AI在线从中国移动官网获悉，今日在第 12 届中国移动全球合作伙伴大会主论坛上，中国移动发布九天善智多模态基座大模型，并推出 30 款自研行业大模型。中国移动对九天善智多模态基座大模型的介绍如下：本次发布的九天善智多模态基座大模型是九天系列通用大模型的最新研发成果，模型四大功能显著提升：一是长文本智能化解析，支持超十万字的文本理解，从多份文档中自动分析提炼关键信息，准确解析信息背后的核心观点，最终…
应用
- 6
- 0
远洋10月12日
vivo 全新蓝心大模型矩阵发布，推出 30 亿蓝心端侧大模型 3B、语音大模型
在今日上午的 2024 vivo 开发者大会开幕演讲中，vivo 正式发布了自研的全新蓝心大模型矩阵，全面升级语言大模型和端侧大模型能力，并带来 vivo 自研的语音大模型、图像大模型以及多模态大模型。据AI在线了解，全新蓝心大模型矩阵包括语言大模型、端侧大模型、语音大模型、图像大模型、多模态大模型。vivo 推出了全新的 30 亿蓝心端侧大模型 3B，官方称在对话写作、摘要总结、信息抽取等能力上…
应用
- 6
- 0
远洋10月10日
华知大模型 5.0 发布：同方知网与华为云打造，7B~135B 尺寸
以“数智共生、行业共赢”为主题的华知大模型行业应用研讨会于 9 月 21 日在上海举行，会议由同方知网与华为云联合主办。会上，华知大模型 5.0 发布，并全新上线智能 PPT、AI 科技查新、华知 App、3D 全息交互数字人等应用。据同方知网介绍，此次发布的华知大模型 5.0 实现了：“全系列、多模态、强知识、高可信”的能力跃升，针对多样化大模型建设需求，训练了 7B、13B、38B、135B …
应用
- 18
- 0
汪淼9月22日
英伟达 NVLM 1.0 引领多模态 AI 变革：媲美 GPT-4o，不牺牲性能平衡文本和图像处理难题
科技媒体 marktechpost 昨日（9 月 20 日）发布博文，报道了英伟达（Nvidia）最新发布的论文，介绍了多模态大语言模型系列 NVLM 1.0。多模态大型语言模型（MLLM）多模态大型语言模型（MLLM）所创建的 AI 系统，能够无缝解读文本和视觉数据等，弥合自然语言理解和视觉理解之间的差距，让机器能够连贯地处理从文本文档到图像等各种形式的输入。多模态大型语言模型在图像识别、自然语…
应用
- 20
- 0
故渊9月21日
阿里国际发布最新开源多模态模型Ovis，多模态能力再升级
看一眼菜品图就知道怎么做、能给植物看病、能把手写英文准确翻译成中文、还能精准分析财报数据……多模态能力再次升级！今天，阿里国际AI团队发布了一款多模态大模型Ovis，在图像理解任务上不断突破极限，多种具体的子类任务中均达到了SOTA（最新技术）水平。多模态大模型能够处理和理解多种不同类型的数据输入，例如文本、图像。与大型语言模型（LLMs）相比，大语言模型在处理和生成文本数据方面有专长，而多模态大…
应用
- 8
- 0
新闻助手9月19日
华为昇腾 AI 云服务：万亿参数模型训练无中断时长由 2.8 天提升至 40 天
华为云 Marketing 部部长董理斌在第五届深圳国际人工智能展（GAIE）上深入介绍了昇腾 AI 云服务与盘古大模型。与业界平均相比，昇腾 AI 云服务将万亿参数模型的训练无中断时长从 2.8 天提升至 40 天，并将集群故障恢复时间从 60 分钟缩短至 10 分钟。目前昇腾 AI 云服务已适配 100 多个行业主流大模型，为客户提供从开发到应用的全方位云服务支持。▲ 图源“华为云”AI在线获…
应用
- 27
- 0
沛霖（实习）9月9日
中国科学院、阿里云发布首个月球专业大模型，撞击坑年代判别准确率超 80%
感谢据阿里云今日消息，在 8 月 29 日的 2024 数博会上，中国科学院地球化学研究所与阿里云联合发布国际首个“月球科学多模态专业大模型”。该大模型基于阿里云通义系列模型构建，目前在月球撞击坑年代和形态判别上，准确率已达到 80% 以上。据阿里云介绍，月球专业大模型以视觉、多模态及自然语言等通义系列模型为基模，结合 RAG 检索增强等技术，于阿里云百炼专属版进行微调及训练。目前，月球专业大模型…
应用
- 20
- 0
汪淼8月29日
云知声推出山海多模态大模型：实时生成文本、音频和图像
云知声于 23 日宣布推出山海多模态大模型。通过整合跨模态信息，山海多模态大模型能够接收文本、音频、图像等多种形式作为输入，并实时生成文本、音频和图像的任意组合输出。▲ 云知声山海助手微信小程序AI在线获悉，山海多模态大模型有如下特点：实时秒回，自由插话：与现实对话中人类的响应时间相似；支持对话随时打断，用户可在对话中任意插话感知情绪，表达情绪：通过语音文本判断用户情绪，还能捕捉用户语音的语气、节…
应用
- 18
- 0
沛霖（实习）8月26日
面壁智能开源 MiniCPM-V 2.6 模型：号称端侧 AI 多模态能力对标 GPT-4V，6G 内存可用
面壁智能昨日开源了 MiniCPM-V 2.6 模型，官方表示将端侧 AI 多模态能力拉升至全面对标 GPT-4V 水平。官方称 MiniCPM-V 2.6 模型仅 8B 参数，取得 20B 以下单图、多图、视频理解 3 SOTA 成绩，有以下特点：“三合一最强”端侧多模态：首次在端侧实现单图、多图、视频理解等多模态核心能力全面超越 GPT-4V，单图理解越级比肩多模态王者 Gemini 1.5 …
应用
- 55
- 0
沛霖（实习）8月7日
中文多模态大模型 SuperCLUE-V 基准 8 月榜单发布，腾讯混元居首
感谢据腾讯科技今日报道，中文多模态大模型 SuperCLUE-V 基准 8 月榜单发布，腾讯混元大模型位居国内大模型首位（71.95 分）。腾讯科技方面宣称，该模型准确识别图像元素并生成自然语言描述，全方位理解并洞察细节。此次测评覆盖了 12 个国内外高代表性的多模态理解大模型，腾讯混元模型在多模态基础能力和应用能力中获得 71.95 的分数。AI在线查询得知，8 月榜单中涵盖国内外最具代表性的 …
应用
- 12
- 0
清源8月5日
国际首个，我国团队开发糖尿病诊疗多模态大模型 DeepDR-LLM
感谢AI在线从上海市第六人民医院官方公众号获悉，上海交通大学医学院附属第六人民医院贾伟平教授和李华婷教授团队与上海交通大学电院计算机系 / 教育部人工智能重点实验室盛斌教授团队，携手清华大学黄天荫教授团队与新加坡国立大学覃宇宗教授团队，通过医工交叉合作研究，构建了全球首个面向糖尿病诊疗的视觉-大语言模型的多模态集成智能系统 DeepDR-LLM，成果于 2024 年 7 月 19 日在 Natur…
应用
- 13
- 0
清源7月25日
商汤绝影行业首发原生多模态大模型车端部署：80 亿参数、每秒 40 Tokens
商汤科技联合创始人、首席科学家王晓刚 17 日宣布，商汤绝影在行业内率先实现了原生多模态大模型的车端部署。车载端侧 8B 模型首包延迟在 300 毫秒以内，推理速度 40 Tokens / 秒，覆盖主流算力平台。商汤绝影为多模态大模型打造计算引擎“HyperPPL”，目前扩展并支持主流车载计算硬件，兼容多种主流操作系统，适配多个车载芯片的部署平台。商汤绝影称 HyperPPL 针对车载多人场景进行…
应用
- 37
- 0
沛霖（实习）7月19日
因监管问题，Meta 将不会在欧盟发布新的多模态 AI 模型
据 Axios 报道，Meta 在一份声明中表示，他们即将发布一个多模态的 Llama 模型，但由于监管环境的不确定性，该模型不会在欧盟发布。Meta 表示，这一决定也意味着即使在开放许可下发布，欧盟的客户和公司也无法使用多模态模型，Meta 将向欧盟的客户和公司提供仅支持文本（text only）的 Llama 3 模型。报道称，Meta 的问题不在于《人工智能法案》，而在于如何在遵守《通用数据…
应用
- 6
- 0
沛霖（实习）7月18日
商汤大语言模型应用 SenseChat 向香港用户免费开放，支持广东话聊天
商汤科技今日宣布，旗下 Sensechat 手机 App 及网页版向香港用户免费开放。该服务此前已在中国大陆推出。Sensechat 基于商汤今年 5 月推出的“商量多模态大模型粤语版”，依托商汤“日日新”语言和多模态能力，以及对粤语及本地文化、热点的理解，用户可以直接用最熟悉的广东话跟它聊天，直接文字或语音输入，问问题、搜东西、生成图片、写文案等。AI在线附示例如下：香港的苹果 iPhone 用…
应用
- 75
- 0
汪淼7月9日
腾讯副总裁蒋杰：混元大模型正摆设从多模态到全模态的技术，很快即可体验
据界面新闻报道，在今天的 2024 世界人工智能大会（WAIC 2024）上，腾讯集团副总裁、腾讯混元大模型负责人蒋杰谈及大模型多模态相关问题。蒋杰表示，大模型行业正从最初的单模态向多模态过渡。其认为对于腾讯混元大模型来说，多模态是一道“必答题”，目前混元大模型正在积极摆设从多模态到全模态的技术，用户将很快可在腾讯元宝 App、腾讯外部业务及场景中体验，同时会通过腾讯云向外部使用开放。而在 5 月…
应用
- 38
- 0
清源7月5日
蚂蚁百灵大模型：多模态本领提升，将应用在支付宝智能助理等
IT之家从蚂蚁团体获悉，蚂蚁团体自研的百灵大模型的多模态本领全面提升。多模态本领让大模型能“看”会“听”，能“说”会“画”，可支援音、视、图、文等多模态理解与生成，可以让大模型更像人一样感知和互动，未来将应用在支付宝智能助理、AI 金融管家和 AI 就诊助理等多个 AI 智能体。支付宝智能助理是基于蚂蚁团体自研的百灵大模型研发的一款全新的生存供职 AI 产品，它围绕用户的吃、喝、行、游、供职、买票…
应用
- 11
- 0
沛霖（实习）7月5日
支付宝AI新进展：发布多模态调理大模型，携手20家机构发起AI调理共建计划
7月5日，在2024世界人工智能大会“可托大模型论坛”上，支付宝公布了其AI技能在调理领域布局的最新进展：发布多模态调理大模型，同时，全新推出包括调理可托一体机、可托云等多款数智化解决方案。现场，支付宝还与人民卫生出版社、北京大学医学部、浙江省卫生衰弱委等20家机构，联合发起AI调理共建计划，共同探索AI数智技能底座与革新利用效劳。支付宝多模态调理大模型亮相经过半年多测试打磨，支付宝调理大模型正式…
应用
- 12
- 0
新闻助手7月5日
蚂蚁百灵大模型最新进展：已具有原生多模态本领
7月5日，在2024世界人工智能大会“可信大模型助力产业创新发展”论坛上，蚂蚁团体公布了其自研的百灵大模型最新研发进展：百灵大模型已具有能“看”会“听”、能“说”会“画”的原生多模态本领，可以直接明白并训练音频、视频、图、文等多模态数据。原生多模态被认为是通往AGI的必经之路，在国内，目前只有为数不多的大模型厂商兑现了这一本领。记者从大会现场的演示看到，多模态技能可以让大模型更像人一样感知和互动，…
应用
- 32
- 0
新闻助手7月5日
交互效果对标 GPT-4o，商汤颁布国内首个所见即所得模型“日日新 5o”
商汤科技颁布“日日新 SenseNova 5.5”大模型体系，并颁布国内首个所见即所得模型“日日新 5o”，交互效果对标 GPT-4o。通过整合跨模态信息，鉴于声响、文本、图像和视频等多种形式，“日日新 5o”带来全新的 AI 交互形式 —— 及时的流式多模态交互。据介绍，“日日新 5o”能听、会看、更会找话题，就如同“真人聊天一般”，这种交互形式适用于及时对话和语音识别等应用，能够在同一模型中自…
应用
- 40
- 0
沛霖（实习）7月5日
调整多组学数据，华大基因团队图神经网络模型SpatialGlue登Nature子刊
编辑 | KX空间转录组学是继单细胞转录组学出现以来，在生物样本分解领域的又一重大进展。多组学数据的调整至关重要。近日，新加坡科技研讨局（A*STAR）、华大基因和上海交通大学医学院附属仁济医院等组成的研讨团队，提出了一种具有双注意力机制的图神经网络模型 SpatialGlue，能够以空间感知的方式调整多组学数据。SpatialGlue 能够有效地将多种数据模态与其各自的空间背景相结合，以揭示构造…
应用
- 13
- 0
ScienceAI7月3日
15 个 AI 模型只有 3 个得分超 50%，SIUO 跑分被提出：评估多模态 AI 模型的危险性
最新发表在 arXiv 的钻研论文指出，包括 GPT-4V、GPT-4o 和 Gemini 1.5 在内的大部分主流多模态 AI 模型，处理用户的多模态输入（例如一起输入图片和文本内容）之后，输入结果并不危险。这项钻研标题为《跨模态危险调整》（Cross-Modality Safety Alignment），提出了一个全新的“危险输入但不危险输入”（SIUO），涉及品德、危险行为、自残、侵犯隐私、…
AI
- 9
- 0
故渊6月25日
baidu文库宣布“橙篇”行业首创 10 万字长文生成及多模态编写能力
baidu文库昨日宣布，新产品“橙篇”行业首创 10 万字长文生成及多模态编写能力，成为行业首个“查阅创编”一站式 AI 自在创作平台。据IT之家此前报道，baidu文库于 5 月 30 日发布 AI 原生应用“橙篇”，“橙篇”是一个知识检索和问答、超长图文了解和生成、深度编写和跨模态自在创作的综合性 AI 产品。“橙篇”有以下功效：长文生成写作资料搜寻：专业学术搜寻与 AI 全网搜寻文档总结：支…
AI
- 6
- 0
沛霖（实习）6月20日