多模态

智象未来多模态大模型3.0全球首发，创始人兼CEO梅涛演讲实录来了

2024年12月28日，智象未来科技有限公司在安徽省人工智能产业先导区启动仪式中，宣布智象多模态生成大模型3.0与智象多模态理解大模型1.0同时发布。上海电影集团、中国移动咪咕音乐、科大讯飞等企业参加。加拿大工程院外籍院士、智象未来创始人兼CEO梅涛进行现场演讲。

网页多模态建模思考

1.综述网页本质上是一种超文本，一般由超文本标记语言来定义（例如HTML）。 HTML是一种基础技术，常与CSS、JavaScript一起被众多网站用于设计网页、网页应用程序以及移动应用程序的用户界面。网页浏览器内核通过解释HTML文件，通过视觉引擎将其渲染成可视化网页。

李飞飞谢赛宁再发新成果：直接把o1式思考拉至下一个level——多模态大语言模型的空间思维！这项研究系统评估了多模态大模型的视觉空间智能，结果发现：当前，即使是最先进的多模态大模型，在空间认知方面与人类相比仍有显著差距，测试中约71%的错误都源于空间推理方面的缺陷，即空间推理能力是当前主要瓶颈。图片更为有趣的是，在这种情况下，思维链、思维树等常用的语言提示技术直接失灵了——不仅没有提升模型在空间任务上的表现，反而会使性能下降。

为多模态LLM引入ControlNet理念，开源插件解决灾难性遗忘

多模态大模型内嵌语言模型总是出现灾难性遗忘怎么办？像文生图那样有ControlNet即可解决。这就是由360人工智能研究院提出的IAA的核心思路。

【多模态&文档智能】OCR-free感知多模态大模型技术链路及训练数据细节

目前的一些多模态大模型的工作倾向于使用MLLM进行推理任务，然而，纯OCR任务偏向于模型的感知能力，对于文档场景，由于文字密度较高，现有方法往往通过增加图像token的数量来提升性能。这种策略在增加新的语言时，需要重新进行训练，计算开销较大，成本较高。因此，本文再来看看vary和got这两个衔接工作，看看其完整的技术链路。

用LLaVA解读数万神经元，大模型竟然自己打开了多模态智能黑盒

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。

Mistral 发布 Pixtral Large 多模态 AI 模型：登顶复杂数学推理，图表 / 文档推理超过 GPT-4o

Mistral AI 公司昨日（11 月 18 日）发布公告，宣布了全新的多模态 AI 模型 Pixtral Large。该模型拥有 1240 亿参数，基于 Mistral Large 2，主要用于处理文本和图片。

人工智能的下一个前沿：多模态系统将重塑我们的世界

人工智能的世界正在以惊人的速度发展。多模态人工智能处在这场革命的前沿，这项技术将重新定义我们人类与机器的交互方式。多模态人工智能不仅仅是另一个热词，多模态人工智能是一个正在改变各个行业并有望重塑数字格局的范式转变。

实时音视频领域拓荒者的十年

2015 年，声网将WebRTC大会引入中国，筹办了第一届面向国内开发者、业务人员和用户的RTC（实时视音频）大会。在大会开始的前夕，现任声网市场VP、RTC大会主策人彭小欢失眠了，她非常担心明天会不会有人来。一晃十年过去了，当年的RTC大会早已升级为RTE（实时互联网）大会， 10 月 25 日RTE 2024也如期而至，但早已不用担心是否有人光顾，现场可谓是座无虚席。

让「GPT-4V」跑在手机上，这家中国大模型公司做到了

真实世界的视觉信息是流动的，而在处理流动性的视觉信息上，端侧视频理解具有天然优势，手机、PC、AR、机器人、智能座驾等端侧设备自带的摄像头，具有天然的多模态输入能力。与云端相比，端侧离用户更近，链路更短，效率更高，同时具有更强的信息安全优势。今日，面壁正式发布了 MiniCPM-V 2.6，在端侧性能实现全面对标 GPT-4V——据介绍，MiniCPM-V 2.6 首次在端侧实现单图、多图、视频理解等多模态核心能力全面超越GPT-4V，三项能力均取得 20B 以下 SOTA 成绩，单图理解越级比肩 Gemini 1.5 Pro 和 GPT-4o mini 。

视频生成赛道再添“猛将”，智谱清影正式上线

年初 Sora 横空出世，验证了 Scalling Law 在视频生成方面的有效性。但 Sora 始终止步于公开的 60 秒 demo，产品落地计划迟迟未有公开。随后的半年时间，不少“玩家”继续在AI视频生成赛道展开角逐，并逐步实现落地。

商汤大模型的「5o」交互，普通人如何和 AI 过一天？

在商汤的演示下，日日新5o拥有像人一样的实时视觉能力，可以跟人进行流畅的视频交互——能听、能说、能看、无延时，它可以通过摄像头语音实现和用户的实时交互，并获知用户所在的真实场景下的各种状态信息，打破了与AI交互的次元壁，实现了与AI的“视频通话”，已经具备真人聊天般的交互体验。两个月前OpenAI推出了GPT-4o，以突破性的智能交互能力，彻底颠覆了我们对AI语音助手的认知，颠覆了过去的人机交互，给业界带来又一次震撼。震撼之外，中国大模型界对GPT-4o的认知似乎并不如GPT-4那么统一，有人认为「在实现AGI的路上，GPT-4o并不重要」、有人评价「在技术突破上，GPT-4o没那么惊艳」；有人认为GPT-4o的发布是 AI 2.0 时代的标志性事件，会催生全新的应用平台和商业模式。

商汤即将发布“日日新5.5”，现场将签约多项重磅合作

商汤科技将发布“日日新5.5”，混合模态能力大幅提升据消息，2024年7月5日，在世界人工智能大会（WAIC 2024）上，商汤科技在“大爱无疆·向新力”人工智能论坛将发布“日日新5.5”版本，全面升级“云、端、边”大模型产品矩阵，同时进行多项重磅合作的签约发布，加速生成式AI向产业落地的全面跃迁。商汤发布日日新5.5版本，混合模态能力大幅提升据悉，基于基础模型的技术领先优势，本次商汤推出的“日日新5.5”大模型体系的多模态能力大幅升级。此前，商汤在今年推出的“日日新5.0”大模型体系，其多模态图文感知能力、文生图能力就已经达到全球领先水平，并在多个多模态大模型权威综合基准测试中综合取得SOTA。

国产端侧小模型超越 GPT-4V，「多模态」能力飞升

在刚刚过去的机器人学术顶会 ICRA 2024 上，「具身智能」成为热议，其中围绕具身智能的一个普遍疑问是：若将 AI 大模型应用到消费级机器人领域，首先是模型适配终端，还是终端适配模型？过去一年，由于 6B、7B 等小模型的成果井喷，以及 MoE 训练技术的越发成熟，将模型跑在手机、学习机、平板电脑、机器人甚至汽车等等终端应用上的想象力开始变大，无论算法层还是硬件层都「蠢蠢欲动」。诚然，这已经成为一个明朗的行业方向，但在系统整合上却要面临不同话语体系之间的博弈。

专访纽约城市大学田英利教授：用多通道、多模态的方法「看懂」手语

与聋哑人交流，是一件成本很高的事情。首先要看得懂手语，其次是会打手语。在全球任何一个国家，手语都被归属为一门“小语种”。