多模态

李飞飞谢赛宁新作「空间推理」：多模态大模型性能突破关键所在
李飞飞谢赛宁再发新成果：直接把o1式思考拉至下一个level——多模态大语言模型的空间思维！这项研究系统评估了多模态大模型的视觉空间智能，结果发现：当前，即使是最先进的多模态大模型，在空间认知方面与人类相比仍有显著差距，测试中约71%的错误都源于空间推理方面的缺陷，即空间推理能力是当前主要瓶颈。图片更为有趣的是，在这种情况下，思维链、思维树等常用的语言提示技术直接失灵了——不仅没有提升模型在空…
理论
- 974
- 0
admin16小时前
为多模态LLM引入ControlNet理念，开源插件解决灾难性遗忘
多模态大模型内嵌语言模型总是出现灾难性遗忘怎么办？像文生图那样有ControlNet即可解决。这就是由360人工智能研究院提出的IAA的核心思路。
理论
- 975
- 0
admin12月17日
中国工商银行软件开发中心多模非标准贸易影像智能识别方案
为提升信贷领域业务办理过程中合同影像信息提取效率，中国工商银行软件开发中心利用业界前沿技术多模态识别技术对图片、视频等文件内容进行智能提取和解读，逐步覆盖传统技术无法解决的影像识别场景，包括不规则表格、目标信息描述模糊、打包影像等，大幅提升了合同处理效率。工商银行软件开发中心先前引入了基于光学字符识别（OCR）与规则或自然语言处理（NLP）模型的自动化识别技术；然而，该技术对合同元素位置、上下文…
理论
- 975
- 0
admin12月13日
【多模态&文档智能】OCR-free感知多模态大模型技术链路及训练数据细节
目前的一些多模态大模型的工作倾向于使用MLLM进行推理任务，然而，纯OCR任务偏向于模型的感知能力，对于文档场景，由于文字密度较高，现有方法往往通过增加图像token的数量来提升性能。这种策略在增加新的语言时，需要重新进行训练，计算开销较大，成本较高。因此，本文再来看看vary和got这两个衔接工作，看看其完整的技术链路。
理论
- 975
- 0
余俊晖12月12日
用LLaVA解读数万神经元，大模型竟然自己打开了多模态智能黑盒
AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。
工程
- 977
- 0
机器之心12月7日
Mistral 发布 Pixtral Large 多模态 AI 模型：登顶复杂数学推理，图表 / 文档推理超过 GPT-4o
Mistral AI 公司昨日（11 月 18 日）发布公告，宣布了全新的多模态 AI 模型 Pixtral Large。该模型拥有 1240 亿参数，基于 Mistral Large 2，主要用于处理文本和图片。
应用
- 977
- 0
故渊11月19日
人工智能的下一个前沿：多模态系统将重塑我们的世界
人工智能的世界正在以惊人的速度发展。多模态人工智能处在这场革命的前沿，这项技术将重新定义我们人类与机器的交互方式。多模态人工智能不仅仅是另一个热词，多模态人工智能是一个正在改变各个行业并有望重塑数字格局的范式转变。
理论
- 969
- 0
至顶网11月14日
实时音视频领域拓荒者的十年
2015 年，声网将WebRTC大会引入中国，筹办了第一届面向国内开发者、业务人员和用户的RTC（实时视音频）大会。在大会开始的前夕，现任声网市场VP、RTC大会主策人彭小欢失眠了，她非常担心明天会不会有人来。一晃十年过去了，当年的RTC大会早已升级为RTE（实时互联网）大会， 10 月 25 日RTE 2024也如期而至，但早已不用担心是否有人光顾，现场可谓是座无虚席。
应用
- 972
- 0
张进10月31日
让「GPT-4V」跑在手机上，这家中国大模型公司做到了
真实世界的视觉信息是流动的，而在处理流动性的视觉信息上，端侧视频理解具有天然优势，手机、PC、AR、机器人、智能座驾等端侧设备自带的摄像头，具有天然的多模态输入能力。与云端相比，端侧离用户更近，链路更短，效率更高，同时具有更强的信息安全优势。今日，面壁正式发布了 MiniCPM-V 2.6，在端侧性能实现全面对标 GPT-4V——据介绍，MiniCPM-V 2.6 首次在端侧实现单图、多图、视…
应用
- 973
- 0
朱可轩8月7日
视频生成赛道再添“猛将”，智谱清影正式上线
年初 Sora 横空出世，验证了 Scalling Law 在视频生成方面的有效性。但 Sora 始终止步于公开的 60 秒 demo，产品落地计划迟迟未有公开。随后的半年时间，不少“玩家”继续在AI视频生成赛道展开角逐，并逐步实现落地。
应用
- 971
- 0
朱可轩7月31日
商汤大模型的「5o」交互，普通人如何和 AI 过一天？
在商汤的演示下，日日新5o拥有像人一样的实时视觉能力，可以跟人进行流畅的视频交互——能听、能说、能看、无延时，它可以通过摄像头语音实现和用户的实时交互，并获知用户所在的真实场景下的各种状态信息，打破了与AI交互的次元壁，实现了与AI的“视频通话”，已经具备真人聊天般的交互体验。两个月前OpenAI推出了GPT-4o，以突破性的智能交互能力，彻底颠覆了我们对AI语音助手的认知，颠覆了过去的人机交…
应用
- 971
- 0
张进7月15日
商汤即将发布“日日新5.5”，现场将签约多项重磅合作
商汤科技将发布“日日新5.5”，混合模态能力大幅提升据消息，2024年7月5日，在世界人工智能大会（WAIC 2024）上，商汤科技在“大爱无疆·向新力”人工智能论坛将发布“日日新5.5”版本，全面升级“云、端、边”大模型产品矩阵，同时进行多项重磅合作的签约发布，加速生成式AI向产业落地的全面跃迁。商汤发布日日新5.5版本，混合模态能力大幅提升据悉，基于基础模型的技术领先优势，本次商汤推出的“日…
应用
- 973
- 0
我在思考中6月26日
国产端侧小模型超越 GPT-4V，「多模态」能力飞升
在刚刚过去的机器人学术顶会 ICRA 2024 上，「具身智能」成为热议，其中围绕具身智能的一个普遍疑问是：若将 AI 大模型应用到消费级机器人领域，首先是模型适配终端，还是终端适配模型？过去一年，由于 6B、7B 等小模型的成果井喷，以及 MoE 训练技术的越发成熟，将模型跑在手机、学习机、平板电脑、机器人甚至汽车等等终端应用上的想象力开始变大，无论算法层还是硬件层都「蠢蠢欲动」。诚然，这已…
应用
- 971
- 0
陈彩娴5月20日
专访纽约城市大学田英利教授：用多通道、多模态的方法「看懂」手语
与聋哑人交流，是一件成本很高的事情。首先要看得懂手语，其次是会打手语。在全球任何一个国家，手语都被归属为一门“小语种”。
应用
- 974
- 0
吴彤3月6日