AI在线 AI在线

模态

颜水成挂帅,昆仑万维2050全球研究院联合NUS、NTU发布Vitron,奠定通用视觉多模态大模型终极形态

近日,由颜水成教授带队,昆仑万维2050全球研究院、新加坡国立大学、新加坡南洋理工大学团队联合发布并开源了Vitron通用像素级视觉多模态大语言模型。这是一款重磅的通用视觉多模态大模型,支持从视觉理解到视觉生成、从低层次到高层次的一系列视觉任务,解决了困扰大语言模型产业已久的图像/视频模型割裂问题,提供了一个全面统一静态图像与动态视频内容的理解、生成、分割、编辑等任务的像素级通用视觉多模态大模型,为下一代通用视觉大模型的终极形态奠定了基础,也标志着大模型迈向通用人工智能(AGI)的又一大步。Vitron作为一个统一
4/26/2024 2:49:00 PM
新闻助手

基于Transformer的高效单阶段短时RGB-T单目标跟踪方法

引言如图 1所示,现有的三阶段 RGB-T 单目标跟踪网络通常采用两个独立的特征提取分支,分别负责提取两个模态的特征。然而,相互独立的特征提取分支会导致两个模态在特征提取阶段缺乏有效的信息交互。因此,一旦网络完成离线训练,其仅能从每个模态图像中提取固定的特征,无法根据实际的模态状态动态调整,以提取更具针对性的动态特征。这一局限性制约了网络对多样的目标双模态外观,以及模态外观间动态对应关系的适应能力。如图 2所示,这种特征提取方式并不适合 RGB-T 单目标跟踪的实际应用场景,特别是在复杂环境下,因为被跟踪目标的任意
4/22/2024 3:53:00 PM
特邀精选

开启智能座舱AI时代,蔚来NOMI GPT端云多模态大模型正式上线

4月12日,蔚来宣布NOMI GPT正式开启推送。此次推送的更新是基于全新技术架构,为NOMI量身打造NOMI GPT端云多模态大模型。NOMI GPT包含自研多模态感知、自研认知中枢、情感引擎、多专家Agent,实现蔚来产品、服务、社区的全域贯通,提供更高效、愉悦的AI服务。升级NOMI GPT功能后,用户可以体验到大模型百科、无限趣聊、魔法氛围、趣玩表情、用车问答、AI场景生成在内的多项全新交互体验,享受智能AI赋能下的全新出行。此次NOMI GPT上线将同步陆续推送给搭载Banyan·榕智能系统的车型。自发布
4/12/2024 4:07:00 PM
新闻助手

中山大学团队“梗王”大模型,靠讲笑话登上 CVPR

谁能想到,只是让大模型讲笑话,论文竟入选了顶会 CVPR(国际计算机视觉与模式识别会议)!没开玩笑,这还真真儿的是一项正儿八经的研究。例如看下面这张图,如果让你根据它来讲个笑话或梗,你会想到什么?现在的大模型看完后会说:脑子短路。再看一眼 蜘蛛侠 的海报,大模型会配一句“刚擦的玻璃不能弄脏”。李云龙 、 奥本海默 也被玩得飞起:导师读了我的论文之后……真男人不回头看爆炸。还有酱紫的:不得不说,大模型这脑洞还是挺大的。这项研究正是来自中山大学 HCP 实验室林倞教授团队、Sea AI Lab 和哈佛大学等单位,主打的
4/11/2024 5:56:51 PM
清源

「清华系」视频生成公司生数科技宣布完成新一轮数亿元融资

近日,北京生数科技有限公司(以下简称“生数科技”)宣布完成新一轮数亿元融资,由启明创投领投,达泰资本、鸿福厚德、智谱AI、老股东BV百度风投和卓源亚洲继续跟投。本轮融资将主要用于多模态基础大模型的迭代研发、应用产品创新及市场拓展。本轮由华兴资本担任独家财务顾问。生数科技成立于2023年3月,是全球领先的多模态大模型公司,致力于图像、3D、视频等原生多模态大模型的研发。生数科技核心团队来自清华大学人工智能研究院,此外还包括来自北京大学和阿里巴巴、腾讯、字节跳动等科技公司的多位技术人才。此前公司已完成近亿元融资,过往股
3/12/2024 4:57:00 PM
机器之心

可多模态数据集成、插补和跨模态生成,中科院&树兰医院&北师大团队开发带有掩码模块的深度生成框架

编辑 | 红菜苔随着单细胞技术的发展,许多细胞特性可以被测量。此外,多组学分析技术可以同时联合测量单个细胞中的两个或多个特征。为了快速处理积累的各种数据,需要多模态数据集成的计算方法。树兰医院、中国科学院和北京师范大学的合作团队提出了 inClust ,一个用于多组学分析的深度生成框架。它建立在之前针对转录组数据所开发的 inClust 的基础上,并增加了两个专为多模式数据处理设计的掩码模块:编码器前面的输入掩码模块和解码器后面的输出掩码模块。InClust 可用于整合来自相似细胞群的 scRNA-seq 和 M
2/5/2024 6:14:00 PM
ScienceAI

谷歌发布Gemini,负责人:原生多模态大模型是AI「新品种」

机器之能报道编辑:吴昕又是一个不眠之夜,神仙扎堆献技。当地时间 12 月 6 日,谷歌 CEO Sundar Pichai 官宣 Gemini 1.0 版正式上线。在此之前,这款被谷歌寄予厚望对抗 OpenAI 的武器,发布时间一直被拖延。未曾料到,来得如此猝不及防。研发负责人、谷歌 DeepMind CEO Demis Hassabis 代表 Gemini 团队在发布会上正式推出大模型 Gemini,它拥有「视觉」和「听觉」,还有学习和推理能力。作为谷歌迄今为止最强大、最全面的模型,在大多数基准测试中, Gemi
12/7/2023 3:05:00 PM
机器之能

开源多模态医疗基础模型RadFM,首次支持2D/3D放射影像输入

上海交大&上海AI Lab发布开源多模态医疗大模型RadFM
11/20/2023 5:15:00 PM
FM4Medicine

IDC发布中国计算机视觉解决方案厂商评估,联汇科技作为主要厂商上榜

近日,国际数据公司IDC公布了《IDC MarketScape:中国计算机视觉解决方案厂商评估,2023》报告显示,2022 年,中国AI赋能的计算机视觉解决方案市场规模达123.0亿元人民币。联汇科技凭借出色的能力措施(Capabilities),包括技术产品、服务项目与客户需求满足等能力,以及关键战略(Strategies)中的优势,成为中国计算机视觉行业领先的主要厂商(Major Players)。逆势新生 多模态大模型带来更多可能报告指出,2022 年计算机视觉解决方案市场主要由疫情防控相关的公共场所的安全
10/27/2023 5:08:00 PM
新闻助手

178页!GPT-4V(ision)医疗领域首个全面案例测评:离临床应用与实际决策尚有距离

上海交大&上海AI Lab发布178页GPT-4V医疗案例测评,首次全面揭秘GPT-4V医疗领域视觉性能。
10/18/2023 9:39:00 AM
FM4Medicine

锦秋基金独家投资,生数科技完成数千万元天使+轮融资

近日,北京生数科技有限公司(简称“生数科技”)完成了数千万元天使 轮融资,本轮融资由锦秋基金独家投资。此轮资金将主要用于算法研发、产品开发和团队扩充。值得一提的是,今年六月生数科技刚获得蚂蚁集团、BV百度风投、卓源资本的近亿元天使轮融资,不到两个月的时间内已经连续获得两轮投资。生数科技是全球领先的生成式人工智能基础设施及应用提供商,致力于打造可控多模态通用大模型,团队于今年3月发布9.5亿参数开源版本多模态大模型 UniDiffuser,基于一个Transformer网络架构实现图文模态之间的任意跨模态生成。在此基
8/10/2023 9:59:00 AM
机器之心

所见,所问,所答:上海交大&上海AI Lab发布最新医疗多模态问答框架PMC-VQA

PMC系列持续更新,大规模医学视觉问答数据集PMC-VQA强势来袭!
7/17/2023 11:25:00 AM
FM4Medicine

字节团队提出猞猁Lynx模型:多模态LLMs理解认知生成类榜单SoTA

文章首次提出包括图像和视频任务的开放式视觉问答评估集 Open-VQA
7/15/2023 12:46:00 PM
机器之心

专访生数科技唐家渝:清华系团队拿到近亿融资,用Transformer来做多模态大模型

随着GPT4的出现,多模态大模型的发展方向逐渐成为共识。近日,一支由清华人工智能研究院副院长朱军教授带领的新团队悄悄完成了近亿级天使轮融资。
6/20/2023 2:29:00 PM
机器之心

率先开放语音、视频等多模态对话能力,这家中国公司又比OpenAI走快了一步

2023 年的 AI 领域,难以回避「大模型」这个关键词。
5/31/2023 2:30:00 PM
机器之心

AIGC时代已来,跨模态内容生成技术发展得怎么样了

最近一年里,AIGC 是人工智能领域里最火的词汇之一。
1/21/2023 10:39:00 AM
机器之心

ICASSP 2022 | 用于多模态情感识别的KS-Transformer

多模态情感识别是人机交互中的重要技术,也是人工智能走向类人智能时所需要攻克的关键难题。
12/20/2022 3:34:00 PM
优必选科技