多模态大模型

决策过程是魔法还是科学？首个多模态大模型的可解释性综述全面深度剖析
AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。
理论
- 975
- 0
机器之心12月15日
首个Mamba+Transformer混合架构多模态大模型来了，实现单卡千图推理
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]
理论
- 5
- 0
机器之心9月21日
最晚明年上半年落地L3：理想端到端自动驾驶，性能大幅提升
最近一段时间，生成式 AI 技术兴起，众多造车新势力都在探索视觉语言模型与世界模型的新方法，端到端的智能驾驶新技术似乎成为了共同的研究方向。上个月，理想汽车发布了端到端 VLM 视觉语言模型世界模型的第三代自动驾驶技术架构。此架构已推送千人内测，将智能驾驶行为拟人化，提高了 AI 的信息处理效率，增强了对复杂路况的理解和应对能力。李想曾在公开的分享中表示，面对大部分算法难以识别和处理的罕见驾驶环…
应用
- 13
- 0
李泽南8月6日
清华领衔发布多模态评估MultiTrust：GPT-4可信度有几何？
AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]本工作由清华大学朱军教授领衔的基础理论创新团队发起。长期以来，团队着…
工程
- 15
- 0
机器之心7月24日
华为云董理斌：做难事解难题，盘古大模型以“智”重塑千行万业
7 月 5 日，2024 世界人工智能大会暨人工智能全球治理高级别会议 —“盘古大模型重塑千行万业” 分论坛于上海世博中心举办。在 “盘古大模型做难事解难题，以‘智’重塑千行万业” 主题演讲中，华为云 Marketing 部部长董理斌向出席会议的百余名人工智能范围顶尖专家、业界领军人物分享了盘古大模型 5.0 的全新才能，以及盘古大模型深入高铁、钢铁、工业设计、建筑设计、气象等范围，重塑千行万业的…
应用
- 17
- 0
新闻助手7月5日
国内首个！商汤科技发布“日日新5o”，及时多模态流式交互对标GPT-4o
2024 年 7 月 5 日，上海 ——2024 世界人工智能大会暨人工智能全球治理高级别会议（WAIC 2024）战略合作伙伴商汤科技召开 “大爱无疆・向新力” 人工智能论坛，发布国内首个所见即所得模型 “日日新 5o”，交互感受对标 GPT-4o，完成崭新 AI 交互形式。通过整合跨模态信息，基于声音、文本、图像和视频等多种形式，国内首个所见即所得模型 “日日新 5o” 带来一种崭新的 AI …
应用
- 43
- 0
新闻助手7月5日
联汇科技赵天成：从 CMU 天才少年，到多模态创业先行者
CMU LTI （卡内基梅隆大学语言技术研究所）每年在全球范围内只有十个左右的博士录取名额，其中的华人学者凤毛麟角。本次以 OpenAI 发布 ChatGPT 为标志掀起的人工智能浪潮，CMU 也在各大主流 AI 公司中扮演了技术核心。这群 CMU 中的华人学者，在中西争夺人工智能高地的竞争中，归国人才显得尤其弥足珍贵。
应用
- 971
- 0
王悦5月29日
元象首个多模态大模型 XVERSE-V 开源，刷新权威大模型榜单，支持任意宽高比输入
人类获取的信息83%来自视觉，图文多模态大模型能感知更丰富和精确的真实世界信息，构建更全面的认知智能，从而向AGI（通用人工智能）迈出更大步伐。元象今日发布多模态大模型 XVERSE-V ，支持任意宽高比图像输入，在主流评测中效果领先。该模型全开源，无条件免费商用，持续推动海量中小企业、研究者和开发者的研发和应用创新。
应用
- 971
- 0
我在思考中4月28日
苹果发布多模态模型 Ferret-UI，部分手机 UI 任务超越 GPT-4V
编译 | 赖文昕编辑 | 陈彩娴大模型的诞生，让科技巨头与创业公司们在新一轮的竞赛中再次鸣枪出发，OpenAI、Anthropic、Mistral等创业之星的升起更是证明了在新技术的影响下，大厂并不存在绝对的优势。不久前，苹果叫停了启动十多年且投入数十亿美元的自动驾驶电动汽车项目，美国总部裁员了600多人，另有近2000名员工转到AI部门。然而，在目前市场上的主流智能手机品牌中，苹果几乎是唯一…
应用
- 971
- 0
赖文昕4月10日
亚马逊云科技展示Claude 3大模型才能，生成式AI落地正在加速
上周日，亚马逊云科技宣布 Mistral AI 的 Mistral Large 模型在Amazon Bedrock上正式可用。随着知名 AI 初创公司 Mistral AI、Anthropic 的前沿的大语言模型（LLM）陆续登陆 Amazon Bedrock，人们在构建生成式 AI 应用程序时，已经有了一系列先进模型的选择。
应用
- 5
- 0
李泽南4月8日
个性经济时代，MiniMax 语音大模型如何 To C？
大约一个月前，距离 GPT Store 上线还有两周，一位名为 Kyle Tryon 的国外开发者在个人博客上分享了其基于 ChatGPT Plus 开发的三个 Agent（又称“GPTs”），其中一个 Agent 是关于美国费城旅游出行的个人指南“PhillyGPT”，它能访问当地 SEPTA 公共交通 API，为个人提供费城当地的实时天气、旅游资讯、文艺演出活动、出行路线、公交车站与地标数据、…
应用
- 974
- 0
王悦2月2日
阿里mPLUG-Owl新升级，鱼与熊掌兼得，模态协同实现MLLM新SOTA
OpenAI GPT-4V 和 Google Gemini 都展现了非常强的多模态理解才能，推动了多模态大模型（MLLM）快速发展，MLLM 成为了现在业界最热的研究方向。MLLM 在多种视觉-说话开放恣意中夺得了出色的指令跟随才能。尽管以往多模态学习的研究表明不同模态之间能够相互协同和促进，但是现有的 MLLM 的研究主要关注提升多模态恣意的才能，如何平衡模态协调的收益与模态干扰的影响仍然是一个…
应用
- 47
- 0
李亚洲23年12月25日
最懂产业的大模型来了！思谋发布全世界首个产业多模态大模型
大模型手艺正在引领新一轮产业革命，但将其应用于产业制作，仍面临许多挑战，专业知识的缺乏是关键难点。11月5日，香港中文大学终身教授、思谋科技创始人兼董事长贾佳亚受邀参加第六届中国国际进口博览会暨虹桥国际经济论坛开幕式。虹桥论坛上，贾佳亚在主题演讲中表示，“目前，业界还没有一个能真正办事于高端智能制作的大模型。” 贾佳亚在虹桥国际经济论坛上发表主题演讲亟待人工智能手艺提高、释放出产力的产业制作界盼大…
应用
- 4
- 0
新闻助手23年11月7日