GPT-4V

让「GPT-4V」跑在手机上，这家中国大模型公司做到了
真实世界的视觉信息是流动的，而在处理流动性的视觉信息上，端侧视频理解具有天然优势，手机、PC、AR、机器人、智能座驾等端侧设备自带的摄像头，具有天然的多模态输入能力。与云端相比，端侧离用户更近，链路更短，效率更高，同时具有更强的信息安全优势。今日，面壁正式发布了 MiniCPM-V 2.6，在端侧性能实现全面对标 GPT-4V——据介绍，MiniCPM-V 2.6 首次在端侧实现单图、多图、视…
应用
- 973
- 0
朱可轩8月7日
国产端侧小模型超越 GPT-4V，「多模态」能力飞升
在刚刚过去的机器人学术顶会 ICRA 2024 上，「具身智能」成为热议，其中围绕具身智能的一个普遍疑问是：若将 AI 大模型应用到消费级机器人领域，首先是模型适配终端，还是终端适配模型？过去一年，由于 6B、7B 等小模型的成果井喷，以及 MoE 训练技术的越发成熟，将模型跑在手机、学习机、平板电脑、机器人甚至汽车等等终端应用上的想象力开始变大，无论算法层还是硬件层都「蠢蠢欲动」。诚然，这已…
应用
- 971
- 0
陈彩娴5月20日
揭秘AI幻觉：GPT-4V存在视觉编码毛病，清华联合NUS提出LLaVA-UHD
GPT-4V 的推出引爆了多模态大模型的研究。GPT-4V 在包括多模态问答、推理、交互在内的多个领域都展现了出色的能力，成为如今最领先的多模态大模型。然而，近期很多工作发现 GPT-4V 在很多基本能力上却意外的出现短板。例如，在微软一篇长达 166 页的技术报告《The Dawn of LMMs:Preliminary Explorations with GPT-4V (ision)》中，作家…
工程
- 6
- 0
机器之心4月7日
用GPT-4V和人类演示训练机器人：眼睛学会了，手也能跟上
微软提出使用人手运动视频直接教机器人完成任意的新方法，这种方法使用 GPT-4V 分解视频中的作为，结合大语言模型生成对应的行为表述并作为任意列表，训练机器人只需要动动手就能完成。如何将语言 / 视觉输入转换为机器人作为？训练自定义模型的方法已经过时，基于最近大语言模型（LLM）和视觉语言模型（VLM）的技术进展，通过 prompt 工程使用 ChatGPT 或 GPT-4 等通用模型才是时下热门…
应用
- 5
- 0
机器之心23年12月4日
GPT-4V医学执照考查成绩超过大部分医学生，AI加入临床还有多远？
人工智能（AI）在医学影像诊疗方面的应用已经有了长足的进步。然而，在未经严格尝试的情况下，大夫往往难以采信人工智能的诊疗结果。对于他们来说，理解人工智能根据医学影像给出的判别，需要增加额外的认知成本。为了增强大夫对辅助调理的人工智能之间的信任，让 AI 通过一个大夫必须通过的资格考查或许是一个有效的方法。医学执照考查是用来评估大夫专业知识和技能的标准化考查，是衡量一个大夫是否有能力安全有效地护理患…
理论
- 7
- 0
机器之心23年11月21日
GPT-4V在主动驾驭上应用前景如何？面向真实场景的全面测评来了
GPT-4V 的发布让许多计算机视觉（CV）应用看到了新的可能。一些研讨人员开始探索 GPT-4V 的实际应用潜力。最近，一篇题为《On the Road with GPT-4V (ision): Early Explorations of Visual-Language Model on Autonomous Driving》的论文针对主动驾驭场景对 GPT-4V 的才智从事了难度递增的尝试，从…
工程
- 7
- 0
机器之心23年11月20日
连葫芦娃都数不明白，解说英雄联盟的GPT-4V面临幻觉挑战
让大模型同时理解图象和文字可能比想象中要难。在被称为「AI 春晚」的 OpenAI 首届开发者大会拉开帷幕后，很多人的朋友圈都被这家公司发布的新产品刷了屏，比如不需要写代码就能定制应用的 GPTs、能解说球赛甚至「英雄联盟」游戏的 GPT-4 视觉 API 等等。不过，在大家纷纷夸赞这些产品有多好用的时候，也有人发明了弱点，指出像 GPT-4V 这样强大的多模态模型其实还生存很大的幻觉，在基本的视…
工程
- 4
- 0
机器之心23年11月13日
通用平常检测新曙光：华科大等揭秘GPT-4V的全方位平常检测表现
平常检测恣意旨在鉴别明显偏离失常数据分布的平常值，在产业检验、医学诊断、视频监控和欺诈检测等多个规模都发挥了重要作用。传统的平常检测方法主要依赖于描述失常数据分布以进行正平常样本的区分。然而，对于实际的运用而言，平常检测也必要了解数据的高层语义，从而深入了解 “什么是平常”。要实现更准确且智能的平常检测，我们必要关注以下关键步骤：1. 了解多样数据类型和类别不同规模的数据集包含各种数据类型和类别，…
工程
- 4
- 0
机器之心23年11月13日
讲授梅西球赛、英雄联盟，OpenAI GPT-4视觉API被开发者玩出新花样
用过 OpenAI 视觉 API 的开发者都被惊艳到了。文章开始，我们先来看一段球赛讲授视频：是不是感觉听起来不太对劲？你的感觉没错，因为这段讲授是用 AI 生成的，这个大喊「梅西！梅西！」的声音居然来自 AI。这是 X 平台（原推特）博主 @Gonzalo Espinoza Graham 发布的一段视频。他表示，在制造过程中，他主要用到了 GPT-4V 和 TTS 两项技术。GPT-4V 是 O…
应用
- 6
- 0
机器之心23年11月8日
178页，128个案例，GPT-4V调理领域全面测评，离临床应用与实际决策尚有距离
上海交大&上海AI Lab发布178页GPT-4V调理案例测评，首次全面揭秘GPT-4V调理领域视觉性能。在大型基础模型的推动下，人工智能的发展近来取得了巨大进步，尤其是 OpenAI 的 GPT-4，其在问答、知识方面展现出的强大才能点亮了 AI 领域的尤里卡时刻，引起了公众的普遍关注。GPT-4V (ision) 是 OpenAI 最新的多模态基础模型。相较于 GPT-4，它增加了图象…
工程
- 4
- 0
机器之心23年11月6日
在视觉提示中加入「标志」，微软等让GPT-4V看的更准、分的更细
全新视觉提示方法 SoM（Set-of-Mark），让 OpenAI 多模态大模型 GPT-4V 在视觉内容理解方面有了质的提升。最近一段时间，我们见证了大型语言模型（LLM）的显著进步。特别是，生成式预训练 Transformer 或 GPT 的发布引领了业界和学术界的多项突破。自 GPT-4 发布以来，大型多模态模型 (LMM) 引起了研究界越来越多的兴趣，许多工作致力于构建多模态 GPT-4…
工程
- 7
- 0
机器之心23年10月23日