GPT-4V在主动驾驭上应用前景如何?面向真实场景的全面测评来了

GPT-4V 的发布让许多计算机视觉(CV)应用看到了新的可能。一些研讨人员开始探索 GPT-4V 的实际应用潜力。最近,一篇题为《On the Road with GPT-4V (ision): Early Explorations of Visual-Language Model on Autonomous Driving》的论文针对主动驾驭场景对 GPT-4V 的才智从事了难度递增的尝试,从情景了解到推理,再到作为真实场景驾驭员的连续判断和计划。论文地址:,论文对 GPT-4V 在主动驾驭领域的探索主要集中在

GPT-4V 的发布让许多计算机视觉(CV)应用看到了新的可能。一些研讨人员开始探索 GPT-4V 的实际应用潜力。

最近,一篇题为《On the Road with GPT-4V (ision): Early Explorations of Visual-Language Model on Autonomous Driving》的论文针对主动驾驭场景对 GPT-4V 的才智从事了难度递增的尝试,从情景了解到推理,再到作为真实场景驾驭员的连续判断和计划。

GPT-4V在主动驾驭上应用前景如何?面向真实场景的全面测评来了

论文地址:https://arxiv.org/pdf/2311.05332.pdf

具体来说,论文对 GPT-4V 在主动驾驭领域的探索主要集中在以下几个方面:

1、情景了解:该尝试旨在评价 GPT-4V 的基本鉴别才智,包括鉴别驾驭时的天气和光照条件,鉴别不同国家的交通信号灯和标志,以及评价不同类型摄像头拍摄的照片中其他交通参与者的位置和行动。此外,出于好奇,他们还探索了不同视角的模拟图象和点云图象。

2、推理:在这一阶段,研讨者深入评价了 GPT-4V 在主动驾驭情况下的因果推理才智。这项评价包括几个关键方面:首先,他们仔细研讨了它在处理复杂 corner case(边缘情况,即发生概率较低的可能场景)时的表现,这些情况通常是对数据驱动感知系统的挑战。其次,他们评价了它在提供全景视图(surround view)方面的才智,这是主动驾驭应用中的一项重要功能。鉴于 GPT-4V 无法直接处理视频数据,他们利用串联的时间序列图象作为输出来评价其时间相关性才智。此外,他们还从事了尝试,以验证其将现实世界场景与导航图象关联起来的才智,从而进一步检验其对主动驾驭场景的整体了解才智。

3、驾驭:为了充分发挥 GPT-4V 的潜力,研讨者让它扮演一名经验丰富的驾驭员,让它在真实的驾驭情况中根据情况做出计划。他们的方法是以一致的帧率对驾驭视频从事采样,然后逐帧输出 GPT-4V。为了帮助它做出计划,他们提供了基本的车速和其他相关信息,并告知了每段视频的驾驭目标。他们要求 GPT-4V 采取必要行动,并对其选择做出说明,从而挑战其在实际驾驭场景中的才智极限。

尝试采用了经过精心挑选的代表不同驾驭场景的图片和视频。尝试样本来自不同渠道,包括 nuScenes、Waymo Open 数据集、Berkeley Deep Drive-X (eXplanation) Dataset (BDD-X)、D2 -city、Car Crash Dataset (CCD)、TSDD、CODA、ADD 等开源数据集,以及 DAIR-V2X 和 CitySim 等 V2X 数据集。此外,还有一些样本来自 CARLA 模拟情况,其他样本则来自互联网。值得注意的是,尝试中使用的图象数据可能包括时间戳截至 2023 年 4 月的图象,有可能与 GPT-4V 模型的训练数据重叠,而本文中使用的文本查询完全是重新生成的。

实验结果表明,GPT-4V 在情景了解、意图鉴别和驾驭计划等方面展现出超越现有主动驾驭系统的潜力。

在 corner case 中,GPT-4V 可利用其先进的了解才智来处理分布外(OOD)的情况,并能精确评价周围交通参与者的意图。GPT-4V 利用多视角图象和时间照片实现对情况的完整感知,精确鉴别交通参与者之间的动态互动。此外,它还能推断出这些行为背后的潜在动机。他们还见证了 GPT-4V 在开放道路上做出连续计划的性能。它甚至能以类似人类的方式说明导航应用程序的用户界面,协助、指导驾驭员从事计划。总之,GPT-4V 的表现证明了视觉语言模型在应对主动驾驭领域复杂挑战方面的巨大潜力。

需要注意的是,研讨者详述的所有实验都是在 2023 年 11 月 5 日之前,利用网络托管的 GPT-4V (ision)(9 月 25 日的版本)从事的。最新版本的 GPT-4V 在 11 月 6 日 OpenAI DevDay 之后从事了更新,在呈现相同图象时可能会产生与本研讨尝试结果不同的反应。

情景了解才智

要实现安全有效的主动驾驭,一个基本前提是清楚透彻地了解当前场景。该研讨主要关注两个方面:模型对周围情况的了解、模型对各种交通参与者的行为和状态的了解,旨在通过评价阐明 GPT-4V 说明动态交通情况的才智。

了解情况

为了评价 GPT-4V 了解其周围情况的才智,该研讨从事了一系列尝试,涵盖以下关键方面:判断一天中的时间、了解当前天气状况、鉴别和说明交通灯及标志。

以下图 2 所示,GPT-4V 可以鉴别出前视图象是一天中什么时间的场景,例如「傍晚」:

GPT-4V在主动驾驭上应用前景如何?面向真实场景的全面测评来了

天气是一个显著影响驾驭行为的关键情况因素。该研讨从 nuScenes 数据集中选择了在不同天气条件下,在同一路口拍摄的四张照片,要求 GPT-4V 鉴别这些图象中的天气状况,结果以下图 3 所示:

GPT-4V在主动驾驭上应用前景如何?面向真实场景的全面测评来了

在鉴别和说明交通灯及标志方面,GPT-4V 的表现明显存在不足。以下图 4 所示,GPT-4V 在夜间条件下成功鉴别出黄色路灯和红色交通灯。然而,在图 5 中,当图象中的交通灯在远处时(图象显示较小),GPT-4V 就毛病地将绿灯的倒计时鉴别为红灯的倒计时。

GPT-4V在主动驾驭上应用前景如何?面向真实场景的全面测评来了

GPT-4V在主动驾驭上应用前景如何?面向真实场景的全面测评来了

交通标志包含驾驭员需要遵守的各种规则和说明。主动驾驭系统需要鉴别交通标志、了解并遵守这些规则,从而降低交通事故的风险,提高驾驭安全性。

从下图 6 可以看出,GPT-4V 可以鉴别大多数路标,包括附近的「SLOW」和远处的限高「4.5m」,但毛病地鉴别了「Speed Bump」标志。GPT-4V 具有一定的交通标志鉴别才智,但仍有进一步增强的空间。

GPT-4V在主动驾驭上应用前景如何?面向真实场景的全面测评来了

了解交通参与者

以下图 7(左)所示,模型能够完整、精确地描述驾驭场景:鉴别行人、交通标志、交通灯状态和周围情况。图 7 (右)显示模型可以鉴别车辆类型及其尾灯,并可以猜测其打开尾灯的意图。然而,GPT-4V 也输出了一些不正确的描述,例如认为前面的车有后视摄像头。

GPT-4V在主动驾驭上应用前景如何?面向真实场景的全面测评来了

GPT-4V在主动驾驭上应用前景如何?面向真实场景的全面测评来了

该研讨评价了 GPT-4V 使用各种传感器输出了解交通参与者行为的才智,包括 2D 图象(图 9)、3D 点云的可视化(图 10 )、从 V2X 设备(图 11)和主动驾驭模拟软件(图 12)获取的图象。

GPT-4V在主动驾驭上应用前景如何?面向真实场景的全面测评来了

GPT-4V在主动驾驭上应用前景如何?面向真实场景的全面测评来了

GPT-4V在主动驾驭上应用前景如何?面向真实场景的全面测评来了

GPT-4V在主动驾驭上应用前景如何?面向真实场景的全面测评来了

高级推理才智

推理是正确驾驭行为的另一个重要因素。鉴于交通情况的动态性和不可预测性,驾驭员经常会遇到一系列意外事件。面对这种不可预见的情况,熟练的驾驭员必须凭借经验和常识做出精确的判断和计划。该研讨从事了一系列的尝试来评价 GPT-4V 对意外事件的响应。

Corner Case

如图 13(左)所示,GPT-4V 可以清晰地描绘出不常见车辆的外观、地面上的交通锥以及车辆旁边的工作人员。鉴别这些条件后,GPT-4V 会意识到自我车辆应稍微向左移动,与右侧工作区域保持安全距离,并小心驾驭。

GPT-4V在主动驾驭上应用前景如何?面向真实场景的全面测评来了

多视图图象

通过利用多视角摄像头,GPT-4V 可以捕捉驾驭情况的全面视图,该研讨评价了 GPT-4V 处理多视图图象的才智。

以下图 16 所示,该研讨选择使用一组周围情况图象并以正确的顺序将它们输出到模型中。结果表明,GPT-4V 能够熟练地鉴别场景中的各种元素,例如建筑物、车辆、障碍物和停车场,甚至可以从重叠的信息中推断出场景中有两辆汽车,其中一辆白色 SUV,一辆卡车。然而,GPT-4V 会毛病地鉴别出人行横道。

GPT-4V在主动驾驭上应用前景如何?面向真实场景的全面测评来了

以下图 17 所示,在另一个实验中,GPT-4V 提供了对场景基本精确的描述,但也出现了一些鉴别毛病,特别是在车辆的数量和形状方面。值得注意的是,GPT-4V 会产生一些令人困惑的错觉,例如认为图片上有左转标志。研讨团队推测这些问题可能是由于 GPT-4V 的空间推理才智有限。

GPT-4V在主动驾驭上应用前景如何?面向真实场景的全面测评来了

此外,该研讨还尝试给出正确的前视图,让 GPT-4V 鉴别并给乱序的周围图象从事排序。尽管模型从事了大量看似有意义的分析和推理,但最终仍然输出毛病答案。显然,GPT-4V 在建立相邻图象之间的连接方面遇到了挑战。

GPT-4V在主动驾驭上应用前景如何?面向真实场景的全面测评来了

时间序列

为了评价 GPT-4V 了解时间序列图象的才智,该研讨从视频片段中提取四个关键帧,用序列号标记它们,并将它们组合成单个图象以供输出,要求 GPT-4V 描述该时间段内发生的事件、自我车辆采取的行动及原因。尝试结果以下图 19、20、21、22 所示:

GPT-4V在主动驾驭上应用前景如何?面向真实场景的全面测评来了

GPT-4V在主动驾驭上应用前景如何?面向真实场景的全面测评来了

GPT-4V在主动驾驭上应用前景如何?面向真实场景的全面测评来了

GPT-4V在主动驾驭上应用前景如何?面向真实场景的全面测评来了

此外,在实际驾驭场景中,驾驭员经常利用外部设备的辅助信息来增强计划才智,例如地图导航 app。该研讨为 GPT-4V 配备了前视摄像头图象以及来自地图软件的相应导航信息。

下图 23、24 表明,GPT-4V 可以利用前视摄像头和地图导航 app 信息精确定位其位置,并给出相应的驾驭建议,但在一些情况下给出的建议是毛病的。

GPT-4V在主动驾驭上应用前景如何?面向真实场景的全面测评来了

GPT-4V在主动驾驭上应用前景如何?面向真实场景的全面测评来了

驾驭才智

主动驾驭算法的最终目标是复制人类驾驭员的计划才智。实现这一目标需要精确鉴别、空间感知以及对各种交通要素之间时空关系的深入了解。该研讨通过在几个不同的现实驾驭场景中尝试 GPT-4V 的计划才智来评价 GPT-4V 在主动驾驭方面的潜力。

例如,为了尝试 GPT-4V 在封闭区域内的驾驭计划才智,该研讨选择的场景是「右转离开停车场」,并需要通过安检,尝试结果以下图 25 所示。

GPT-4V在主动驾驭上应用前景如何?面向真实场景的全面测评来了

该研讨还选择「交通繁忙的十字路口」场景从事了尝试,结果以下图 26 所示:

GPT-4V在主动驾驭上应用前景如何?面向真实场景的全面测评来了

局限性总结

在尝试中,研讨人员发现 GPT-4V 在以下任务中表现不佳:

1、区分左右:如图 17 所示,在一些情况下,模型在鉴别方向方面遇到困难,而这正是自主导航的一个关键方面。图 8 和图 21 也显示了类似的问题。这些图突出显示了模型在说明复杂路口或做出变道计划时偶尔出现的混乱。

2、信号灯鉴别:在图 12、15、22、26 和 29 中发现了该问题。研讨者怀疑出现这一问题的原因是全图中包含大量语义信息,导致交通信号灯的嵌入信息丢失。当图象中的交通灯区域被裁剪并单独输出时,模型能够成功鉴别,如图 5 所示。

3、视觉定位任务:如图 7 所示,GPT-4V 很难指定像素级坐标或边界框,只能指示图象中的大致区域。

4、空间推理:精确的空间推理对于主动驾驭汽车的安全运行至关重要。无论是如图 18 所示的多视角图象拼接,还是如图 21 所示的滑板车与主动驾驭汽车之间相对位置关系的估算,GPT-4V 都难以做出精确的判断。这可能源于根据二维图象输出了解和说明三维空间的内在复杂性。

感兴趣的读者可以阅读论文原文,了解更多研讨内容。

给TA打赏
共{{data.count}}人
人已打赏
工程

googleBard「破防」,用自然语言破解,提醒注入引起数据泄漏风险

2023-11-20 15:33:00

工程

奖学金18万/年,香港科技大学(广州)数据迷信与分解方向招收全奖博士生

2023-11-21 11:10:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索