LLM是世界模型的新证据?ChatGPT能理解WiFi等物理信号,并猜出你的位置

大语言模型是否是世界模型?大语言模型除了在数字世界完成如写作或翻译等任务,它们能否理解并处理物理世界中的信息并进而完成更广泛的任务呢?最近来自香港科技大学(HKUST)、南洋理工大学(NTU)与加利福尼亚大学洛杉矶分校(UCLA)的研究者们提供了新的思路:他们发现大语言模型如 ChatGPT 可以理解传感器信号进而完成物理世界中的任务。该项目初步成果发表于 ACM HotMobile 2024。论文标题:Penetrative AI: Making LLMs Comprehend the Physical Worl

大语言模型是否是世界模型?

大语言模型除了在数字世界完成如写作或翻译等任务,它们能否理解并处理物理世界中的信息并进而完成更广泛的任务呢?

最近来自香港科技大学(HKUST)、南洋理工大学(NTU)与加利福尼亚大学洛杉矶分校(UCLA)的研究者们提供了新的思路:他们发现大语言模型如 ChatGPT 可以理解传感器信号进而完成物理世界中的任务。该项目初步成果发表于 ACM HotMobile 2024。

图片

论文标题:Penetrative AI: Making LLMs Comprehend the Physical World

论文地址:https://arxiv.org/abs/2310.09605

项目网站:https://dapowan.github.io/wands_penetrative-ai/

在讨论大型语言模型(LLMs)与物理世界互动的议题时,大家或许更熟悉的是将其应用于图像或音频数据处理,例如视觉语言模型(VLMs)。但在真实物理世界中,除了这些人类依赖的感知数据外,还存在诸多其他重要的物理量,如温度、气压、加速度、电压及电磁波信号强度等等。

因此,该研究团队从一个更广的视野出发,探索了大型语言模型理解这些物理量的可能性。他们发现了大语言模型新的能力 —— 处理物理信号进而理解世界,并基于此提出了渗透式人工智能(Penetrative AI)的概念。

研究者们首先尝试让 ChatGPT 来处理手机传感器(加速计、卫星和 WiFi)信号来感知用户在现实世界的活动与位置语义,流程与部分实验结果如下图所示:

图片

研究团队在多种真实场景中采集手机传感器信号,并让 ChatGPT-4 分析采集的数据(图中绿色部分)。研究发现 ChatGPT 能够准确地识别用户的行为和所处环境。

在第一项实验中,模型通过分析特定 WiFi 名称(SSID),如「WiFi.HK via EPCC」和「3DG Jewellery」,成功推理用户很有可能在香港某商场。

接下来,研究团队进一步挑战让 ChatGPT 处理心电图(ECG)数据来推算心率。每次心跳都会在 ECG 数据上形成明显的波峰,即所谓的 R-peak。

在这一任务中,ChatGPT 的目标是识别出所有的 R-peak 峰值,以此来计算心率。不同于之前的任务,传感器数据在此任务中完全以纯数字序列的形式提供给模型,如下图所示:

图片

初步实验发现,大语言模型如 ChatGPT 无法有效地直接处理长数字序列信号。面对此挑战,研究者在 Prompt 中为大语言模型设计了一个基于自然语言的「算法」以引导其分析数字信号。

与传统算法不同,该「算法」包含许多模糊逻辑(如「overall」和「lower」等词汇),且无需设定任何阈值。

实验结果显示,ChatGPT-4 能有效利用「算法」在绝大多数情况下准确识别出ECG信号中所有R-peaks,其精度甚至能超越相同实验设置下的传统信号处理算法。

渗透式人工智能

开启 AI 和物理世界交互新篇章

定义

研究团队于是提出了一个创新性的概念,渗透式人工智能(Penetrative AI):利用大语言模型内嵌的世界知识来理解和处理广泛部署的物联网(IoT)传感器或控制器信号,来为物理信息系统(Cyber–Physical System,CPS)完成感知与决策任务。

图片

该研究总结了渗透式人工智概念下感知事物的简易流程。在这一新范式下,大语言模型的输入和输出都对应真实的物理信号或状态。例如,让语言模型处理温度计捕获的温度信号,并生成与物理状态相对应的描述性文本 ——「水沸腾了」。随着任务复杂度的增加,向模型中注入专家知识(Expert Knowledge)可以增强其处理复杂数据的能力。

核心特点

图片

与传统范式相比,渗透式人工智能的独特之处在于利用大语言模型中的通用知识。传统方法依赖于专家对物理世界的观察和规则制定,或通过大数据集训练的机器学习模型。而渗透式智能则基于大语言模型中的通识,通过与额外观察或专家模型的协作,为物理信息系统提供更全面的知识支持。

这种新的智能范式利用大量文本数据衍生的通识,不仅能增强系统的泛化能力,而且也能降低对领域知识的依赖。得益于大型语言模型的特性,开发者主要通过编辑文本进行操作,这相比传统的编程方式,可降低开发的难度和成本。该范式也可以利用文本这一通用表征,将不同传感器信号文本化再整合,呈现新的多模态融合方式。

深度探索

图片

研究团队从信号处理的角度出发,深入探讨了大语言模型在处理不同类型信号时的能力,分为文本层次渗透和数字层次渗透两大层次,如上图所示:

文本层次渗透(Textualized-level Penetration):大语言模型主要处理文本形式的信号,例如文本化的温度信号,或第一个示例应用中大模型分析的 WiFi 名称。

数字层次渗透(Digitized-level Penetration):大语言模型主要处理数字形式的信号,例如温度数字信号,或第二个示例应用中大模型分析的 ECG 数字信号。

前文两个示例应用均展示了大型语言模型如 ChatGPT 在两个层次的潜能。相较于文本层次的渗透,大语言模型在数字层次渗透中可以处理更细致的信号信息,但也对其解析信号能力提出了更高要求,任务难度也随之增大。

小结

该研究提出了「渗透式人工智能」(Penetrative AI)的概念,透过两个具体的应用实例,展示了大型语言模型(LLM)如何利用其丰富的知识库,在不同信号层面上理解和处理物理信号,从而实现对现实世界的深度感知和有效干预的潜能。此研究也说明大语言模型如 ChatGPT-4 可能已经发展出世界模型,对物理世界有深入的理解。

渗透式智能不仅扩展了大型语言模型的应用领域,而且为 AI 在医疗、环境监测、家庭自动化等多个领域的应用提供了新的智能化解决方案。

如想进一步了解渗透式人工智能的定义、潜力、所面临的挑战和机遇,以及应用实例设计细节,欢迎阅读原论文。

参考文献

[1] Huatao Xu, Liying Han, Qirui Yang, Mo Li, Mani Srivastava. ”Penetrative AI: Making LLMs Comprehend the Physical World”, Proceedings of the 25th International Workshop on Mobile Computing Systems and Applications. 2024.

相关资讯

Hinton、LeCun、Bengio三巨头,马维英、陈海波等华人入选,2023 ACM Fellow公布

本届 ACM Fellow 包揽了万维网发明者、深度学习三巨头等重磅名人学者。今天,美国计算机协会 ACM(Association for Computing Machinery)公布了最新一届 Fellow 名单。ACM 创立于 1947 年,是全世界计算机领域影响力最大的专业学术组织之一。ACM Fellow 是由该组织授予资深会员的荣誉,目的为表彰会员中对于计算机相关领域贡献前 1% 的学者,其审查过程十分严格,每年遴选一次,研究员由同行提名,提名由委员会审查。本年度新入选科学家中共有 68 人,他们的贡献涉

神笔马良画出三维世界,基于线稿的3D生成编辑方法SketchDream来了

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]本论文作者是中国科学院计算技术研究所高林老师及其博士生刘锋林,香港城市大学傅红波老师,卡迪夫大学来煜坤老师。该项研究工作受到国家自然科学基金委、北京市自然科学基金委、北京市科学技术委员会的

情感分析的终极形态:全景式细粒度多模态对话情感分析基准PanoSent

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]罗盟,本工作的第一作者。新加坡国立大学(NUS)人工智能专业准博士生,本科毕业于武汉大学。主要研究方向为多模态大语言模型和 Social AI、Human-eccentric AI。情感计