大说话模型是否是全国模型?
大说话模型除了在数字全国完成如写作或翻译等使命,它们能否明白并处置惩罚物理全国中的信息并进而完成更广泛的使命呢?
最近来自香港科技大学(HKUST)、南洋理工大学(NTU)与加利福尼亚大学洛杉矶分校(UCLA)的研讨者们提供了新的思路:他们发现大说话模型如 ChatGPT 可以明白传感器旌旗灯号进而完成物理全国中的使命。该项目初步成果发表于 ACM HotMobile 2024。
论文标题:Penetrative AI: Making LLMs Comprehend the Physical World
论文地址:https://arxiv.org/abs/2310.09605
项目网站:https://dapowan.github.io/wands_penetrative-ai/
在讨论庞大说话模型(LLMs)与物理全国互动的议题时,大家或许更熟悉的是将其运用于图像或音频数据处置惩罚,例如视觉说话模型(VLMs)。但在真实物理全国中,除了这些人类依赖的感知数据外,还存在诸多其他重要的物理量,如温度、气压、加速度、电压及电磁波旌旗灯号强度等等。
因此,该研讨团队从一个更广的视野出发,探索了庞大说话模型明白这些物理量的可能性。他们发现了大说话模型新的能力 —— 处置惩罚物理旌旗灯号进而明白全国,并基于此提出了浸透式人工智能(Penetrative AI)的概念。
研讨者们首先尝试让 ChatGPT 来处置惩罚手机传感器(加速计、卫星和 WiFi)旌旗灯号来感知用户在现实全国的活动与位置语义,流程与部分试验结果如下图所示:
研讨团队在多种真实场景中采集手机传感器旌旗灯号,并让 ChatGPT-4 分析采集的数据(图中绿色部分)。研讨发现 ChatGPT 能够准确地识别用户的行为和所处环境。
在第一项试验中,模型通过分析特定 WiFi 名称(SSID),如「WiFi.HK via EPCC」和「3DG Jewellery」,成功推理用户很有可能在香港某商场。
接下来,研讨团队进一步挑战让 ChatGPT 处置惩罚心电图(ECG)数据来推算心率。每次心跳都会在 ECG 数据上形成明显的波峰,即所谓的 R-peak。
在这一使命中,ChatGPT 的目标是识别出所有的 R-peak 峰值,以此来计算心率。不同于之前的使命,传感器数据在此使命中完全以纯数字序列的形式提供给模型,如下图所示:
初步试验发现,大说话模型如 ChatGPT 无法有效地直接处置惩罚长数字序列旌旗灯号。面对此挑战,研讨者在 Prompt 中为大说话模型设计了一个基于自然说话的「算法」以引导其分析数字旌旗灯号。
与传统算法不同,该「算法」包含许多模糊逻辑(如「overall」和「lower」等词汇),且无需设定任何阈值。
试验结果显示,ChatGPT-4 能有效使用「算法」在绝大多数情况下准确识别出ECG旌旗灯号中所有R-peaks,其精度甚至能超越相同试验设置下的传统旌旗灯号处置惩罚算法。
浸透式人工智能
开启 AI 和物理全国交互新篇章
定义
研讨团队于是提出了一个创新性的概念,浸透式人工智能(Penetrative AI):使用大说话模型内嵌的全国常识来明白和处置惩罚广泛部署的物联网(IoT)传感器或控制器旌旗灯号,来为物理信息系统(Cyber–Physical System,CPS)完成感知与决策使命。
该研讨总结了浸透式人工智概念下感知事物的简易流程。在这一新范式下,大说话模型的输入和输出都对应真实的物理旌旗灯号或状态。例如,让说话模型处置惩罚温度计捕获的温度旌旗灯号,并生成与物理状态相对应的描述性文本 ——「水沸腾了」。随着使命复杂度的增加,向模型中注入专家常识(Expert Knowledge)可以增强其处置惩罚复杂数据的能力。
核心特点
与传统范式相比,浸透式人工智能的独特之处在于使用大说话模型中的通用常识。传统方法依赖于专家对物理全国的观察和规则制定,或通过大数据集训练的机器学习模型。而浸透式智能则基于大说话模型中的通识,通过与额外观察或专家模型的协作,为物理信息系统提供更全面的常识支持。
这种新的智能范式使用大量文本数据衍生的通识,不仅能增强系统的泛化能力,而且也能降低对领域常识的依赖。得益于庞大说话模型的特性,开发者主要通过编辑文本进行操作,这相比传统的编程方式,可降低开发的难度和成本。该范式也可以使用文本这一通用表征,将不同传感器旌旗灯号文本化再整合,呈现新的多模态融合方式。
深度探索
研讨团队从旌旗灯号处置惩罚的角度出发,深入探讨了大说话模型在处置惩罚不同类型旌旗灯号时的能力,分为文本档次浸透和数字档次浸透两大档次,如上图所示:
文本档次浸透(Textualized-level Penetration):大说话模型主要处置惩罚文本形式的旌旗灯号,例如文本化的温度旌旗灯号,或第一个示例运用中大模型分析的 WiFi 名称。
数字档次浸透(Digitized-level Penetration):大说话模型主要处置惩罚数字形式的旌旗灯号,例如温度数字旌旗灯号,或第二个示例运用中大模型分析的 ECG 数字旌旗灯号。
前文两个示例运用均展示了庞大说话模型如 ChatGPT 在两个档次的潜能。相较于文本档次的浸透,大说话模型在数字档次浸透中可以处置惩罚更细致的旌旗灯号信息,但也对其解析旌旗灯号能力提出了更高要求,使命难度也随之增大。
小结
该研讨提出了「浸透式人工智能」(Penetrative AI)的概念,透过两个具体的运用实例,展示了庞大说话模型(LLM)如何使用其丰富的常识库,在不同旌旗灯号层面上明白和处置惩罚物理旌旗灯号,从而实现对现实全国的深度感知和有效干预的潜能。此研讨也说明大说话模型如 ChatGPT-4 可能已经发展出全国模型,对物理全国有深入的明白。
浸透式智能不仅扩展了庞大说话模型的运用领域,而且为 AI 在医疗、环境监测、家庭自动化等多个领域的运用提供了新的智能化解决方案。
如想进一步了解浸透式人工智能的定义、潜力、所面临的挑战和机遇,以及运用实例设计细节,欢迎阅读原论文。
参考文献
[1] Huatao Xu, Liying Han, Qirui Yang, Mo Li, Mani Srivastava. ”Penetrative AI: Making LLMs Comprehend the Physical World”, Proceedings of the 25th International Workshop on Mobile Computing Systems and Applications. 2024.