NeurIPS23|视觉 「读脑术」:从大脑流动中重修你眼中的世界

在这篇 NeurIPS23 论文中,来自鲁汶大学、新加坡国立大学和中科院自动化所的研究者提出了一种视觉 「读脑术」,能够从人类的大脑流动中以高分辨率剖析出人眼观看到的图象。人类的感知不仅由客观刺激塑造,而且深受过往经验的影响,这些共同促成了大脑中的复杂流动。在认知神经科学领域,解码大脑流动中的视觉信息成为了一项关键任务。功能性磁共振成像(fMRI)作为一种高效的非侵入性技术,在恢复和分析视觉信息,如图象类别方面发挥着重要作用。然而,由于 fMRI 信号的噪声特性和大脑视觉表征的复杂性,这一任务面临着不小的挑战。针对

在这篇 NeurIPS23 论文中,来自鲁汶大学、新加坡国立大学和中科院自动化所的研究者提出了一种视觉 「读脑术」,能够从人类的大脑流动中以高分辨率剖析出人眼观看到的图象。

人类的感知不仅由客观刺激塑造,而且深受过往经验的影响,这些共同促成了大脑中的复杂流动。在认知神经科学领域,解码大脑流动中的视觉信息成为了一项关键任务。功能性磁共振成像(fMRI)作为一种高效的非侵入性技术,在恢复和分析视觉信息,如图象类别方面发挥着重要作用。

然而,由于 fMRI 信号的噪声特性和大脑视觉表征的复杂性,这一任务面临着不小的挑战。针对这一问题,本文提出了一个双阶段 fMRI 表征进修框架,旨在识别并去除大脑流动中的噪声,并专注于剖析对视觉重修至关重要的神经激活模式,成功从大脑流动中重修出高分辨率且语义上准确的图象。

NeurIPS23|视觉 「读脑术」:从大脑流动中重修你眼中的世界

论文链接:https://arxiv.org/abs/2305.17214

项目链接:https://github.com/soinx0629/vis_dec_neurips/

论文中提出的方法基于双重对照进修、跨模态信息交织及集中模型,在相关 fMRI 数据集上取得了相对于以往最好模型接近 40% 的评测指标提升,在生成图象的质量、可读性及语义相关性相对于已有方法均有肉眼可感知的提升。该工作有助于理解人脑的视觉感知机制,有益于推动视觉的脑机接口技术的研究。相关代码均已开源。

功能性磁共振成像(fMRI)虽广泛用于剖析神经反应,但从其数据中准确重修视觉图象仍具挑战,主要因为 fMRI 数据包含多种来源的噪声,这些噪声可能掩盖神经激活模式,增加解码难度。此外,视觉刺激引发的神经反应进程复杂多阶段,使得 fMRI 信号呈现非线性的复杂叠加,难以逆转并解码。

传统的神经解码方式,例如岭回归,尽管被用于将 fMRI 信号与相应刺激关联,却常常无法有效捕捉刺激和神经反应之间的非线性关系。近期,深度进修技术,如生成对抗网络(GAN)和潜伏集中模型(LDMs),已被采用以更准确地建模这种复杂关系。然而,将视觉相关的大脑流动从噪声中分离出来,并准确进行解码,依然是该领域的主要挑战之一。

为了应对这些挑战,该工作提出了一个双阶段 fMRI 表征进修框架,该方法能够有效识别并去除大脑流动中的噪声,并专注于剖析对视觉重修至关重要的神经激活模式。该方法在生成高分辨率及语义准确的图象方面,其 50 分类的 Top-1 准确率超过现有最先进技术 39.34%。

方法概述

fMRI 表征进修 (FRL)

NeurIPS23|视觉 「读脑术」:从大脑流动中重修你眼中的世界

第一阶段:预训练双对照掩模自动编码器 (DC-MAE) 

为了在不同人群中区分共有的大脑流动模式和个体噪声,本文引入了 DC-MAE 技术,利用未标记数据对 fMRI 表征进行预训练。DC-MAE 包含一个编码器NeurIPS23|视觉 「读脑术」:从大脑流动中重修你眼中的世界和一个解码器NeurIPS23|视觉 「读脑术」:从大脑流动中重修你眼中的世界,其中NeurIPS23|视觉 「读脑术」:从大脑流动中重修你眼中的世界以掩蔽的 fMRI 信号为输入,NeurIPS23|视觉 「读脑术」:从大脑流动中重修你眼中的世界 则被训练以预测未掩蔽的 fMRI 信号。所谓的 “双重对照” 是指模型在 fMRI 表征进修中优化对照损坏并参与了两个不同的对照进程。

在第一阶段的对照进修中,每个包含 n 个 fMRI 样本 v 的批次中的样本NeurIPS23|视觉 「读脑术」:从大脑流动中重修你眼中的世界被随机掩蔽两次,生成两个不同的掩蔽版本NeurIPS23|视觉 「读脑术」:从大脑流动中重修你眼中的世界NeurIPS23|视觉 「读脑术」:从大脑流动中重修你眼中的世界,作为对照的正样本对。随后,1D 卷积层将这两个版本转换为嵌入式表示,分别输入至 fMRI 编码器NeurIPS23|视觉 「读脑术」:从大脑流动中重修你眼中的世界。解码器NeurIPS23|视觉 「读脑术」:从大脑流动中重修你眼中的世界 接收这些编码的潜伏表示,产生预测值NeurIPS23|视觉 「读脑术」:从大脑流动中重修你眼中的世界NeurIPS23|视觉 「读脑术」:从大脑流动中重修你眼中的世界。通过 InfoNCE 损坏函数计算的第一次对照损坏,即交织对照损坏,来优化模型:

NeurIPS23|视觉 「读脑术」:从大脑流动中重修你眼中的世界

在第二阶段对照进修中,每个未掩蔽的原始图象NeurIPS23|视觉 「读脑术」:从大脑流动中重修你眼中的世界及其相应的掩蔽图象NeurIPS23|视觉 「读脑术」:从大脑流动中重修你眼中的世界形成一对天然正样本。这里的NeurIPS23|视觉 「读脑术」:从大脑流动中重修你眼中的世界代表解码器NeurIPS23|视觉 「读脑术」:从大脑流动中重修你眼中的世界预测出的图象。第二次对照损坏,也就是自对照损坏,根据以下公式进行计算:

NeurIPS23|视觉 「读脑术」:从大脑流动中重修你眼中的世界

优化自对照损坏NeurIPS23|视觉 「读脑术」:从大脑流动中重修你眼中的世界能够实现掩蔽重修。无论是NeurIPS23|视觉 「读脑术」:从大脑流动中重修你眼中的世界还是NeurIPS23|视觉 「读脑术」:从大脑流动中重修你眼中的世界,负样本NeurIPS23|视觉 「读脑术」:从大脑流动中重修你眼中的世界都来自同一批次的实例。NeurIPS23|视觉 「读脑术」:从大脑流动中重修你眼中的世界NeurIPS23|视觉 「读脑术」:从大脑流动中重修你眼中的世界共同按如下方式优化:NeurIPS23|视觉 「读脑术」:从大脑流动中重修你眼中的世界,其中超参数NeurIPS23|视觉 「读脑术」:从大脑流动中重修你眼中的世界NeurIPS23|视觉 「读脑术」:从大脑流动中重修你眼中的世界用于调节各损坏项的权重。

第二阶段:使用跨模态指导进行调整

考虑到 fMRI 记录的信噪比较低且高度卷积的特性,专注于与视觉处理最相关且对重修最有信息价值的大脑激活模式对 fMRI 特征进修器来说至关重要。

在第一阶段预训练后,fMRI 自编码器通过图象辅助进行调整,以实现 fMRI 的重修,第二阶段同样遵循此进程。具体而言,从 n 个样本批次中选择一个样本NeurIPS23|视觉 「读脑术」:从大脑流动中重修你眼中的世界及其对应的 fMRI 记录的神经反应NeurIPS23|视觉 「读脑术」:从大脑流动中重修你眼中的世界NeurIPS23|视觉 「读脑术」:从大脑流动中重修你眼中的世界NeurIPS23|视觉 「读脑术」:从大脑流动中重修你眼中的世界经过分块和随机掩蔽处理,分别转变为NeurIPS23|视觉 「读脑术」:从大脑流动中重修你眼中的世界NeurIPS23|视觉 「读脑术」:从大脑流动中重修你眼中的世界,然后分别输入到图象编码器NeurIPS23|视觉 「读脑术」:从大脑流动中重修你眼中的世界和 fMRI 编码器NeurIPS23|视觉 「读脑术」:从大脑流动中重修你眼中的世界中,生成NeurIPS23|视觉 「读脑术」:从大脑流动中重修你眼中的世界NeurIPS23|视觉 「读脑术」:从大脑流动中重修你眼中的世界。为重修 fMRINeurIPS23|视觉 「读脑术」:从大脑流动中重修你眼中的世界,利用交织注意力模块将NeurIPS23|视觉 「读脑术」:从大脑流动中重修你眼中的世界NeurIPS23|视觉 「读脑术」:从大脑流动中重修你眼中的世界进行合并:

NeurIPS23|视觉 「读脑术」:从大脑流动中重修你眼中的世界

W 和 b 分别代表相应线性层的权重和偏置。NeurIPS23|视觉 「读脑术」:从大脑流动中重修你眼中的世界是缩放因子,NeurIPS23|视觉 「读脑术」:从大脑流动中重修你眼中的世界是键向量的维度。CA 是交织注意力(cross-attention)的缩写。NeurIPS23|视觉 「读脑术」:从大脑流动中重修你眼中的世界加上NeurIPS23|视觉 「读脑术」:从大脑流动中重修你眼中的世界后,输入到 fMRI 解码器中以重修NeurIPS23|视觉 「读脑术」:从大脑流动中重修你眼中的世界,得到NeurIPS23|视觉 「读脑术」:从大脑流动中重修你眼中的世界

NeurIPS23|视觉 「读脑术」:从大脑流动中重修你眼中的世界

图象自编码器中也进行了类似的计算,图象编码器NeurIPS23|视觉 「读脑术」:从大脑流动中重修你眼中的世界的输出NeurIPS23|视觉 「读脑术」:从大脑流动中重修你眼中的世界通过交织注意力模块NeurIPS23|视觉 「读脑术」:从大脑流动中重修你眼中的世界NeurIPS23|视觉 「读脑术」:从大脑流动中重修你眼中的世界的输出合并,然后用于解码图象NeurIPS23|视觉 「读脑术」:从大脑流动中重修你眼中的世界,得到NeurIPS23|视觉 「读脑术」:从大脑流动中重修你眼中的世界NeurIPS23|视觉 「读脑术」:从大脑流动中重修你眼中的世界

通过优化以下损坏函数,fMRI 和图象自编码器共同进行训练:

NeurIPS23|视觉 「读脑术」:从大脑流动中重修你眼中的世界

使用潜伏集中模型 (LDM) 生成图象

NeurIPS23|视觉 「读脑术」:从大脑流动中重修你眼中的世界

在完成 FRL 第一阶段和第二阶段的训练后,使用 fMRI 特征进修器的编码器NeurIPS23|视觉 「读脑术」:从大脑流动中重修你眼中的世界来驱动一个潜伏集中模型(LDM),从大脑流动生成图象。如图所示,集中模型包括一个向前的集中进程和一个逆向去噪进程。向前进程逐渐将图象降解为正态高斯噪声,通过逐渐引入变方差的高斯噪声。

该研究通过从预训练的标签至图象潜伏集中模型(LDM)中提取视觉知识,并利用 fMRI 数据作为条件生成图象。这里采用交织注意力机制,将 fMRI 信息融入 LDM,遵循稳定集中研究的建议。为了强化条件信息的作用,这里采用了交织注意力和时间步条件化的方法。在训练阶段,使用 VQGAN 编码器NeurIPS23|视觉 「读脑术」:从大脑流动中重修你眼中的世界和经 FRL 第一和第二阶段训练的 fMRI 编码器NeurIPS23|视觉 「读脑术」:从大脑流动中重修你眼中的世界 处理图象 u 和 fMRI v,并在保持 LDM 不变的情况下微调 fMRI 编码器,损坏函数为:NeurIPS23|视觉 「读脑术」:从大脑流动中重修你眼中的世界

其中,NeurIPS23|视觉 「读脑术」:从大脑流动中重修你眼中的世界是集中模型的噪声计划。在推理阶段,进程从时间步长 T 的标准高斯噪声开始,LDM 依次遵循逆向进程逐步去除隐藏表征的噪声,条件化在给定的 fMRI 信息上。当到达时间步长零时,使用 VQGAN 解码器NeurIPS23|视觉 「读脑术」:从大脑流动中重修你眼中的世界将隐藏表征转换为图象。

实验

重修结果 

NeurIPS23|视觉 「读脑术」:从大脑流动中重修你眼中的世界

通过与 DC-LDM、IC-GAN 和 SS-AE 等先前研究的对照,并在 GOD 和 BOLD5000 数据集上的评估中显示,该研究提出的模型在准确率上显著超过这些模型,其中相对于 DC-LDM 和 IC-GAN 分别提高了 39.34% 和 66.7%

NeurIPS23|视觉 「读脑术」:从大脑流动中重修你眼中的世界

在 GOD 数据集的其他四名受试者上的评估显示,即使在允许 DC-LDM 在测试集上进行调整的情况下,该研究提出的模型在 50 种方式的 Top-1 分类准确率上也显著优于 DC-LDM,证明了提出的模型在不同受试者大脑流动重修方面的可靠性和优越性。

实验结果表明,利用所提出的 fMRI 表示进修框架和预先训练的 LDM,可以更好的重修大脑的视觉流动,大大优于目前的基线。该工作有助于进一步挖掘神经解码模型的潜力。

给TA打赏
共{{data.count}}人
人已打赏
工程

CPU推理提升4到5倍,苹果用闪存加速大模型推理,Siri 2.0要来了?

2023-12-25 14:40:00

工程

Softmax注意力与线性注意力的优雅融合,Agent Attention推动注意力新升级

2023-12-25 15:42:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索