Learning Representations from EEG with Deep Recurrent-Convolutional Neural Networks

zoukankan html css js c++ java

Learning Representations from EEG with Deep Recurrent-Convolutional Neural Networks

摘要

从脑电图(EEG)数据建模认知事件的挑战之一是寻找对主体之间和内部差异不变的表征，以及与脑电图数据收集相关的固有噪声。在此，我们提出了一种新的方法来学习这种表示从多通道EEG时间序列，并证明了它的优势在背景下的心理负荷分类任务。首先，我们将脑电图的活动转化为一序列的拓扑保留多光谱图像，而不是标准的脑电图分析技术忽略这类空间信息。接下来，我们训练一个深度递归卷积网络，灵感来自于最先进的视频分类技术，以学习图像序列的鲁棒表示。该方法旨在保留脑电图的空间、光谱和时间结构，从而在每个维度内找到对变化和畸变不那么敏感的特征。对认知负荷分类任务的实证评估表明，与目前该领域的先进方法相比，分类准确率有显著提高。

引言

近年来，深度神经网络在图像、视频、语音和文本等广泛应用领域的识别任务方面取得了巨大成功(Krizhevsky等，2012;Graves等，2013年;Karpathy & Toderici, 2014年;张乐存，2015;Hermann et al.， 2015)。卷积神经网络(ConvNets)是目前处理图像和视频数据的最佳架构的核心，这主要是因为它们能够提取对输入模式的部分平移和变形具有鲁棒性的表示(LeCun et al.， 1998)。另一方面，递归神经网络在时域序列动力学的许多应用中表现出了最先进的性能，例如，手写和语音识别(Graves等，2013年;2008)。此外，这两种网络类型的结合最近被用于视频分类(Ng et al.， 2015)。

尽管深度神经网络在大规模图像、视频和文本数据上的大量成功应用，但它们在神经成像领域的应用还相对较少。其中一个主要原因可能是大多数神经成像数据集中的样本数量有限，因此这些数据不足以训练具有数百万参数的大规模网络。正如它经常被证明的那样，当数据集的大小变得非常大时，深度神经网络比传统机器学习技术的优势变得更加明显。尽管如此，深度信念网络和卷积神经网络在之前的一些中等数据集大小的工作中已经被用于从功能性磁共振成像(fMRI)和脑电图(EEG)中学习表征，。Plis等人(2014)表明，在深度信念网络中添加几个受限制的Boltzman机器层，并在网络中使用监督预训练结果，可以学习越来越复杂的数据表示，与其他分类器相比，取得相当大的准确率提高。在其他工作中，卷积和递归神经网络被用于从EEG时间序列中提取表征(Mirowski et al.， 2009;Cecotti & Graser, 2011;Guler等，2005)。这些研究证明了在神经成像中采用(缩小比例的)深度神经网络的潜在好处，即使在缺乏如图像、视频和文本模式可用的上百万样本数据集的情况下也是如此。然而，这些研究都没有试图在空间、时间和频率范围内共同保存脑电图数据的结构。

在此，我们探讨了深度神经网络从脑电图数据建模认知事件的能力。脑电图是一种广泛应用的无创神经成像方式，它通过测量由皮质活动引起的头皮上的电压变化来工作。使用经典的盲源分离类比，脑电图数据可以被认为是从几个“麦克风”(与脑电图电极相关联)获得的多通道“语音”信号，这些麦克风记录了来自多个“扬声器”(对应于大脑皮层区域的活动)的信号。最新的脑电图精神状态识别包括从连续时间序列中手动选择特征和应用监督学习算法学习状态之间的区别流形(Lotte & Congedo, 2007;Subasi & Ismail Gursoy, 2010)。从观察到的大脑活动中正确识别心理状态的一个关键挑战是建立一个模型，该模型对信号在空间、频率和时间上的平移和变形具有鲁棒性，这是由于主体之间和内部的差异，以及信号采集协议。大部分的变化源于大脑皮层映射和/或功能的细微的个体差异，导致在空间、光谱和时间模式上的观察差异。此外，由于不同大小和形状的头部的脑电帽的不完美拟合，用于将电极置于预先确定的皮质区域顶部的脑电帽可能成为观察到的反应空间变化的另一个来源。附录中给出了一个例子，说明在脑电图数据中可能存在较高的受试者间和受试者内变异性。

我们提出了一种从脑电图数据学习表征的新方法，这种方法依赖于深度学习，似乎对被试之间和内部的差异更鲁棒，以及测量相关噪声。我们的方法与之前使用深度神经网络从脑电图学习高水平表征的尝试有本质上的不同。具体来说，我们没有将低层脑电图特征表示为矢量，而是将数据转换为多维张量，在整个学习过程中保留了数据的结构。换句话说，我们得到的是一组拓扑保留的多光谱图像，而不是标准的脑电图分析技术忽略这些空间信息。一旦获得了这样的EEG“电影”，我们就训练深度递归卷积神经网络架构(Ng et al.， 2015)，从图像序列或帧中学习鲁棒表示。具体来说，我们使用ConvNets从每帧数据中提取空间和光谱不变表示，使用LSTM网络提取帧序列中的时间模式。总体而言，该方法旨在保留脑电图数据的空间、光谱和时间结构，并提取对每个维度内的变化和畸变更有鲁棒性的特征。认知负荷分类任务的经验评估表明，相对于该领域目前最先进的方法，分类错误从15.3%(该应用的最新水平)降低到8.9%。

我们的方法

（1）从EEG时间序列制作图像

  脑电图包括多个时间序列，与大脑皮层不同空间位置的测量结果相对应。与语音信号相似，语音信号最显著的特征存在于频域，通常是利用信号的谱图进行研究。然而，如前所述，脑电图信号具有额外的空间维度。每次试验都对时间序列进行快速傅里叶变换(FFT)来估计信号的功率谱。与记忆操作相关的皮质振荡活动主要存在于三个频段:theta (4-7Hz)、alpha (8-13Hz)和beta (13-30Hz) (Bashivan et al.， 2014;Jensen & Tesche, 2002)。计算三个频带内各绝对值的平方和，并用于每个电极的单独测量。

  将所有电极的光谱测量数据聚合成特征向量是脑电图数据分析的标准方法。然而，这种方法显然忽略了数据在空间、频率和时间上的固有结构。相反，我们建议将测量数据转换为二维图像，以保持空间结构，并使用多种颜色通道来表示光谱维数。最后，我们利用连续时间窗的图像序列来解释大脑活动的时间演化

  脑电图电极以三维空间分布在头皮上。为了将空间分布的活动地图转换为二维图像，我们需要首先将电极的位置从三维空间投影到二维表面上。然而，这种转变也应该保持相邻电极之间的相对距离。为此，我们使用方位等距投影(AEP)，也称为极投影，借用了地图应用(Snyder, 1987)。方位投影形成在一个平面上，这个平面通常在两极、赤道或任何中间点与地球相切。在方位等距投影中，从投影中心到任何其他点的距离被保留。类似地，在我们的例子中，戴在人头上的帽子的形状可以近似成一个球体，同样的方法可以用来计算电极位置在一个与头部顶部相切的二维表面上的投影。该方法的一个缺点是，地图上各点之间的距离只保留一个点(中心点)，因此，所有电极对之间的相对距离将不会被准确地保留。将AEP应用于3-D电极位置，我们得到了2-D电极的投影位置(图1)。

图像的宽度和高度代表了大脑皮层活动的空间分布。我们应用CloughTocher方案(Alfeld, 1984)来插值头皮上的散射功率测量值，并用于估计32×32网格上电极之间的值。对感兴趣的每个频带重复这一步骤，生成对应于每个频带的三幅地形图。然后，这三个空间地图合并在一起，形成一个有三个(颜色)通道的图像。这个三通道图像作为深度卷积网络的输入，如下面的部分所述。图2概述了我们对脑电图数据进行心理状态分类的多步骤方法，其新颖之处在于将原始脑电图转换为一系列图像或帧(EEG“电影”)，并结合应用于这些转换后的脑电图数据上的递归卷积网络架构。请注意，我们的方法是通用的，可以用于任何基于eeg的分类任务，而稍后提出的心理负荷分类的具体问题只是作为一个例子，展示了所提方法的潜在优势。

（2）结构

我们采用递归卷积神经网络处理脑电数据的固有结构。由于ConvNet具有学习良好的二维数据表示的能力，因此被用于处理空间和频域的变化。无论何时需要，都将提取的表示形式输入到另一层中，以说明数据中的时间变化。我们评估了用于提取时间模式的各种类型的层，包括卷积层和循环层。本质上，我们评估了以下两种主要方法来解决认知状态分类问题.1）单帧方法：在整个试验过程中，通过光谱测量结果构建出一张图像。然后将构建的图像用作ConvNet的输入。 2）多帧方法：我们将每个试验分为0.5秒窗口，并在每个时间窗口上构建图像，每个试验提供7帧（请参阅第4节）。然后将图像序列用作递归卷积网络的输入数据。我们使用Lasagne来实现本文讨论的不同体系结构。可在线获得生成EEG图像以及构建和训练本文讨论的网络所需的代码。

卷积神经网络结构

我们采用了模仿Imagenet分类挑战中使用的VGG网络的架构（Simonyan＆Zisserman，2015）。该网络具有高度可扩展的架构，该架构使用具有小的接收场的堆叠卷积层。所有卷积层都使用大小为3×3的小接收场，跨度为1个像素，具有ReLU激活功能。卷积层输入填充有1个像素，以保留卷积后的空间分辨率。多个卷积层堆叠在一起，然后是maxpool层。在2×2的窗口上执行最大池化，步幅为2像素。对于位于较深堆栈中的层，每个卷积层中的内核数增加两倍。多个卷积层的堆叠可产生较大尺寸的有效接收场，而所需的参数却少得多（Simonyan＆Zisserman，2015）。

单帧方法

对于这种方法，通过在整个试验持续时间（3.5秒）上应用FFT（快速傅里叶变换）来生成单个EEG图像。这种方法的目的是找到优化的ConvNet配置。我们首先通过计算整个试用期内的平均活动来研究问题的简化版本。为此，我们计算了整个试验过程中的所有功率特性。按照此程序，每个试验的EEG记录都减少为单个多通道图像。我们评估了各种深度的ConvNet配置，如表1所示。

卷积层参数在这里表示为conv <接收域大小>-<内核数>。本质上，配置A仅涉及堆叠在一起的两个卷积层（Conv3-32），然后是maxpool层；配置B在体系结构A的基础上增加了两个卷积层（Conv3-64），接着是另一个maxpool；然后配置C再加上一个卷积层（Conv3-128），然后是maxpool；配置D与C不同，它在开始时使用4个而不是2个Conv3-32卷积层。最后，在所有这些架构之上添加具有512个节点的完全连接层（FC-512），最后是softmax。

多帧方法

对于每个框架，我们采用了单框架方法中性能最好的ConvNet架构。为了减少网络中的参数数量，所有ConvNet跨帧共享参数。所有ConvNet的输出都将重塑为顺序帧，并用于调查地图中的时间序列。我们评估了从活动图序列中提取时间信息的三种方法，其灵感来自于一组用于视频分类的深度学习技术（Ng等，2015）。参见图3：1）随时间推移的最大池化； 2）时间卷积； 3）LSTM。

最后，最后一层的输出被馈送到具有512个隐藏单元的完全连接层，然后是四路softmax层。我们将全连接层中的神经元数量保持相对较低，以控制网络中参数的总数。在最后两个完全连接的层上使用了50％的dropout。

Max-pooling:此模型跨时间帧在ConvNet输出上执行最大池化。虽然从这个模型中发现的表示保留了空间位置，但是它们是有序不变的。

Temporal convolution:该模型对跨时间帧的卷积输出应用1-D卷积。我们评估了大小为3的16核和32核模型，步幅为1帧。内核捕获跨多个帧的不同时间模式。

Long Short-Term Memory (LSTM): 递归神经网络的输入形状为序列x = (x1，…， xT)计算隐藏向量序列h = (h1，…， hT)，输出向量y = (y1，…， yT)，在t = 1到t之间迭代:

其中W项表示权重矩阵，b项表示偏差向量，H是隐层函数.考虑到神经反应的动态性以及脑电图数据的动态性，递归神经网络(RNN)似乎是一种建模脑活动时间演化的合理选择。长短期记忆(LSTM)模型(Hochreiter & Schmidhuber, 1997)是一种改善记忆的RNN.它使用带有内部存储器和门控输入/输出的记忆细胞，在捕获长期依赖关系方面表现得更有效。LSTM的隐含层函数计算公式如下:

其中，logistic sigmoid函数为，LSTM模型的组成部分分别为输入门、遗忘门、输出门和细胞激活向量，分别为i、f、o和c(详见(Hochreiter & Schmidhuber, 1997))。我们实验了最多两层LSTM，每层都有不同数量的存储单元，在一层128单元的情况下得到了最好的结果。只有LSTM在看到完整帧序列后所做的预测被传播到全连接层。我们采用了LSTM来捕捉ConvNet激活序列中的时间演化。由于大脑活动是一个时间动态的过程，帧之间的变化可能包含关于潜在心理状态的额外信息。

2.3 TRAINING

通过优化交叉熵损失函数来进行训练。ConvNets的权重共享导致不同层的梯度差异很大，因此在应用SGD时通常使用较小的学习率。我们使用Adam算法(Kingma & Ba, 2015)对递归卷积网络进行训练，学习因子为10−3，一阶矩衰减率为0.9，二阶矩衰减率为0.999。批大小设置为20。Adam已经被证明在用于训练卷积网络以及多层神经网络时，可以达到极具竞争力的快速收敛速度。此外，VGG架构需要更少的时间收敛，这是由于更大的深度和更小的卷积滤波器尺寸强加的隐式正则化。我们的网络中存在大量的参数，这使得它容易发生过拟合。我们采取了几项措施来解决这个问题。在所有全连接层中使用概率为0.5的Dropout (Hinton et al.， 2012)。此外，我们通过在随机选择的验证集上监视模型的性能，使用了早期停止。Dropout regularization被证明是一种有效的方法来减少具有数百万参数的深度神经网络的过拟合(Krizhevsky et al.， 2012)和神经成像应用(Plis et al.， 2014)。此外，解决样本数量和模型参数数量之间不平衡比例的另一种常用方法是使用数据增强人为地扩展数据集。我们尝试用随机添加噪声的图像生成的增强数据来训练网络。在增加数据时，我们没有使用图像翻转或缩放，因为对EEG图像的方向和位置有不同的解释(对应于不同的皮质区域)。我们在每张图片上添加了不同的噪声等级。然而，增加数据集并没有提高分类性能，并且对于更高的噪声值增加了错误率。图4显示了训练集上新纪元次数的验证损失。我们发现，经过大约600次迭代(5个新纪元)后，网络参数收敛。

3基线的方法

我们将我们的方法与支持向量机(SVM)、随机森林、稀疏逻辑回归和深度信念网络(DBN)等常用的分类器进行了比较。这里，我们简要描述了这些方法中使用的一些细节和参数设置。

SVM：通过对训练集进行交叉验证，通过网格搜索选择由正则化罚分参数（C）和RBF核标准偏差的倒数（γ= 1 /σ）组成的SVM超参数（C = {0.01,0.1,1,10,100}， γ= {0.1,0.2，...，1,2，...，10}）。

Random Forest: 随机森林是一种由一组独立的随机决策树组成的集成方法。每棵树都是使用随机选择的特征子集来生长的。对于每个输入，计算所有树的输出，并选择投票最多的类。随机森林的估计量在{5,10,20,50,100,500,1000}的集合内变化。

Logistic Regression:用l1正则化方法引入logistic回归模型的稀疏性。通过在训练集上交叉验证，选择最优正则化参数C，搜索对数范围[10−2103]。

Deep Belief Network:我们使用了三层深度信念网络(DBN)。第一层为高斯-二进制约束玻尔兹曼机(RBM)，另外两层为二进制约束玻尔兹曼机(RBM)。输出的最终水平被馈入一个双向软最大层，以预测类标签。对DBN的每一层参数进行贪婪的预训练，通过将初始随机参数值向一个良好的局部最小值偏移来提高学习效率(Bengio et al.， 2007)。我们在表现出良好性能的三层中使用了以下经验选择的神经元数目:512、512和128。最后一层连接到一个有4个单元的softmax层。利用随机梯度下降和l1-正则化对网络进行微调，以减少训练过程中的过拟合。

4在脑电图数据集上的实验

每个人都有不同的认知处理能力，这直接决定了他/她完成智力任务的能力。虽然人类的大脑由许多负责特定任务的网络组成，但其中许多依赖于更基本的功能性网络，比如工作记忆。工作记忆负责信息的短暂保留，这对大脑中任何信息的处理都是至关重要的。它的能力限制了个体在一系列认知功能方面的能力。超出个人能力的认知需求(负荷)不断增加，导致超负荷状态，导致困惑和学习能力下降(Sweller et al.， 1998)。因此，识别个人认知负荷的能力对于包括脑-机接口、人机交互和辅导服务在内的许多应用程序变得非常重要。

这里我们使用了在工作记忆实验中获得的脑电图数据集。当15名参与者(8名女性)进行一项标准的工作记忆实验时，脑电图被记录下来。我们在之前的出版物(Bashivan et al.， 2014)中报道了数据记录和清洗程序的细节。简而言之，在标准的10-10个位置，在头皮上放置64个电极，以500 Hz的采样频率连续记录脑电图。电极沿中侧轮廓放置在距离为10%的位置。其中两个受试者的数据被排除在数据集之外，因为他们记录的数据中有过多的噪音和工件。在实验过程中，一组英文字符被展示了0.5秒，参与者被要求记住这些字符。一个测试字符在三秒钟后被显示出来，参与者按下按钮来指示测试角色是否在第一个数组中(“SET”)。每个参与者重复这个实验240次。每次试验中字符集中的字符数被随机选择为2、4、6或8。字符的数量决定了参与者的认知负荷，因为随着字符数量的增加，需要更多的心理资源来保留信息。在整篇论文中，我们分别识别了包含2,4,6,8个字符的条件，负载分别为1-4。记录下的大脑活动在个体将信息保存在记忆中(3.5秒)期间被用来识别大脑的工作量。记录下的大脑活动在个体将信息保存在记忆中(3.5秒)期间被用来识别大脑的工作量。图5展示了工作记忆实验的时间历程。

分类任务是从脑电图记录中识别出与设定大小(呈现给被试的字符数)相对应的负荷水平。定义了与load 1-4对应的四个不同的类，并将13个受试者的2670个样本分配到这四个类中。工作记忆实验图;参与者简单地观察一个包含多个英文字符集的数组(500ms)，并将信息维护三秒钟。然后测试角色被呈现出来，如果测试章程与集合中的一个角色匹配，参与者就按下按钮做出反应。连续脑电图脱机切取等长3.5秒，对应每次试验。共记录3120次试验。数据集只包含与正确应答试验相对应的数据，使数据集大小减少到2670个试验。为了评估每个分类器的性能，我们采用了离开-主题-退出交叉验证方法。在13次折叠中，每一次使用属于某一受试者的所有试验作为测试集，然后从其余的数据中随机抽取一些与测试集相等的样本作为验证集，其余的样本作为训练集。

5结果

我们从两种方法检查脑电图数据集。在第一种方法(单帧)中，我们通过对每次试验的完整持续时间应用FFT来提取功率特征，从而得到对应于每次试验的单幅3通道图像。第二种方法是将每次试验划分为多个时间窗口，分别提取每个窗口的功率特征，从而保存时间信息，而不是将时间信息平均到活动图的单个切片中。

5.1单帧分类

我们首先展示我们的分类结果，使用单一帧提取特征在整个试验期间和应用ConvNets。这部分的目的是在实验中寻找在完整EEG时间序列生成的图像上表现最好的卷积网架构。我们评估了不同的卷积和maxpool层数的各种配置。我们遵循VGG架构来选择每一层的滤波器数量，并将接收域较小的卷积层分组。

  前面给出的表1总结了我们所考虑的架构。表2显示了每种架构使用的参数数量，以及测试集上获得的相应误差。我们发现基于卷积网络的架构优于我们的基线方法。我们可以看到，将层数增加到7，测试集的可实现错误率略有提高。当架构D包含7个卷积层时，得到的最佳结果也略优于基线方法。虽然四种配置之间错误率的差异在统计学上并不显著，但我们选择架构D是因为它在被认为很难分类的主题子集上的错误率相等或更好(错误率减少了12%)。大多数网络参数位于最后两层(全连接和softmax)，包含大约100万个参数。在VGG风格的网络中，选择每一层的过滤器数量时，输出的大小在每一堆之后保持不变(过滤器的大小乘以核的数量)。为了量化投影类型对结果的重要性，我们使用一个简单的正射影生成图像(在z=0平面上)，并重新训练我们的网络。保留拓扑投影和非保留拓扑投影的差异主要体现在投影图像的外围部分(图1)。在我们的实验中，我们观察到使用拓扑保持投影比使用非等距平坦投影的分类误差有轻微的提高(约0.6%)。然而，这种观察可能依赖于特定的数据集，需要进一步的研究才能得出结论。此外，使用等距投影方法有助于图像和特征地图可视化数据的可解释性。总的来说，我们的主张是将脑电图数据映射成二维图像(特别是等距投影)，与将脑电图简单地视为时间序列集合的标准的、非空间方法相比，可以更好地分类认知负荷水平。

5.2多帧分类

对于多帧分类，我们采用前一步的构造为D的卷积网络，并将其应用于每一帧。我们探索了从多个框架聚合时间特征的四种不同方法(图3)。使用时间卷积和LSTM可以显著提高分类精度(见表3)。对于存在时间卷积的模型，我们发现32核的网络优于16核的网络(误差11.32% Vs. 12.86%)。

仔细看看每个人的准确率，就会发现，虽然两种方法对8名参与者的分类准确率都接近完美，原因是其余5个个体的准确性存在差异(表4)。这一观察结果促使我们在单一结构中结合使用时间卷积和LSTM结构，从而在数据集上获得最佳结果。

对比基线模型在多帧和单帧情况下的性能，除随机森林外，所有分类器中单帧设置的测试误差都略低。这种差异主要是由于在所有基线方法中都存在正则化项的情况下，多帧情况下特征数的增加会带来负面影响。另一方面，在我们的模型中加入时间动态(随时间变化的多帧)，不断提高分类性能，这证明了我们的模型在学习依赖时间的变化的有效性。此外，虽然我们的方法不直接对原始脑电图时间序列进行操作，但通过手动提取脑电图功率特征，我们大大减少了所需的数据量。此外，发现复杂的时间关系，如使用神经网络在时间序列中的光谱特性，仍然是一个尚未完全解决的开放问题。ConvNets通过maxpooling实现平移不变性，maxpooling本质上是一个向下采样过程，虽然这有助于在ConvNet的更深层中创建不变的(空间和频率方面的)特征图，但如果特征图的大小缩小到无法区分区域活动的程度，也可能会损害性能。从某种意义上说，在通过卷积层和maxpooling实现的抽象程度与feature map中保留的细节级别之间存在一种权衡。此外，ConvNets还学习了产生非线性特征图的滤波器堆栈，从而最大限度地提高分类精度。当对一个包含多个个体的数据池进行训练时，考虑到训练集的可变性，网络会提取出信息量最大的特征。

我们注意到，在单帧设置中，ConvNet+Maxpool的性能低于ConvNet。时态maxpool选择跨帧的最高激活，而在单帧方法中提取的特征类似于多帧上的平均值。在处理大脑活动时间序列时，在多个时间框架中选择最大值不一定是最好的做法，因为它可能会忽略某些皮层区域的失活期。在计算所有帧上的平均活动时，仍然可以部分地观察到这种效应。这也部分解释了在网络中加入时间动态模型(1D-conv和LSTM)时分类误差较低的原因。

5.3将学到的表征形象化

5.2节中的递归卷积网络通过自动学习脑电图图像序列的表示，与所有基线方法相比，分类错误率明显降低。理解这个模型如何实现这样的性能也同样重要。将学习过的内核查看为图像是理解网络学习过的表示的一种经典方法。然而，在我们的网络中，由于核的接收场维小(3×3)，显示核并不能给出学习到的表示的太多直觉。我们采用反卷积网络(deconvnet) (Zeiler et al.， 2011;Zeiler & Fergus出版社，2014年;Zeiler等人，2010)通过将特征图反向传播到输入空间来可视化模型的已学习过滤器。Deconvnet迭代逼近前一层的卷积特征，并共同将特定的特征映射投影到输入空间。这揭示了在输入空间中激发特定特征图的结构。为了近似地逆卷积运算，使用滤波器的转置代替。在每一阶段对校正后的映射采用转置滤波器。Maxpool层通过双三次插值操作被倒置。我们对所有训练图像计算了从每个堆栈的最后一个卷积层(对应于D架构中的卷积层4、6和7)得到的特征图的反向投影。

一般来说，较低层次的feature map有更广泛的输入激活区域，而更深层次的feature map的激活区域变得更稀疏。在许多学习滤波器中也有很强的频率选择性。我们发现其中一些特征与众所周知的认知负荷的电生理标记有明显的联系。在神经科学文献中，前额theta和beta活动以及顶叶alpha是认知/记忆负荷最显著的标记(Bashivan etal .， 2015;Jensen等人，2002年;Onton等，2005;Tallon-Baudry等，1999)。图6显示了从网络的不同深度选择的具有清晰神经科学解释的许多过滤器的后投影图。

图6：卷积网络不同深度层次的特征图及其输入激活模式的可视化。左边一列(输入EEG图像)显示了整个训练集特征激活程度最高的前9幅图像。中间一列(feature map)显示了特定核输出的特征图。右列(反投影)显示了在特征图上应用deconvnet而得到的反投影地图，该特征图显示了在输入图像中激发特定特征图的结构。

对于每个过滤器，我们展示了训练集上9个激活度最高的图像(所有feature map像素的平均激活度)的输入图像、过滤器输出和反向投影激活。在第一层功能中，我们发现一个功能图捕获了广泛的theta（1ststack输出内核7）和另一个额叶beta活动（1ststack输出内核23）。在第二层和第三层特征中，我们观察到额叶theta / beta（第2堆栈输出内核7和第3堆栈输出内核60、112）以及顶壁alpha（第2堆栈输出内核29）的检测器，这些检测器的特征图的焦点特异性在更深的区域中增加层。尽管在原始输入图像中存在很大的相似性，但从不同图像派生的特征图之间的相似性仍然很明显。

6 CONCLUSIONS

这项工作的主要目标是从EEG数据中找到可靠的表示形式，而这些表示形式对于受试者之间和受试者之间的差异以及与EEG数据收集相关的固有噪声是不变的。我们提出了一种从多通道脑电图时间序列中学习表征的新颖方法，并在心理负荷分类任务的背景下证明了其优势。我们的方法与以前尝试使用深度神经网络从EEG学习高级表示形式的方法根本不同。

具体来说，我们将数据转换为一系列保留拓扑的多光谱图像（EEG“电影”），而不是将低级EEG特征表示为矢量，这与忽略此类空间信息的标准EEG分析技术相反。然后，我们根据最新的视频分类训练深度递归卷积网络，以从图像序列中学习可靠的表示形式，所提出的方法证明了分类精度相对于最新结果的显着提高。由于我们的方法将EEG数据转换为EEG图像序列，因此可以将其应用于使用不同硬件（例如使用不同数量的电极）获取的EEG数据。我们的方法中使用的预处理步骤将从各种来源获取的EEG时间序列转换为可比较的EEG帧。这样，可以将各种EEG数据集合并在一起。完成此转换所需的唯一信息将是每种设置的电极空间坐标。作为未来的方向，在使用任务特定的数据训练网络之前，可以对较大（或合并）的未标记EEG数据集使用无监督的预训练方法。

查看全文

相关阅读:
C/C++分别读取文件的一行
 （转载）C库函数strtok()
（转载）C++常量折叠和C语言中const常量对比
 ssh
ubuntu ufw
uplevel
ubuntu lucid source.list
tail
socket client with proc
pack forget

原文地址：https://www.cnblogs.com/lcy1995/p/13582389.html