2017年10月28日星期六

利用CNN建模脑皮层与图像:新研究提出可实现「读心术」的表征系统

近日,Science报道有研究者开发出能够解读人类大脑的深度学习算法,他们利用CNN建模视觉皮层信号与图像来构建强大的表征系统,该研究分别使用CNN建模了大脑的编码与解码阶段。


研究者首先根据对多名志愿者的脑信号测量建立了大脑的编码模型,该过程主要是观察志愿者在观看数百条短视频时,功能性 MRI 机器测量的视觉皮层脑信号活动。然后再利用擅长处理图像的人工神经网络(CNN)学习如何将视频图像和视觉皮层的活动信号连接起来。


构建模型并训练后,志愿者在观看额外的视频时,算法预测的活跃区域和几十个实际活跃的区域都有相关性。它还能帮助科学家可视化视觉皮层某块区域正在处理的特征是什么。此外,还有另一个网络解码神经信号:即根据参与者的大脑活动,算法可以预测他正看到的目标类别是什么(15 个类别可达到 50% 的准确度)。研究人员在本月的 Cerebral Cortex 杂志上报告说,如果该网络是根据另外一个志愿训练的,那么用它解码这一个志愿者的视觉活动仍然能达到 25% 的准确度(15 个类别)。


网络同样可以部分重构参与者看到的内容,并将大脑活动转化为像素,不过产生的图像只是一些白色块状的灰度图。研究者还希望他们的工作能够重构心理影像学,因为其使用和视觉处理相同的脑回路。该研究对于脑机接口和新型输入设备的应用都有很大的意义,此外正如该研究,也许我们可以借助深度学习强大的表征能力从局部开始构建人类大脑的模型。


以下是该研究论文:Neural Encoding and Decoding with Deep Learning for Dynamic Natural Vision



论文地址:http://ift.tt/2z1JDvQ


摘要:大脑如何表征外部世界的视觉信息?在本论文中,我们使用模拟神经元回路和编码的卷积神经网络来解决这个问题,该神经网络十分擅长于处理计算机视觉问题。我们在该研究中使用卷积网络作为视觉皮层的计算模型,并开发了新的编码和解码模型来描述视觉输入和大脑皮层活动的双向关系,该双向关系可使用功能性核磁共振成像得到测量。通过使用人类看到自然视频中的图像数据测试这些模型,我们展示了编码模型能预测皮质反应并检索独立脑区的视觉表征,而解码模型能破译视觉皮层重构视觉和语义信息的活动。编码模型和解码模型都是用视觉皮层的层级表征、皮层的不变性与非线性视觉特征。这些模型都是独立的、高效的和可泛化的,它们构成了研究全阶段视觉处理的高吞吐量计算平台。我们还预期通过深度学习模型进行神经编码和解码的一半步骤还是用于其它如言语、记忆、做梦等感官或认知体验。


图 1. 使用深度学习模型进行神经编码和解码的过程。当一个人在看一部视频的时候(a),信息通过级联的大脑皮质区(b)处理,生成 fMRI 活动模式(c)。我们在这里使用一个深度卷积神经网络对皮质视觉处理过程建模(d)。这个模型将影片的每一帧转换为多个层的特征,从视觉空间(第 1 层)的方向和颜色,到语义空间(第 8 层)的目标类别。编码过程中,网络对视频中的视觉刺激和每一个皮质位置的反应之间的非线性关系进行建模。解码过程中,将不同位置的皮质应答组合以估算第 1 层和第 8 层的特征输出。前者是一个解卷积过程(deconvolved),用于重建视频的每一帧,而后者输出语义描述。


图 6. 动态视觉经验的重建。对于每一行,上方展示了示例视频的帧(来自一个主体的视觉),下方展示了基于该主体对视频的皮质 fMRI 反应对这些帧的重建。


我们的研究表明基于 CNN 的编码自然的视频视觉刺激的模型可以泛化到新的视觉刺激中去。利用这种泛化性能可以将该编码模型用于预测和分析皮质反应和大量自然图片、视频之间的关系,这远远超越当前可行的实验方法。


在解码的时候,该 CNN 可以直接重建自然的视频而不需要使用任何通过单独的照片生成的活动模式的统计对比(例如,分类),这是目前所有解码方法的基础。


]]> 原文: http://ift.tt/2yVypXI
RSS Feed

机器知心

IFTTT

没有评论:

发表评论

JavaScript 之父联手近万名开发者集体讨伐 Oracle:给 JavaScript 一条活路吧!- InfoQ 每周精要848期

「每周精要」 NO. 848 2024/09/21 头条 HEADLINE JavaScript 之父联手近万名开发者集体讨伐 Oracle:给 JavaScript 一条活路吧! 精选 SELECTED C++ 发布革命性提案 "借鉴"Rust...