Method Article
机器学习算法已经过训练,可以使用大脑活动模式来“解码”呈现给人类的刺激。在这里,我们证明了相同的技术可以解码来自两只家犬大脑的自然视频内容。我们发现基于视频中动作的解码器在狗身上是成功的。
使用机器学习和功能磁共振成像 (fMRI) 来解码来自人类和非人类皮层的视觉刺激的最新进展,为感知的本质带来了新的见解。然而,这种方法尚未实质性地应用于灵长类动物以外的动物,这引发了对整个动物王国中此类表征性质的质疑。在这里,我们在两只家犬和两只人类中使用了清醒 fMRI,这些 MRI 是在每只狗观看专门制作的适合狗的自然主义视频时获得的。然后,我们训练了一个神经网络 (Ivis),从每个网络总共 90 分钟的大脑活动记录中对视频内容进行分类。我们测试了基于对象的分类器,试图区分狗、人类和汽车等类别,以及基于动作的分类器,试图区分吃、闻和说话等类别。与两种类型分类器的表现都远高于偶然性的人类受试者相比,只有基于动作的分类器才能成功解码来自狗的视频内容。这些结果证明了机器学习的首次已知应用,用于解码食肉动物大脑中的自然视频,并表明狗对世界的看法可能与我们自己的完全不同。
与其他灵长类动物一样,人类的大脑展示了将视觉流分为背侧和腹侧通路的过程,这些通路具有独特而众所周知的功能——物体的“什么”和“哪里”1。几十年来,这种什么/在哪里二分法一直是一种有用的启发式方法,但现在已知其解剖学基础要复杂得多,许多研究人员赞成基于识别与行动(“什么”与“如何”)的划分2,3,4,5。此外,虽然我们对灵长类动物视觉系统组织的理解不断得到完善和争论,但关于其他哺乳动物物种的大脑如何表示视觉信息,仍有许多未知数。在某种程度上,这种空白是视觉神经科学中历史上对少数物种的关注的结果。然而,新的脑成像方法为无创研究更广泛动物的视觉系统提供了可能性,这可能会对哺乳动物神经系统的组织产生新的见解。
狗 (Canis lupus familiaris) 为研究进化上远离灵长类动物的物种中视觉刺激的表现提供了丰富的机会,因为它们可能是唯一可以被训练合作参与 MRI 扫描而无需镇静或约束的动物 6,7,8.由于它们在过去 15,000 年中与人类共同进化,狗也居住在我们的环境中,并暴露在人类每天遇到的许多刺激中,包括视频屏幕,这是在 MRI 扫描仪中呈现刺激的首选方式。即便如此,狗可能会以与人类完全不同的方式处理这些常见的环境刺激,这就引出了它们的视觉皮层是如何组织的问题。基本差异(例如缺少中央凹或成为双色性)可能不仅对较低级别的视觉感知产生重大的下游影响,而且对较高级别的视觉表示也有影响。几项针对狗的 fMRI 研究表明,面部和物体加工区域的存在似乎都遵循灵长类动物中常见的背侧/腹侧流结构,尽管目前尚不清楚狗本身是否具有面部处理区域,或者这些区域是否对头部的形态具有选择性(例如,狗与人类)9, 10,11,12,13。无论如何,狗的大脑比大多数灵长类动物都小,预计它的模块化程度会更低14,因此在流中可能会有更多的信息类型混合,甚至某些类型的信息(如动作)的特权。例如,有人提出,运动可能是犬类视觉感知中比纹理或颜色更突出的特征15。此外,由于狗没有手,而手是我们与世界互动的主要方式之一,它们的视觉处理,尤其是对物体的视觉处理,可能与灵长类动物完全不同。与此一致,我们最近发现证据表明,与爪子相比,口腔与物体的相互作用会导致狗大脑中物体选择性区域的激活更大16。
尽管狗可能已经习惯了家庭环境中的视频屏幕,但这并不意味着它们习惯于像人类一样在实验环境中查看图像。使用更自然的刺激可能有助于解决其中一些问题。在过去十年中,机器学习算法在解码来自人脑活动的自然视觉刺激方面取得了相当大的成功。早期的成功集中在调整经典的、受阻的设计,以使用大脑活动来分类个体所看到的刺激类型,以及编码这些表征的大脑网络 17,18,19。随着更强大的算法的发展,尤其是神经网络,可以解码更复杂的刺激,包括自然视频20,21。这些分类器通常根据对这些视频的神经反应进行训练,推广到新的刺激,使它们能够识别特定对象在 fMRI 反应时观察到的内容。例如,电影中某些类型的动作可以从人脑中准确解码,例如跳跃和转弯,而其他类型的动作(例如拖动)则无法22.同样,尽管可以从 fMRI 反应中解码许多类型的对象,但一般类别似乎更加困难。大脑解码不仅限于人类,它提供了一个强大的工具来理解信息在其他物种的大脑中是如何组织的。对非人类灵长类动物进行的类似 fMRI 实验发现,颞叶的有灵性和面貌/身体的维度有明显的表示,这与人类的相似23.
作为了解狗对自然视觉刺激的表征的第一步,清醒 fMRI 被用于两只高度熟练的家犬,以测量皮层对适合狗的视频的反应。在这项研究中,使用自然主义视频是因为它们对狗的潜在生态有效性更高,并且因为它们在将视频内容映射到狗运动的神经网络方面取得了成功24。在三个单独的会话中,从每只狗对 256 个独特视频剪辑的反应中获得 90 分钟的 fMRI 数据。为了进行比较,对两名人类志愿者进行了相同的程序。然后,使用神经网络,我们训练和测试了分类器,以使用不同数量的类来区分“对象”(例如,人、狗、汽车)或“动作”(例如,说话、吃、闻)。这项研究的目标有两个:1) 确定是否可以从狗皮层解码自然视频刺激;2) 如果是这样,请初步了解该组织是否与人类相似。
该狗研究得到了埃默里大学 IACUC (PROTO201700572) 的批准,所有主人都书面同意他们的狗参与该研究。人体研究程序已获得埃默里大学 IRB 的批准,所有参与者在扫描前均提供书面同意书 (IRB00069592)。
1. 参与者
2. 刺激
3. 实验设计
4. 成像
5. 刺激标签
6. fMRI 预处理
7. 分析
在机器学习分析中评估模型性能的最常见指标包括精度、准确率、召回率和 F1 分数。准确率是指在给定真实数据的情况下,模型预测正确的总体百分比。精度是模型的实际正预测的百分比(即真阳性率),而召回率是模型能够成功预测的原始数据中真阳性的百分比。F1 分数是精确率和召回率的加权平均值,可作为准确率的替代度量,对类不平衡更可靠。但是,Ivis 与其他常用的机器学习算法的不同之处在于它的输出不是二进制的。给定大脑体素的特定输入,每个输出元素都表示对应于每个类的概率。计算这些输出的准确率、精度、召回率和 F1 需要以 “赢家通吃” 的方式将它们二值化,其中概率最高的类别被认为是该数量的预测类别。这种方法消除了有关这些概率排名的重要信息,这些信息与评估模型的质量有关。因此,虽然我们仍然计算这些传统指标,但我们使用标签排名平均精度 (LRAP) 分数作为主要指标来计算模型在测试集上的准确性。该指标本质上衡量分类器在多大程度上为真实标签分配了更高的概率37。
在不同程度上,神经网络分类器对人类和狗都取得了成功。对于人类,该算法能够对物体和动作进行分类,三类模型的平均准确率都达到了 70%。LRAP 分数被用作计算模型在测试集上的准确性的主要指标;该指标衡量分类器为 true 标签分配更高概率的程度37.对于这两个人,对于所有测试的模型,LRAP 分数的中位数都大于随机排列标签集的第 99 个百分位数(表 1; 图 2)。对于狗,只有动作模型的中位 LRAP 百分位排名在两个参与者中都明显大于机会(表 1; 对象 p = 0.13, 作 p < 0.001;狗的平均三类动作模型 LRAP 评分 = 第 78 个百分位数)。这些结果适用于所有受试者单独以及按物种分组时。
鉴于分类器的成功,我们使用其他类进行了训练和测试,以确定模型的极限。这包括使用 Python 包 scipy 的分层聚类算法计算整个 52 个潜在感兴趣类别的不相似性矩阵,该算法根据个体大脑对每个类别的反应的相似性对类别进行聚类,如成对相关所定义。在测试的其他模型中,两只狗中 LRAP 百分位数排名中位数的模型有五个类别:原来的 “说话”、“吃 ”和 “嗅”,加上两个新类别 “抚摸 ”和 “玩耍”(图 2)。该模型的 LRAP 百分位中位数排名显着大于所有参与者随机预测的百分位(表 1; 狗 和人类的 p < 0.001;狗的平均五类动作模型 LRAP 评分 = 第 81 个百分位数)。
当反向映射到它们各自的大脑图谱时,体素的特征重要性分数揭示了狗和人类的枕叶、顶叶和颞叶皮层中的许多信息体素集群(图 3)。在人类中,基于对象和基于动作的模型比狗和通常与对象识别相关的区域显示出更聚焦的模式,尽管基于对象的体素和基于动作的体素的空间位置略有不同。
我们检查了这些物种差异不是狗比其他类型视频更多地移动到某些类型的视频(例如,狗以外的视频,例如汽车)的任务相关运动的结果。我们计算了六个运动参数的欧几里得范数,并使用 R 包 lme4 拟合了一个线性混合效应模型,其中类是固定效应,游程数是每只狗的随机效应。对于每个最终模型,我们发现类别类型对 Daisy(F(2, 2252) = 0.83, 基于对象的 p = 0.44,F(4, 1235) = 1.87, 基于 动作的 p = 0.11)或 Bhubo(F(2, 2231) = 1.71,基于对象的 p = 0.18 和 F(4, 1221) = 0.94,基于动作的 p = 0.45)的运动没有显着影响。
图 1:MRI 钻孔中的自然视频和演示。 (A) 向参与者展示的视频剪辑中的示例帧。(B) Bhubo,一只 4 岁的拳击手混血儿,一边看视频,一边接受清醒的 fMRI。 请单击此处查看此图的较大版本。
图 2:模型在狗和人类中的性能。 LRAP 分数的分布,表示为其零分布的百分位排名,针对三类基于对象的模型、三类基于动作的模型和五类基于动作的模型对 Ivis 机器学习算法进行 100 多次迭代的训练和测试,其中模型试图对 通过以下方式 获得的自然主义视频刺激的 BOLD 反应进行分类狗和人类的清醒 fMRI。分数按物种汇总。具有非常高百分位排名的 LRAP 分数表明该模型不太可能偶然获得该 LRAP 分数。表现不优于偶然性的模型的 LRAP 分数百分位排名中位数为 ~50。虚线表示所有 100 次运行中每个物种的 LRAP 分数百分位排名中位数。 请单击此处查看此图的较大版本。
图 3:区分三类对象和五类动作模型的重要区域。 (A) 人类和 (B) 狗参与者。使用随机森林分类器根据体素的特征重要性对体素进行排名,并在模型的所有迭代中取平均值。此处显示了前 5% 的体素(即用于训练模型的体素),按物种聚合并转换为组空间以进行可视化(图集:人类34 和狗35)。标签显示具有高特征重要性分数的狗脑区域,基于 Johnson 等人确定的区域35。缩写:SSM = 外侧上回。 请单击此处查看此图的较大版本。
型号类型 | 训练准确性 | 测试精度 | F1 分数 | 精度 | 召回 | LRAP 评分中位百分位数 | |
人类 1 | 对象 (3 类) | 0.98 | 0.69 | 0.48 | 0.52 | 0.49 | >99 |
动作 (3 类) | 0.98 | 0.72 | 0.51 | 0.54 | 0.54 | >99 | |
动作 (5 类) | 0.97 | 0.51 | 0.28 | 0.37 | 0.27 | >99 | |
人类 2 | 对象 (3 类) | 0.98 | 0.68 | 0.45 | 0.5 | 0.47 | >99 |
动作 (3 类) | 0.98 | 0.69 | 0.46 | 0.5 | 0.48 | >99 | |
动作 (5 类) | 0.97 | 0.53 | 0.3 | 0.4 | 0.27 | >99 | |
布博 | 对象 (3 类) | 0.99 | 0.61 | 0.38 | 0.41 | 0.39 | 57 |
动作 (3 类) | 0.98 | 0.63 | 0.38 | 0.4 | 0.4 | 87 | |
动作 (5 类) | 0.99 | 0.45 | 0.16 | 0.29 | 0.13 | 88 | |
雏菊 | 对象 (3 类) | 1 | 0.61 | 0.38 | 0.43 | 0.39 | 43 |
动作 (3 类) | 0.97 | 0.62 | 0.35 | 0.38 | 0.35 | 60 | |
动作 (5 类) | 0.99 | 0.44 | 0.16 | 0.27 | 0.13 | 76 |
表 1:Ivis 机器学习算法对 通过 清醒 fMRI 在狗和人类中通过清醒 fMRI 获得的自然视频刺激的 BOLD 反应进行 100 次迭代训练和测试的汇总指标。 对象模型有三个目标类别(“狗”、“人”、“汽车”),动作模型有三个或五个类别(三个类别:“说话”、“吃”、“闻”;五个类别:“说话”、“吃”、“嗅”、“抚摸”、“玩耍”)。显著大于机会的值以粗体显示。
补充表 1:类标签。请点击此处下载此文件。
补充影片 1:示例视频剪辑。请点击此处下载此文件。
这项研究的结果表明,自然主义视频在狗的大脑中诱导了表征,这些表征在多次成像过程中足够稳定,可以用 fMRI 解码——类似于在人类和猴子中获得的结果20,23。虽然之前对犬视觉系统的 fMRI 研究呈现了剥离的刺激,例如中性背景下的面部或物体,但这里的结果表明,多个人和物体相互交互的自然视频会在狗皮层中诱导激活模式,这些模式可以以接近人类皮层中看到的可靠性进行解码。这种方法为研究狗的视觉系统的组织方式开辟了新的途径。
尽管犬 fMRI 领域发展迅速,但迄今为止,这些实验都依赖于相对贫乏的刺激,例如中性背景下的人或物体的图片 10,12,13。此外,虽然这些实验已经开始识别类似于灵长类动物梭形面部区域 (FFA) 的大脑区域,参与面部处理,以及用于对象处理的枕外侧皮层 (LOC),但对这些表征的性质仍然存在分歧,例如狗本身是否具有与灵长类动物相似的显着特征反应的面部区域,或者它们是否对狗和人类或面部和头部有单独的表征, 例如 9,13。当然,狗不是灵长类动物,我们不知道它们是如何通过声音和气味来解读这些脱离它们通常的多感官背景的人工刺激的。一些证据表明,狗不会将物体的图像视为真实事物的代表12。虽然不可能在扫描仪中创建真正的多感官体验,但使用自然主义视频可能会通过提供更接近现实世界的动态刺激来减轻一些人工现象,至少对狗来说是这样。出于同样的原因,在人类 fMRI 研究中使用自然刺激已经越来越受欢迎,例如,证明电影中的事件序列在多个时间尺度上在皮层中表示,并且电影可以有效地诱导可靠的情绪激活38。因此,虽然自然主义视频确实仍然是相对贫乏的刺激,但它们在人类神经科学中的成功引出了一个问题,即是否可以在狗身上获得类似的结果。
我们的结果表明,神经网络分类器成功地解码了来自狗大脑的某些类型的自然内容。考虑到刺激措施的复杂性,这一成功是一项令人印象深刻的壮举。重要的是,由于分类器是在看不见的视频剪辑上测试的,因此解码模型选择了可在剪辑中识别的广泛类别,而不是特定于单个场景的属性。我们应该注意,有多个指标可用于量化机器学习分类器的性能(表 1)。由于自然主义视频本质上不会所有类的出现次数相等,因此我们采取了谨慎的方法,从标签的随机排列中构建一个空分布,并评估与之相关的显著性。然后,我们发现狗模型的成功具有统计学意义,达到第 75-90 个百分位分数,但前提是视频是根据存在的动作(例如玩耍或说话)进行编码的。
与训练集不同,测试集在类之间不平衡。仅包含 20% 的数据,欠采样到最小的类大小将导致每个类的样本量非常小,因此计算的任何统计数据都是不可靠的。为了避免这种不平衡导致准确性膨胀的可能性,LRAP 的零分布是通过在每次模型迭代中随机排列类的顺序 1,000 次来计算的。此 null 分布可作为模型偶然执行情况的参考。然后,将真实的 LRAP 转换为此 null 分布中的百分位排名。非常高的百分位排名(例如 95%)表示在 1,000 次随机排列中,如此高的分数仅出现 5% 的时间。因此,这样的模型可以被认为表现得远高于偶然性。为了确定这些百分位排名是否显著大于偶然预期的排名,即统计上的第 50 个百分位,计算了每个模型所有 100 次迭代的中位 LRAP 百分位排名,并执行了单样本 Wilcoxon 有符号排名检验。
尽管主要目标是为狗开发自然视觉刺激的解码器,但与人类的比较是不可避免的。在这里,我们注意到两个主要差异:对于每种类型的分类器,人类模型的表现优于狗模型;人类模型在基于对象和动作的模型中都表现良好,而狗模型仅对基于动作的模型表现良好。人类模型的卓越性能可能是由于几个因素。人脑大约比狗脑大 10 倍,因此有更多的体素可供选择来构建分类器。为了将模型置于平等的地位,应该使用相同数量的体素,但这可以是绝对意义上的,也可以是相对意义上的。尽管最终模型基于每个大脑中前 5% 的信息体素(相对度量),但使用固定数量的体素可以获得类似的结果。因此,性能差异似乎更有可能与人类和狗如何感知视频刺激有关。如上所述,虽然狗和人类的感知都是多感官的,但狗的刺激可能比人类更贫乏。例如,大小提示可能会丢失,所有内容看起来都是现实世界的玩具版本。有一些证据表明,狗根据大小和质地对物体进行分类,然后再根据形状进行分类,这与人类几乎相反39.此外,此处未考虑的气味可能是狗物体辨别的重要信息来源,尤其是在识别同种动物或人类时 40,41,42。然而,即使没有大小或气味线索,在 MRI 扫描仪的不寻常环境中,分类器完全有效的事实表明,仍然有与狗相关的信息可以从它们的大脑中恢复。由于只有两只狗和两个人类,物种差异也可能是由于个体差异造成的。然而,这两只狗代表了受过 MRI 训练的狗中最好的,并且在观看视频时擅长保持静止。虽然较大的样本量肯定会允许在物种之间做出更可靠的区分,但能够进行清醒 fMRI 并且会观看视频足够长的狗数量很少,这总是限制了对所有狗的普遍性。虽然像猎犬这样的特殊品种可能具有更精细的视觉大脑反应,但我们认为个体的气质和训练更有可能成为从狗的大脑中恢复的主要决定因素。
这些物种差异提出了一个问题,即狗关注了视频的哪个方面。回答这个问题的一种方法依赖于更简单的视频刺激。然后,通过使用人类、狗和汽车的孤立图像,无论是单独还是一起在中性背景下,我们或许能够将突出的维度逆向工程到狗身上。然而,这在方法上既是低效的,又进一步使来自现实世界的刺激贫乏。注意力问题可以单独通过解码方法来解决,实际上,使用模型性能来确定正在关注的内容43。沿着这些思路,这里的结果表明,虽然人类同时关注演员和动作,但狗更关注动作本身。这可能是由于低级运动特征的差异,例如个人玩耍与进食时的运动频率,也可能是由于这些活动在更高级别上的分类表示。信息体素在整个狗皮层的分布表明,这些表示不仅仅是低级特征,否则它们将局限于视觉区域。使用更广泛的视频刺激的进一步研究可能会阐明运动在狗的类别区分中的作用。
总之,这项研究证明了使用 fMRI 从狗皮层恢复自然视觉信息的可行性,其方式与人类皮层相同。这个演示表明,即使没有声音或气味,复杂场景的突出维度也会由观看视频的狗编码,并且这些维度可以从它们的大脑中恢复。其次,基于能够完成此类任务的狗数量较少,信息在皮层中的分布可能比人类通常看到的更广泛,并且动作类型似乎比演员或物体的身份更容易恢复。这些结果开辟了一种研究狗如何感知它们与人类共享的环境(包括视频屏幕)的新方法,并为未来探索它们和其他非灵长类动物如何“看到”世界提出了丰富的途径。
没有。
我们感谢 Kate Revill、Raveena Chhibber 和 Jon King 在开发此分析时提供的有益见解,感谢 Mark Spivak 协助招募和训练犬只进行 MRI,感谢 Phyllis Guo 在视频创建和标记方面的帮助。我们还要感谢我们敬业的狗主人 Rebecca Beasley (Daisy) 和 Ashwin Sakhardande (Bhubo)。人体研究得到了美国国家眼科研究所的资助(DDD 的 R01 EY029724 的资助)。
Name | Company | Catalog Number | Comments |
3 T MRI Scanner | Siemens | Trio | |
Audio recordings of scanner noise | homemade | none | |
Camera gimbal | Hohem | iSteady PRO 3 | |
Dog-appropriate videos | homemade | none | |
fMRI processing software | AFNI | 20.3.01 | |
Mock scanner components | homemade | none | Mock head coil and scanner tube |
Neural net software | Ivis | 1.7.1 | |
Optical flow software | OpenCV | 4.2.0.34 | |
Projection system for scanner | homemade | none | |
Trophy Cam HD | Bushnell | 119874 | |
Video camera | GoPro | HERO7 | |
Visualization software | ITK-SNAP | 3.6.0 | |
Windows Video Editor | Microsoft | Windows 11 version |
请求许可使用此 JoVE 文章的文本或图形
请求许可This article has been published
Video Coming Soon
版权所属 © 2025 MyJoVE 公司版权所有,本公司不涉及任何医疗业务和医疗服务。