- 体验机器:我们的大脑如何预测和塑造现实
- (英)安迪·克拉克
- 1697字
- 2025-05-07 12:03:12
视觉的智能相机模型
大脑本质上是一台伟大的预测机器,这一理念是近期才出现的。在此之前,人们普遍认为感觉信息主要以“前馈”的方式处理,即由我们的感官获取并直接“正向”传入大脑之中。举一个研究得最为充分的例子,我们曾相信视觉信息会先由双目“登记”,然后以逐步深入的方式在大脑内部进行处理,提取出越发抽象的信息形式。大脑可能先从入射光的模式中提取有关简单特征的信息,如线条、斑点和边缘,然后将它们组合成更大、更复杂的整体。我称之为视觉的智能相机模型。这显然不是一台相机,而是一个高度智能的系统。但和常见的相机一样,影响的流动方向主要是向内的:从双目到大脑。直到在这个过程中某个较晚的节点,生命记忆和世界知识才会参与其中,让你(感知者)得以理解自身所处的世界中的事物。
智能相机模型,即感知的前馈观的各种版本在哲学、神经科学和人工智能领域都颇具影响力。这种观点很直观,因为我们通常认为感知完全是关于从世界到心智的信息流动。这种观点可追溯至1664年出版的笛卡儿的遗作《论人》。笛卡儿将感知描述为内管网络的复杂开合,首先将世界的图像印在感官(如眼睛)上,然后通过由微小通道构成的网络传递至大脑深处。笛卡儿相信,当这些源于外部世界(和身体内部)的印象流入大脑,它们就会被保存在我们的脑海之中,就像手指压入蜡模后,有关其形状的信息就会被保留下来。
我们从未知晓笛卡儿所描述的机制如何运作。但即使更为复杂的科学理解不断出现,笛卡儿的核心思想依然稳固,即感知的大脑是一个相对被动的器官,接收外界感觉传入,而后主要以前馈(从外到内)的方式“处理”它们。这一思想在20世纪晚期的认知神经科学领域得到了广泛认可,或许是因为它似乎可被视为大卫·马尔极具影响力的计算机视觉模型的指导原则。[2]
马尔是一位举足轻重的人物,他在神经科学、计算机视觉和人工智能方面的工作是对认知科学有史以来最为重要的贡献。在马尔的描述中,视觉处理始于检测某些传入信号中的基本要素,例如有序的像素阵列。自此,分层处理逐渐形成更为复杂的理解。例如,下一阶段可能会寻找像素强度相比相邻像素显示出快速变化的地方,这通常是现实世界中边界或边缘的存在线索。随着处理过程逐步推进,一步一步地深入大脑,更多模式被进一步检测到,如表征条纹的重复序列。在这里,视觉是对原始信号进行一系列操作的过程,例如检测边缘或条纹,这些操作逐渐揭示环境中越来越复杂的模式,即传入信号的来源。最终,检测到的复杂模式与知识和记忆相结合,形成一幅关于现实场景的三维图像(尽管值得注意的是,关于这幅图像具体如何形成的难题从未得到令人满意的解答)。
就像任何其他的计算机模型一样,马尔的计算机模型的独特之处在于明确指出了早期阶段的视觉处理可能涉及的重要计算,尽管关键的最终步骤依然有些神秘莫测。马尔的模型多年来不但是人工视觉领域的标准模型,还是神经科学领域的标准模型。即使到了21世纪,许多学者仍沿袭马尔的方向,认为视觉系统主要是对传入的感觉信息进行前馈分析的工具。[3]
然而,值得注意的是,马尔的模型中缺少另一个影响方向——一种相反的方向,从大脑深处下行至眼睛和其他感官。据估计,以这种方式向相反方向传递信号的神经元连接数量大幅超过正向传递信号的连接数量,二者的比例在一些区域甚至高达4∶1。[4]从大脑深处向感官外围传递信息的这种下行连接的作用到底是什么?这种连接方向与马尔早期计算机模型中描述的执行处理任务所需的连接方向相反,但它直达那些特定区域。[5]
像这样的实际神经线路在安装和维护上是昂贵的。据估计,大脑重量仅占体重的约2%,却耗费了人体全部能量的约20%。[6]它是迄今为止我们最“昂贵”的自适应配件。然而,我们现在已经知道,大脑能耗的很大一部分主要用于建立和维护一个庞大的下行(和横向)连接网络,不仅覆盖早期视觉处理系统,而且覆盖整个大脑。这是一个真正的谜。它令人费解到足以让人工智能先驱帕特里克·温斯顿在2012年评论说,由于有如此多信息明显向另一个方向(下行)流动,我们面对的是“一个我们几乎一无所知的奇怪架构”。[7]但是,一旦我们认识到一个大胆的新主张的吸引力,一切就会变得明朗起来:大脑只不过是一台大规模的预测机器。