如果给你看一张香蕉的黑白照片,并问:“它原本是什么颜色?”你大概会脱口而出:黄色。毕竟,香蕉实在是再令人熟悉不过了。
但世界上偏偏有这样一小撮人,他们认识香蕉,也认识黄色。可当那张黑白照片摆在面前时,他们却不知道香蕉的颜色。哪怕眼前是一张红色香蕉的图片,他们也未必会觉得哪里不对。
北京大学毕彦超团队和山西医科大学王效春团队仔细研究[1]了这些人的大脑:他们的视觉皮层功能完好,视觉本身并未受损;真正“断线”的,其实是视觉皮层与大脑中语言相关区域之间的联系。
可这就更让人困惑了。语言出了问题,为何会影响对视觉的理解?
盲人也能“看”到颜色
从出生起,我们便不停地和世界打交道,用眼睛看,用耳朵听,用鼻子闻,用嘴巴尝,用皮肤触摸。正是通过这样的方式,我们把无数的经验和知识存进大脑,并在运用知识时重新调取,再次激活相应的神经通路。
不过,这些知识并不只存储在相应的感知觉皮质里,大脑还会从这些具体的体验中提取出更抽象的信息,整合后存放在一个名为前颞叶(ATL)的区域中。
可如果知识的基础仅来自于感官体验,那么无法亲身感知的东西又该如何存进大脑呢?先天失明的人从未见过任何颜色。他们对颜色的理解会与视力健全者有区别吗?

先天失明的人对颜色的理解会与视力健全者有区别吗?丨图虫创意
为了回答这个问题,毕彦超团队招募了一批先天性失明和早期失明的受试者[2],让他们回答了一系列问题:比如某种果蔬是什么颜色,以及不同果蔬的颜色是否相似。研究人员比较了这些受试者与视力健全者的大脑活动,结果发现,无论是否失明,表征颜色信息时他们前颞叶的活动都高度相似。
“盲人无法通过感官来获得颜色知识,”毕彦超的博士研究生陈昊扬解释道,“他们习得颜色知识的唯一途径只能是语言。”
不过,视力健全者在表征颜色时会同时利用两套系统:一套是前述的语言系统;另一套则是感觉系统,即视觉皮层直接看到的颜色。这是盲人受试者并不具备的能力。“也就是说,视力健全者既拥有来自视觉的具身经验,同时语言本身也可以成为学习和整合知识的重要来源,而这些知识会存储在前颞叶中。”陈昊扬补充道。
这两套知识系统并非独立运作。前颞叶会通过白质纤维束与视觉皮层保持沟通,二者在功能上彼此影响、相互配合。那么,当两套系统之间的交流被强行切断,会发生什么呢?
这就要说回文章开头的那群人——一类特殊的卒中患者。他们的视觉皮层并未受损,视觉输入依然完好;真正受损的,是连接前颞叶与视觉皮层的那束白质纤维。正是这样一个看似不起眼的病灶,却带来了出乎意料的后果。
他们能认出图片中的果蔬是否是香蕉、西红柿或土豆,也能从一堆色块中找出红色或黄色。但如果摆在面前的是果蔬的灰度图片,他们便无法判断其颜色了。而且,白质纤维受损越严重的患者,就越难以判断灰度果蔬的真实颜色,同时他们大脑活动中的颜色编码也会更差。

他们认识香蕉也认识黄色,却不知道香蕉是黄色的丨图虫创意
哪怕视觉功能完好无损,但只要语言缺位,我们也无法提取视觉相关的知识。
用AI来验证,语言正在影响你“看见”的世界
语言会影响我们对视觉知识的存储和提取,可谁又会莫名其妙开始回忆香蕉的颜色呢?这听上去对日常生活没什么影响。但是,在一篇近期发表于《自然·人类行为》[3]的论文中,毕彦超团队联合王效春团队和北京大学朱毅鑫团队,发现语言可能也会影响你此时此刻所“看见”的世界。
这一次,他们借助了人工智能(AI)模型。“因为如果只依靠人类受试者来研究语言对视觉的影响,会遇到一个非常棘手的问题,”陈昊扬解释道,“在真实生活中,语言输入和视觉输入往往是高度耦合的,很难彻底区分两者。”
譬如,当你学习“苹果”这个词时,往往是父母指着它告诉你这是“苹果”。这种耦合让科学家非常头疼:我们无法确定一个概念的习得,究竟该归功于耳朵听到的“语言指令”,还是眼睛看到的“物理世界”。即便多项研究显示听到词语会激活大脑视觉皮层,但仍旧无法断言:这到底是语言系统对视觉的重塑,还是仅仅因为听到词汇触发了视觉皮层对过往视觉经验(即“苹果”)的简单回放——也就是常说的心理联想。

人类大脑非常复杂丨Pixabay
而AI模型恰恰提供了一种前所未有的分离手段。研究人员可以严格控制输入模型的数据类型,继而比较在不同训练条件下得到的模型如何响应同一幅视觉图像,从而推断不同模态的输入有何影响。因此,研究团队选取了三个架构相同、仅训练时语言输入不同的AI模型。
第一个AI模型是纯视觉模型MoCo。它在训练过程中只接受过图片数据输入,“认识世界”的方式完全依赖于视觉本身。
第二个模型是通过标签进行监督训练的视觉模型ResNet-50。在它的训练过程中,每类图片输入都同时伴随相应的语言标签。譬如,上千张玫瑰花的图片可能会对应于“玫瑰”或“rose”。毕彦超说:“可以将标签理解为词汇,人类会通过词汇来从具体的感知中抽象出概念和分类。”
而第三个模型则是通过完整文本来监督训练的视觉模型——OpenAI于2021年发布的CLIP。在它的训练过程中,每张图片都会对应于一句描述,类似于“木头桌子上放着一个纯白色的马克杯”。
接下来,研究人员将此前在人类受试者实验中使用过的图片抛给了这些模型,观察它们内部的反应模式,并与人类受试者在观看同样图片时的大脑活动进行对比。这些图片既包括单一物体的彩色图像、果蔬的灰度图像,也包括物体出现在不同场景中的复杂图片。
研究结果显示,给AI模型加入文本训练后,它能习得一些特征,而这些特征恰恰和人类视觉皮层中那些由语言引发的独特活动模式相似。而前文中提到的那批特殊卒中患者,由于语言的缺位,与健康受试者相反,他们的大脑反应更像那个只接受过视觉输入的模型MoCo。

那批特殊卒中患者,他们的大脑反应更像那个只接受过视觉输入的模型MoCo丨图虫创意
毕彦超解释道:“在完好的人类大脑中,视觉和语言之间会不断对话。可当这种对话被迫中断之后,视觉系统就好像被解放了。而且,相比于人类的大脑,猴子的大脑活动也更接近纯视觉的AI模型。”
此外,这些数据集中还包括早期失聪、但能熟练使用手语的听障受试者的数据,他们的大脑活动同样更接近CLIP模型。无论是通过语音、文字还是手语习得的语言,都可能会深刻地影响我们的视觉感知。
语言对认知的影响,可能被低估了
语言能在多大程度上影响人类认知,不同领域的研究者一直存在分歧。
早在20世纪,就有学者激进地提出:语言可能决定人类认知。随着研究不断深入,“现在已经很少有人再支持这样的‘决定论’论调了,不过仍有相当一部分认知科学家相信,语言可能会调节我们的认知”,陈昊扬说道。
可语言究竟能“调节”哪个层级的认知,不同认知科学家依然看法不一。陈昊扬说:“大家普遍认为语言能影响高层次的认知活动,但对于视觉等最基础的感知过程,许多认知科学家都认为语言无法真正‘穿透’。”
而在神经科学家眼中,人类与其他非人灵长类的大脑,在结构和功能上并没有本质差异。毕彦超拿起办公室桌上的梨:“比如说这颗梨,我们看到、摸到、吃下它后,就会对它形成感知,并为它贴上相应标签。在这一点上,我们和动物是非常相似的。”
因此,许多神经科学家都认为,语言不过是一种交流工具。它是在动物已有的感知系统之上额外加装的一套接口,没有额外的功能,更不会影响我们对世界的感知。但在毕彦超看来,正因为科学家习惯用动物模型来理解人脑,才会一直低估语言对认知的影响。

从左到右依次为:朱毅鑫、毕彦超、王晓莎、陈昊扬|图片来源:毕彦超,中国神经科学学会认知神经生物学分会
毕彦超打了个比方:“鸟类的祖先演化出翅膀,活动范围发生了质的飞跃,因此腿、肌肉乃至整个身体结构都随之改变。同样,经过漫长的演化,语言已经成了一种人类用来抽象编码和组织信息的符号系统。这套系统一旦出现,我们就不再受限于感官本身,可以借助事物间的抽象关系,去理解那些无法被直接感知的概念。而视觉系统,也会开始‘听见’语言系统传递来的信息,在不知不觉中受到影响。”
或许也正因为语言的抽象编码中蕴藏着非凡的力量,大语言模型才得以如此广泛地应用。在毕彦超看来,认知科学与AI研究,如今也正在这样的浪潮中彼此靠近:“我们像是双向奔赴着拼一幅拼图。虽然AI模型的内部机制仍是黑箱,但它的输入和输出是清晰的;人脑中固然还有大量未解之谜,但解剖结构和生理数据就摆在那里。两者可以相互启发,用对方更熟悉的部分,去检验自己尚未理解的那一面。”
参考文献
[1]https://journals.plos.org/plosbiology/article?id=10.1371/journal.pbio.3003161
[2]https://www.cell.com/neuron/fulltext/S0896-6273(20)30279-8
[3]https://www.nature.com/articles/s41562-025-02357-5
作者:黄雨佳
编辑:黎小球