Ep1. 我们如何理解世界：语言、图像与东西方思维的差异｜对谈北大人类学家杨云鬯 - 主题精读稿

2026年4月1日

Ep1. 我们如何理解世界：语言、图像与东西方思维的差异｜对谈北大人类学家杨云鬯 - 主题精读稿

前言：当语言遇见图像，两种文明的底层逻辑浮出水面

这期节目围绕一个看似简单却极为深刻的母题展开：语言与图像，哪种更接近我们理解世界的本质？北大人类学助理教授杨云鬯从象形文字与表音文字的根源性差异出发，揭示了东西方思维方式的底层分野。对话触及了多个值得深思的议题——没有文字的民族如何通过图像传承文化、图像泛滥时代人们正在失去准确表达自己的能力、以及 AI 生成图像时信息增值与减损同步发生的悖论。最后，当 AI 作为"第三位主持人"加入对话，仅用三个问题便触及了两位对谈者的认知边界，这本身就是对"语言的边界就是世界的边界"最生动的注脚。

一、人类学家的观看之道：什么是一张"好"的照片 (00:00 - 11:30)

杨云鬯本科在中山大学学人类学，硕士就读于伦敦大学亚非学院，博士在伦敦大学学院攻读社会人类学，如今在北大社会学系担任助理教授。他的学术之路始于一个偶然——大二迷上摄影后，发现人类学中有一个分支叫视觉人类学（visual anthropology）。中山大学的邓齐耀老师讲授"观看之道"（way of seeing）时提出，影视人类学研究的不仅仅是你看到的结果，更是"看"这个行为所形成的社会关系："我看人看我，人看我看人"——这种关系可以无限叠加延伸。这彻底打开了他对影像的理解。

此后他投了摄影无忌平台的中国新锐摄影大赛并入围，半只脚踏入了艺术圈。但从人类学的角度评判影像，标准和艺术圈颇为不同。人类学家眼中一张好的照片必须是"可经历的"（experienceable photograph）——不论对摄影师、被摄对象还是观众，都能够回到那个场景中去，与照片拍摄的元语境产生关联。它具有某种民族志的特性，甚至可以包含模糊性，但总能让你从中获得什么。这种判断标准超越了纯粹的美学层面，指向一种更深层的"在场感"。

二、田野调查的起源与中国社会学人类学不分家的特殊国情 (11:30 - 21:53)

田野调查作为研究方法，远不止属于人文社科。地质学、生物学同样需要研究者离开书斋、前往现场进行深入观察。但这个方法之所以总被冠以"社会学和人类学的"前缀，与二十世纪二三十年代现代人类学的建立密不可分。马林诺夫斯基在一战期间困于新几内亚的特罗布里安群岛，与岛民同吃同住同劳动，研究其生活的方方面面，最终写成《西太平洋的航海者》。这本书专门论述了科学的民族志观察应当如何操作，由此奠定了田野调查方法论的基础。

中国的社会学和人类学为何没有分开，背后有着特殊的历史脉络。三十年代，吴文藻先生在燕京大学推动社会学发展，面对内忧外患的时局，想找到一套方法了解国情、解决困境。他安排费孝通去伦敦政治经济学院跟马林诺夫斯基学田野调查；同时邀请芝加哥学派的罗伯特·帕克到燕京大学讲授社区研究。帕克的芝加哥社区研究以街区、邻里为单位，深入城市化进程中暴露的种族与贫穷问题。费孝通学成归来后意识到，中国既非纯然的大都市社会，也非所谓的"初民社会"，不同地区社会差异巨大，因此必须同时做城市与乡土的社区研究——于是社会学与人类学在中国就此合流，费孝通本人也被两个学科共同奉为奠基人。

在方法论上，二者后来走向了不同方向：社会学广泛采用量化研究和统计学，追求趋势分析和可解释性模型；人类学则转向更加人文化的路径，强调民族志书写、研究者自身位置的反思，以及用"四两拨千斤"的方式触动人心。人类学家有一种使命感——把统计数据中被忽视的个体、被遗忘的反例重新挖掘出来。

三、象形文字与表音文字：两种文明的起源密码 (21:53 - 32:25)

杨云鬯目前在做的项目叫"中国图像人类学的历史源流与当代应用"，其灵感正来自中西方对待文字与图像的根本差异。以英语为例，字母对应读音，读音拼成单词，单词指向现实中的物件——当一个人说"dog"时，脑海中会浮现一只狗的形象，但这不是因为 d-o-g 三个字母拼起来长得像狗。中文则完全是另一套逻辑：先有具体事物，再有图像，图像经过抽象和简化才形成文字。在大量汉字上，我们依然能看到图像的痕迹。这种对文字的不同把握方式，代表了两种文明在根源上截然不同的起源。

这种差异在没有文字的少数民族中体现得更为鲜明。有些民族的语言纯靠口口相传，而文化传承则依赖图像——通过织布、刺绣，将看似装饰性的图案编织成蕴含神话传说的故事。这不仅存在于中国的少数民族中，北美印第安原住民和澳大利亚原住民的文化中同样如此。

图像作为传承媒介，同时具备精确性与含混性。澳大利亚土著的"歌录"传统中，特定的圈圈和线条能让族人联想到迁徙的故事，这是精确性；但在具体讲述时允许产生变体和微妙差异，因为没有语言施加的精确束缚，这就是含混性——而这种含混性恰恰构成了图像在沟通方面的独特优势。

北美印第安霍皮族的例子更能说明问题：他们画出一只鸟的图像，鸟身体的每一部分都代表一个传说故事。非本族人要研究这些极其困难——必须完全了解其神话体系，知道他们如何画出这些图像。而这些图像又内嵌在陶罐等其他媒介上，书写媒介本身也构成了语言的复杂性。所以，虽然文化没有高低之分，但不同语言的能力（capability）确实不同——可以剥离价值判断，直面每种语言在运作模式和复杂方向上的差异。

四、语言的边界就是世界的边界 (32:25 - 37:09)

语言它不仅仅是我们使用的一种工具，它还代表了我们能够在这个世界可触及到的那一个边缘地带。

维特根斯坦这句"语言的边界就是世界的边界"，指向一个深刻的事实：你无法描述一个不可描述之物。但人会好奇自己不知道什么——那个"未知"以一种图像的、整体性的方式存在于脑海之中，只不过语言还没有触及。

沿着这个逻辑推演，中文和英文的不同运作模式，将各自的文化带向了不同的界面，由此产生不同的思维方式。**为什么现代化和资本主义没有在中国出现而是在西方出现？为什么霍皮族没有发展出资本主义经济体系？这些都多少与语言有关。**一个地域最早的人类文明活动催生了特定的交流方式，这种交流方式自身的复杂性影响了人们处理事物的效率，进而影响了整个文明形态的发展走向。

谈到拼音，杨云鬯认为推行拼音不能简单理解为对西方表音文字的"妥协"。当时中国文盲率太高，汉字经过几千年发展，虽然仍是象形文字，但已经不可能画一只狗来表示"狗"了。拼音和文字简化都是为降低文盲率而进行的全国性推广工作，其逻辑与西方字母文字的自然形成过程有本质区别。

罗素提出过一组重要概念来理解人的认识论：**"亲知"（acquaintance），即直接的一手知识；"描述性知识"（description），即通过语言转述的二手知识。**你可以用语言描述苹果是红色的、圆的；但也可以直接把苹果放到面前，即使不懂任何语言，你也知道它是什么。这种一手知识对于每个个体具有不可复制性，这可能是大模型乃至未来许多技术都难以达到的——除非脑机接口。

五、大模型的"知"与图像的含混之力 (38:08 - 45:23)

大模型到底是"知"还是"不知"？从人类学视角看，**大模型是"知"的——它对文本进行处理和阅读，输出内容具有信息性，而一旦一段文字是可阅读的，就可以说它是"知"的。**只不过它具体是怎样的"知"、能否满足特定语境中对语言的需要，需要另做评判。

但大模型有一个根本性的局限：无论多么精细的 prompt，生成的图像都不可能百分之百与人脑海中的想象一致。这与罗素那组认识论概念直接相关——二手知识通过语言传递到另一个个体（不论是人还是大模型），必然会经过那个个体自身知识体系的转化和输出，一手知识的不可复制性在此暴露无遗。

图像与语言在"信息性"上的差异值得深思。谈到语言的错误，我们说误读、误译、误解——语言承载着精确性的期望，人们要求语言像手术刀一般准确。但图像不同，没有人会说"图像性的错误"；不同的人对同一张图有不同的理解，这被视为自然而然的事。

本雅明提出的"光学无意识"（optical unconsciousness）概念精妙地捕捉了这一点：摄影师将麦克风置于画面中心，想让观众关注它，但偏偏有人注意到了背景里的一张纸巾——这些细枝末节反而成为某些人关注图像的最重要原因。再加上摄影可以剪切、放大、缩小，图像带来的含混性和复杂性远超语言。语言说出来就是说出来的，断章取义会被指为错误；但图像天然允许多样化的解读。

正是因为语言承载了精确性的期望，九十年代人文社科领域出现"图像转向"（pictorial turn）时，学者们面临的最大挑战是解构语言的霸权——长期以来，书面语言在研究中始终占据更重要的位置，图像被视为更劣等的研究素材。

六、图像时代的失语症：我们正在失去什么 (45:23 - 53:32)

在一个图像的时代里面，有可能你会患上失语症。

这不是危言耸听。刷完短视频后，很多人发现自己连 140 个字的转发语都写不出来。日本也有研究显示，大量观看动漫的青少年正在失去写作能力。失语的原因不在于短视频或动漫中没有语言——里面当然有大量台词——而在于**当你观看时，图像吸引了你的注意力，你实际上缺少了自己进行文字表达和写作训练的机会。**注意力在图像与文字之间涣散，无法专注于纯粹的语言思考。

但杨云鬯并不主张因此畏惧或取消图像。如果那样做，反而可能退回中世纪对偶像的恐惧，重演历史上的图像破坏运动。图像泛滥确实是问题——经过大量传播和剪辑后，一张图像可能早已失去原本的意义，衍生出完全不同的面貌——但解决之道不在于消灭图像。

AI 主持人在此处提出了一个好问题：日常沟通中，追求精确表达和追求多样化表达哪个更重要？莫子皓认为工作场合中精确性更重要，中英混杂不是"装"，而是某些英文单词确实能更精确地表达特定含义。杨云鬯则指出，精确性与多样性不是非此即彼的关系，而是相互包含和嵌套的——比如影像论文（photo essay）和论文电影（essay film）就是用多媒介手段把学术问题讲清楚，图像的存在既丰富了表达方式，又可能加强了文字的精确性。

关于拼音对思维的影响，杨云鬯的感受更多停留在身体层面：从诺基亚九宫格到 iPhone 全键盘，拼音与他产生关联的方式随技术演变而变化。但他认为拼音对日常思维习惯的塑造作用可能并不那么本质。

七、AI 生图的悖论：增值与减损同时发生 (53:32 - 1:02:00)

AI 主持人提出的第二个问题直击核心：在语言到图像的转换过程中，信息增值和损耗最剧烈的环节分别是什么？AI 生成的图像是真正理解了语言的深层意图，还是仅仅做了一次漂亮的转码？

杨云鬯的回答颇为精辟：**基于 prompt 生成的图像，信息的增值与减损一定是同时发生的过程。**那张图像永远不可能与脑海中的 image 完全对应——prompt 之外 AI 自由发挥的部分，就是意义的增值；原本预想却未呈现的东西，就是意义的减损。

他用自己的教学经历做了生动的说明。去年让 ChatGPT 生成本雅明、克拉考尔和齐梅尔三位理论家的图像，结果偏漫画风格，只有本雅明因标志性的眼镜、发型和手提箱而可辨识，另外两人都被处理成"大胡子欧陆哲学家"的刻板形象。今年用几乎同样的 prompt，生成的却是摄影般逼真的图像，三人基于各自真实照片被还原，站在魏玛时期德国的现代化都市场景中。一年之间的进步惊人。

但"差点东西"的感觉始终存在。莫子皓说自己能分辨出 AI 生成的文字、图像和视频，却很难用语言描述为什么。杨云鬯指出了一个微妙之处——AI 主持人在总结他们的对话时说"既有个性又有普遍性"，但实际上当时的回答"个性大于普遍性"。AI 做了延伸和圆场，不得罪人，显得过于滴水不漏。而真实的人类对话，恰恰不会这么面面俱到。

AI 生成图像面临的另一个悖论是"恐怖谷效应"（uncanny valley）与溯源性问题。那三位理论家在历史上从未有过合照，AI 创造了一个不存在的场景——这既是它的价值所在，也是一眼就能被拆穿的破绽。但这个问题又并非 AI 独有：自暗房时代起，摄影师就能通过放大、缩小、剪辑、遮蔽来操控照片，更不用说后来的 Photoshop。AI 生图与传统图像操纵之间究竟是什么关系，这是一个值得严肃探究的问题。

节目最后，AI 主持人问出了两位对谈者都坦承无法回答的问题——面对系统性因素导致的失语，最有效的抵抗方式是什么？莫子皓感慨：只需要三个问题，AI 就已经超越了我们的认知边界。这恰好印证了整期节目的核心命题——语言的边界确实就是世界的边界，而 AI 正在帮助我们看见那条边界线。