为什么汉语方言没有文字?
大语言模型的出现,再次突出了语言做为思想“操作界面”的重要性(或者你也可以说没有语言就没有思想)。加上我又不断遇到“汉语是什么”,“中文是什么”,“Chinese 是什么“这样的问题,想不明白。于是我去读了语言学家 Victor Mair 对“汉语”历史的介绍。文章叫《Language and Script》,是《Columbia History of Chinese Literature》(2001)的一个章节。
研究语言、文字的发展,很多时候历史证据不足。对语言的学术讨论也无法在政治真空中进行。不过 Mair 已经是最好的介绍人之一了,他一辈子研究汉语,参与写语言学博客也几十年(https://languagelog.ldc.upenn.edu/ )。语言学家通过追溯不同时期不同语言的共同特点,画出它们发展的历史。他们最终的分类方法,在不同地区、时期都尽量统一,所以证据标准还是比普通人闲聊时高太多。
Mair 介绍里让我最意外的三点:
- 印度语言(Indic languages)之间的差异小于汉语语言(Sinitic languages)之间的差异。
- 汉语和阿拉伯语是书面语(literary)和本地话(vernacular)差异最大的语言。
- 佛教对汉语的影响非常大,除了引入很多现在常用、我们已经看不出来源佛教的词,还大幅度提高了本地话的地位。
历史
人类语言大概出现于 10 万 - 15 万年前,远早于文字。但由于我们只能通过书写、流传下来的资料研究历史,所以我们对语言的了解非常有限。
书写历史:
- 汉字祖先甲骨文出现于四千年前黄河流域的商朝(前 1600 年-前 1046 年)。
- 之后的周朝(前 1100 年-前 771 年),统治阶层很可能说和写另一种语言。但他们在统治的时候沿用了本地语言。这种“征服者沿用本土语言”的做法之后一直存在。
- 秦(前 221- 前 207 年)和周都是从西北进攻中原。这时汉语,Mair 把它叫 the Sinitic language group(之后会解释为什么这是一个语言族群而不是一个语言),已经成型。
- 汉朝(前 206 年 - 220 年),the Sinitic language group 确立。Mair 说“汉语”这两个字,是人们在 Modern Standard Mandarin(现代标准官话)中指 Sinitic 的表达。也有人建议把 Sinitic 叫 Hannic。
- 汉以前的 Sinitic,即 Old Sinitic,学者无法还原它的发音。但汉以后的发音,学界有基本共识。
外界影响
- 在汉或汉以前,Sinitic 已经从其他语言借用大量词汇。从印欧语系,特别是伊朗语族,借用的词有:轱辘、珊瑚、麦、巫、狮子、枇杷、蜜……
- 随着说 Sinitic 的人南下扩张,他们借用了很多长江和长江以南的本地、非 Sinitic 语言。长江的江,以及弩、笙,都是南方词。
- 汉以后的东晋(317 — 420 年)、南北朝(420 — 589 年),统治者说阿尔泰语言,于是 Sinitic 的词汇、语素、语音都被阿尔泰化。(阿尔泰,Altaic 这个语言分类现在仍有争议;有一种对阿尔泰语言的理解是,它现在包括土耳其、蒙古、满语。)
- 之后的金、辽、元、清时期,阿尔泰语言再次影响 Sinitic 语言,至少是说这个语言的北方人。
- 汉朝以后,佛教进入也带来大量印度语言(Indic languages)的影响。16 世纪中叶开始,不同西方人带来了印欧语系的影响。但这两波的影响,整体上不大。
我之前以为汉语显然被分进汉藏语系(Sino-Tibetan),但 Mair 说,汉语和藏语、缅语之间的具体关联还没有被研究透彻。也有学者认为汉语和南太平洋语系(Austronesian)有联系。他认为,对新时期时代(Neolithic period,也就是农业革命,前 7000 到 1700 年)的考古发现表明,Sinitic languages 是几个甚至更多语言族群互相影响的结果。
南太平洋语系(Austronesian)对汉语的影响主要反映在南方语言上。中国南北有巨大差异,从语言学上有印证,基因、牙齿结构、指纹、姓氏、宗族、习惯上都有印证。
定义:什么是语言?什么是“汉语”?
Mair 不喜欢用“语言是有军队的方言”来定义语言,因为这样的定义含混不清:什么又是方言?为什么有的地方有军队但有多种语言?有的地方有语言但是没有军队?
他作为语言学家,还是喜欢把“互相听不懂”(mutally unintelligble)的都叫语言,一种语言下面的叫方言。当然,他也承认,这个测试并不完全清楚。英国约克郡的人说话,美国中西部的人听不懂。但前者还是被认为是一种英语方言。
按照“互相听不懂”这个定义,Sinitic languages 下面有几十种语言(languages),几百种方言(dialects),几千种子方言(subdialects)。这些当然还不包括其他语系的语言(蒙、满、维、哈萨克……)。官方对 Mair 这几十种语言的定义是“八大方言”。
Mair 不认为这些语言是方言。而且他说,最大的错误认知,是不同地方的“话”,写下来都是一样的,大家互相都能看懂,“文字跨越方言的障碍”。Mair 用印度做了比较。梵语(Sanskrit)类似汉语的文言,是精英的书面语。精英的本地话是自己家的地方话,所以精英为了书写,要学习一种新语言。但印度和中国不一样的地方在于,印度主要的本地话,都用它们自己的文字(script)写下来了。所以,它们被认作是不同的语言。(我觉得看地图上不同州和城市的名字,能直观理解。)

Mair 说,从语音、语法、词汇、句子结构、惯用语等不同角度来说,印度不同“本地话”之间的差异,小于中国不同“本地话”的差异。所以如果印度的这些叫做不同语言(印地语/乌尔都语、孟加拉语……),那么中国的这些从逻辑上讲也应该是。
他认为,我们平时混用“汉语”、“中国话”、“中文”,英文中统称 "Chinese",导致指代不清。他喜欢的用法是,Sinitic/Hannic/汉语,指一个语言族群(language group),类似印欧语系下面的 Germanic languages。它往下一级是语言分支(language branches),再往下才是方言。由于 Sinitic 和几大语系的关系仍不清楚,Sinitic 也可能自己是一个独立的 language family,那所有的分类都要再往上提高一层。Mair 认为,只有用这种时空统一的标准,我们才能得到科学的分类。
书面语(literary)和本地话(vernacular)
书面语比本地话简洁。Mair 说,书面语的省略可能最早是因为在骨头上书写困难,且使用书面文字的场景都很正式,但后来,省略变成了精英风尚。而且汉语文言文中,不仅省略能省的词,还通过大量指代,省略整块信息。我不知道这是精英维持自身团体利益的方式、精英保证精英阶层不扩张的方式,还是统治者控制社会的方式,总之,Mair 说,文言文对记忆力的要求是语言中罕见的,首先,你得背诵几千个字的样子,其次,你看到一个词可能就要知道一整个典故。
Mair 说,汉字的特点加剧了书面和本地话的区别。汉字在声音上传递的信息非常少,但视觉上包含的意思非常丰富。这样的特定适合书面语,但不适合把本地话写下来。
同一个社会,在正式、非正式场合,用两种完全不同的语言,这个现象叫 diglossia。Mair 认为,汉语在这点上和阿拉伯语非常像,书面语和本地话之间的差异是世界各语言里最大的。阿拉伯语的书面语也是典雅、阿拉伯世界统一的,但本地话是互相之间听不懂的本地话。反观欧洲和印度,例如英语、法语、德语、印地语、孟加拉语,书面语和本地话的差异非常小。
Mair 觉得,汉语和阿拉伯语在语言上完全没有关联,但展示出的书面语、本地话差异高度一致,应该是有同样的社会、意识形态原因导致了这样的情况。(如果有人写本这样的书一定很精彩。)
定义:什么是“官话”(Mandarin)?
Mair 说,是佛教的传播让汉语本地话进入了文人的世界(大约公元后几百年)。在此之前,文学文字是“反本地话”的。至于为什么佛教提高了本地话的地位,Mair 列出了很多原因,大多与佛教传教习惯、佛教经文翻译有关。总之,他说,佛教开启了汉语的书面白话(written vernacular),这点是毋庸置疑的。
不过,中国一直只有一种书面白话,即唐代的“官话”(Mandarin)。学者还在研究它起源于哪里(一种说法是洛阳),是否包含南方语言的元素,不过我们知道的是,它从高层官员之间传开。这些官员的母语是他们的本地话(互相听不懂),但他们沟通用的是 Mandarin,所以叫官话。官话在宋朝继续扩张,元朝已经成为了全国范围内小部分精英使用的语言。(官话后来也被需要大量走动的商人和和尚使用。)
用本地话写成的文字作品在宋元明清时期大量传播,主要以小说、戏剧为主,诗歌、非虚构这些高级类别仍然用文言文。
官话本质上是一个北方、接近阿尔泰统治者母语的语言。不过官话也在不同朝代根据首都的变迁发生了变化。它是 Sinitic languages 里最不像早期 Sinitic 的。
为什么本地话除了官话,都没被写成文字?
Mair 没有明确回答这个问题。我读他的介绍,感觉根本上有两点:1)汉字本身的不适配;2)历史上的中央集权。
汉字是极少的又表音、又表意文字,所以把新的一种本地话用汉字来表示极为困难。莎士比亚据说创造了 1700 个词,但他没有增加字母的数量。汉字要造新词,要么增加整个字库的数量(那么所有使用者的背诵数量就要增加),要么把现有语素重新组合一下(但对于只有音的本地话来说何其困难)。Mair 提到的例子是,如果用汉字写闽南话,且完全不用官话的词汇,25% 的闽南话语素找不到字来表示。用北京话写作的老舍(1899 - 1966)说,他写小说有很多想用的表达,但找不到字来表示。
第二就是历史上的中央集权。Mair 说,1950 - 1960 年代,福建和台湾有几万人用罗马字母写闽南语,但被国民党禁止了。其他时候的情况可以想象。
小范围内使用的本地话文字版也还是有。Mair 举了两个例子。一是 1970 年代发现的女书,湖南乡下女性之间从清朝开始使用的文字。文字用菱形的图案表音,用简单的方式让女性之间可以交流。二是是东干族文字。东干族是清朝从中国西北逃到沙俄(现哈萨克斯坦、吉尔吉吉斯斯坦)的回族人,他们一开始用拉丁字母、后来用西里尔字母表示他们的汉语本地话。
唯一没有字母表的语言
语言学上有更精准的定义,但通俗来说,汉语应该是现在还通行的唯一没有字母表的语言。Mair 认为,拉丁字母、日语表音的假名,原来都有比汉语还复杂的书写方式。如果汉语任意发展,Mair 认为大家肯定会因为字太复杂而找更简单字替代(例如“跳舞” --> “跳午”),长久以后,汉语也会完全成为表音文字。但 Mair 说,政府和精英的抵抗让汉字仍然表意。(数字化对他提到的这个自然趋势肯定有反作用。当代人汉语已经是语音输入,大家不用真的会写“打喷嚏”,甚至因为有自动联想,根本不用认识“嚏”。)
不谈应该怎样改革文字,只分析影响的话,那么按 Mair 的说法,汉语文字的构建方式就意味着它既不方便其他语言的人来学,也不方便表示其他人的语言。
1)学现代标准官话的人,要记住大几千个字。Mair 说,这当中大概 80% 的字既表意又表声,20% 只是表意,得完全死记。教孩子容易些,教成年人真的很困难。
2)我在想,汉字表意的特点有多大程度上限制了新概念引入的速度。例如,币圈和大模型都要用到 token 这个词(虽然表示不同意思)。我查了日语新闻,好像日语用的是音译「トークン」,大概读作 too-kun。但汉语,我如果翻译成“偷啃”,显然不对。要在读作 /tou/ 和 /ken/ 这两个音的字里找到意思大家能接受的字、组合起来也不引发歧义,太难了吧?
3)中国(甚至东亚)这片土地,由于汉字不容易书写本地话,也由于中央集权不让本地话找其他的文字来书写本地话,所以官话之外的本地话都没有文字。但反过来说,其他地方的本地话,也几乎不可能用汉字书写。
现代国家诞生后,用什么文字(script)写自己的语言(language)完全是政治行为:
- 1860 年代,罗马尼亚政府要求罗马尼亚语从西里尔字母书写,改成拉丁字母书写。
- 1910 年,法属越南政府要求越南语从一个基于汉字的书写方式改成葡萄牙传教士 17 世纪发明的拉丁字母书写方式。
- 1929 年,土耳其政府要求土耳其语从阿拉伯字母书写,改成拉丁字母书写。
- 1941 年,蒙古政府让蒙古语从拉丁字母书写改成西里尔字母书写;2025 年,政府又将西里尔字母书写改成西里尔和传统蒙语字母并用。
汉字的特点就意味着,它很难写别的语言,也不会有语言选它做书写工具?这样文字和身份认同的互相强化,好有意思。把文字看成协议(可能文字中心化,语言去中心化一些),不同协议的竞争、扩张、自然影响范围,也受到文字协议自身特点的影响。
粤语和粤语流行歌
读 Mair 的文章好像还解答了我长久以来的两个疑惑。
1)粤语(包括那一带其他语言)听起来和 Old Sinitic 特别像。为什么 Sinitic 这样一群北方起源的语言,反而现在是南方语言与它更像呢?文章给的答案是,我们现在说的官话一是起源时需要各地官员都能听懂,二是每经过一代政权变迁就会受到首都的影响,所以相比于传播到南方、远离政权中心的语言,变化反而是最大的,离 Old Sinitic 反而是最远的。
2)为什么粤语流行歌的歌词看起来那么正式?我不会说粤语,但听粤语歌的时候能明显感觉他们的歌词是“文言文”。比如《海阔天空》的最后几句是,“背弃了理想,谁人都可以/那会怕有一天只你共我”。这句话从官话母语者角度看念起来非常拗口,粤语母语者平时也不会这么说(TVB 台词肯定更像“唔系啊嘛”而不是“只你共我”)。我现在意识到,对粤语母语者来说,书面语和本地话完全是两种语言。本地话是“唔系啊嘛”,而书面语则既包括文言文,又包括课本里从五四以来就有官话书面版(见中考考卷)。流行歌之所以很多用文言写成,是因为作词人喜欢倒装、省略的感觉。完全按照本地话写的歌也有,例如许冠杰的很多作品。“學生哥,好溫功課,咪淨係掛住踢波”这样的歌词,就是在用汉字表示粤语的声,只懂官话的人就看不懂了。
大陆歌手也有很多用本地话创作。音乐网站街声写过很好的总结:《方言乐队,不同的不止是语言》。仔细看歌词我们就会发现,五条人、顶楼马戏团这样用闽南语、上海话创作的乐队,打在屏幕上的歌词是意译成汉字白话的。如果非要写下来,很多时候只能用其他文字(例如大家学拼音、学英语之后都熟悉的拉丁字母)。下面是大家引用歌词对顶楼马戏团歌曲《海风》的评论:

总结
Mair 的观点在他多篇博客文章都有复述。对他来说,汉语(Sinitic languages)是包括上海话、广东话等一系列互相听不懂的话(即“语言”)的语言族群。汉字要么是文言(书面语),要么是官话(Mandarin)这种汉语本地话写下来的形式。而且因为各种原因,汉语族群下面只有这一种本地话有文字形式。中文,他定义为官话用汉字写下来的版本。
Language 是说的(用声音来表达意义),script 是把它写下来的工具。世界历史上绝大多数 languages 都没有 script;一个 language 可以用很多 scripts 来写。