算法的六副面孔 - 主题精读稿
算法的六副面孔 - 主题精读稿
前言:算法不是工具,是权力意志 (00:00 - 06:00)
主播大卫翁启动算法与媒体专题系列,以塔尔顿·吉莱斯皮(Tarleton Gillespie)的学术论文《算法的相关性》和凯尔·恰卡(Kyle Chayka)的畅销书《筛选世界》为骨架,从社会学、政治学视角解构算法对个体与社会的影响。
核心立场:算法绝不仅仅是技术工具,它是一种新的权力意志,已深度嵌入我们的生活、语言甚至三观。讨论算法如果仅停留在技术好坏或个人体感,配不上它对当代社会的深层影响。
一、定义:算法作为媒介,重塑感知方式 (06:00 - 14:15)
塔尔顿的论文出版于 MIT 2014 年论文集,被该圈子称为"算法研究的创世文献"——它用六个维度完整覆盖算法从数据输入到身份构建的全过程,兼具自然科学与人文科学双重视角。
算法的定义远比我们日常理解的宽泛:搜索引擎、音乐推荐、输入法自动补全、地图导航——所有将输入数据转化为期望输出的编码化流程都是算法。但技术定义之外,当算法成为我们最重要的信息入口,它就不仅仅是工具了。
借用麦克卢汉的"媒介即讯息":任何媒介或技术的真正信息,在于它为人类事物带来的尺度、节奏或模式的变革。算法作为一种媒介,正在以前所未有的规模和速度彻底重塑人类连接的模式——这和从报纸到广播、到电视、到早期互联网的切换,完全不是同一个概念。
大卫翁援引本雅明《机械复制时代的艺术作品》作类比:摄影术诞生时,照片使大教堂可以在艺术爱好者的工作室里被欣赏,精英文化由此成为大众体验;但与此同时,复制品终究不是原作,某种真实性在这个过程中丧失了。摄影术之于艺术的影响,与算法之于信息传递的影响可以相提并论——技术既改变我们所创造的文化形态,也改变我们感知这种文化的方式。
此后,大卫翁按照塔尔顿划分的六个维度逐一展开。
二、维度一:包含模式——谁有资格入场? (14:15 - 26:25)
算法运行的第一步是 Pattern of Inclusion(包含模式):哪些内容可以进入算法数据库,哪些内容被排除在外,以及数据如何被加工适配算法运行。
在图书馆时代,信息是层级结构:黄页网站、BBS 论坛,信息按目录组织,索引系统对所有人透明。进入算法时代后,信息被打碎成细小颗粒——一个视频可能有几十个字段的标签来定义它,但这些字段的含义连算法工程师自己也不完全知道。
表面上我们获得了极大的信息自由,但背后的逻辑是:谁给信息打标签,谁就拥有最终解释权。 这种权力不再是显性的,而是藏进了看不见的标签里。
典型案例:2009 年 Amazon Fail 事件。亚马逊上超过五万本关于 LGBTQ 群体的图书突然在销量榜单上集体蒸发——原因仅仅是它们被标记为"成人项",而算法接到指令忽略所有成人项。分类标签,就是信息的生死判决书。
"降权"则是更常见的隐形管理形式:不是删除内容,而是降低权重,让它事实上不可见。YouTube 会对暗示性视频降权;Twitter 在判断 trending 时会剔除粗俗用语。内容没有消失,但已经从大众视野中蒸发。
这种包含模式还带来两个衍生问题:
第一,算法在进行一种审美剪裁。无法被"极简""网红""好评"等标签定义的、更复杂的人类体验,在第一步就被挡在数字世界的窄门之外。我们看到的是被算法过滤后剩下的那一点安全且平庸的现实。 大卫翁认为,这也是我们如今在社会事件讨论中习惯先贴标签、结论非黑即白的重要原因——标签化已经影响了我们自己的心理结构。
第二,在互联网上不发声或声量很小的群体——老人、残障人士、低收入群体——在算法的世界里事实上不存在,因为算法处理的不是现实,而是可以被数字化的现实。
三、维度二:预判循环——你的数字双胞胎 (26:25 - 34:34)
第二个维度是 Anticipation(预判循环):算法如何预判用户需求,并据此调整推荐模型。
在算法的世界里,我们有两个自己:一个是屏幕前的肉身,另一个是算法建立的"数字双胞胎"——学者称之为第二索引。当我们打开一个 APP 的那一刻,算法已通过三样东西完成预判:当前的定位与时间、过去所有的浏览痕迹、以及成千上万个行为相似的人的特征。
算法不需要百分之百精准的预判,只需要"足够精确的近似值"就够了。研究显示,仅凭 5 个问题就可以以 80%-85% 的准确率判断用户偏好。剩下那 20% 无法被预测的部分,被算法选择放弃。
但预判循环还有一个关键环节,被学者称为"主动驯化":平台不断提供标签、菜单、选项,引导我们主动把自己修剪成算法能够识别的形状。点赞、不感兴趣、一键三连——当我们以为在驯化算法时,其实是算法在驯化我们。
当我们的生活没有了那 31% 可能失败的风险的时候,我们其实就失去了百分之百撞见惊喜的可能。
以冰岛旅游为例:Booking.com 和 TripAdvisor 永远把"冰岛黄金圈一日游"推到榜首,因为它有 96% 的好评率;观鲸游只有 69%。当 96% 的好评标注在搜索结果第一页,算法已经在替用户做决定,暗示"这就是标准答案,别再费劲尝试别的"。冰岛不再是需要探索的荒原,它变成了一个被算法打包好、去掉所有不确定性的主题公园。
这种预判会达成自我验证的循环:平台推简单产品,简单产品数据好,算法进一步强化推送。这就是消失的摩擦力——恰卡称之为"文化快餐",本质上是在为商业利益服务,而不是为了打破信息差。
四、维度三:相关性评估——黑箱权力与股东式民主 (34:34 - 42:33)
第三个维度是 Evaluation of Relevance(相关性评估):算法如何从海量信息中决定什么与受众相关,谁排在前面。
算法的黑箱不是一个故障,它是功能的一部分。 设想如果微博把热搜底层代码完全公开,结果只有一个:所有热搜瞬间被营销号和公关公司占领。所以这把名为"相关性"的尺子必须被藏起来——平台可以告诉你考量了两百多个信号,但这些信号的权重永远不会公开。这客观上类似宗教里的神域:它决定什么是热门、什么是对的,但从不解释为什么。
所谓"算法推荐是数字民主"是一个误区。谷歌 PageRank 推崇的其实是股东式民主:链接不等于等值选票。《纽约时报》或维基百科链接你,这一票可能抵得上几万个普通网站的链接。在信息流时代,重度用户或专家学者的点赞和转发,远比偶尔路过的用户重要得多——而且广告商可以直接砸钱购买热榜位置,完全绕过算法的"民主"逻辑。
早期关于搜索引擎偏见的学术研究指出:搜索引擎偏好已有高人气的内容、英语网站、以及商业性信息提供者。这不是什么秘密,它是现实权力结构的代码化复制。
更重要的是,算法是流动的。大平台每天进行成千上万次 AB 测试,今天有效的讨好算法的技巧,明天可能完全失效。算法不仅是一个看不透的黑箱,它甚至没有固定的形状,随时根据用户反应进化。 当你以为在使用工具,其实你正处于一个实时调整的巨型实验室里。
五、维度四:客观性的承诺——表演式中立与认知盲区 (42:33 - 48:45)
第四个维度是 Objectivity(客观性的承诺):平台如何向外界展演算法的中立与客观。
平台会用"趋势排行""最佳匹配""区域热门"这样的词汇,暗示这是自然规律而非人为选择。看似清晰的"后台流程说明",并不能揭示真实的后台运作——学术界称此为表演式的后台。
算法客观性在今天扮演的角色,与上个世纪的新闻业如出一辙。 当时记者通过一套采访规范、交叉验证、不偏不倚的措辞来向公众展示客观性;现在的平台把记者守则换成了数学模型。然而,就像金融危机证明了数学模型抵不过人性的贪婪,算法的数学外衣同样无法消除内在的偏见和价值取向。
但大卫翁在此做了一个更深的追问:我们从一开始也不是真的相信算法是中立的,那我们为什么还拥抱它?
答案是:这样做是最省事的。 我们渴望从永恒的怀疑中解脱——面对信息爆炸,不断判断真伪、筛选价值实在太累了。算法提供了一个完美的借口:别担心,机器已经帮你选好了。我们通过交出选择权换取心灵上的安宁,代价是自动屏蔽了对算法脆弱性和偏见的警觉,进入一种集体性的认知盲区。
六、维度五:与实践的纠缠——算法可识别与主动驯化 (48:45 - 58:44)
第五个维度是 Entanglement(与实践的纠缠):算法如何深入我们的日常行为,反过来改变我们的表达与认知。
对于内容创作者来说,每次创作都不可避免地牵涉算法:怎么写标题、怎么放封面图、什么时间发布——这些都在不自觉地影响表达内容本身。
学术圈有一个专门名词:算法可识别(Algorithmic Identifiability)——用户通过话语标签、特定关键词等方式使自身变得更容易被算法识别,这是一种主动的适应。Hashtag 最初由用户发明,现在已成为必须穿上的制服。
我们是在为算法编写易于消化的指令。 我们不再只是在对受众说话,同时也在通过标签向算法说话——甚至可以说,我们都已经不是在表达、在说话了。
谁会贴标签、谁更擅长算法时代的表演,也构成了一种新的权力分层:在算法时代,谁理解算法的逻辑,谁就有了"内幕信息",掌握了真正的权力。但这种权力的分配极度不公平——普通用户对算法充满迷信和误解,而职业 SEO 专家和广告商早已拿着平台给的内部说明书在套利。
驯化与被驯化的幻觉:我们把算法带回家,让它住进了手机和日常起居里,以为自己成了主人。但只要算法的维护权和更新权还在大公司手里,这种驯化就是一种幻觉——就像我们以为在养猫,但猫从来无法被驯养。
纠缠的后果不仅限于表达方式,还延伸到了现实世界的文化变迁:
算法正在改变音乐本身。 数据显示,Billboard 热门歌曲的平均时长从 1995 年的 4 分 30 秒已降到 2019 年的 3 分 42 秒;2020 年 Spotify 所有歌曲平均时长仅剩 3 分 17 秒。原因是流媒体将 30 秒播放计为一次播放,延长时长毫无经济效益。
更深刻的是转调在当代音乐中的消失。转调是制造情感高潮的技法,需要大量铺垫;而在算法时代,为防止听众在头 30 秒滑走,歌曲变得循环化、氛围化。研究发现,1960 年代到 1990 年代,Billboard 百强单曲中有四分之一存在转调;到 2010 年代,只剩下一首。
我们并不是算法的被动受害者,我们是它的共谋者。我们和算法一起打造了现在的流行文化、政治文化,甚至是更深远的社会文化。
七、维度六:计算出的公众——极化、偏见与信息茧房 (58:44 - 1:08:50)
第六个维度是 Calculated Publics(计算出的公众):算法如何根据数据将人类分群,并赋予我们一个可能自己都未曾察觉的身份。
最大公约数正在消失。 过去晚上七点全社会看同一个新闻,构成共同的聊天底座;现在除了春晚,这样的底座已不存在。你和一个完全陌生的人可能根本不活在同一个现实里,信息流的差距比我们想象的大得多。
塔尔顿区分了两个概念:
- 网络化公众(21世纪第一个十年):人们因共同兴趣聚在一起,技术只是提供了场地,主角依然是人自己的选择。
- 计算出的公众:算法说我们是一伙的,我们就是一伙的。这是一个被代码发明出来的群体。
"像你这样的人还喜欢……""购买过此商品的用户还买了……"——算法通过计算强行把人圈在一起,告诉他们"你们是一类人"。久而久之,人们就会真的产生一种错觉,觉得世界就是由这几类人组成的。算法不仅仅是在测量、观察社会,它还在通过计算,把社会切成更便于它定义的块。
文化算法与社会偏见:谷歌曾出现著名丑闻——搜索"She invented"时,系统提示"您是否想搜索 He invented"。算法本身没有价值观,但它作为一面放大镜,把文化里根深蒂固的偏见包装成了客观规律再扔回给我们。算法吞下了我们所有人的偏见数据,它输出的每一条结果都在强化这些偏见,使其更难以动摇。 到 Chatbot 时代,这种现象只会增加,不会减少。
关于极化问题:到底是极化社会造就了算法,还是算法造就了极化社会?这是个先有鸡还是先有蛋的问题,必然是相互造就的。但可以明确:极化有可能是人类文明本身就存在的要素,而算法正在客观上加速它的进程。
关于信息茧房,大卫翁引用多项学术研究提出了一个相对乐观的修正:信息茧房的程度远比想象的轻。重要原因在于绝大多数人不只使用一种算法、一个平台。当我们混合使用多个平台时,就能获得更多侧面的信息——这被称为算法的多样性红利,在传播学中对应"多元数据校验"。
破解算法的建议因此浮出水面:在播客里听经济和深度分析,在小红书刷生活和兴趣,在 B 站和 YouTube 看历史和访谈——每个平台的算法都有偏好,同时使用它们相当于拥有多把不同刻度的尺子,或许能还原一个更接近真实、更立体的信息图景。
结语:认清隐形室友的底细 (1:06:45 - 1:08:50)
算法已经不仅仅是一套程序,它已经变成了测量我们这个社会的科学仪器:从定义数据(包含模式),到预判我们的需求(预判循环),到评估相关性(相关性评估),到披上客观的外衣(客观性承诺),再到与我们的生活深度纠缠,最后替我们定义我们是谁(计算出的公众)。
既然我们注定要和算法共生共存,而且在可见的未来这个趋势只会愈演愈烈,那么至少第一步:认清这个隐形室友所有的底细。
塔尔顿在结论中写道:对算法展开社会学探究,不仅是要揭示这一知识机器的复杂运作机制,还要剖析其被建构为合法化体系的社会过程。
算法是代码,但绝对不是简单的工具。它是利益,是偏见,是我们这个社会本身,但同时也在社会的演进过程中刻下属于它自己的深深的印痕。