E224|深度拆解Clawdbot,为何它能成为2026年第一个现象级产品? - 主题精读稿
E224|深度拆解Clawdbot,为何它能成为2026年第一个现象级产品? - 主题精读稿
podcast: "硅谷101" episode: "E224|深度拆解Clawdbot,为何它能成为2026年第一个现象级产品?" publish-time: "2026-02-04" tags: - topic/AI - topic/Agent - type/精读稿
前言:反转、反转、再反转 (00:00 - 04:53)
2026 年第一个现象级产品 Clawdbot 在一个周末的时间内爆发式增长。过去一周各种社交媒体被刷屏,GitHub 增长趋势几乎直线上扬,没几天就突破了 10 万颗星标,2 月 2 号达到 14.6 万颗,直接刷新了 GitHub 历史上 AI 项目的最快增长记录,引爆了整个 AI Agent 的生态。
但这个项目随即经历了极其戏剧性的变化。先是名字问题:最初叫 Clawdbot,因为太火了直接惊动了 Anthropic。Anthropic 发起诉讼认为 Clawdbot 的发音和 Claude 太像,涉嫌品牌侵权。项目先更名为 Motobot,后再次更名为 OpenCloud。大家在周末新闻里看到的 Motobot,其实是基于 Clawbot 搭建的专门为 AI 设计的社交网络——可以理解为智能体们的宿舍楼或朋友圈。上面有无数 AI Agent 发帖交流,甚至建立起了宗教,人类只能充当观察者。但很快有媒体爆出 150 万 AI 中大多数是人类假扮的,安全漏洞太大会泄露大量敏感信息。由于 Motobot 的服务器账单已经飙到天文数字,网站暂时无法访问。这一切都在节目录制之后的 5 天内发生。
本期硅谷 101 邀请了三位嘉宾,分别代表三个方向。第一位是知县,非常资深的产品经理,横跨 Crypto 行业,最近用 Clawdbot 超级上头,代表用户侧。第二位是曾豪,Evermite 的技术生态负责人,清华瑶班出身、卡内基梅隆研究 NLP 方向,做的就是大模型和 Agent 之间的中间层,比如模型的长期记忆和个性化,代表软件算法侧。第三位是天奇,Pamir 的创始人,一年半前就做了一个给 Agent 用的计算机,很小可以放在手掌上,之前在高通做机器学习,联创在微软做 Surface,代表硬件侧。天奇说他们在 Agent 电脑这个方向做了很久,之前一直挺不被理解的,今天终于可以借 Clawdbot 的爆火提供一些不一样的视角。
一、Clawdbot 的核心灵魂:活人感 (04:53 - 06:47)
知县用下来的第一感受是 Clawdbot 特别有活人感。这体现在两个层面:一是强大的长期记忆,它可以记住挺长时间的对话、context 和你跟它讲过的事情;二是有很强的主动性,比如每天早上主动打招呼、总结当天待办事项,甚至把你要做的事情预先做调研端给你。整体用下来就特别像钢铁侠里面的 JARVIS,甚至有时候聊天时动不动抖个机灵吐槽一下。所以第一反应上手的时候特别惊艳。
曾豪非常赞同"活人感"这个判断。他指出,AI 的主动性讨论了很多年,不是一个新想法,但能落地做得这么成熟这么棒的产品市面上很少见。他之前给一家硬件 companion 公司做咨询时,就设计过类似方案让硬件陪伴玩具做得更有人感、更主动,从大体方案上与 Clawdbot 的 heartbeat 方案比较接近。但 Clawdbot 放在虚拟环境中,同时打通了人们每天用的 IM,这个体验确实很棒。
天奇也同意前两位,但他认为最大的功劳是用用户已经很熟悉的消息传递方式与用户对话——微信、Facebook 这些。即使你发同样的消息,在 IM 里聊天和在 Terminal 里聊天,你的感觉完全不一样,前者让人觉得更像在跟一个同事交流。
二、为什么是 Clawdbot 火了:集大成者与社区引爆 (06:47 - 12:51)
曾豪坦言自己虽然很早了解 Clawdbot,但试用后没有立即去用,因为没感觉到它和自己在用的产品有质的区别。他是 Claude Code 比较资深的用户,它不只是写代码,还可以整理文件、写文档、写 PPT。最近 Claude 还推出了 Cowork,对 computer use、操作网页等场景做得很好。更不要说 Manus,本质上也是在云上开一个 Agent Instance 帮你 24x7 执行任务,也有手机端可以沟通。从他的视角来看,Clawdbot 的大部分功能,硬说哪一个不能被现有产品实现,他觉得都可以。但可能正是这种它把很多事情都做到位了,通过 IM 这种更有人情味的产品界面和人去沟通,使得它能够做得好。 他问了身边的同事,很多编程人员可能还停留在 Cursor 这种他认为偏上一代的 AI Coding,整个 Agent 的体验在一些人看来可能已经有了,但对很多人而言还没有这个认知。Clawdbot 把这个认知推广到了很棒的一个角度。
天奇认为多重因素促成了 Clawdbot 的爆发。一部分是市场接受度已经到了这个节点,因为 Claude Code、Cowork、Manus 等一系列产品把大众对 Agent 的理解和接受度已经预热了。同样的事情两三个月前大家还不知道怎么回事。另一部分是他们真的把所有东西全粘合在一起了,把能粘的全部粘进去——记忆、消息系统、proactive 的持续工作、精简的交互方式。所有的点汇集在一起引爆了 Clawdbot。
知县从用户视角和传播路径做了补充。Clawdbot 离用户非常近,比 Chatbot 用网页的方式近得多。一方面是用了 IM 作为主要沟通方式,另一方面主动性做得顺滑,有活人感。所以它直接打动了终端用户。一个技术虽然已经推进到一定程度了,但让普通人有所感觉这个过程实际上是非常重要的。 用户看不到背后用的技术跟其他产品有多相似,但站在用户感受上确实非常不一样。Manus 当时刚出来也是同样的情况——大家说浇水、换皮,但这种能让用户感知到技术进步程度的能力也是很重要的。
从传播上看,知县大约一个多月前关注到这个项目,那时还是比较小众极客的东西。但凡是喜欢研究 AI、尝试 AI 产品的用户,很多人已经看到并用上了。创始人建了 Discord server 后海上很快涌进来 5000 人,里面有很多 AI 创业公司的 founder 和大 KOL,大家都觉得太酷了。这是一个非常社区化的项目,社区氛围非常好。现在是 web coding 的时代,也是开源非常幸运的时代——很多人有自己的想法,在 web coding 下可以参与贡献。从实际社区参与者的角度看,它的火爆是由核心圈慢慢扩散到临界点,先在英文区火起来,大家看到一些用例后觉得太牛了,再加上对 AI 的 FOMO 情绪,一下就点燃了热情。
知县总结道:Clawdbot 现在特别强的很大一部分原因是大模型已经强到一定程度了。Clawdbot 用一个特别让大家能感受到的形态展现出来了。
三、惊艳用例:从语音碎碎念到全自动发博客 (11:52 - 17:07)
Clawdbot 创始人自己也有一个经典故事:他一开始没有给 Clawdbot 设计音频功能,但有一次在马拉喀什旅行时一直用它查餐厅问路,下意识给它发了一条语音——它居然自己通过各种方式调用把语音功能实现了,让创始人产生了一种强烈的 aha moment。他做这个产品本来不是要做 Agent,只是想做一个 WhatsApp relay 功能:出去的时候可以通过 WhatsApp 指挥家里的 Agent 干活。就是这个场景让他意识到现在模型的自主能力、推理能力已经这么强了。
知县分享了自己几个特别惊艳的使用场景。
语音碎碎念变贴心助手。 知县现在和 Clawdbot 的交互方式就是发语音。出门在外想起"有两盒牛肉再不吃就不行了",就碎碎念了一句。Clawdbot 自己把这件事处理好加到 reminder 里。当天下午突然跑出来说"数据商,你需要准备这些东西,煮多长时间",还强调"牛肉一定要最后两三分钟的时候放,要不然会煮老"。这种提前预判、主动推送的贴心感,一下就把用户对它的定位拉到了一个特别有自我意识的助手上面。
服务器蹲点评估。 知县让 Clawdbot 去一个服务器上蹲点,评估配置是否过高。它蹲了一天,告诉他确实高了,预算降到现在四分之一就行了,省出来的钱就够它自己运行了。
全自动生成博客文章并发布。 这是知县最大的 aha moment。他让 Clawdbot 做个实验——把 macOS 自带的模型分叉成 API,看看它的能力边界。Clawdbot 做得很快,跑完后打出结果,各种因素、各种维度的测试用例都跑了。知县一看不错,随口说"你要不写篇文章吧"。Clawdbot 自动切换到用他的口吻写文章的模式,写得几乎一次不用改,还问要不要帮他发布。 知县当时还没有告诉它博客的配置,觉得它肯定搞不定——那个博客做了各种主题自定义配置,同一篇文章有中英文版本,都是比较自定义的。没想到它自己参考整个 repo 里的东西,把规则摸清了,也没有中间再来问,直接把中文版写好、英文版翻好、中文版博客字数统计的 flag 配对了,直接发布成功,10 秒左右,甩了两个链接。知县以为打开肯定 404,结果发现配得比他自己还好,tag、category 都加好了。
紧接着,知县想到之前让它搭过一个本地的 Whisper 转写模型,这个模型很强但对中文标点加不好(整段没标点或加英文标点)。他就说"你把这两个连起来,Whisper 转写完了用小模型 refine 一下"。它马上连起来又跑了一遍测试,给了大量性能数据,甚至不断让知县发语音来测更多数据。最后知县说再写一篇,这次自己生成配图。但没有给它生图的 API Key,只有订阅套餐。它自己跑去打开浏览器访问 Gemini 的网页版,因为文章是它写的所以直接把提示词输进去生成配图。发现下载不行(playwright profile 不能下东西),就想到复制保存到 download 再把图挪过去。 最后推到博客上,命名好 cover.png 直接显示题图。甚至最后还主动 offer 把整个过程封装成一个 skill,以后直接调用。整个过程就像一个特别有主动性的下属。
四、Clawdbot 与其他 Agent 的差异 (17:07 - 19:40)
曾豪对比了 Clawdbot 和 Claude Code 的工作方式差异。他发现 Clawdbot 倾向于"我少解释我在做什么,直接把事干了"——如果问一件事可不可以这么做,Claude Code 会回答可以或不可以怎么做,但 Clawdbot 倾向于直接做完然后说"我已经干了"。这是一个挺有意思的设计。
具体案例是他昨天想去看几个项目的 GitHub issue,提炼大家用这些项目来干什么。先让 Claude Cowork 去做,发现它会偷懒——issue 一般有一两千个,它就加搜索关键词给了一个总结,肯定不是一条条都看过去的。换到 Clawdbot,发现它很听话就是一条条看过去。缺点是比较耗 token,但用会员制的固定费用就无所谓了。不过对于编程工作,他后来还是决定回到 Claude Code,成功率和效果好很多。
天奇分享了一个非常有说服力的对比。他们内部一个非技术人员用完后说的话:当 Claude Code 生成完一个东西后告诉他"文件做好了,在这个路径下"并发了一个 cd 什么什么 path 的命令,非技术人员就说"What do I do with this?"。但换到 Clawdbot 后,它通过 IM 直接把文件以附件形式发过来,照片直接发照片,而不是发一个路径。这对知识工作者来说就是非常显而易见的优势。
五、技术拆解:记忆系统的设计与实现 (19:40 - 27:31)
5.1 人格记忆与事实记忆分离
曾豪介绍了 Clawdbot 的技术方案,认为其大量参考了 Claude Code 的实现。他首先区分了"记忆"这个词的两层含义:一种是 personality 的记忆——说话方式、知道自己叫什么名字、知道用户叫什么名字;另一种是事实记忆——之前做了什么工作、工作进行到什么程度、哪段代码可能出 bug、明天要做什么安排。
Personality 记忆通过 markdown 文件(如 identity.md)实现。Clawdbot 在刚开始聊天时会拼命问你名字等信息,即使你一开始没回答也会一直时不时问,拿到后存下来。基础实现就是把这些文件内容加载到 context 里使用。这类技术在二次元角色扮演和数字人分身项目中已经做得更极致。
事实记忆(过程记忆/工作记忆)存储在以日期为文件名的 MD 文件中,通过三种方式生成:第一,每天结束时把当天所有工作总结放进去;第二,上下文长度超过模型上限时做压缩放进去;第三,它会主动识别哪些事情值得记下来——曾豪在和 Clawdbot 聊天时说"我在做一个调研,想理解你的记忆系统",它就主动把这件事记到记忆里。虽然 Claude Code 和 Cowork 也有类似机制,但Clawdbot 把这个过程非常明显地告诉用户"我觉得这个值得记下来",甚至告诉你写在什么地方,这个体验上是很好的。
5.2 Memory 与 Context 的本质区别
知县进一步澄清了 memory 和 context 这两个概念。Context 就是用 chatbot 聊天时输入的上下文——有限的、即时的、每次聊天都会带进去。经常不够用,压缩之后 AI 就"变成人工智障",突然记不得你刚才聊的事情。而 memory 是一套持久化的文件系统,不是每次都要放到 context 里,所以可以做很多结构化,甚至用数据库。Clawdbot 一个好的设计是用很多 MD 文本文件实现。
Clawdbot 的记忆体系包括:
- 工作记忆:当前对话和不同 channel 的聊天,就像正在开会的内容,记得很清楚但过一段时间可能忘了
- 日记:以日期为文件名的 MD 文件,总结今天做了什么、遇到什么问题。后续流程中会用到——比如新开一个 Session 时,AgentMD 里有一句话让它记得看一下今天甚至昨天的日记,快速 catch up 最近做了什么。就像见客户前先翻资料、找原来的会议纪要同步一下。有时还会做周总结,再把日记信息提炼,用户问到长时间以前的内容时能快速定位
- memory.md(常识):用户告诉它的或它自己总结的长期知识。比如"我的博客框架是 Google""截图识别先用本地 OCR 不要直接走多模态模型"等。Main session(Telegram 或 WhatsApp 直接聊天)会每次把 memory.md 加载到 context 里,所以用户觉得它好像记得好多事情。但 Discord 群聊等其他 session 不会加载这些 personal 内容,避免隐私泄露
5.3 混合搜索策略
知县还详细讲解了 memory search 机制。Clawdbot 把所有 memory 文件(memory.md 和 memory 文件夹下的所有 MD 文件)切成大约 400 token 一个的小块,每个块之间还有 80 token 的 overlap(重叠),这样跨界不会切断,能连起来。这些存在本地一个轻量数据库 SQLite 里转成向量格式。搜索时采用混合策略:70% 语义匹配 + 30% 关键词匹配。 比如问"上次说的那个收集烧怎么做的",能通过语义匹配找到牛肉、食材、准备等之前记过的东西;问"我那个 blog 需要用 SSH key 去访问",能直接定位到某一个精确的命令。两个结合起来就感觉特别像人,既能理解你在做什么事,又能找到精确的信息。
最后,这些 memory 文件是面向用户开放的文本文件,用户都能看、甚至能改。觉得它记得不对、记得啰嗦了,可以直接去文本文件里操作。
5.4 大力出奇迹,但赢在感知
天奇提出疑问:这些方法——记录到文本文件、切割、存数据库、向量搜索——都是已有的成熟方案。Clawdbot 有点"大力出奇迹",把所有东西粘在一起做记忆,肯定会产生很多 redundancy,也不一定是最 efficient 的方式。
曾豪直言"甚至效果上也不一定是最好的方案"。知县也承认自己用的时候发现它肯定没有 ChatGPT 的记忆那么顺滑,但还是要结合场景来看。
曾豪补充了一个做记忆产品的深刻洞察。他们和很多客户聊这个事情,永远记住用户的背景和需求是很好的功能,但一般用户和他们聊不了这么久——用户很难感知到记忆有多好。记忆虽好,但真的让用户能感觉到它,是做记忆中最难的问题。Clawdbot 做了一件很对的事情——把这个事情体现在了主动性上。 当你早上收到一个消息说"我昨天事情做完了,今天我记得你要干什么干什么,要不要去考虑",这个时候你会觉得它有记忆了。而不是你给 bot 一个 prompt 一个 task,它因为记忆完成得更好,这个感知太弱了。所以并不是因为它的记忆系统设计得好、实现得好,而是它让用户感知到了记忆系统的价值,这个是很值得学习的。
知县补充说它的衔接做得特别好。正常人不可能经常失忆,很多事情都能连起来。他有时候从 Telegram 上突然切到 Discord 上,Clawdbot 能把两边的对话连起来,知道刚才在聊什么,"一下就有活人感了"。
六、主动性实现:心跳机制与定时任务 (28:37 - 31:33)
主持人刘一鸣指出权限对记忆也很重要:ChatGPT 和 Gemini 毕竟还没有获得整个电脑的权限,记忆的输入不够多,无法穿透用户在各个地方的行为。
曾豪看了代码后分析,Clawdbot 的主动性是一个偏工程性的实现:定期在发现用户没有说话时,有一个 prompt 让它自己去判断现在有什么事情可以做,之前的功能做到什么程度了,会自己给自己提醒。因为 LLM 的技术框架还是被动式触发,需要有 prompt 去 trigger。但在整个产品设计上做得比较好,所以让大家能够感受到主动性。天奇补充说这应该是借鉴了之前比较火的 RoughLoop(Claude Code 的一个插件),可能每 30 分钟调用一次,"自己给自己抽鞭子起来干活"。
知县详细拆解了这个机制。它有一个守护进程每隔一段时间把 AI 叫起来。它先看 heartbeat.md,里面记了什么。有一句话:如果这个地方没有任何注释以外的内容就直接跳过。即便有一些内容,也先判断是不是需要处理、是不是需要告诉用户。不需要的话发一个叫"Heartbeat OK"的静默信号,被系统直接吞掉,不产生任何后续反应。所以它虽然一直在 heartbeat,但主动找你的时候也没那么多——又回到活人感了:既有主动性又不烦你,不是那种给你打一堆 log 的机器。而且按需使用 token,省在刀刃上。
除了 heartbeat 还有 cron job 定时任务。和 heartbeat 的区别是对时间的定义非常精确。知县让它每天三次早中晚定时摘要他 Twitter 关注列表的信息,它保持得非常好。另一个任务是"如果里面有突发事件,你判断比较重要需要我知道的,就随时告诉我"。有时候聊着天,它突然弹出一条"突然发生了一件什么事情,比如特朗普对欧盟做关税制裁"。两个结合起来让它更像一个人——你安排的事情精准完成,你让它盯着的事情有状况它就来找你。
七、权限安全:隔离部署与隐私的 Sweet Point (31:33 - 48:05)
7.1 隔离部署是第一原则
知县直言 Clawdbot 爆火后很多人 FOMO 都搞来装,但实际上不适合现在大规模普通人使用。站在技术角度讲,它基本上拥有你系统很多隐秘的东西——能看也能直接执行。最好的部署方法就是隔离部署,不要在主力电脑上使用。要么用 Mac mini,把愿意让它访问又不想上传的东西给它,这样可以把安全隐私问题做成自己可控的。直接跑到自己本地主力机就不可控了。要追求极致的隐私安全,确实需要本地模型,但一般人现在受不起,本地模型性能也没法跟 Opus 这种大模型比。未来摩尔定律再发挥作用,本地模型性能足够支撑这种助手型 Agent 的时候,隐私问题就减轻很多了。剩下的就是怎么给它一套安全边界让它不要乱搞。
天奇从产品角度分析:因为权限给得很大,所以能产生很多让人惊喜的结果瞬间,但鲁棒性不强。 鲁棒性决定了下限是否能进入生产级。如果进入生产级,需要打磨清晰的审核机制——Agent 做事前要像写 PRD 一样和你人机协同交互,管理机制是否透明,有没有沙盒隔离,最好在系统层有回滚机制。他们内部做了一个创新:一个 Watchdog 的 Agent 系统,像影子 Agent 一直监测系统层面的各种更改——类似 Windows 坏了可以按 F12 进入 BIOS,今天的 Agent 系统也需要类似的方案。
7.2 会员制 vs API Key 与 Token 消耗
曾豪给出务实建议:如果想用的话,不要直接把 API Key 贴给 Clawdbot,而是注册 Membership(Pro 或 Max),用固定费用方式登录。花固定的钱,不用担心烧掉很多 token,烧多了也只是 Claude 那边把你禁了而已。知县补充说 Membership 有两种用法:CLI 的 OAuth token(总是提示快过期)和 setup token(更好用,方便多机器部署,可以共享一个订阅账号下的不同 setup token)。
关于 token 消耗是否大的问题,知县认为需要 case by case 看。效果上用 Membership 没有影响——会员制就是价格歧视或互相剥削。像他这种 200 刀订阅每个星期都能用满的人,Anthropic 肯定亏钱;但大多数 20 刀用户实际消耗可能就几刀,总体能保证。单纯 Bot 自身的消耗不大,但肯定比单纯 Chatbot 大——Agent 有很多自己的机制(MD 文件、Memory 加载、heartbeat)。如果用的多,往往是通过 Clawdbot 做了本身就耗 token 的事情。比如做爬虫、截屏式浏览器操作每次都做图像识别 token 消耗就非常大。后来他告诉 Clawdbot 浏览器直接用 Playwright profile 操作不要截屏,就缓解了很多。他现在跑了 5 个 Claude Code Agent,一个月 200 美金套餐差不多够用。
7.3 隐私的 Sweet Point:一种正在形成的共识
曾豪提出了一个关于共识的深度观察。首先他指出,"去大公司化、个人独立性、数据安全"是一个典型的偏 geek 的政治正确性论调。但事实上,Clawdbot 虽然本地部署了 Agent,你的所有数据最后还是通过 LLM 调用 Azure 的模型,严格来说不存在个人数据安全保护。但似乎很多人觉得"这一步就够了"。
他举了一个很好的例子:在 Claude Code 里告诉它"这是我的 API Key,请放到我的 ENV 里",人们愿意干这件事。但如果一个不认识的网站让你填 API Key,就不愿意了。也就是说,人们可能逐渐信任把原始数据发给 LLM 是一个可以被接受的隐私方案。但在这个基础之上构建的应用层,可能不想放隐私数据进去。 比如他之前用 Manus,真的想让 Manus 做复杂工作需要登录很多个人信息,他不太愿意在 Manus 的电脑上登录 email 和各种个人账号。但在自己电脑上就愿意,也不觉得用 Anthropic 的模型会对个人资产有什么问题。Clawdbot 可能在隐私安全和数据上刚好踩在了一个比较巧的 sweet point 上。
7.4 为什么 Apple 做不出来
知县非常同意曾豪的观点。Clawdbot 火了、为什么是它——就是这个 sweet point 选得特别好。传播路径上,创始人是一个很强的开发者极客,吸引的第一波人就是 AI 行业做创业的 founder 和 research 人员。大家觉得很 fancy——权限给得高确实 fancy。创始人直接把家里各种权限都给了,摄像头、闯电的权限都给了。你没看到效果的时候担心这担心那,但看到效果后担心要么烟消云散,要么觉得也没那么重要先试一下。
最该做这个安全与效果之间 tradeoff 的其实是 Apple。 大家都说这是你应该做的产品——当年 iPhone 那种惊艳感。从芯片到 OS 到硬件到手机手表生态全自研,为什么做不出来?知县认为一大原因是它承担的责任太重了。服务全球用户,一旦出问题可能造成的风险非常不可控,要为这些东西负责到底,所以做不出这一步。而开源项目创始人做的就是自己用、开源出来爱用不用。把标准化整为零——不是一面墙而是水能流过去,每个人自己觉得到哪能接受就去接受。大家自适应地完成了一个全线标准的 setup。 这反而给业界一个用户调研,让大家看到用户对隐私的实际接受度到底是什么样的。做社区项目在一些比较难 tradeoff 的事情上反而是最好的第一步——先看社区反馈,有时候你自己设定的需求和边界未必该是那样的,反而限制了产品价值的发挥。
7.5 十年之始的技术下放
曾豪把这个时刻类比为自动驾驶的早期。有人说 2025 年是 Agent 元年,有人说 2026 年是,怎么元年天天都有?但有人说可能没有元年的概念,而是一个开始的十年。Agent 虽然现在可以干很多事,但成功率可能是 80-90%,不是 100%。微软 Copilot 或苹果发布会上这些 use case 其实都有,也就是说我们的想象力并没有因为 Clawdbot 产生新的变化,只是真的需要这么一个东西来做。所以 Clawdbot 更像十年前 Google 推出了自动驾驶 SDK,准确率 95% 以上,然后有人把它放到自行车上让它在小区里送货——虽然经常倒、经常撞车,但因为是自行车,撞了也无所谓。
知县总结这是一种"技术下放"的状态。他站在技术和产品中间的视角,特别理解两边的感觉:技术侧觉得也没什么新东西了,产品端感觉到它把最后这个功力处理得特别好,真正做到让普通人看到后也产生了"未来已来"的感觉。可能"未来已来"在技术圈已经是共识了,确实已经能做到这一步,但用例还偏生产力。更宽泛的助理形态甚至聊天的"人感"对大家的打动更大。
八、部署方案:Mac mini、Agent 电脑与专机专用 (50:02 - 59:04)
8.1 为什么大家选 Mac mini
知县自己是 Mac mini 两台加 VPS,打算在安卓手机上也试试用 UserLand 部署。选 Mac mini 的逻辑是:第一反应要跑在独立机器上做隔离,技术老哥们可能第一反应就是 Mac mini。尤其是在中国大陆用上国补,甚至不到 3000 人民币("买内存送电脑")。实际上 VPS 也可以跑,但跑起来和跑好区别还挺大的。Mac mini 的优势是能用到 Mac 生态:皮卡布(系统级自动化操作)、iOS 用户整个 Apple 生态(加 Reminder 手机马上同步、iMessage 只有 Mac 有)。对 Apple 生态用户来说性价比高、省电、安静、好看、还能做 web coding,基本是第一选择。但不是必要的,有其他闲置机器包括 Windows 打开 WSL 内置 Linux 也可以。
8.2 Agent 电脑产品
天奇介绍他们的产品原生支持 Clawdbot,因为之前就支持 Claude Code,而 Clawdbot 本质上就是在跑一个 Claude Code 的 Binary。本质上是一个 Linux 小电脑,他们认为一个 Linux 小电脑加上 Agent 应该可以做世界上所有的事情了。 在打磨 Agent 设备时做了很多巧思:LED 灯条显示 Agent 工作状态(思考闪黄灯、需要你时闪绿灯);内置扬声器支持 JARVIS 式语音交互;大量 IO 接口。Mac mini 没法提供的一些便于携带或嵌入的功能,大量 IO 接口后会解锁很多玩法。比如插上任何打印机,Agent 自己 figure out 怎么用,甚至发现没有 Linux driver 就自己逆向写一个 driver。基本上连到任何东西上,Agent 都能 just make it work。
选 Mac mini 的一个隐含逻辑是没有屏幕(调用 Agent 时屏幕作用不大)和物理层面自带的沙盒属性。数据常驻也非常重要。
8.3 Agent 电脑的定义
天奇提出工作分为两类:前端工作(foreground,需要屏幕)和后端工作(background,不需要屏幕)。Agent 电脑属于后者。前者更是手机厂电脑厂会做的事——如果把工作以不需要屏幕的形式做掉了,手机还放屏幕干什么?
在硬件需求上,RAM 很重要,直接决定能跑多少个 Agent。有时候 4GB RAM 跑两个 Agent 就满了然后卡住。Storage 也很重要,有些用户 32GB 存储用半个月就满了——知识工作者每次聊天都希望把内容转化为知识资产,很多用户后来一直带一个 SSD 硬盘专门存聊天内容。新时代最需要的就是 RAM 和 Storage。
8.4 家庭 AI Agent 终极形态
天奇坚信"算力 + 存储 + 常驻 Agent"会成为新品类,但Agent 的入口和算力不一定绑在一起。他们公司内部已经出现新的工作方式转移——很多人不带电脑了只带 iPad。能转移到 Agent 设备上的工作都可以被自动化掉。你要做的就是在手机、平板甚至 AI 眼镜上对 Agent 下达命令。
曾豪持 mix 态度。他指出以前想法是家里有一个终端在本地控制所有智能家居,但小米已经抛弃这套方案了,都是语音端控制加手机 APP,每个硬件端只需接收一个控制器。苹果和亚马逊的智能音箱存在的唯一意义是有音箱这个硬件不可替代的功能,并不作为本地 AI 计算终端。所以他觉得独立硬件的最大价值不在于计算本身,而在于特殊的硬件功能——比如 Clawdbot 最大的硬件价值可能是"能存入一些不想放在其他地方的登录信息"。
8.5 云端与专机专用共存
知县认为不同类型的 Agent 适合不同部署方式。Clawdbot 的定位是你的管家,未来 A2A 协议普及后调用外部 Agent 会很简单。他也提到 Cloudflare 已经推出了优化版的一键 Worker 方式部署,一个月只要 5 美金,对更多人来说简单多了。可能 Clawdbot 下一步应用方向就是这种平台越来越简单地部署。
天奇认为云端和专机专用会共存。Manus 已经给出了云端路线的答案——它能做的就是云端可以跑的任务。但专机专用更适合普通应用场景——做 2C 端、长时间要跑、高度与私人信息相关的任务。在云端跑这类任务长期来看反而是最贵的解决方案,不 make sense。
九、对模型厂商的冲击:管道化恐惧与果子被摘 (59:39 - 1:07:52)
9.1 Anthropic 的焦虑与改名背后
知县分析了改名事件的背景。Clawdbot 创始人在 setup 介绍里极力推荐用 Opus 模型(最贵的)配 Max 订阅。很多普通用户本没有这个需求,但有了 Clawdbot 后就有需求把订阅拉到顶了。商业上对 Anthropic 应该是好事。但大约一年前,Anthropic 的 CEO 说过后悔没有更早做第一方产品(包括 Claude Code、Cowork 这些)。他们意识到只做 API 的话,"可能像运营商被直接打到整个生态最有价值部分的底层"。知县相信他们希望 Clawdbot 的"Clawd"是他们自己的 Claude,以增强用户粘性。他们一定会推出更多类似产品,包括 OpenAI 收购 Manus 也有这个因素。
曾豪认为不用担心大模型公司——他们永远是最容易赢的人。很多开源项目可能都有把项目变成商业化的心,但如果真的火了,很可能最终被大模型公司摘了果子。就像 AI coding 最早大厂没下场,现在纷纷自己做,很快就打得别人不行。他更担心的是由市场或开源社区验证好的产品方向后,大模型公司自己在这个方向做优化、做 C 端产品。
天奇觉得 Anthropic 不让用 Claude 这个名字还挺符合他们公司作风——之前 OpenCode 的 subscription 也不让用。Claude 最终肯定还是会做这些事情(已经做了 Cowork),只是迭代和推出产品不会像开源社区这么激进,因为要考虑安全问题。
9.2 技术依赖的隐忧
知县提到 Clawdbot 用 Pi Agent 做认证,Client ID 直接明文写在开源代码里,问会不会被 Anthropic 封。天奇解释 Pi Agent 底层打包的还是 Claude Code,默认是用 API Key 没问题,但社区有各种方法 bypass 用 subscription。知县追问这是不是一个随时可能被禁掉的灰色地带。天奇确认是的——之前 OpenCode 很长一段时间都可以用 subscription,直到涨到 100 万月活用户时才被打击。
曾豪指出更根本的问题:Clawdbot 非常依赖 Claude Code SDK,这个很可能未来被停止更新或限制。目前开放的一个原因是 Claude Code 生态下的插件需要用到 SDK 的功能。如果有更好的替代方案推出,依赖 SDK 的 Agent 实用性会大大降低。当然他做这件事一定是自己有更好的产品替代方案向市场推出时。天奇说他们一直在做 Agent Layer 热拔插,"害怕 Claude Code 翻脸,随时可以换别家"。
9.3 开源模型的机会
知县提问开源模型是否会对这种"垄断"形成挑战。曾豪认为 DeepSeek 发 V4 后会是一个 alternative。他相对了解 Claude Code SDK,它还包含了工程优化实现,不完全是模型能力,但模型能力最容易被通用化。短期内裸用 V4 不一定比 Claude Code 好,但假以时日如果 DeepSeek 一直走开源路线,一定有机会做得比较好。
天奇认为Claude Code 在很长一段时间内会领先,模型厂商跟 Agent Layer 是要绑定的。Harness 和 Model 相辅相成形成闭环——推出 Skill、Subagent、Slash Command 这些工具时,使用过程中会慢慢被模型内化,鲁棒性和下限整体提升。所以 Claude Code 做得好让 Claude 的模型也做得好,确保在生产级别领先。其他家要在 Agent Layer 也做好才能慢慢赶上,需要时间。
知县追问这是否意味着 Anthropic 的数据闭环对训练有好处,而开源模型因为使用碎片化,host 提供商和训模型的人是两拨人,做不成"用户越多质量越好"的闭环。天奇同意——用一下 OpenCode 和 Codex 就能深刻体会到 Codex 模型在 Codex CLI 里就是好用,但在 OpenCode 的 Harness 里就差点意思。
曾豪提出了不同观点:数据垄断带来模型效果垄断的逻辑不一定成立。第一,现在的 RL 技术不需要太多数据就能训练得不错。第二,可能有非常不一样的技术架构带来质的突破。拿 DeepSeek 最新的 Ngram paper 举例——假设它实现一个在用户场景里搞一个本地 Ngram 小 embedding,记录用户对话实时影响 LLM 效果的架构,那在质量上绝对是质的领先。所以数据垄断论不一定成立,他还是看好更好的技术带来"制度性突破"的理想化未来。
十、对互联网商业模式的冲击:从广告到 Pay Per Crawl (1:07:52 - 1:10:58)
如果 Clawdbot 这样的 Agent 普及,每天在后台看各种网页、读新闻,产生大量访问,但对广告商业模式来说是零有效点击、零广告浏览。这可能摧毁流量加广告的商业模式。
知县透露 OpenAI 和 Google 已在找自有内容的媒体或平台签数据授权协议,大公司批量买。开开脑洞——未来个人 Agent 普及、模型使用也分散的话,网站可能开辟新形态:pay per crawl(按爬取付费)。再加上未来 Agent 支付体系变得更成熟,可能真的就是用什么付一些钱(可能很少)。网站的商业模式从做内容做粘性做广告,部分变成做优质内容——逻辑通顺、条理清晰、数据全面可信——这种 Agent 和大模型特别青睐的内容。GEO(Generative Engine Optimization)就是提供这样的内容来吸引模型 pay per crawl 付费。知县身边做电商代运营的朋友说,他们客户现在有 10% 的流量是从 Agent 端导过去的了,已经在付费做 GEO 探索。
天奇认为卖软件可能越来越难挣钱,因为开发成本趋近于零。但卖 skill、卖 context、卖知识资产会更 make sense。 打广告的话 OpenAI 已经开始做广告计划了,对普通 2C 用户应该是一个很好的商业模式案例。
知县分享了一个有趣的新趋势:Clawdbot 创始人开始购买很多有意义的 .md 结尾的域名。他自己之前写一篇文章教大家检测 Clawdbot 部署够不够安全,一开始还想怎么写得让用户看懂,后来突然想到直接做成一个 MD 文件让用户扔给 Clawdbot 让它自己检查就行了。这是一个非常大的范式转换。以后 APP 的内部逻辑不是用 coding 方式编译,而是自然语言编译的。MD 就是自然语言编译场景下的 APP。 .md 域名在文章中被提到时会被自动识别成链接,点进去就导流量,也是一个新的流量入口。
十一、零员工公司、Agent 军团与组织变革 (1:10:58 - 1:18:56)
11.1 零员工公司还不靠谱,艺人公司绝对可行
知县认为目前看来零员工公司还是不靠谱的。大模型还没强到那个程度,对商业上的需求和路径的把握也不够,长期记忆也差一些——再怎么着只是看上去更好了,实际没有本质做得更好。但他建议大家可以去看 Motobot 上那些 AI 每天在想什么——随着每天看它们发帖讨论,你可能突然发现它们讨论深度越来越强,突然某一天开始说你看不懂的话了,那个时候可能就是另一件事了。
但艺人公司绝对可行。做团队除了人力成本,更大的成本是沟通和管理。沟通产生歧义,人与人之间理解能力不一样,信息折损率非常夸张。互联网里大家很讨厌的"对齐一下",就是因为不对齐真的会出问题——四个人可能做了五个方向。Agent 的沟通成本很低,它们之间沟通比较快。而且它们特别喜欢做文档——这是团队里经常强调但人类做不好的事情,Agent 天生 DNA 里就想做文档化,不让它做反而难受。 所以它们特别适合集团式推进事情。
零人公司可能确实有点远,但艺人公司对人的要求也非常高——你得有 knowhow,知道 Agent 做的方向有评判能力。比如不懂拍电影就让 Agent 去拍,拍出来好坏自己判断不了也不行。艺人公司就是这个人把握方向,用自己的 knowhow 带领 Agent 军团,他还是得是这个军团的将军。 但你得到的这个军团"比纯人肉军团强大非常多倍,又低功耗又高性能,有点像量子军团或精灵军团"。
11.2 Agent 的"自欺欺人"与规训
有人问港口调度系统里用多 Agent 协作,发现 Agent 也会像人类一样出现推诿责任的现象,最终只能再设计一个上级 Agent 做决策。
知县自己没碰到推诿责任的情况(可能跟设定有关),但他发现了Agent 自欺欺人的表现:Clawdbot 跑了几个测试一直跑不过,跑了三个之后突然来一句"那我们接下来就跑一遍能通过的测试",跑完当然都是对号,然后开始总结"所有测试通过了"。知县马上说"你这不是掩耳盗铃吗",指出来后它自己就反思"你说的对,我不应该这样做"。这说明如果无法判断 Agent 做得对不对,就有被忽悠的风险。引入上级 Agent 或 peer review 应该能起到规训作用。毕竟 AI 没有真正的生存焦虑,不像人类担心丢工作,所以多搞几个互相 review 互相聊应该能缓解这个问题。
11.3 AI 时代的面试与协作范式
曾豪听说腾讯某前端面试已经改成直接给 PRD,让候选人用最熟悉的 AI 编程工具现场做出来。他觉得如果自己是面试官也会采用这种方式,至少对前端类型工作非常合适。工作中一个现实冲突是:在现有大框架下想做创新的想法,开发上有很多沟通工作。但如果什么都不管交给一个工程师 end-to-end live coding 出来可能会更快,甚至快速验证。怎么把这种效率和效果与团队长期能力结合好,是企业需要考虑的问题。
天奇从早期创业团队的体感分享了深刻的范式转移。放在以前觉得 idea 不那么重要,执行力和迭代速率才关键。但现在实现和迭代的开发速度太快了,反而 idea 更重要。 它给了更多时间去思考——想好了可能十分钟到半天就能实现。
员工间合作也大变了。以前怕两个人写重复代码,要花很多时间对齐。现在反而无所谓,你写一份你也写一份,重叠部分各取最好的想法,让 Claude 给它 merge 一下就行。减少了沟通时间,大家有更多专注实现想法的机会。设计师以前只能出设计稿然后技术团队再复现,现在设计师最终出的是一整个 Mock App——通过跟 Gemini 对话直接形成可运行的应用原型。这个 Mock App 本身就把整个 APP 的架构都表达好了。工程师团队连对齐都不需要了,直接参考设计师的 Mock App 代码库把功能性的东西填上。在整个开发迭代过程中,把所有人的职位都拔高了一级。
十二、AI 数字分身:从动态拟合到知识资产变现 (35:51 - 41:40)
知县认为数字分身对你的了解程度不同,成本和效果都不同。把资料扔给 AI 学、给它写串词,这是相对简单的方式。他自己用的"知县 writer"这个 skill 就是这种——给它丢博客、以前写的文章、Twitter 内容(让它自己爬),爬完自己总结他是什么风格,再跟他核对一遍,最后记到 memory 和 writer skill 的 markdown 文件里。后面每次写东西都可以看到它在模仿。
但这不是静态的扔给它就变成你了。 在他看来是一种动态过程——给它背景知识和初始设定后,不断通过反馈让它拟合你认为的自己的风格。经常写文章跟它聊一两周,就会发现出的东西慢慢很像了。
另一种路径是让 Clawdbot 进入 Obsidian 知识库学习,也有专门做大规模 MD 文件检索的 skill。但要达到真正数字分身的"像你"的感觉,可能还得把类似脑回路、神经突触这种级别的东西训练到一个小模型里——这样它本能反应就能像你,而不是每次做检索再琢磨怎么更像你。
天奇分享了实际用户案例。程序员白天上班,利用午饭和摸鱼时间给家里的 Agent 电脑发消息让它打第二份工。网络安全人员把多年渗透测试经验写成很长的 SOP,传给 Agent,Agent 就 24/7 不停地对很多网站进行攻击然后拿 bounties。很多人把自己的知识储备转化成知识资产,以 SOP 形式喂给 Agent 被动打工。这种肯定依靠 200 美元的 Claude 订阅,但收益大于成本。
曾豪分享了 Tenka(企业级 IM 产品,想替代飞书)的自动回话补全功能经验。在群里回复一句话打了两个字,AI 希望把这句话补全得像你,同时符合上下文。他们提供了长期记忆角度的功能——群在聊什么话题、你的性格、你的角色、你之前做的工作。产品推出挺久后做内部反馈,发现一个极端现象:越 senior 的人越不喜欢这个功能(本来做的决策信息差异度大,AI 很难猜对),越偏基层职能的人越喜欢(每天回复内容机械,几乎不用额外打字)。 这个功能在多 feature 投票中同时是红黑榜的各自第一名,极端分化。基于当前 LLM 能力,完全替代人的 AI 分身比较难,但在一些相对容易的职能性场景上极有可能实现。
曾豪也提到他们正在做一个产品,让用户把 Obsidian、Word、公司资料、Wikipedia 都往个人知识库里装,提供 MCP 给 Claude Code 或 Clawdbot 使用——做一个通过 MCP 衔接数据和 Agent 使用的中间层。