Caveman:何必用多 Token,少 Token 也能行
文章摘要
Caveman 是由 Julius Brussee 开发的一个 Claude Code 技能插件,它通过让 AI 代理采用”穴居人式”的简洁语言风格来大幅减少输出 token,平均节省约 65-75% 的 token 消耗,同时保持 100% 的技术准确性。项目名称致敬了美剧《The Office》中 Kevin 的经典台词:”Why use many word when few word do trick”(何必用多词,少词也能行)。
Caveman 的工作原理很直接:它删除冠词(the、a)、礼貌用语(please、thank you)、填充词和不影响技术含义的客套话,使用更短的同义词,允许句子片段和不完整句,但严格保留技术术语和代码块不变。核心思路是:AI 输出中大量的”人情世故”其实消耗了宝贵的 token,但对技术工作毫无帮助。
该工具提供了四个强度级别:Lite(保留语法的专业简洁风格)、Full(默认穴居人模式,使用句子片段)、Ultra(电报式极限压缩)以及文言文模式(使用古典中文进行最大程度的 token 压缩)。此外还附带了一系列配套工具:caveman-commit 生成 50 字符以内的 conventional commit 消息,caveman-review 提供单行 PR 反馈(如 “L42: bug: user null. Add guard”),caveman-compress 重写记忆文件(如 CLAUDE.md)以减少约 46% 的输入 token。
安装支持多种 AI 代理平台,包括 Claude Code(通过 marketplace 安装)、Gemini CLI、Cursor、Windsurf 和 Cline 等。在 Claude Code 和 Gemini CLI 中可以自动激活,其他代理需要手动触发或在系统提示中集成。
该项目在 GitHub 上发布后迅速走红,星标数在半天内从几十颗飙升到 500,后来突破了 20,000。在 Hackaday 上也获得了报道。一项 2026 年 3 月的研究论文为这一方法提供了理论基础,研究表明”约束大模型给出简短回答在某些基准测试上提高了 26 个百分点的准确率”,甚至逆转了模型性能排名。这说明减少输出 token 不仅是省钱,还可能提升模型表现。
HN 评论精华
-
关于思维 token 与输出 token 的区分:项目作者在讨论中澄清,Caveman 的目标不是减少隐藏的推理/思维 token,而是针对可见的输出文本——减少前言、填充词和虽然精致但非必要的文本。这一澄清很重要,因为思维 token 对模型推理质量至关重要。
-
“AI 话痨”引发的共鸣:大量评论者表达了对 AI 工具过度啰嗦的不满,称之为”AI 八股文”。有人指出,AI 总是用”Great question!”开头,然后用三段话说一句话能说完的事情,这种冗余在按 token 计费的场景下尤其令人沮丧。Caveman 精准地击中了这个痛点。
-
对准确性的担忧:一些评论者质疑在极端压缩模式下是否真能保持 100% 的技术准确性。有人提出,当上下文被过度压缩时,可能会丢失重要的限定条件和边界情况说明,建议在生产环境中谨慎使用 Ultra 模式。
-
文言文模式的讨论:文言文模式引发了有趣的讨论。有评论者指出,中文(尤其是文言文)的信息密度本身就比英文高,用更少的字符表达更多信息,这种语言特性天然适合 token 压缩。也有人认为这更多是一个有趣的概念验证,而非实际可用的功能。
-
对 LLM 默认行为的反思:有评论者从更深层次讨论了为什么 LLM 默认就那么啰嗦——这是 RLHF(人类反馈强化学习)训练的结果,因为人类评价者倾向于给更详细的回答更高分。Caveman 本质上是在用系统提示来抵消 RLHF 带来的冗余偏好,这暴露了当前 AI 对齐方法的一个有趣悖论。