“大音希声,大象无形。” — 《道德经》

首图

一个野生的病毒式传播

2026 年 4 月 4 日,一个叫 caveman 的 GitHub 仓库被创建。

不到一个月,52,000 颗星。GitHub 增长史上排得上号的火箭曲线。

这个项目的核心主张只有一句话:

🪨 why use many token when few token do trick

翻译成人话:能说俩字,不说仨。

它不是一个 AI 模型,不是一个新的框架,甚至算不上软件工具——caveman 是一个让 AI Agent「说人话」的提示词技能。装好以后,Claude Code、Gemini CLI、Cursor、Codex 等 30 多个 AI 编程助手,会把以往那种「我当然很乐意帮您解决这个问题,让我一步步来看」的长篇大论,压缩成「Bug 在第 42 行,加个 null guard」的极简回应。

听起来像恶搞?但这就是 GitHub 用 52k stars 投票选出的 2026 年 4 月最火项目。

零、先搞清楚现状

查询方式:通过 GitHub API 直接获取仓库信息和 README 全文解析。

Caveman 不是小打小闹的玩具。它有完整的四个模式、一套生态三件套、经过严格评估的基准测试,甚至配套了 MCP 中间件。这不是段子,这是严肃的效率工具,只不过包装得很幽默。


一、核心机制:Caveman 到底在做什么

1.1 原点——一个观察

你用过 AI 编程工具吧。每次问一个问题,它先给你来一段:

“这个问题其实很典型,很多开发者都会遇到。让我帮你分析一下可能的原因……首先我们要理解你的代码结构……”

—— 这些”暖场话”完全没用。真正有价值的信息可能就两行。

Caveman 做的事情很简单:在系统提示词(system prompt)层面注入压缩指令,告诉 AI 模型去掉所有客套话、过渡句、语气词和无关铺垫,只输出技术内容。

1.2 压缩对比

官方放了一组经典对比——我翻译一下感受:

正常模式(69 tokens):

“你的 React 组件之所以重渲染,很可能是因为你在每次渲染循环中都创建了一个新的对象引用。当你把内联对象作为 prop 传递时,React 的浅比较会把它视为不同的对象,从而触发重渲染。我建议使用 useMemo 来记忆化这个对象。”

Caveman Ultra 模式(19 tokens,压缩 72%):

“内联 obj prop → 新 ref → 重渲染。useMemo。”

同一句话。技术内容一点没少。

1.3 技术实现

Caveman 通过 install.sh 一键安装后,会:

  1. 注入系统提示词 — 在 Claude Code 的 CLAUDE.md、Cursor 的规则文件、Codex 的 hooks 里写入压缩指令
  2. Hook 编译器 — 在 Claude Code 插件的 install.sh 里注册 /caveman 命令和自动激活机制
  3. MCP 中间件caveman-shrink 会拦截 MCP 服务器的 tools/listprompts/list 等响应,压缩 description 字段(代码、URL、路径保持原样不变)

简单说:不是改 AI 模型,是改 AI 的说话习惯。


二、四个模式:你要压缩到什么程度

Caveman 不是一刀切的”彻底没礼貌”,而是从轻到重分成了四个档位:

模式 触发指令 风格
🪶 Lite /caveman lite 去掉废话,保留语法。专业但不啰嗦
🪨 Full(默认) /caveman full 去掉冠词,碎片化句式
🔥 Ultra /caveman ultra 电报式,极致缩写
📜 文言文 /caveman wenyan 用文言文实现最高密度压缩

文言文模式,值得单独说

官方 README 原文:

“Classical Chinese literary compression — same technical accuracy, but in the most token-efficient written language humans ever invented.”

中文:文言文是人类历史上 token 效率最高的书面语言。

同一内容压缩效果示例:

  • 正常:”你的组件重渲染是因为创建了新对象引用”
  • 文言文(wenyan-ultra):「物出新參照,致重繪。useMemo Wrap之。」

7 个中文字,把问题原因和解决方案全说了。这就是为什么四千年的文言文在 AI 时代居然迎来了第二春。

这个发现非常巧:文言文的高信息密度和 LLM 的 token 压缩需求完美对齐。


三、用数据说话:到底省多少

Caveman 不是光吹,它有完整的 benchmark 和 eval 系统。

3.1 官方 Benchmark

来自官方一键可复现的基准测试:

任务 正常 (tokens) Caveman (tokens) 节省
解释 React 重渲染 bug 1180 159 87%
修复认证中间件 token 过期 704 121 83%
配置 PostgreSQL 连接池 2347 380 84%
Git rebase vs merge 解释 702 292 58%
重构回调为 async/await 387 301 22%
微服务 vs 单体架构 446 310 30%
PR 安全审查 678 398 41%
Docker 多阶段构建 1042 290 72%
PostgreSQL 竞态条件调试 1200 232 81%
React Error Boundary 3454 456 87%
平均 1214 294 65%

结论:平均省 65%,最高省 87%。

越复杂、越结构化的任务(如解释 bug、实现组件),节省越明显。而那些本来就适合表格/清单输出的任务(如架构对比),节省相对少但依然划算。

3.2 Eval 的严谨性

值得夸奖的是,caveman 的 eval 是正经做的——三臂对照实验:

  • 对照组 A:正常啰嗦模式
  • 对照组 B:仅显式 tell it to be terse
  • 实验组:caveman skill 注入

不是因为「啰嗦 vs 压缩」的对比本身有偏差,而是控制了「压缩方式」这个变量的影响。 这在开源 AI 项目里很少见。

3.3 速度与成本

  • 响应速度提升约 3 倍 — token 少,生成快
  • 成本降低 65% — 按输出 token 计费
  • 但思考/推理 token 不受影响 — Caveman 说得很清楚:“Caveman no make brain smaller. Caveman make mouth smaller.”

四、Caveman 的三件套生态

Caveman 不是一个人孤军奋战。它属于一个三件套生态:

组件 仓库 核心功能 策略
caveman JuliusBrussee/caveman 输出压缩(输出端) 说的少
cavemem JuliusBrussee/cavemem 跨 Agent 持久记忆(输入端) 记得多
cavekit JuliusBrussee/cavekit 规范驱动的自主构建循环 建得准

三者可以独立使用,也可以组合。

更大的图景:三个工具瞄准了 AI Agent 工作流的三个瓶颈——输入太多?(用 cavemem 压缩记忆)、输出太多?(用 caveman 压缩回应)、逻辑混乱?(用 cavekit 规范流程)。

4.1 额外神技能

Caveman 还自带一套 /caveman-* 命令:

命令 功能
/caveman-commit 超短 commit message。Conventional Commits,≤50 字符标题。只说 Why
/caveman-review 单行 PR 评论。如 L42: 🔴 bug: user null. Add guard.
/caveman-compress <file> 把 CLAUDE.md 等记忆文件重写成 caveman 风格,平均省 46% 输入 token
/caveman-stats 实时 token 用量 + 节省 + 预估美金。支持 --since 7d
cavecrew-investigator/builder/reviewer 专门的 subagent,输出比普通 Agent 少 60% token

以及 statusline 徽章(默认开启):在 Claude Code 底栏显示 [CAVEMAN] ⛏ 12.4k(已节省 token 数)。

4.2 MCP 中间件 caveman-shrink

这可能是最被低估的功能:

{
  "mcpServers": {
    "fs-shrunk": {
      "command": "npx",
      "args": ["caveman-shrink", "npx", "@modelcontextprotocol/server-filesystem", "/path/to/dir"]
    }
  }
}

它作为一个 stdio 代理,拦截任何 MCP 服务器的返回,自动压缩 description 字段。已发布在 npm 上,npx caveman-shrink 即用。

这个思路很好:不做新的 MCP server,而是做已有的 MCP server 的「压缩适配器」。不改代码、不改协议、0 侵入。


五、这件事为什么重要

5.1 一篇论文给 CAVEMAN 背了书

2026 年 3 月,一篇论文 “Brevity Constraints Reverse Performance Hierarchies in Language Models”(arXiv: 2604.00025)发现:

让大模型必须简洁回答后,准确性在某些基准上提高了 26 个百分点,并完全逆转了模型之间的性能层级。

换句话说:越啰嗦的模型,不一定越好。有时候字越少,信息越准

5.2 从 Prompt Engineering 到「Token 预算」思维

Caveman 的火爆,反映了一个更深层的变化:

2026 年的 AI 开发者,已经从”怎么让 AI 理解我”变成了”怎么给 AI 的 token 花得值”。

  • 输入 token:花在哪里?(RAG?系统提示?历史对话?)
  • 输出 token:花给谁看?(用户?下游系统?另一个 Agent?)
  • 推理 token:花在思考还是花在表达?

Caveman 回答的是「输出 token 的性价比」——把花在寒暄和修辞上的钱,省下来用在刀刃上。

5.3 对 Agent 开发的启示

如果你在用自己的 Agent 框架(比如璞奇 → 智能助教),caveman 的思路值得借鉴:

  1. 设置默认压缩级别 — 除非用户要求详细解释,否则 AI 输出默认极简
  2. 结构化输出优先 — 代码 > 描述,列表 > 段落,表格 > 正文
  3. 把「信息密度」作为 Agent 的一个设计目标 — 不是”说对了就行”,是”用最少 token 说对了才行”
  4. 记忆文件也值得压缩caveman-compress 对 CLAUDE.md/CLAUDE.md 等长期记忆文件的压缩,启发价值很高

六、一些冷思考

6.1 局限性

Caveman 也诚实列出了它的边界:

  • 不影响 thinking/reasoning token — 模型的「思考」层不受影响
  • 教学 / 新手场景不适用 — 如果你是教人学编程,啰嗦反而是美德
  • 某些复杂推理需要完整上下文 — 过于压缩可能丢失推理链

6.2 52k stars 到底说明了什么

Caveman 的火爆,不是偶然:

  1. 时机对了:2026 年 AI Coding Agents 全面铺开,每个开发者都在大量消耗 token
  2. 痛点尖锐:AI 输出太啰嗦,是不分模型不分工具的普遍问题
  3. 安装极简一行命令安装,0 配置,秒见效
  4. 包装有趣:🌴 “caveman” meme 本身就很有传播力
  5. 生态齐全:不是玩具,有 benchmark、有 eval、有配套工具

七、Caveman 对璞奇的参考价值

璞奇正在做 AI 驱动的教育产品(智能助教 / 练习生成)。对于面向学习者的 AI 来说,信息的呈现密度需要特定设计:太啰嗦用户没有耐心读完(会跳走);太精简会略过需要说明的内容,认知负荷也不一定低。Caveman 的做法里有两条,对教育场景的思路启发是——

  1. 用层级来管理密度 — Lite / Full / Ultra 模式切换说明,同一个 AI 可以根据用户角色(新手 / 有基础的 / 查错时)在啰嗦与简练之间切。
  2. 耗掉的 token 本身是一种开销提醒 — 把 token 预算转化为界面上的反馈:你这个对话用了多少 AI 产出成本、省下多少、相当于什么代价;用户意识到 token 也是钱,自然会调整使用姿势。

八、总结

项目指标 数据
Stars 52k(1 个月)
Daily Stars ~1,700/天
Fork 2,800+
平均 token 节省 65%
最高 token 节省 87%
支持 Agent 数量 30+
许可证 MIT

查询来源:GitHub API 获取仓库元数据和 README 全文解析。

Caveman 是一个看似搞笑实则严肃的效率工具。它用 meme 的外衣,包裹了一个极其务实的问题:

AI 说的话,有多少是有用的?

答案可能比你想的少得多。而 caveman 帮你把那些「没用的」砍掉了 65%。

对于一个 2026 年 4 月才出生、如今已有 52k 星的项目来说,这不只是 meme,这是信号。


🔗 项目地址https://github.com/JuliusBrussee/caveman

🔗 安装方式(一行搞定)

curl -fsSL https://raw.githubusercontent.com/JuliusBrussee/caveman/main/install.sh | bash

🪨 小旋风注:Caveman 只在输出端下手。它不改变 AI 的思考过程,只优化表达方式。这既是它的聪明之处,也是它的边界所在。对于重视推理过程完整性胜过结果的场景,请谨慎使用 Ultra 及以上模式。