Claude Code Token 机制与上下文管理

一、核心概念:为什么“输出少,输入就多”?

在大模型(LLM)的底层逻辑中,上下文窗口(Context Window)的分配并不是“输入”和“输出”独立计算的,它们共享同一个固定大小的总配额池

1. 黄金公式

总请求 Token 数 = 输入历史 (Messages) + 预留输出 (Completion)

2. 核心名词拆解

3. 常见消耗 Token 的操作

当总请求量超过限制时,API 会返回 400 Error,导致任务中断。


二、参数调整操作指南

要防止溢出,核心就是调整 Completion(输出)的预留值。针对不同场景,有以下几种操作方式:

方式 A:环境变量修改(临时生效 / 当前终端)

方式 B:配置文件修改(永久生效 / 项目或全局)

方式 C:会话内命令调整(即时生效 / 当前对话)


三、四大前沿实践策略(防止信息丢失)

策略 A:外部状态文件法 (The State File Pattern)

核心思想:将“记忆”从 AI 的对话历史中提取出来,持久化到磁盘上

策略 B:利用 CLAUDE.md 注入长效记忆

核心思想:利用 Claude Code 自动读取项目根目录 CLAUDE.md 的特性

策略 C:主动上下文截断与“微重构”

核心思想:预防胜于治疗,不要让垃圾信息进入上下文

策略 D:多会话流水线 (Multi-Session Pipeline)

核心思想:物理隔离不同性质的任务 Token


四、遇到 400 错误时的紧急预案

当你看到 maximum context length is 102400 tokens 报错时,请按以下步骤操作:

  1. 手动保存:将你认为重要的 AI 推理出的关键逻辑、未提交的代码手动复制到本地记事本
  2. 强制保存进度:命令 AI(如果还能响应):“请将当前完成情况和下一步计划写入 TASK_PROGRESS.md
  3. 执行压缩:输入 /compact
  4. 引导恢复:“刚才因为 Token 溢出进行了压缩。请读取 TASK_PROGRESS.md 并继续执行步骤 X”
  5. 模型降级(备选):如果是因为模型试图输出太长(Completion 溢出),尝试切换到更强大的模型(如 Opus)或者命令它:“请分段输出代码,不要一次性重写整个文件”

五、总结备忘


六、下一步

掌握 Token 管理后,可探索 国产大模型适配指南 以降低使用成本。