AI 工具的免费时代正在结束：从 Copilot token 计费到 Agent 预算治理

AI 工具预算治理封面图

最近几天，围绕 AI 工具成本的信号变得很密集。

一边是 GitHub Copilot 宣布从 2026 年 6 月 1 日开始切换到 usage-based billing，不再只按 premium request 这种相对抽象的单位计量，而是引入 GitHub AI Credits，并按模型 token 消耗来计算用量。

另一边，OpenRouter 推出 Guardrails，把预算限制、模型/供应商限制、零数据保留、提示词注入防护和数据泄露防护做成工作区级别的治理能力。开源侧也出现了 AgentBudget 这类项目，目标很直接：给 AI Agent 会话加一个类似 ulimit 的预算上限，防止一次 agent run 把预算烧穿。

这些事情放在一起看，趋势很清楚：

AI 工具正在从“买了订阅就尽量多用”，进入“每一次长任务、每一个模型选择、每一轮 agent 循环都要被计量和治理”的阶段。

这不是简单涨价问题，而是 AI 工具产品形态变化之后，成本模型终于开始跟上了。

为什么这个变化现在发生

早期 AI 编程工具更像一个增强版编辑器插件。

你让它补一段代码、解释一个函数、写一个测试，它多数时候只是一次短请求。即使背后模型按 token 收费，产品层也可以用订阅制或请求额度把复杂度包起来。

但现在的 AI 编程工具已经不只是“问一句，答一句”。

它们开始做这些事情：

读取整个仓库上下文；
在多个文件里规划修改；
调用终端、浏览器、MCP 和外部 API；
运行测试并反复修复；
自动创建 PR、做 code review；
长时间保持会话状态，持续迭代一个任务。

GitHub 在 Copilot usage-based billing 的公告里也提到，Copilot 已经从编辑器助手演进成 agentic platform，能够执行长时间、多步骤的编码会话，并跨仓库迭代。这类 agentic usage 会带来更高的计算和推理成本。

这就是问题的核心：一次简单聊天和一次持续很久的 autonomous coding session，在旧计费模型里可能看起来差不多，但真实成本完全不是一回事。

所以从平台角度看，usage-based billing 是迟早的事。

Copilot 的变化说明了什么

GitHub 这次变化有几个关键点。

第一，Copilot 的基础订阅价格没有直接变化，但每个计划会包含一定额度的 GitHub AI Credits。之后的用量会按 token 消耗计算，包括输入、输出和 cached tokens。

第二，旧的 premium request unit 会被替换。过去用户更关心“还剩多少请求”，之后会更关心“这次任务消耗了多少 token / credits”。

第三，代码补全和 Next Edit Suggestions 仍然包含在计划内，不消耗 AI Credits。但更重的 chat、agent、code review 等能力会逐渐进入更精细的用量模型。

第四，fallback 体验会取消。以前某些场景下额度耗尽后，可能还能回落到低成本模型继续工作；新模型下，是否继续用，更多取决于剩余额度和管理员预算设置。

第五，Copilot code review 除了消耗 AI Credits，还会消耗 GitHub Actions 运行时间。这一点很关键：当 AI 功能开始真正执行工作流，它消耗的就不只是模型 token，还包括运行环境资源。

这意味着开发者和团队以后不能只问：

这个 AI 工具多少钱一个月？

而要问：

我们日常使用它的任务结构是什么？哪些任务最耗 token？哪些模型最贵？哪些 agent run 容易失控？预算超了之后要自动阻断，还是允许继续付费？

为什么 Agent 更需要预算治理

普通聊天工具的成本通常还比较可控。用户问一句，模型答一句，最多是上下文越来越长。

Agent 不一样。Agent 有几个天然容易烧预算的地方。

1. 它会循环

一个 coding agent 可能会经历：

读代码 -> 写补丁 -> 跑测试 -> 报错 -> 再读代码 -> 再写补丁 -> 再跑测试

如果没有停止条件，它可能会在同一个错误上来回试很多轮。每一轮都会消耗模型调用、工具调用和上下文传输成本。

2. 它会扩大上下文

Agent 为了理解任务，可能会读取大量文件、issue、PR、网页和日志。上下文越大，输入 token 越高；输出越长，输出 token 也会上去。

3. 它会调用外部工具

搜索、浏览器、数据库、向量检索、代码执行、沙箱、CI，这些都可能有成本。真正的 agent 预算，不应该只看 LLM token，还要看工具链成本。

4. 它可能被错误任务拖住

如果用户目标不清楚，或者上下文里有噪声，Agent 可能会走错方向。方向错了，越努力越贵。

所以 Agent 时代的成本治理，不只是“省钱”，而是工程安全的一部分。

AI Agent 任务成本治理流程图

从额度到 Guardrails

OpenRouter 的 Guardrails 很能说明这个方向。

它不是只做一个账单页面，而是把治理放进请求路径里：可以设置每日、每周、每月预算；超出后请求直接失败；还能限制模型和供应商，强制使用零数据保留端点，并增加提示词注入和数据泄露防护。

这类能力的价值在于，它把“事后看账单”变成了“事前设边界”。

对个人开发者来说，这可能只是避免一个脚本跑飞。对团队来说，它对应的是更现实的问题：

新人能不能用最贵的模型？
自动化任务能不能无限重试？
某个 API key 能不能单独设置预算？
测试环境和生产环境能不能用不同模型池？
涉及客户数据时，能不能强制走不保留数据的 provider？

当 AI 调用开始进入业务流程，这些问题会比“哪个模型更聪明”更重要。

AgentBudget 这类项目为什么值得看

AgentBudget 的定位很朴素：给 AI Agent 会话加硬预算。

它可以包住 LLM 调用、工具调用和外部 API 请求，实时记录成本，达到限制后触发 circuit breaker。它还考虑了一个很实际的问题：不要让 agent 在最后一步被预算切断，所以支持为最终回复预留一部分预算。

这说明成本治理已经开始从平台侧下沉到应用侧。

如果你在写自己的 Agent，不能只依赖模型平台的账单。因为平台账单通常告诉你“最后花了多少钱”，但你的应用需要在执行过程中知道：

当前任务已经花了多少？
剩余额度够不够做下一步？
是否进入重复调用循环？
某个子任务是否应该有独立预算？
预算快耗尽时，应该停止、降级还是总结已有结果？

这和传统系统里的 timeout、rate limit、memory limit 很像。以前我们限制进程资源，现在要限制 agent 资源。

还有一个容易被忽略的问题：token 账单要能被信任

当 token 变成计费核心，另一个问题也会出现：token 数本身是否可审计？

最近一篇 arXiv 论文讨论了 token inflation 的风险。它的核心观点是，商业模型通常会隐藏模型实现、tokenizer 和执行细节，用户很难独立验证 provider 报告的 token 数是否完全可信。

这不代表每个平台都会乱报账单，但它提醒我们：当按 token 计费成为主流，成本可观测性和审计能力也会变成基础设施问题。

以后团队做 AI 成本治理，不能只保存一行总金额。更合理的做法是记录：

层级	需要记录什么
任务层	用户目标、任务 ID、执行入口
模型层	使用了哪个模型、provider、价格档位
用量层	input / output / cached tokens，是否 streaming
工具层	搜索、浏览器、CI、外部 API 等额外成本
控制层	预算、限流、降级、阻断原因
结果层	任务是否完成，是否重试，是否人工接管

这和我之前写 Agent observability 时提到的“意图到动作日志”是一条线：AI 系统越能自主行动，越需要把成本、权限、上下文和结果串起来看。

对个人开发者的建议

如果你只是日常使用 AI 编程工具，我建议先养成几个习惯。

第一，不要默认所有任务都用最强模型。简单补全、解释错误、生成小脚本，可以用便宜模型；架构设计、复杂调试、跨文件修改，再切强模型。

第二，大任务先让 AI 计划，不要直接让它无限执行。计划阶段可以暴露上下文范围、风险点和验证方式，也能减少后续反复试错。

第三，长任务要设停止条件。比如最多跑几轮测试、最多读取哪些目录、失败后先总结而不是继续猜。

第四，关注账单里的“形状”，不是只看总额。真正值得看的指标是哪些任务、模型、工具和人消耗最多。

对小团队的建议

小团队更应该把 AI 成本当成工程治理，而不是财务报销。

可以从这几个动作开始：

给不同场景分预算
- 日常问答
- 代码生成
- 自动 code review
- 批量重构
- CI 里的 AI 检查
给不同身份分权限
- 普通开发者默认便宜模型；
- 资深开发者可以手动切换强模型；
- 自动化任务必须有硬预算；
- 生产相关任务必须有审批。
给 Agent 设置硬边界
- 最大花费；
- 最大迭代轮数；
- 最大上下文范围；
- 最大工具调用次数；
- 失败后的降级策略。
把成本写进复盘
- 这次 AI 帮我们节省了多少人工时间？
- 花费主要来自模型还是工具？
- 哪些步骤其实可以用规则、缓存或脚本替代？
- 是否应该沉淀成 skill，减少下次重复消耗？

这不是坏事

很多人看到 token 计费，第一反应会是“AI 工具变贵了”。

这当然是现实问题。但从长期看，这也是 AI 工具走向成熟的信号。

订阅制把复杂度藏起来，适合早期教育市场；usage-based billing 把真实成本暴露出来，逼着用户和平台一起面对资源消耗。

当 Agent 开始真正替你跑任务，成本治理就不是可选项。

更成熟的 AI 工程系统，应该同时具备：

模型选择；
上下文管理；
权限控制；
工具审计；
预算限制；
任务复盘；
降级和停止策略。

一句话总结：

AI 工具的下一阶段，不只是“更聪明”，而是“更可控”。

谁能把成本、权限和执行边界管理好，谁才更适合把 AI Agent 放进真实工作流里。