
最近几天,围绕 AI 工具成本的信号变得很密集。
一边是 GitHub Copilot 宣布从 2026 年 6 月 1 日开始切换到 usage-based billing,不再只按 premium request 这种相对抽象的单位计量,而是引入 GitHub AI Credits,并按模型 token 消耗来计算用量。
另一边,OpenRouter 推出 Guardrails,把预算限制、模型/供应商限制、零数据保留、提示词注入防护和数据泄露防护做成工作区级别的治理能力。开源侧也出现了 AgentBudget 这类项目,目标很直接:给 AI Agent 会话加一个类似 ulimit 的预算上限,防止一次 agent run 把预算烧穿。
这些事情放在一起看,趋势很清楚:
AI 工具正在从“买了订阅就尽量多用”,进入“每一次长任务、每一个模型选择、每一轮 agent 循环都要被计量和治理”的阶段。
这不是简单涨价问题,而是 AI 工具产品形态变化之后,成本模型终于开始跟上了。
为什么这个变化现在发生
早期 AI 编程工具更像一个增强版编辑器插件。
你让它补一段代码、解释一个函数、写一个测试,它多数时候只是一次短请求。即使背后模型按 token 收费,产品层也可以用订阅制或请求额度把复杂度包起来。
但现在的 AI 编程工具已经不只是“问一句,答一句”。
它们开始做这些事情:
- 读取整个仓库上下文;
- 在多个文件里规划修改;
- 调用终端、浏览器、MCP 和外部 API;
- 运行测试并反复修复;
- 自动创建 PR、做 code review;
- 长时间保持会话状态,持续迭代一个任务。
GitHub 在 Copilot usage-based billing 的公告里也提到,Copilot 已经从编辑器助手演进成 agentic platform,能够执行长时间、多步骤的编码会话,并跨仓库迭代。这类 agentic usage 会带来更高的计算和推理成本。
这就是问题的核心:一次简单聊天和一次持续很久的 autonomous coding session,在旧计费模型里可能看起来差不多,但真实成本完全不是一回事。
所以从平台角度看,usage-based billing 是迟早的事。
Copilot 的变化说明了什么
GitHub 这次变化有几个关键点。
第一,Copilot 的基础订阅价格没有直接变化,但每个计划会包含一定额度的 GitHub AI Credits。之后的用量会按 token 消耗计算,包括输入、输出和 cached tokens。
第二,旧的 premium request unit 会被替换。过去用户更关心“还剩多少请求”,之后会更关心“这次任务消耗了多少 token / credits”。
第三,代码补全和 Next Edit Suggestions 仍然包含在计划内,不消耗 AI Credits。但更重的 chat、agent、code review 等能力会逐渐进入更精细的用量模型。
第四,fallback 体验会取消。以前某些场景下额度耗尽后,可能还能回落到低成本模型继续工作;新模型下,是否继续用,更多取决于剩余额度和管理员预算设置。
第五,Copilot code review 除了消耗 AI Credits,还会消耗 GitHub Actions 运行时间。这一点很关键:当 AI 功能开始真正执行工作流,它消耗的就不只是模型 token,还包括运行环境资源。
这意味着开发者和团队以后不能只问:
这个 AI 工具多少钱一个月?
而要问:
我们日常使用它的任务结构是什么?哪些任务最耗 token?哪些模型最贵?哪些 agent run 容易失控?预算超了之后要自动阻断,还是允许继续付费?
为什么 Agent 更需要预算治理
普通聊天工具的成本通常还比较可控。用户问一句,模型答一句,最多是上下文越来越长。
Agent 不一样。Agent 有几个天然容易烧预算的地方。
1. 它会循环
一个 coding agent 可能会经历:
读代码 -> 写补丁 -> 跑测试 -> 报错 -> 再读代码 -> 再写补丁 -> 再跑测试如果没有停止条件,它可能会在同一个错误上来回试很多轮。每一轮都会消耗模型调用、工具调用和上下文传输成本。
2. 它会扩大上下文
Agent 为了理解任务,可能会读取大量文件、issue、PR、网页和日志。上下文越大,输入 token 越高;输出越长,输出 token 也会上去。
3. 它会调用外部工具
搜索、浏览器、数据库、向量检索、代码执行、沙箱、CI,这些都可能有成本。真正的 agent 预算,不应该只看 LLM token,还要看工具链成本。
4. 它可能被错误任务拖住
如果用户目标不清楚,或者上下文里有噪声,Agent 可能会走错方向。方向错了,越努力越贵。
所以 Agent 时代的成本治理,不只是“省钱”,而是工程安全的一部分。

从额度到 Guardrails
OpenRouter 的 Guardrails 很能说明这个方向。
它不是只做一个账单页面,而是把治理放进请求路径里:可以设置每日、每周、每月预算;超出后请求直接失败;还能限制模型和供应商,强制使用零数据保留端点,并增加提示词注入和数据泄露防护。
这类能力的价值在于,它把“事后看账单”变成了“事前设边界”。
对个人开发者来说,这可能只是避免一个脚本跑飞。对团队来说,它对应的是更现实的问题:
- 新人能不能用最贵的模型?
- 自动化任务能不能无限重试?
- 某个 API key 能不能单独设置预算?
- 测试环境和生产环境能不能用不同模型池?
- 涉及客户数据时,能不能强制走不保留数据的 provider?
当 AI 调用开始进入业务流程,这些问题会比“哪个模型更聪明”更重要。
AgentBudget 这类项目为什么值得看
AgentBudget 的定位很朴素:给 AI Agent 会话加硬预算。
它可以包住 LLM 调用、工具调用和外部 API 请求,实时记录成本,达到限制后触发 circuit breaker。它还考虑了一个很实际的问题:不要让 agent 在最后一步被预算切断,所以支持为最终回复预留一部分预算。
这说明成本治理已经开始从平台侧下沉到应用侧。
如果你在写自己的 Agent,不能只依赖模型平台的账单。因为平台账单通常告诉你“最后花了多少钱”,但你的应用需要在执行过程中知道:
- 当前任务已经花了多少?
- 剩余额度够不够做下一步?
- 是否进入重复调用循环?
- 某个子任务是否应该有独立预算?
- 预算快耗尽时,应该停止、降级还是总结已有结果?
这和传统系统里的 timeout、rate limit、memory limit 很像。以前我们限制进程资源,现在要限制 agent 资源。
还有一个容易被忽略的问题:token 账单要能被信任
当 token 变成计费核心,另一个问题也会出现:token 数本身是否可审计?
最近一篇 arXiv 论文讨论了 token inflation 的风险。它的核心观点是,商业模型通常会隐藏模型实现、tokenizer 和执行细节,用户很难独立验证 provider 报告的 token 数是否完全可信。
这不代表每个平台都会乱报账单,但它提醒我们:当按 token 计费成为主流,成本可观测性和审计能力也会变成基础设施问题。
以后团队做 AI 成本治理,不能只保存一行总金额。更合理的做法是记录:
| 层级 | 需要记录什么 |
|---|---|
| 任务层 | 用户目标、任务 ID、执行入口 |
| 模型层 | 使用了哪个模型、provider、价格档位 |
| 用量层 | input / output / cached tokens,是否 streaming |
| 工具层 | 搜索、浏览器、CI、外部 API 等额外成本 |
| 控制层 | 预算、限流、降级、阻断原因 |
| 结果层 | 任务是否完成,是否重试,是否人工接管 |
这和我之前写 Agent observability 时提到的“意图到动作日志”是一条线:AI 系统越能自主行动,越需要把成本、权限、上下文和结果串起来看。
对个人开发者的建议
如果你只是日常使用 AI 编程工具,我建议先养成几个习惯。
第一,不要默认所有任务都用最强模型。简单补全、解释错误、生成小脚本,可以用便宜模型;架构设计、复杂调试、跨文件修改,再切强模型。
第二,大任务先让 AI 计划,不要直接让它无限执行。计划阶段可以暴露上下文范围、风险点和验证方式,也能减少后续反复试错。
第三,长任务要设停止条件。比如最多跑几轮测试、最多读取哪些目录、失败后先总结而不是继续猜。
第四,关注账单里的“形状”,不是只看总额。真正值得看的指标是哪些任务、模型、工具和人消耗最多。
对小团队的建议
小团队更应该把 AI 成本当成工程治理,而不是财务报销。
可以从这几个动作开始:
给不同场景分预算
- 日常问答
- 代码生成
- 自动 code review
- 批量重构
- CI 里的 AI 检查
给不同身份分权限
- 普通开发者默认便宜模型;
- 资深开发者可以手动切换强模型;
- 自动化任务必须有硬预算;
- 生产相关任务必须有审批。
给 Agent 设置硬边界
- 最大花费;
- 最大迭代轮数;
- 最大上下文范围;
- 最大工具调用次数;
- 失败后的降级策略。
把成本写进复盘
- 这次 AI 帮我们节省了多少人工时间?
- 花费主要来自模型还是工具?
- 哪些步骤其实可以用规则、缓存或脚本替代?
- 是否应该沉淀成 skill,减少下次重复消耗?
这不是坏事
很多人看到 token 计费,第一反应会是“AI 工具变贵了”。
这当然是现实问题。但从长期看,这也是 AI 工具走向成熟的信号。
订阅制把复杂度藏起来,适合早期教育市场;usage-based billing 把真实成本暴露出来,逼着用户和平台一起面对资源消耗。
当 Agent 开始真正替你跑任务,成本治理就不是可选项。
更成熟的 AI 工程系统,应该同时具备:
- 模型选择;
- 上下文管理;
- 权限控制;
- 工具审计;
- 预算限制;
- 任务复盘;
- 降级和停止策略。
一句话总结:
AI 工具的下一阶段,不只是“更聪明”,而是“更可控”。
谁能把成本、权限和执行边界管理好,谁才更适合把 AI Agent 放进真实工作流里。
参考
- GitHub Copilot is moving to usage-based billing
- GitHub Copilot billing documentation
- April reports are now available to prepare for usage-based billing
- What a joke: GitHub Copilot’s new token-based billing spurs consternation among devs
- Guardrails: Protect your Agents, Data, and Costs
- AgentBudget
- Token Inflation: How Dishonest Providers Can Overcharge for Large Language Model Usage
