AI 工具的免费时代正在结束:从 Copilot token 计费到 Agent 预算治理

GitHub Copilot 转向 usage-based billing、OpenRouter 推出 Guardrails、AgentBudget 这类项目出现,说明 AI 工具正在从订阅制体验进入按量计费和预算治理阶段。

AI 工具预算治理封面图

最近几天,围绕 AI 工具成本的信号变得很密集。

一边是 GitHub Copilot 宣布从 2026 年 6 月 1 日开始切换到 usage-based billing,不再只按 premium request 这种相对抽象的单位计量,而是引入 GitHub AI Credits,并按模型 token 消耗来计算用量。

另一边,OpenRouter 推出 Guardrails,把预算限制、模型/供应商限制、零数据保留、提示词注入防护和数据泄露防护做成工作区级别的治理能力。开源侧也出现了 AgentBudget 这类项目,目标很直接:给 AI Agent 会话加一个类似 ulimit 的预算上限,防止一次 agent run 把预算烧穿。

这些事情放在一起看,趋势很清楚:

AI 工具正在从“买了订阅就尽量多用”,进入“每一次长任务、每一个模型选择、每一轮 agent 循环都要被计量和治理”的阶段。

这不是简单涨价问题,而是 AI 工具产品形态变化之后,成本模型终于开始跟上了。

为什么这个变化现在发生

早期 AI 编程工具更像一个增强版编辑器插件。

你让它补一段代码、解释一个函数、写一个测试,它多数时候只是一次短请求。即使背后模型按 token 收费,产品层也可以用订阅制或请求额度把复杂度包起来。

但现在的 AI 编程工具已经不只是“问一句,答一句”。

它们开始做这些事情:

  • 读取整个仓库上下文;
  • 在多个文件里规划修改;
  • 调用终端、浏览器、MCP 和外部 API;
  • 运行测试并反复修复;
  • 自动创建 PR、做 code review;
  • 长时间保持会话状态,持续迭代一个任务。

GitHub 在 Copilot usage-based billing 的公告里也提到,Copilot 已经从编辑器助手演进成 agentic platform,能够执行长时间、多步骤的编码会话,并跨仓库迭代。这类 agentic usage 会带来更高的计算和推理成本。

这就是问题的核心:一次简单聊天和一次持续很久的 autonomous coding session,在旧计费模型里可能看起来差不多,但真实成本完全不是一回事。

所以从平台角度看,usage-based billing 是迟早的事。

Copilot 的变化说明了什么

GitHub 这次变化有几个关键点。

第一,Copilot 的基础订阅价格没有直接变化,但每个计划会包含一定额度的 GitHub AI Credits。之后的用量会按 token 消耗计算,包括输入、输出和 cached tokens。

第二,旧的 premium request unit 会被替换。过去用户更关心“还剩多少请求”,之后会更关心“这次任务消耗了多少 token / credits”。

第三,代码补全和 Next Edit Suggestions 仍然包含在计划内,不消耗 AI Credits。但更重的 chat、agent、code review 等能力会逐渐进入更精细的用量模型。

第四,fallback 体验会取消。以前某些场景下额度耗尽后,可能还能回落到低成本模型继续工作;新模型下,是否继续用,更多取决于剩余额度和管理员预算设置。

第五,Copilot code review 除了消耗 AI Credits,还会消耗 GitHub Actions 运行时间。这一点很关键:当 AI 功能开始真正执行工作流,它消耗的就不只是模型 token,还包括运行环境资源。

这意味着开发者和团队以后不能只问:

这个 AI 工具多少钱一个月?

而要问:

我们日常使用它的任务结构是什么?哪些任务最耗 token?哪些模型最贵?哪些 agent run 容易失控?预算超了之后要自动阻断,还是允许继续付费?

为什么 Agent 更需要预算治理

普通聊天工具的成本通常还比较可控。用户问一句,模型答一句,最多是上下文越来越长。

Agent 不一样。Agent 有几个天然容易烧预算的地方。

1. 它会循环

一个 coding agent 可能会经历:

读代码 -> 写补丁 -> 跑测试 -> 报错 -> 再读代码 -> 再写补丁 -> 再跑测试

如果没有停止条件,它可能会在同一个错误上来回试很多轮。每一轮都会消耗模型调用、工具调用和上下文传输成本。

2. 它会扩大上下文

Agent 为了理解任务,可能会读取大量文件、issue、PR、网页和日志。上下文越大,输入 token 越高;输出越长,输出 token 也会上去。

3. 它会调用外部工具

搜索、浏览器、数据库、向量检索、代码执行、沙箱、CI,这些都可能有成本。真正的 agent 预算,不应该只看 LLM token,还要看工具链成本。

4. 它可能被错误任务拖住

如果用户目标不清楚,或者上下文里有噪声,Agent 可能会走错方向。方向错了,越努力越贵。

所以 Agent 时代的成本治理,不只是“省钱”,而是工程安全的一部分。

AI Agent 任务成本治理流程图

从额度到 Guardrails

OpenRouter 的 Guardrails 很能说明这个方向。

它不是只做一个账单页面,而是把治理放进请求路径里:可以设置每日、每周、每月预算;超出后请求直接失败;还能限制模型和供应商,强制使用零数据保留端点,并增加提示词注入和数据泄露防护。

这类能力的价值在于,它把“事后看账单”变成了“事前设边界”。

对个人开发者来说,这可能只是避免一个脚本跑飞。对团队来说,它对应的是更现实的问题:

  • 新人能不能用最贵的模型?
  • 自动化任务能不能无限重试?
  • 某个 API key 能不能单独设置预算?
  • 测试环境和生产环境能不能用不同模型池?
  • 涉及客户数据时,能不能强制走不保留数据的 provider?

当 AI 调用开始进入业务流程,这些问题会比“哪个模型更聪明”更重要。

AgentBudget 这类项目为什么值得看

AgentBudget 的定位很朴素:给 AI Agent 会话加硬预算。

它可以包住 LLM 调用、工具调用和外部 API 请求,实时记录成本,达到限制后触发 circuit breaker。它还考虑了一个很实际的问题:不要让 agent 在最后一步被预算切断,所以支持为最终回复预留一部分预算。

这说明成本治理已经开始从平台侧下沉到应用侧。

如果你在写自己的 Agent,不能只依赖模型平台的账单。因为平台账单通常告诉你“最后花了多少钱”,但你的应用需要在执行过程中知道:

  • 当前任务已经花了多少?
  • 剩余额度够不够做下一步?
  • 是否进入重复调用循环?
  • 某个子任务是否应该有独立预算?
  • 预算快耗尽时,应该停止、降级还是总结已有结果?

这和传统系统里的 timeoutrate limitmemory limit 很像。以前我们限制进程资源,现在要限制 agent 资源。

还有一个容易被忽略的问题:token 账单要能被信任

当 token 变成计费核心,另一个问题也会出现:token 数本身是否可审计?

最近一篇 arXiv 论文讨论了 token inflation 的风险。它的核心观点是,商业模型通常会隐藏模型实现、tokenizer 和执行细节,用户很难独立验证 provider 报告的 token 数是否完全可信。

这不代表每个平台都会乱报账单,但它提醒我们:当按 token 计费成为主流,成本可观测性和审计能力也会变成基础设施问题。

以后团队做 AI 成本治理,不能只保存一行总金额。更合理的做法是记录:

层级需要记录什么
任务层用户目标、任务 ID、执行入口
模型层使用了哪个模型、provider、价格档位
用量层input / output / cached tokens,是否 streaming
工具层搜索、浏览器、CI、外部 API 等额外成本
控制层预算、限流、降级、阻断原因
结果层任务是否完成,是否重试,是否人工接管

这和我之前写 Agent observability 时提到的“意图到动作日志”是一条线:AI 系统越能自主行动,越需要把成本、权限、上下文和结果串起来看。

对个人开发者的建议

如果你只是日常使用 AI 编程工具,我建议先养成几个习惯。

第一,不要默认所有任务都用最强模型。简单补全、解释错误、生成小脚本,可以用便宜模型;架构设计、复杂调试、跨文件修改,再切强模型。

第二,大任务先让 AI 计划,不要直接让它无限执行。计划阶段可以暴露上下文范围、风险点和验证方式,也能减少后续反复试错。

第三,长任务要设停止条件。比如最多跑几轮测试、最多读取哪些目录、失败后先总结而不是继续猜。

第四,关注账单里的“形状”,不是只看总额。真正值得看的指标是哪些任务、模型、工具和人消耗最多。

对小团队的建议

小团队更应该把 AI 成本当成工程治理,而不是财务报销。

可以从这几个动作开始:

  1. 给不同场景分预算

    • 日常问答
    • 代码生成
    • 自动 code review
    • 批量重构
    • CI 里的 AI 检查
  2. 给不同身份分权限

    • 普通开发者默认便宜模型;
    • 资深开发者可以手动切换强模型;
    • 自动化任务必须有硬预算;
    • 生产相关任务必须有审批。
  3. 给 Agent 设置硬边界

    • 最大花费;
    • 最大迭代轮数;
    • 最大上下文范围;
    • 最大工具调用次数;
    • 失败后的降级策略。
  4. 把成本写进复盘

    • 这次 AI 帮我们节省了多少人工时间?
    • 花费主要来自模型还是工具?
    • 哪些步骤其实可以用规则、缓存或脚本替代?
    • 是否应该沉淀成 skill,减少下次重复消耗?

这不是坏事

很多人看到 token 计费,第一反应会是“AI 工具变贵了”。

这当然是现实问题。但从长期看,这也是 AI 工具走向成熟的信号。

订阅制把复杂度藏起来,适合早期教育市场;usage-based billing 把真实成本暴露出来,逼着用户和平台一起面对资源消耗。

当 Agent 开始真正替你跑任务,成本治理就不是可选项。

更成熟的 AI 工程系统,应该同时具备:

  • 模型选择;
  • 上下文管理;
  • 权限控制;
  • 工具审计;
  • 预算限制;
  • 任务复盘;
  • 降级和停止策略。

一句话总结:

AI 工具的下一阶段,不只是“更聪明”,而是“更可控”。

谁能把成本、权限和执行边界管理好,谁才更适合把 AI Agent 放进真实工作流里。

参考

标签

评论

点击后才加载 GitHub Discussions 评论,避免打开页面时请求 giscus.app。

阅读进度 0% 目录
关注公众号
微信公众号二维码