
我最近对 Codex 的感受很明确:它已经不只是一个“帮我写代码”的工具。
更准确地说,Codex 正在从代码生成器,变成一个长任务工作台。
它的核心变化不是多一个按钮,而是把线程、工具、权限、验证、自动化、记忆和项目规则串在一起,让你可以把一个任务交给它推进,中途接管、纠偏、复核结果。
一句话定位
以前的 Codex 更像“帮我改这段代码”;现在更像“围绕这个目标,帮我持续推进到可验证结果”。
这类工具的关键不是一次生成多漂亮,而是能不能做到:
- 任务不断线:同一个 thread 里保留上下文和决策;
- 过程可接管:你可以随时补充背景、改方向、批准下一步;
- 结果可验证:跑测试、看 diff、截屏、打开浏览器检查;
- 经验可沉淀:把重复流程写进
AGENTS.md、Skill 或 automation。
我会怎么用
1. 给每个重要任务开一个长期线程
不要把 Codex 当一次性问答窗口用。
一个 bug、一篇文章、一次重构、一个发布流程,都应该有自己的 thread。这样它能保留前面读过的文件、做过的判断、跑过的命令和你给过的反馈。
我的提示词一般会这样写:
目标:把这个问题从定位推进到可验证修复。
背景:这是线上反馈,相关模块可能在 xxx。
约束:不要改无关文件,不要重构接口,不要碰 public 构建产物。
完成标准:能解释根因,代码已修改,测试或本地验证通过。
工作方式:先读代码和日志,给出判断,再动手改。重点是把“完成标准”写清楚。Codex 不怕任务长,怕的是目标模糊。
2. 让它用工具验证,而不是只给结论
长任务最容易出问题的地方,是 Agent 自己觉得完成了,但你没有证据。
所以我更喜欢让 Codex 每一步都留下可检查的东西:
- 代码任务:
git diff、测试命令、失败日志、修复后的输出; - 前端任务:本地页面截图、浏览器控制台、关键交互验证;
- 内容任务:来源链接、引用边界、最终 Markdown 文件;
- 发布任务:dry run、构建产物、部署日志、回滚方式。

这也是 Codex 变成“工作台”的原因:它不只是写文本,还能把终端、文件、浏览器和 diff 放到同一个任务链路里。
3. 把重复要求写进项目规则
如果你每次都要提醒:
不要改 public
默认中文
先跑 hugo --renderToMemory --minify
文章图片放到 static/img/YYYYMMDD那就不应该每次手动说一遍。
更好的做法是写进项目里的 AGENTS.md,或者沉淀成一个 Skill。这样 Codex 进入这个仓库时,就知道默认边界、语言风格、校验命令和不能碰的文件。
这件事很小,但对长任务很关键。因为长任务不是靠单次提示词撑住的,而是靠稳定规则减少偏航。
4. 把重复任务变成 automation
OpenAI 官方也在强调 Automations:让 Codex 按计划回来做重复任务,然后把结果交给你 review。
我觉得适合先自动化的不是“高风险发布”,而是这些低风险、强重复、可检查的任务:
- 每周整理最近文章草稿;
- 每天扫一次仓库里的 TODO / failing tests;
- 定期总结 GitHub issue / PR 状态;
- 固定检查站点构建和 SEO 输出;
- 给长期项目生成一份进展摘要。
一个可用的 automation 提示词可以是:
每周五下午回到这个线程,检查本周新增文章和草稿。
输出三部分:
1. 已发布文章列表;
2. 可以继续优化的标题或配图;
3. 下周最值得写的 3 个选题。
只做总结和建议,不要自动改文件。先让它做“可复核的整理”,再逐步交给它执行。
5. 手机端接管适合用来“不断线”
OpenAI 近期把 Codex 接进 ChatGPT mobile app,一个重要价值就是:Agent 跑长任务时,你不一定要一直坐在电脑前。
比如它中途问你:
- 这个方案选 A 还是 B?
- 能不能运行某个命令?
- 这个 diff 是否继续扩大?
- 需要不要改测试?
这些决策如果能在手机上及时回复,长任务就不会卡在一个小确认上。
但我不会把手机端理解成“远程让 AI 随便改生产环境”。更合理的用法是:让它继续推进调查、整理、验证和草稿,关键动作仍然人工确认。
一个可直接复制的长任务模板
下次你想让 Codex 做一个完整任务,可以直接从这个模板开始:
目标:
请完成 [具体任务],直到达到 [可验证结束状态]。
背景:
- 业务背景:
- 相关路径:
- 已知问题:
约束:
- 不要修改:
- 不要做:
- 必须遵守:
工作方式:
1. 先阅读相关文件和日志;
2. 给出根因或执行计划;
3. 等我确认后再修改高风险内容;
4. 修改后必须运行验证命令;
5. 最后用文件、命令和结果说明完成情况。
完成标准:
- [ ] 代码 / 文档已修改;
- [ ] 验证命令通过;
- [ ] 关键风险已说明;
- [ ] 没有触碰无关文件。如果任务特别长,可以再加一句:
如果上下文变长,请先总结当前状态、已做决策、剩余任务,再继续。不适合直接放手的场景
Codex 变强了,但不代表所有事情都应该全自动。
我会保留人工确认的场景包括:
- 删除生产数据;
- 修改账号、安全、支付、密钥配置;
- 大规模重构公共接口;
- 没有回滚方案的部署;
- 涉及隐私数据的网页操作。
长任务工作台的价值,是让人从“每一步手动操作”变成“在关键节点做判断”。不是把判断也一起交出去。
结论
Codex 最值得关注的变化,不是它又多会写几行代码,而是它开始能围绕一个目标持续工作。
对我来说,实用的用法就五个:
- 一个重要任务一个 thread;
- 开始前写清完成标准;
- 让它用工具留下验证证据;
- 把重复规则写进
AGENTS.md或 Skill; - 低风险重复任务再做 automation。
如果你还在把 Codex 当“代码补全 + 聊天窗口”,可以试着换一种提示方式:不要只问它“怎么写”,而是给它一个目标、约束和验收标准,让它像一个可接管的工作台一样推进。
