AI Applications
Goal Harness: 让 Codex / Claude Code 持续完整工作的工程协议
把 PRD、Figma、代码库事实和测试要求编译成 Goal Harness,让 Codex 与 Claude Code 在长任务中逐 phase 执行、回归、留证据并安全交接。
Goal Harness: 让 Codex / Claude Code 持续完整工作的工程协议 我们最近踩到一个很典型的 Agent Coding 坑:PRD 写得很完整,Codex 也“跑完了”,但最后做出来的博客 Agent 几乎不可用。 这不是一个简单的模型能力问题。更准确地说,是我们把一个长期目标交给了 Agent,却没有给它一个能持续工作的运行协议。PRD 说明了产品想要什么,但没有把工作切成可冷启动、可验证、可回归、可交接的执行单元。于是 Agent 很容易做出一堆看起来像完成的改动:有表、有路由、有 UI、有测试名,但核心体验没有闭环,隐藏内容边界可能没被完整验证,quota、retrieval、source cards、mobile sheet、eval 和 admin trace 之间也没有被逐个锁住。 这篇文章讨论一个更实用的抽象: Goal Harness 。 它不是新的框架,也不是把 prompt 写得更长。它是一种面向 Codex、Claude Code 这类 goal mode coding agent 的工程协议:把 PRD、Figma、代码库事实和测试要求编译成一个 phase folder,让新 Agent 可以在干净上下文里接手一个 phase,完成它,验证它,留下证据,再解锁下一个 phase。 核心目标只有一个:让 Agent 从“看起来跑完了”变成“可以交付、可以回放、可以继续”。 Design Boundary Goal Harness 不是 evaluation harness 的替代品。Anthropic 在 Demystifying evals for AI agents 里区分了 agent harness 和 evaluation harness:前者让模型能行动,后者衡量行动结果。我们的 phase folder 属于 agent harness,但必须为 eval 留出接口。 Goal Harness 也不是“多 Agent 更高级”。Anthropic 的 long running harness 文章强调...