AI Applications

Goal Harness: 让 Codex / Claude Code 持续完整工作的工程协议

Misaya Yang 2026-05-31T00:40:00.000Z

复盘一次博客 Agent 改造：schema、router、UI 和测试名都在，但文章感知、检索、source card、quota 与 trace 没有闭环。Goal Harness 把这些验收点编译成可交接的 phase、闸门和证据报告。

Agent Systems, Goal Harness, Codex, Claude Code, Context Engineering, Evaluation, Observability, Tool Use

Goal Harness: 让 Codex / Claude Code 持续完整工作的工程协议有一类 Coding Agent 失败最难排查：代码能跑，提交也不少，但读者真正会走的路径仍然断着。一次博客 Agent 改造就暴露了这个问题。PRD 写得完整，仓库也出现了 schema、router、UI、测试名、后台页和看似合理的文案；但当读者在文章页发问时，Agent 没拿到当前页面上下文，口语问题会检索打偏，source card 也未必能定位到正在阅读的小节。把这个问题归因成“模型能力不够”太粗了。更根本的原因是执行协议缺失：长期目标交给了 Agent，却没有把工作拆成可冷启动、可验证、可回归、可交接的单元。于是代码痕迹很多，核心体验却没有闭环，内容边界、quota、retrieval、source card、mobile sheet、eval 和 admin trace 也没有被逐项锁住。这篇文章把这套执行协议称为 Goal Harness 。 Goal Harness 不靠新的框架，也不靠把 prompt 写得更长。它更像一套仓库内执行协议：把 PRD、Figma、代码库事实和测试要求编译成一个 phase folder，让新 Agent 可以在干净上下文里接手一个 phase，完成它，验证它，留下证据，再解锁下一个 phase。目标很直接：让一次开发不只留下“已跑完”的印象，而是留下可交付、可回放、可继续的证据。 Design Boundary Goal Harness 不是 evaluation harness 的替代品。Anthropic 在 Demystifying evals for AI agents 里区分了 agent harness 和 evaluation harness：前者让模型能行动，后者衡量行动结果。这里的 phase folder 属于 agent harness，但必须为 eval 留出接口。 Goal Harness 也不是“多 Agent 更高级”。Anthropic 的 long running harness...