Anthropic 定义的 Agent 时代新方法论
"Harness 设计的重要性不亚于模型本身" — 旧模型 + 好 Harness > 新模型 + 烂 Harness
Harness ≠ 产品名,Harness = Agent 的基础设施架构
GAN 启发的对抗反馈循环,解决 AI 自我评估差的核心问题
| Harness 类型 | 时长 | 成本 |
|---|---|---|
| Solo(单Agent) | 20 min | $9 |
| Full Harness(三Agent) | 6 hr | $200 |
| Agent & 阶段 | 时长 | 成本 |
|---|---|---|
| Planner | 4.7 min | $0.46 |
| Build (Round 1) | 2 hr 7 min | $71.08 |
| QA (Round 1) | 8.8 min | $3.24 |
| 总计 | 3 hr 50 min | $124.70 |
Workflows(预设路径)vs Agents(自主决策),从简单到复杂
6 个月达成 $1B 年化收入,Anthropic 亲自示范 Harness Engineering
Harness 方法论 vs Harness Agent 公司 vs OpenClaw
| 对比维度 | Harness 方法论 | Harness Agent 公司 | OpenClaw |
|---|---|---|---|
| 本质 | 方法论 / 架构理念 | 商业产品 / 公司 | 开源 Agent 平台 |
| 来源 | Anthropic 定义 | Harness Inc. | 开源社区 |
| 目标场景 | 通用 Agent 开发 | 企业 DevOps / CI/CD | 个人助手 / 多渠道 |
| 核心创新 | 三Agent架构 / Context Reset | Pipeline-Native | Skills / MEMORY.md |
| 扩展方式 | MCP 协议 | Agent 模板 / Marketplace | ClawHub 1700+ Skills |
| 开源度 | —(方法论本身) | Agent 模板开源,平台闭源 | 完全开源(MIT) |
| 成本 | — | SaaS 订阅 + API 费用 | 免费(仅需 API 费用) |
Anthropic + Google + 社区共识,2026 最佳实践
从最简单的方案开始,只在简单方案不足时增加复杂度。每个组件都是对"模型做不到什么"的假设,这些假设值得持续压力测试。
解决 "Context Anxiety"(模型接近上下文限制时提前结束)。Context Reset 提供干净状态,比单纯的压缩更有效,但需要精心设计 handoff artifact。
AI 模型无法可靠评估自己的输出。将生成与评估分离,让独立的 Evaluator 使用工具(如 Playwright)实际操作产物,给出具体批评。
LLM 只负责推理、意图提取、决策。确定性任务、计算、数据库写入交给传统代码,用严格 Schema 捕获模型输出。
Prompt 版本控制、模板化、A/B 测试。变量动态注入上下文,追踪 prompt 性能指标。Prompt 逻辑与应用逻辑分离。
Agent 必须清晰表明身份。提供即时、不干扰的状态反馈。允许用户检查推理过程、工具调用、决策逻辑。用户可随时接管。
全链路追踪:工具调用、路由、检索、格式化。结构化评估数据集,而非依赖轶事证据。检测 "Model Drift",快速反馈给工程师。
设计 Harness 时预期组件可能被替换——模型能力在快速进化,今天的"必需品"明天可能变冗余。模块化设计,易于替换。
Context Reset、Evaluator 循环、ACI 设计、Claude 托管智能体
| 特性 | Reset | Compaction |
|---|---|---|
| 机制 | 完全清空上下文 | 摘要压缩历史 |
| 状态传递 | 需显式 handoff | 隐式传递 |
| 适用场景 | 短期独立任务 | 长期连续对话 |
| 理论基础 | — | Compaction = 动量项 |
| 特性 | Managed Agents | Claude Cowork |
|---|---|---|
| 发布时间 | 2026.04.08 | 2026.01 |
| 运行环境 | 云端托管 | 本地虚拟机 |
| 适用场景 | 长时间云端任务(分钟/小时级) | 桌面安全执行 |
| 文件访问 | 沙盒文件系统 | 仅用户批准文件夹 |
| 多智能体 | ✓ 研究预览 | ✓ 并行子智能体 |