标签文章 harness-engineering
-
Self-Harness:会改进自己的 harness
Self-Harness 更适合理解为证据驱动的 harness 版本控制:挖掘失败轨迹,提出有边界的 harness 编辑,只提升能通过回归测试的改动。
-
Anthropic 博客:harness 工程与上下文工程
这些 Anthropic 工程文章的共同教训是:长时间智能体任务往往在运行时层失败,必须认真设计上下文、评估、沙箱、权限、交接和反馈。
Self-Harness 更适合理解为证据驱动的 harness 版本控制:挖掘失败轨迹,提出有边界的 harness 编辑,只提升能通过回归测试的改动。
这些 Anthropic 工程文章的共同教训是:长时间智能体任务往往在运行时层失败,必须认真设计上下文、评估、沙箱、权限、交接和反馈。