3.设计权限:将工具绑定到任务,而不是模型
一个常见的反模式是为模型提供长期的凭证,并希望提示保持礼貌。 SAIF 和 NIST 则持相反观点:凭证和范围应与工具和任务绑定、定期轮换且可审计。然后,代理通过这些工具请求范围狭窄的功能。
实际上,这看起来像:“未经首席财务官批准,财务运营代理可以读取但不能写入某些分类账。”
CEO提问: 我们可以在不重新构建整个系统的情况下撤销代理的特定功能吗?
控制数据和行为
这些步骤控制输入、输出并约束行为。
4. 输入、内存和 RAG:将外部内容视为敌对内容,除非另有证明
大多数特工事件都是从偷偷摸摸的数据开始的:中毒的网页、PDF、电子邮件或将对抗性指令偷偷带入系统的存储库。 OWASP 的即时注入备忘单和 OpenAI 自己的指南都坚持将系统指令与用户内容严格分离,并将未经审查的检索源视为不可信。
在操作上,在任何内容进入检索或长期记忆之前进行控制:新的来源经过审查、标记和加入;当存在不受信任的上下文时,持久内存将被禁用;每个块都附有出处。
CEO提问: 我们能否枚举我们的代理学习的每个外部内容源以及谁批准了它们?
5. 输出处理和渲染:没有任何东西“仅仅因为模型这么说”就执行
在 Anthropic 案例中,人工智能生成的漏洞代码和凭证转储直接付诸行动。任何可能导致副作用的输出都需要代理和现实世界之间的验证器。 OWASP 的不安全输出处理类别在这一点上是明确的,围绕源边界的浏览器安全最佳实践也是如此。

