从护栏到治理：首席执行官保护代理系统的指南

3.设计权限：将工具绑定到任务，而不是模型

一个常见的反模式是为模型提供长期的凭证，并希望提示保持礼貌。 SAIF 和 NIST 则持相反观点：凭证和范围应与工具和任务绑定、定期轮换且可审计。然后，代理通过这些工具请求范围狭窄的功能。

实际上，这看起来像：“未经首席财务官批准，财务运营代理可以读取但不能写入某些分类账。”

CEO提问： 我们可以在不重新构建整个系统的情况下撤销代理的特定功能吗？

控制数据和行为

这些步骤控制输入、输出并约束行为。

4. 输入、内存和 RAG：将外部内容视为敌对内容，除非另有证明

大多数特工事件都是从偷偷摸摸的数据开始的：中毒的网页、PDF、电子邮件或将对抗性指令偷偷带入系统的存储库。 OWASP 的即时注入备忘单和 OpenAI 自己的指南都坚持将系统指令与用户内容严格分离，并将未经审查的检索源视为不可信。

在操作上，在任何内容进入检索或长期记忆之前进行控制：新的来源经过审查、标记和加入；当存在不受信任的上下文时，持久内存将被禁用；每个块都附有出处。

CEO提问： 我们能否枚举我们的代理学习的每个外部内容源以及谁批准了它们？

5. 输出处理和渲染：没有任何东西“仅仅因为模型这么说”就执行

在 Anthropic 案例中，人工智能生成的漏洞代码和凭证转储直接付诸行动。任何可能导致副作用的输出都需要代理和现实世界之间的验证器。 OWASP 的不安全输出处理类别在这一点上是明确的，围绕源边界的浏览器安全最佳实践也是如此。

从护栏到治理：首席执行官保护代理系统的指南

3.设计权限：将工具绑定到任务，而不是模型

控制数据和行为

4. 输入、内存和 RAG：将外部内容视为敌对内容，除非另有证明

5. 输出处理和渲染：没有任何东西“仅仅因为模型这么说”就执行

从护栏到治理：首席执行官保护代理系统的指南

随着比特币触及一年低点，策略 ($MSTR) 暴跌 8%

顶级隐私币有望引领下一轮加密货币牛市

以太坊价格预测：专家表示，ETH 的表现预示着突破 7,000 美元