在本文中,您将了解团队在 2026 年将代理 AI 系统从原型扩展到生产时面临的五个主要挑战。
我们将讨论的主题包括:
- 为什么多代理系统中的编排复杂性迅速增长。
- 可观察性、评估和成本控制在生产环境中仍然困难重重。
- 为什么随着代理系统采取现实世界的行动,治理和安全护栏变得至关重要。
我们不要再浪费时间了。
2026 年 Agentic AI 面临的 5 个生产规模挑战
图片由编辑提供
介绍
每个人的 立即构建代理人工智能系统,无论好坏。演示看起来令人难以置信,原型感觉很神奇,而宣传材料几乎是自己写的。
但这是没有人在推特上谈论的内容:让这些东西在生产中、在真正的用户和真正的利益下真正大规模发挥作用,是一个完全不同的游戏。流畅的演示和可靠的生产系统之间的差距在机器学习中一直存在,但代理人工智能将其延伸得比我们以前见过的任何东西都要宽。
这些系统自主地做出决策、采取行动并将复杂的工作流程链接在一起。这很强大,而且当事情大规模恶化时也很可怕。那么,让我们来谈谈团队在 2026 年尝试扩展代理人工智能时遇到的五个最令人头疼的问题。
1.编排复杂性快速爆炸
当您有一个代理来处理一项狭窄的任务时,编排感觉就很容易管理。您定义一个工作流程, 设置一些护栏,并且事物大多表现良好。但生产系统很少如此简单。当您引入多代理架构(其中代理委托给其他代理、重试失败的步骤或动态选择要调用的工具)时,您就 处理编排复杂性 几乎呈指数级增长。
团队发现代理之间的协调开销成为瓶颈,而不是单个模型调用。您会遇到代理等待其他代理、异步管道中突然出现竞争条件以及在临时环境中真正难以重现的级联故障。传统工作流引擎 不是为这种级别的动态决策而设计的,大多数团队最终都会构建自定义编排层,这些层很快就会成为整个堆栈中最难维护的部分。
真正的问题是这些系统在负载下的表现不同。一种在每分钟 100 个请求下运行良好的编排模式 到 10,000 就会完全崩溃。调试这一差距需要一种大多数机器学习团队仍在开发的系统思维。
2.可观测性仍然落后
你无法修复看不到的东西,而现在,大多数团队都无法充分了解他们的代理系统在生产中所做的事情。传统的机器学习监控会跟踪延迟、吞吐量和模型准确性等信息。这些指标仍然很重要,但它们仅仅触及代理工作流程的表面。
当客服人员采取 12 个步骤来回答用户查询时,您需要了解沿途的每个决策点。为什么选择工具 A 而不是工具 B?为什么它重试步骤 4 3 次?尽管每个中间步骤看起来都很好,但为什么最终的输出完全没有达到目标?这种深度可观察性的追踪基础设施仍然不成熟。大多数团队将 LangSmith、自定义日志记录和很多希望结合在一起。
是什么让事情变得更难 代理行为本质上是非确定性的。相同的输入可能会产生截然不同的执行路径,这意味着您不能仅对故障进行快照并可靠地重放它。为本质上不可预测的系统建立强大的可观测性仍然是该领域未解决的最大问题之一。
3.大规模成本管理变得棘手
有件事让很多团队措手不及:代理系统的运行成本很高。每个代理动作通常 涉及一个或多个 LLM 电话,当代理将每个请求的数十个步骤链接在一起时,令牌成本会以惊人的速度增加。每次执行成本为 0.15 美元的工作流程听起来不错,除非您每天处理 500,000 个请求。
聪明的团队正在通过成本优化发挥创造力。他们将更简单的子任务分配给更小、更便宜的模型,同时为复杂的推理步骤保留重要的任务。他们积极缓存中间结果,并构建终止开关,在耗尽预算之前终止失控的代理循环。但成本效率和产出质量之间始终存在紧张关系,要找到适当的平衡点需要不断进行实验。
计费的不可预测性才是真正给工程主管带来压力的原因。与传统 API 不同,您可以非常准确地估算成本,代理系统具有 可变的执行路径使成本预测变得非常困难。一个边缘情况可能会触发一系列重试,其成本是正常路径的 50 倍。
4.评估和测试是一个悬而未决的问题
如何测试每次运行时都可以采取不同路径的系统?这是让机器学习工程师彻夜难眠的问题。传统的软件测试假设确定性行为,并且 传统的机器学习评估假设固定的输入输出映射。代理人工智能同时打破了这两个假设。
团队正在尝试一系列方法。一些 正在建设法学硕士法官管道 其中一个单独的模型评估代理的输出。其他人正在创建基于场景的测试套件,用于检查行为属性而不是确切的输出。一些公司正在投资模拟环境,在投入生产之前,代理可以针对数千个合成场景进行压力测试。
但这些方法都还没有真正成熟。评估工具分散,基准不一致,并且对于复杂的代理工作流程的“好”程度也没有达成行业共识。大多数团队最终严重依赖人工审核,这显然无法扩展。
5.治理和安全护栏落后于能力
代理人工智能系统可以在现实世界中采取真正的行动。他们可以发送电子邮件、修改数据库、执行事务以及与外部服务交互。 这种自主性的安全影响是重大的,而治理框架并没有跟上这些功能部署的速度。
面临的挑战是实施足够强大的护栏,以防止有害行为,但又不会限制太多,以致破坏代理的有用性。这是一种微妙的平衡,大多数团队都在通过反复试验来学习。权限系统, 行动批准工作流程、范围限制都会增加摩擦,从而首先破坏拥有自主代理的全部意义。
监管压力也在不断加大。随着代理系统开始做出直接影响客户的决策,有关问责制、可审计性和合规性的问题变得紧迫。当法规出台时,现在不考虑治理的团队将会遇到痛苦的困境。
最后的想法
代理人工智能确实具有变革性,但从原型到大规模生产的道路充满了业界仍在实时解决的挑战。
好消息是生态系统正在迅速成熟。更好的工具、更清晰的模式以及来自早期采用者来之不易的经验教训正在使道路每个月变得更加顺利。
如果您现在正在扩展代理系统,请知道您所感受到的痛苦是普遍存在的。尽早投资解决这些基本问题的团队将构建在重要时刻真正发挥作用的系统。

