智能体软件工程：构建、运行与规模化生产级 Agent

关于作者：Ashpreet Bedi，Agno 创始人。曾任职于 Airbnb（负责数据基础设施、机器人检测）和 Facebook/Instagram（负责反作弊与自动化运营算法）。
原文链接：https://x.com/ashpreetbedi/status/2028176285575594465?s=46

导语：大家可能已经尝试过 Claude Code 或 OpenClaw。但你是否思考过，将一个实验性的 Agent 转化为一个生产级别的服务，究竟需要什么？Ashpreet Bedi 在本文中指出：Agent 软件工程是一门严谨的系统学科，而不仅仅是 Prompt 的堆砌。

构建、服务、连接

目前，大多数关于 Agent 的讨论都集中在模型能力上。但作为一个系统工程师，我更关心的是如何交付它们。

要将 Agent 软件推向生产环境，我认为必须跨越三个关键维度，这是交付 Agent 原生软件的通用路径：

构建（Build）：定义模型、工具、知识库、记忆、存储和护栏。这是大多数框架都能覆盖的层级。
服务化（Serve）：将其 API 化。支持用户/会话作用域、水平扩展。加入持久化存储、流式传输、后台执行和重试语义。这是大多数 Agent 产品折戟的地方——不是因为 Agent 不行，而是缺乏能支撑大规模可靠运行的基础设施。
连接（Connect）：触达用户。无论是你的产品界面、Slack、Discord 还是 MCP。运行在 Notebook 里的 Agent 只是实验，触达用户的 Agent 才是产品。

Agent 软件的六大支柱

构建 Agent 是 AI 工程，而在生产中运行它则是软件工程。两者结合，构成了 Agentic Software Engineering。支撑 Agent 原生软件的六大核心支柱有：

任务持久性（Durability） Agent 的推理过程往往跨越多个步骤，中间调用的工具可能会超时或在半途崩溃。如果 Agent 在 15 步任务中的第 12 步挂掉，简单的“重启”可能会触发重复的副作用（如重复扣款）或导致关键上下文丢失。Agent 软件需要具备暂停、恢复、Checkpoint（检查点）和优雅恢复的能力。持久性的本质是将“失败”转化为“断点续传”，而非“推倒重来”。
隔离性（Isolation） Agent 原生软件需要同时服务数千名用户，每个用户都必须拥有独立的 Session、内存和上下文。在请求中传递 user_id 很容易，但实现 Agent 所触达的每一个资源——数据库、向量桶、模型供应商——的深度隔离才是工程挑战。任何一个过滤器的缺失，都可能演变成一场严重的数据泄露。
治理与权限（Governance） 具备“行动力”的 Agent 是一把双刃剑。查询记录是无害的，但删除数据或执行退款必须经过审批。Agent 软件需要分层授权体系：哪些任务自动执行，哪些需要用户确认，哪些必须由管理员签发。随着 Agent 能力的提升，“治理能力”本身将成为产品的核心竞争力。
持久化（Persistence） 没有持久化存储，Agent 就无法学习、无法构建长期的上下文，更无法进化。我们需要将 Session、Memory 和 Knowledge 结构化地持久化到数据库中。持久化状态是 Chatbot 蜕变为 Product 的分水岭——它让每一次对话都能基于过去的积累变得更聪明。
规模化（Scale） 当上千名用户同时冲击你的 Agent 时，请求会堆积，模型会触发 Rate Limit，工具调用会产生资源竞争。不同于传统服务调用自有后端，Agent 软件高度依赖外部模型 API 和第三方工具，这意味着你继承了这些外部依赖的限流、延迟和停机风险。规模化的核心在于：如何在无法完全控制的依赖项之上，构建高可用的伸缩能力。
可组合性（Composability） 当 Agent 被封装为服务，它就可以被其他 Agent、前端或 Slack 机器人调用。通过 MCP（Model Context Protocol） 等协议，Agent 变成架构中可被自动发现的标准积木。这是从“单点工具”演进到“多 Agent 系统（Multi-Agent Systems）”的必经之路。

Agentic 时代的系统观

Agent 软件工程正成为一门独立的技术栈。它引入了三个根本性的范式转变：

新的交互模型：从“请求-响应”转向“流式推理与实时转向”。
新的执行模型：概率性推理进入执行路径，系统必须自带护栏。
新的所有权：你的基础设施，你的数据。所有对话、日志和指标都应保留在你的私有环境中。

Agent 的开发并不难，找到对的用例并让它稳定运行才是硬功夫。

观测云点评：在 Agent 软件工程化落地过程中，可观测性是确保复杂智能体系统“确定性”的关键。无论是多步骤推理的链路追踪（Tracing），还是运行时治理的审计日志，都是我们关注的核心技术边界。

在将 Agent 引入生产流程时，你最担心的系统故障是什么？欢迎在评论区分享你的经历。

智能体软件工程：构建、运行与规模化生产级 Agent

构建、服务、连接

Agent 软件的六大支柱

Agentic 时代的系统观

联系我们