智能体软件工程:构建、运行与规模化生产级 Agent

    关于作者:Ashpreet Bedi,Agno 创始人。曾任职于 Airbnb(负责数据基础设施、机器人检测)和 Facebook/Instagram(负责反作弊与自动化运营算法)。
    原文链接:https://x.com/ashpreetbedi/status/2028176285575594465?s=46


    导语:大家可能已经尝试过 Claude Code 或 OpenClaw。但你是否思考过,将一个实验性的 Agent 转化为一个生产级别的服务,究竟需要什么?Ashpreet Bedi 在本文中指出:Agent 软件工程是一门严谨的系统学科,而不仅仅是 Prompt 的堆砌。

    构建、服务、连接

    目前,大多数关于 Agent 的讨论都集中在模型能力上。但作为一个系统工程师,我更关心的是如何交付它们。

    要将 Agent 软件推向生产环境,我认为必须跨越三个关键维度,这是交付 Agent 原生软件的通用路径:

    • 构建(Build): 定义模型、工具、知识库、记忆、存储和护栏。这是大多数框架都能覆盖的层级。
    • 服务化(Serve): 将其 API 化。支持用户/会话作用域、水平扩展。加入持久化存储、流式传输、后台执行和重试语义。这是大多数 Agent 产品折戟的地方——不是因为 Agent 不行,而是缺乏能支撑大规模可靠运行的基础设施。
    • 连接(Connect): 触达用户。无论是你的产品界面、Slack、Discord 还是 MCP。运行在 Notebook 里的 Agent 只是实验,触达用户的 Agent 才是产品。

    Agent 软件的六大支柱

    构建 Agent 是 AI 工程,而在生产中运行它则是软件工程。两者结合,构成了 Agentic Software Engineering。支撑 Agent 原生软件的六大核心支柱有:

    • 任务持久性(Durability) Agent 的推理过程往往跨越多个步骤,中间调用的工具可能会超时或在半途崩溃。如果 Agent 在 15 步任务中的第 12 步挂掉,简单的“重启”可能会触发重复的副作用(如重复扣款)或导致关键上下文丢失。Agent 软件需要具备暂停、恢复、Checkpoint(检查点)和优雅恢复的能力。持久性的本质是将“失败”转化为“断点续传”,而非“推倒重来”。
    • 隔离性(Isolation) Agent 原生软件需要同时服务数千名用户,每个用户都必须拥有独立的 Session、内存和上下文。在请求中传递 user_id 很容易,但实现 Agent 所触达的每一个资源——数据库、向量桶、模型供应商——的深度隔离才是工程挑战。任何一个过滤器的缺失,都可能演变成一场严重的数据泄露。
    • 治理与权限(Governance) 具备“行动力”的 Agent 是一把双刃剑。查询记录是无害的,但删除数据或执行退款必须经过审批。Agent 软件需要分层授权体系:哪些任务自动执行,哪些需要用户确认,哪些必须由管理员签发。随着 Agent 能力的提升,“治理能力”本身将成为产品的核心竞争力。
    • 持久化(Persistence) 没有持久化存储,Agent 就无法学习、无法构建长期的上下文,更无法进化。我们需要将 Session、Memory 和 Knowledge 结构化地持久化到数据库中。持久化状态是 Chatbot 蜕变为 Product 的分水岭——它让每一次对话都能基于过去的积累变得更聪明。
    • 规模化(Scale) 当上千名用户同时冲击你的 Agent 时,请求会堆积,模型会触发 Rate Limit,工具调用会产生资源竞争。不同于传统服务调用自有后端,Agent 软件高度依赖外部模型 API 和第三方工具,这意味着你继承了这些外部依赖的限流、延迟和停机风险。规模化的核心在于:如何在无法完全控制的依赖项之上,构建高可用的伸缩能力。
    • 可组合性(Composability) 当 Agent 被封装为服务,它就可以被其他 Agent、前端或 Slack 机器人调用。通过 MCP(Model Context Protocol) 等协议,Agent 变成架构中可被自动发现的标准积木。这是从“单点工具”演进到“多 Agent 系统(Multi-Agent Systems)”的必经之路。

    Agentic 时代的系统观

    Agent 软件工程正成为一门独立的技术栈。它引入了三个根本性的范式转变:

    • 新的交互模型: 从“请求-响应”转向“流式推理与实时转向”。
    • 新的执行模型: 概率性推理进入执行路径,系统必须自带护栏。
    • 新的所有权: 你的基础设施,你的数据。所有对话、日志和指标都应保留在你的私有环境中。

    Agent 的开发并不难,找到对的用例并让它稳定运行才是硬功夫。

    观测云点评:在 Agent 软件工程化落地过程中,可观测性是确保复杂智能体系统“确定性”的关键。无论是多步骤推理的链路追踪(Tracing),还是运行时治理的审计日志,都是我们关注的核心技术边界。

    在将 Agent 引入生产流程时,你最担心的系统故障是什么?欢迎在评论区分享你的经历。

    联系我们

    加入社区

    微信扫码
    加入官方交流群

    立即体验

    在线开通,按量计费,真正的云服务!

    立即开始

    选择观测云版本

    代码托管平台