观测云 AI Agent 观测:跨框架的统一 Agent 行为观测层

    banner-1_副本.png

    观测云 AI Agent 可观测正式发布,已支持 OpenClaw,近期将支持 Hermes、Claude Code 与 Codex。

    01|传统 APM 对 Agent 失效

    Agent 的核心执行单元不是 HTTP 请求,是推理链。

    一次 OpenClaw 任务可能包含:意图解析、权限校验、技能调度、模型推理、工具执行、子 Agent 委派、结果汇总。传统 APM 能看到请求,却看不透这条推理链中间发生了什么。

    更致命的是成本。微服务的资源消耗相对固定,Agent 的 Token 消耗在同一功能下可能波动十倍。没有细粒度追踪,等于把真金白银交给消费不可控的自动化系统。

    Agent 可观测性必须回答:

    • 推理链每一步在做什么,耗时多少?
    • 调用了哪些工具,成功了吗?
    • 哪个模型在哪个环节被调用,Token 烧了多少?
    • 是否触发安全策略,内容是否合规?
    • 子 Agent 如何被父 Agent 委派和协调?

    这些观测缺一不可。

    02|观测云方案:基于 OpenTelemetry 的端到端追踪

    观测云采用 openclaw-otel-plugin → DataKit → 观测云平台 的插件化无侵入架构。

    Agent 侧安装插件、配置环境变量即可上报,无需改业务代码。

    Session + Trace 双维度

    Session 列表聚合一次完整用户交互:起止时间、最近对话意图、Trace 数量、Token 消耗总量、风险事件数、告警等级。配合时间轴状态分布图,直接定位异常活跃时段和重试高发区间。

    点进 Session 详情,Session Trace 瀑布图铺开展示完整执行链路:意图分类、Prompt 格式化、模型请求、检索增强、工具调用、结果输出。每个 Span 的耗时、Token 数、状态、Input/Output 内容全部可见。

    Trace 列表提供单次执行级视角。按 Trace ID、Agent 名称、风险等级、Token 区间筛选。异常、高危执行一眼定位。

    成本归因:模型与工具的财务显微镜

    Session 详情调用分析页通过饼图展示模型调用占比与工具执行占比。gim-4.7 吃掉多少 Token?rerank 是否被过度调用?文件读取工具是否耗时过长?外部 API 是否成为瓶颈?

    风险审计

    Trace 详情内置风险事件追踪,覆盖内容策略校验、敏感词过滤、权限越界。每条风险事件关联具体 Span ID、等级、规则编号。

    工具执行记录表精确到每一次调用:时间、Span ID、Tool 名称、类型、目标/命令、耗时、状态、风险等级。

    Agent 接触生产数据时,可观测性就是合规基础设施。

    接入

    控制台提供 Agent 监测应用与 LLM 监测应用两种创建路径。OpenClaw 三步完成:安装插件、修改配置文件、重启验证。

    右侧表单自动生成应用名称、ID、服务地址、Client Token。Langfuse 用户可通过兼容路径接入。

    03|生态:跨框架的统一观测层

    观测云正在把 Agent 运行时拉到同一张观测网里。

    选择 OpenTelemetry 作为底座,是因为 Agent 生态正在碎片化:OpenClaw、Hermes、LangChain、CrewAI 等框架并行演进。OTel 避免为每个框架重复写适配器,也让数据可迁移,保护架构安全边际。

    更重要的是,OTel 与基础设施 Trace 天然关联,可以打通 Agent 与微服务之间的观测断层。

    OpenClaw(已发布)

    网关架构与插件体系让 OTel 上报极为干净,单实例或多 Worker 集群均可完整捕获 Session 上下文与分布式追踪。

    Hermes(即将接入)

    Hermes 的差异化在于自进化学习闭环:根据历史执行自动生成 Skills、优化 Prompt。观测云正与社区协作,将记忆层变更和 Skills 生成事件纳入 Trace,追踪它的 Skills 从哪次经验演化而来。

    Claude Code 与 Codex(即将接入)

    Claude Code 已原生支持 OTel,输出 Token 用量、成本估算、工具活动;Codex CLI 支持 OTel opt-in。观测云将编码 Agent 数据与传统微服务 Trace 统一关联,实现 Agent 决策 → API 调用 → 数据库查询 的完整因果链。

    04|结语:Agent 时代,先让它可被信任

    2026 年的共识:Agent 的能力差距在缩小,可靠性差距在放大。

    构建 Agent 变得简单,信任 Agent 变得困难。

    观测云 AI Agent 可观测通过 OpenTelemetry 标准、Session-Trace 双维视角、模型/工具成本归因、风险审计,以及覆盖 OpenClaw 及即将支持的 Hermes、Claude Code、Codex 的跨框架生态,让 Agent 的每一次思考、每一个动作、每一分钱消耗全部可见。

    Agent 时代已经来了,立刻建立统一的跨框架 AI Agent 观测层。

    登录观测云控制台,进入「Agent 监测」创建第一个 OpenClaw 监测应用。Hermes、Claude Code、Codex 接入支持请联系解决方案团队。

    联系我们

    加入社区

    微信扫码
    加入官方交流群

    立即体验

    在线开通,按量计费,真正的云服务!

    立即开始

    选择观测云版本

    代码托管平台