观测云 AI Agent 观测:跨框架的统一 Agent 行为观测层
观测云 AI Agent 可观测正式发布,已支持 OpenClaw,近期将支持 Hermes、Claude Code 与 Codex。
01|传统 APM 对 Agent 失效
Agent 的核心执行单元不是 HTTP 请求,是推理链。
一次 OpenClaw 任务可能包含:意图解析、权限校验、技能调度、模型推理、工具执行、子 Agent 委派、结果汇总。传统 APM 能看到请求,却看不透这条推理链中间发生了什么。
更致命的是成本。微服务的资源消耗相对固定,Agent 的 Token 消耗在同一功能下可能波动十倍。没有细粒度追踪,等于把真金白银交给消费不可控的自动化系统。
Agent 可观测性必须回答:
- 推理链每一步在做什么,耗时多少?
- 调用了哪些工具,成功了吗?
- 哪个模型在哪个环节被调用,Token 烧了多少?
- 是否触发安全策略,内容是否合规?
- 子 Agent 如何被父 Agent 委派和协调?
这些观测缺一不可。
02|观测云方案:基于 OpenTelemetry 的端到端追踪
观测云采用 openclaw-otel-plugin → DataKit → 观测云平台 的插件化无侵入架构。
Agent 侧安装插件、配置环境变量即可上报,无需改业务代码。
Session + Trace 双维度
Session 列表聚合一次完整用户交互:起止时间、最近对话意图、Trace 数量、Token 消耗总量、风险事件数、告警等级。配合时间轴状态分布图,直接定位异常活跃时段和重试高发区间。

点进 Session 详情,Session Trace 瀑布图铺开展示完整执行链路:意图分类、Prompt 格式化、模型请求、检索增强、工具调用、结果输出。每个 Span 的耗时、Token 数、状态、Input/Output 内容全部可见。

Trace 列表提供单次执行级视角。按 Trace ID、Agent 名称、风险等级、Token 区间筛选。异常、高危执行一眼定位。

成本归因:模型与工具的财务显微镜
Session 详情调用分析页通过饼图展示模型调用占比与工具执行占比。gim-4.7 吃掉多少 Token?rerank 是否被过度调用?文件读取工具是否耗时过长?外部 API 是否成为瓶颈?

风险审计
Trace 详情内置风险事件追踪,覆盖内容策略校验、敏感词过滤、权限越界。每条风险事件关联具体 Span ID、等级、规则编号。
工具执行记录表精确到每一次调用:时间、Span ID、Tool 名称、类型、目标/命令、耗时、状态、风险等级。

Agent 接触生产数据时,可观测性就是合规基础设施。
接入
控制台提供 Agent 监测应用与 LLM 监测应用两种创建路径。OpenClaw 三步完成:安装插件、修改配置文件、重启验证。
右侧表单自动生成应用名称、ID、服务地址、Client Token。Langfuse 用户可通过兼容路径接入。

03|生态:跨框架的统一观测层
观测云正在把 Agent 运行时拉到同一张观测网里。
选择 OpenTelemetry 作为底座,是因为 Agent 生态正在碎片化:OpenClaw、Hermes、LangChain、CrewAI 等框架并行演进。OTel 避免为每个框架重复写适配器,也让数据可迁移,保护架构安全边际。
更重要的是,OTel 与基础设施 Trace 天然关联,可以打通 Agent 与微服务之间的观测断层。
OpenClaw(已发布)
网关架构与插件体系让 OTel 上报极为干净,单实例或多 Worker 集群均可完整捕获 Session 上下文与分布式追踪。
Hermes(即将接入)
Hermes 的差异化在于自进化学习闭环:根据历史执行自动生成 Skills、优化 Prompt。观测云正与社区协作,将记忆层变更和 Skills 生成事件纳入 Trace,追踪它的 Skills 从哪次经验演化而来。
Claude Code 与 Codex(即将接入)
Claude Code 已原生支持 OTel,输出 Token 用量、成本估算、工具活动;Codex CLI 支持 OTel opt-in。观测云将编码 Agent 数据与传统微服务 Trace 统一关联,实现 Agent 决策 → API 调用 → 数据库查询 的完整因果链。
04|结语:Agent 时代,先让它可被信任
2026 年的共识:Agent 的能力差距在缩小,可靠性差距在放大。
构建 Agent 变得简单,信任 Agent 变得困难。
观测云 AI Agent 可观测通过 OpenTelemetry 标准、Session-Trace 双维视角、模型/工具成本归因、风险审计,以及覆盖 OpenClaw 及即将支持的 Hermes、Claude Code、Codex 的跨框架生态,让 Agent 的每一次思考、每一个动作、每一分钱消耗全部可见。
Agent 时代已经来了,立刻建立统一的跨框架 AI Agent 观测层。
登录观测云控制台,进入「Agent 监测」创建第一个 OpenClaw 监测应用。Hermes、Claude Code、Codex 接入支持请联系解决方案团队。