热线电话:400-882-3320
方案简介
LLM 应用的故障往往藏在模型调用、Prompt、工具链、向量检索、网络和业务逻辑之间。观测云 LLM 可观测方案基于 OpenTelemetry 等开放能力采集调用、Token、延迟、错误、Trace 和日志,帮助团队看清一次 AI 响应从用户请求到模型返回的完整过程。
场景挑战
模型调用过程黑盒:一次回答可能经过检索、工具调用、模型推理和业务服务,传统 APM 很难解释 LLM 请求内部发生了什么。
Token 成本和延迟难控制:模型、Prompt、上下文长度和调用次数都会影响成本与响应时间,缺少细粒度数据就难以优化。
错误和质量问题难复现:超时、限流、空响应、异常输出和用户反馈需要和请求上下文、Prompt、模型版本一起分析。
AI 应用与业务系统脱节:LLM 调用只是业务链路的一段,必须和用户请求、服务、日志和数据库等上下游一起看。
观测云方案
LLM 调用可视化:记录模型、请求、Token、耗时、状态和错误,帮助团队掌握调用量、性能和成本趋势。
Trace 链路与火焰图分析:把模型调用、向量检索、工具调用和业务服务放入同一条 Trace,定位慢请求和失败环节。
成本与异常告警:围绕 Token 消耗、调用量、错误率、延迟和模型维度配置监控,避免异常成本和体验问题扩大。
开放标准接入:基于 OpenTelemetry 生态接入 LLM 应用数据,降低与现有可观测体系集成的成本。
方案亮点
Token 与请求量可视化监控
您将看到一个实时更新的大盘,清晰展示整体消耗的 Total Tokens 以及 Prompt Tokens 与 Completion Tokens 的比例,并能按模型和应用维度细分平均 Input/Output Tokens。通过这种全景式的监控,团队可以在开发阶段即刻评估每次调用的成本与复杂度,避免上线后因意外高耗导致账单激增;系统还支持为异常 Token 波动设置阈值,一旦某次请求超出预期范围,立刻触发告警,帮助您随时掌握成本动向。
预约演示
成本与趋势分析
所有 LLM API 调用次数、平均单次费用及累计消耗都可以汇聚到一张图表中。借助趋势折线,您可以清晰洞察调用量和费用走向,帮助产品和财务团队精准制定预算;同时,当某个维度的成本或请求量触及设定阈值时,平台将即时提醒,避免潜在的流量激增导致预算超支,为您的规模化部署保驾护航。
预约演示
LLM 调用链路历史
在 “LLM 调用链路历史” 中,您可以通过 Trace ID 快速回溯每一次推理请求的完整元数据,包括开始与结束时间、实际选用的模型版本、temperature 参数、prompt 长度以及输出摘要等。该功能不仅能一键筛选出失败或超时调用,还可结合输入输出日志进行深度排查,帮助开发与运维团队迅速复现问题;同时支持将历史记录导出为 CSV 或 JSON 格式,便于跨部门共享与分析。
预约演示
火焰图与根因分析
“火焰图与根因分析”模块在链路详情页中自动渲染子 Span 的耗时分布,您可直观识别哪些调用阶段最耗时,并结合 P75、P90、P99 等响应时长曲线深入挖掘偶发慢请求的根本原因。找到瓶颈后,还能一键跳转至相应代码或配置界面,帮助团队在同一平台内完成性能诊断与优化闭环。
预约演示
更多内容
常见问题
需要关注模型调用量、Token 消耗、响应耗时、错误率、超时、模型版本、Prompt 上下文、Trace 链路和业务影响。
可以从调用趋势进入单次 Trace,查看模型、Prompt、Token、工具调用、检索和业务服务耗时,判断瓶颈所在。
可以通过 OpenTelemetry 相关能力采集 LLM 应用的调用、链路、日志和指标,并与现有服务监控统一分析。