观测云:千人千面的监控观测平台

    在传统分散的监控工具中,数据孤岛现象普遍存在,团队成员难以对业务系统的运行状态有全面的理解,团队亦难以快速对故障或异常快速达成一致。本文将探讨如何通过观测云平台实现自由专业协作,构建一个千人千面的监控观测平台,以促进业务创新。

    多租户设计与数据分流机制

    观测云采用多租户设计和基于标签的数据分流机制,可将具备特定标签(Tag)的监控观测数据分流至特定工作空间(workspace),不同 Tag 的空间数据完全独立,确保每个团队都能拥有干净、有序的工作环境。标签(Tag)的选择完全取决于团队/企业的管理需要,通常可以使用团队/组织、生产基地、业务系统等各种对象来进行分流,确保用户可以在工作空间内对同一对象进行分析。

    数据分流示意图

    例如在很多集团性企业中,甲方选择以应用系统标识作为工作空间的分流依据。观测云以甲方 MDM(主数据系统)/CMDB(配置管理系统)提供的应用数据 systemID 为唯一标识,自动为每个应用系统创建工作空间和分流规则,并在 DataKit(观测云统一采集器)上配置自定义 Tag,即可将归属于同一应用系统的基础设施、链路、日志、RUM、拨测数据统一存放至该工作空间中,与其他业务系统完全独立。

    使用guance_system作为分流的key

    团队成员可以在该空间中看到与团队负责的业务系统相关的所有数据,不会受到无关系统的数据干扰。团队 Leader 可以在工作空间内根据团队成员的角色和需求,灵活分配权限和资源,实现个性化的监控体验。

    在工作空间内进行角色/成员管理

    跨工作空间授权带来知情权

    在观测云中,「跨工作空间授权」功能确保了用户对关键公共组件运行情况的知情权。基础架构的同学可以将公共组件(APISIX、k8s 集群、云资源等)的监控仪表板授权给相关的业务系统空间。业务系统团队就可以在自己的空间内自服务地查看公共组件的监控数据,而无需依赖基础架构团队,从而了解支撑应用系统运行的底层资源、组件的运行情况。这种设计不仅提升了团队的自主性,也加强了全栈观测的能力。

    配置工作空间授权

    跨工作空间查看数据

    在微服务环境中,跨应用系统的调用关系普遍存在,若同一个 Trace 数据存在分流情况,数据会归属于不同的工作空间,此时无法在同一个工作空间查看完整的链路数据。而跨工作空间 Service Map 查询可保证数据查询的连贯性,直接在当前工作空间点击按钮即可查看当前服务的上下游调用拓扑。

    跨空间Service Map

    千人千面的视角

    观测云平台为不同角色提供了千人千面的视角,使得团队成员能够根据自己的专长和需求,轻松绘制属于自己的仪表板。这种个性化的监控体验,有助于团队成员更有效地发挥自己的专业能力,共同驱动业务创新。

    例如在某企业级客户中,DBA 同学在工作空间构建了针对数据库的监控看板,添加系统、环境、实例名称等变量,实现了对全集团数百个数据库实例的标准化监控。

    DBA的数据库看板

    仪表板支持设置为「仅自己可见」,以便你在工作空间内自由地创作自己感兴趣的仪表板,并将仪表板设置为隐藏,不扰乱他人视线,只为你提供专属的数据可视化。

    仪表板可设置为「仅自己可见」

    当然,你也可以将自己精心打造的仪表板公开至工作空间,让团队成员都能看到你的创作。甚至可以让平台管理员在管理后台内导入你的仪表板,将其分发至组织的其他工作空间,让其他团队的成员能够直接使用你的模板来监控不同业务领域的业务,从而获得满满的个人成就感。

    部署版支持将仪表板作为模板进行导入,分发至不同工作空间

    告警自由与异常追踪

    以应用为中心的时代,业务系统团队直接对应用和用户体验负责,通常会基于业务指标、应用性能、用户体验来设置监控告警条件。而基础架构部同学、DBA 同学通常对某一特定领域更加专业,通常会对组件的运行监控、性能优化更有发言权。在这样的情况下,观测云通过数据双写、跨工作空间授权等方式,能让各个角色可以在不同空间内对同一数据源添加告警。例如 DBA 同学可以在工作空间内配置针对数据库运行的自定义监控,并根据数据库的调用方标识将告警分发给业务系统团队;而业务系统团队则在自己工作空间内配置基于业务的告警,大家各司其职,分别从各自的专业角度共同为业务保驾护航。

    在很多企业中,告警与 ITSM 的事件工单、流程直接挂钩,但如果不是长时间告警治理,稍不注意就会产生大量的告警、工单,使团队成员产生抵触。出于让每位工程师都拥有配置监控告警的自由考虑,观测云设计了「异常追踪」功能,并推荐由异常追踪工具来与协同办公、ITSM 等平台来进行对接。

    异常追踪功能

    普通的监控器如果未关联异常追踪,那么它就是一个可以定义成持续监控数据、产生某种情况时通知某人的一个提醒工具,研发可以用它来调试自己的新代码,运维可以用它来测试自己新开发的脚本,完全不用担心会因为设置了告警而带来不必要的麻烦。只有关联了异常追踪的监控器,才有可能去触发事件工单、流程。因此,在使用观测云的监控告警功能时,用户感受到的不是压力,而是自由

    监控器关联异常追踪的开关

    一键创建issue与团队协作

    业务系统出现故障、异常的原因多种多样,难以穷举,自然无法通过监控来发现所有的问题,如果能够让工程师在观察到异常现象时,能够非常便捷地创建 issue、发起沟通,势必能大大减少生产环境故障的概率,减少公司损失。基于这个设计初衷,观测云的异常追踪功能还允许工程师将观察到的异常现象一键创建 issue,并迅速与相关人员发起沟通。

    看到异常数据后,工程师可一键创建issue

    添加issue描述、设定等级、指定负责人或@通知某人

    团队成员除了可以在异常追踪的 issue 内进行互动以外,异常追踪还支持与多种协同工具对接,如飞书、钉钉、JIRA、ITSM、pagerDuty、slack 等,例如与 JIRA 配置双向同步后,issue 可以自动产生 JIRA issue,当 JIRA 有新评论产生时也会自动同步到观测云 issue。通过整合团队惯用的协同工具,观测云促进了团队对异常的主动发现、快速响应,确保隐患在影业务前得到及时处理。

    总结

    观测云以统一采集、统一存储、统一分析为核心理念,将监控观测数据汇聚成一个多维的立方体。在这个立方体中,每个角色都有属于自己的视角,且都能从不同的角度入手,了解业务系统运行的全貌,并在自由高效协作的环境中,团队能够共同推动业务的持续创新。

    联系我们

    加入社区

    微信扫码
    加入官方交流群

    立即体验

    在线开通,按量计费,真正的云服务!

    免费开启

    支持私有云环境部署

    代码托管平台