观测云2024年度总结:持续进化,领航监控观测新征程

    2024年,观测云始终秉持“endless evolution”的理念,在技术革新、产品升级、全球化拓展以及生态构建等多方面取得了显著的成果,不断巩固和提升在监控观测领域的领先地位,为推动行业的发展注入了强大动力,成为众多企业数字化转型进程中的可靠伙伴。

    一、GuanceDB 2.0:技术革新驱动性能飞跃

    GuanceDB 作为观测云自主研发的分布式多模式时序数据库,旨在为可观测数据的存储和查询提供更高效、全面的一站式解决方案。2024年,GuanceDB 2.0的推出带来了一系列具有突破性的技术创新,极大地提升了观测云的整体性能和用户体验。

    1.1 灵活架构设计,适应多变业务需求

    GuanceDB 2.0将无模式(schemaless)作为核心设计特性之一,能够支持任意字段的写入,并允许实时添加和删除数据字段,无需用户手动维护数据模型。这一特性使得数据库能够快速适应业务变化,灵活应对各类数据结构的存储需求。同时,GuanceDB 2.0采用分布式架构部署,确保了高可用性,并通过动态添加和删除节点实现集群的水平扩展,有效提升了系统的扩展性和稳定性。

    1.2 强大查询引擎,提升数据处理效率

    GuanceDB 2.0的查询基于火山模型,支持流式计算,能够实现对原始数据的无限计算。为进一步加速查询,引入了 SIMD 指令集,单机最大计算性能可达每秒数百亿行。此外,GuanceDB 2.0不仅支持观测云自研的多模式查询语言 DQL 语法,还兼容 Prometheus 的 PromQL,用户在写入数据后,可以自由选择偏好的语法进行查询,为用户提供了更加便捷和灵活的查询方式。

    1.3 高性能指标引擎,优化存储与查询性能

    GuanceDB 2.0的指标引擎在写入、查询和存储压缩效率方面表现卓越。该引擎针对高基数指标的写入和查询进行了优化,用户无需担心高基数对数据库稳定性的影响。同时,GuanceDB 2.0继续支持按指标集粒度配置数据存储策略,用户可以为数量大但相对临时的指标配置较短的保留期,既能更快地释放存储空间,降低资源开销,又能加速查询。

    二、DataKit:数据采集能力显著增强

    2.1 上架AWS Marketplace add-ons,实现国际化重大突破

    在2022年亚马逊云科技 re:Invent 大会宣布 AWS Marketplace 为 Amazon Elastic Kubernetes Service(Amazon EKS)提供附加组件支持之后,2024年 DataKit 迎来了关键的里程碑——成功入驻 AWS Marketplace add-ons,成为首个在此平台成功上架的中国的监控观测 Agent。这一成就不仅丰富了 AWS Marketplace add-ons 市场的产品和服务,更是中国技术力量在全球舞台上的重要展示。

    在入驻过程中,观测云团队与亚马逊云科技团队紧密协作,历经六个月的严格测试和审查周期,克服了重重挑战,确保 DataKit 能够满足 AWS Marketplace 的高标准以及用户的实际需求。这一成果不仅是亚马逊云科技对观测云技术实力的认可,更是对中国技术创新能力的肯定。自此,用户在选购 EKS 时,只需在 AWS Marketplace add-ons 市场搜索“datakit”,便可通过一键安装,享受其带来的高效监控观测体验。DataKit 的开源属性与亚马逊云科技对透明度和安全性的高标准不谋而合,它让用户能够在一个开放、可信赖的环境中,享受到优质的监控观测服务,也为中国开发者提供了更多样化、更自主的选择。

    2.2 技术能力持续强化,满足多样化业务需求

    广泛的采集能力与兼容性

    DataKit 作为一款开源的数据采集工具,持续展现出强大的技术实力。它支持全平台运行,包括 Linux、Windows、macOS 等主流操作系统,覆盖主机、容器、中间件、Tracing、日志以及安全巡检等各种场景。通过对多种数据源的广泛支持,如 Telegraf、Prometheus、StatsD 等众多第三方数据源,DataKit 能够无缝整合复杂的数据环境,为企业提供一站式的数据采集解决方案。无论是微服务架构下的分布式追踪,还是大规模集群的性能监控,DataKit 都能发挥关键作用,满足不同规模企业在多样化业务场景下的数据采集需求。

    稳定性与性能提升

    在2024年,DataKit 团队致力于解决影响产品稳定性和性能的问题,涵盖启动异常、内存泄漏、采集重复、配置重置等多个方面,累计修复了数十个问题。这些问题的解决有效保障了 DataKit 的稳定运行,提升了数据采集的准确性和可靠性。同时,对部分功能进行了优化,如优化了 Pipeline 对日志类数据的 status 字段的处理问题,新版本已支持任何自定义的日志等级;采集器上报数据时,默认改成全局阻塞模式,解决时序数据因队列阻塞而丢失的问题;调整了monitor 部分信息的展示,会展示采集器上报数据的阻塞时长(p90)以及每个采集器的单次采集点数(p90),以更明显地展示出具体某个采集器的采集量。

    三、RUM功能增强,深度洞察用户行为

    3.1 多端框架全面支持

    观测云在2024年大力拓展了 RUM(Real User Monitoring)功能的覆盖范围,对各类 Web 及移动客户端框架提供了更广泛的支持。在 Web 端,无论是主流的 React、Vue、Angular 等前端框架,还是新兴的 Svelte、Preact 等轻量级框架,观测云都能实现深度集成,精准采集用户在不同框架下的交互数据。在移动客户端方面,对于 Android 和 iOS 系统下的原生应用,以及基于 Flutter、React Native 等跨平台框架开发的应用,观测云也能够做到全面适配。这种对多端框架的广泛支持,使得观测云能够深入到各类应用场景中,为开发者和企业提供全面、准确的用户行为数据,助力他们更好地理解用户在不同应用环境下的使用情况。

    3.2 用户行为分析能力显著提升

    1、会话重放(Session Replay):观测云的会话重放功能得到了进一步优化,能够更清晰、流畅地重现用户在应用中的操作轨迹。开发人员通过会话重放,可以像观看视频一样,详细地查看用户的每一次点击、滑动、输入等操作,以及页面的加载过程和状态变化。这对于定位和解决用户在使用过程中遇到的问题,如页面卡顿、功能异常等,提供了极大的帮助。通过精准复现问题场景,开发人员能够快速找到问题的根源,从而提高问题解决的效率。

    2、热图(Heatmap):新增的热图功能,以直观的可视化方式展示了用户在页面上的行为分布。通过不同颜色的深浅来表示用户操作的频率和集中区域,企业可以一目了然地了解用户对页面元素的关注度和兴趣点。例如,在电商网站中,通过热图可以清晰地看到用户在商品展示页面上的点击热点,从而优化商品布局和推荐策略;在资讯类应用中,热图可以帮助确定用户对不同内容板块的浏览偏好,以便更好地进行内容推荐和排版优化。

    3、漏斗分析:通过捕获用户会话数据,将用户在关键工作流程中的行为进行分步骤展示,形成一个从宽到窄的漏斗形状,帮助分析者直观地监测业务流程的成功率,识别可能导致用户流失的摩擦点。漏斗分析在网页浏览优化、电商转化提升、应用功能改进等场景中都能发挥重要作用,帮助企业优化页面布局和内容,提高购买完成率,增强用户留存。

    4、用户洞察模块整合:新增用户洞察模块,将热图和漏斗分析整合在该模块中,提供更全面的用户行为分析工具,方便企业一站式获取用户行为数据并进行深入分析。

    四、产品升级,全面提升产品力

    4.1 性能监测与优化

    1、新增服务管理模块,提升了实时监控与问题解决效率,帮助团队更好地把握全局,优化了团队的全局可观测性。

    2、推出 Profiling 功能,从多维度发现性能问题,精确到代码级别,加快了问题定位的速度,为开发人员提供了强大的性能优化工具。

    3、上线云账单智能监控功能,为用户提供了高效的云成本管理工具。它能够帮助用户实时监控云服务消费,识别异常费用并预警,避免不必要的支出。同时,该功能支持多维度可视化,帮助用户分析和理解云资源的消费模式,为未来预算规划提供依据,从而优化云资源配置,确保费用物尽其用。

    4.2 链路追踪与数据处理

    1、完善 Tracing 方案,兼容更多 Tracing 数据协议结构,深化了链路持续下钻能力,使用户能够更深入地了解系统的运行状态。

    2、DQL 扩展应用,如 rollup 函数、having 子查询等,提供了强大的数据聚合与二次处理能力,满足了用户对复杂数据分析的需求。

    3、自动编写 Pipeline 功能利用大模型的自然语言处理能力,辅助自动化解析日志内容,提高了编写效率,降低了人工成本。

    4.3 数据可视化与访问控制

    1、引入桑基图、拓扑图等新图表,优化了仪表板设置,提升了数据可视化的深度和广度,使用户能够更直观地展示和分析数据。

    2、跨工作空间授权升级,实现了索引级别数据访问授权,增强了数据合并查询分析能力。用户访问新增数据访问功能,支持针对应用级别配置数据查看范围,精细化管理成员数据查询边界。

    4.4 监控告警与异常追踪

    1、智能监控2.0升级,通过组合检测和告警策略精细化管理,提升了问题发现与响应效率,帮助用户及时发现和解决潜在问题。

    2、AI 告警压缩合并功能通过大模型对监控告警事件进行压缩合并,减少告警事件的冗余,确保运维人员在指定时间周期内仅接收到一条综合的告警信息。

    3、推出异常追踪功能,简化了信息传递流程,提高了问题处理效率。

    4.5 其他功能优化

    1、仪表板新增历史版本记录,可查看三个月内保存的版本记录,支持还原和克隆操作;自定义查看器支持变更显示列顺序;模板变量调整,新增#{startTime}、#{endTime}两个时间变量,方便图表查询和链接应用。

    2、资源目录功能增强,支持自定义资源查看器模板,并提供列表和蜂窝图两种模式。

    3、帮助中心整合,允许用户通过统一入口访问所有集成列表,并支持搜索及标签过滤功能,提高查找效率。

    五、全球化战略,加速国际布局

    5.1 全球市场洞察与服务本地化

    观测云深入理解不同市场的特定需求和挑战,为出海客户提供精准的市场洞察和战略指导。通过全球 SaaS 站点部署,确保全球用户无论身在何处,都能享受到一致的服务质量和体验。提供多语言界面和文档,以及时区适应性的客户服务,满足不同地区用户的需求,为用户提供了更加便捷和贴心的服务。

    5.2 多云环境支持与数据安全合规

    观测云提供灵活的多云和混合云解决方案,帮助企业在全球范围内实现资源的最优配置和管理。在多云环境中,能够有效解决不同云平台之间的数据孤岛问题,实现统一监控,提高运维效率。同时,严格遵守国际数据保护标准,提供全面的数据安全保护措施,包括数据加密、访问控制、安全审计等,确保客户数据的安全性和合规性,赢得了全球用户的信任。

    5.3 全球合作伙伴网络扩展

    观测云立志于构建一个强大的全球合作伙伴生态系统,2024年成功签约30家全球服务商,这一目标的实现标志着在全球化布局上迈出了重要步伐。与服务伙伴紧密协作,不仅体现在签约数量上,更注重交付项目的质量与效率,目标是共同完成超过80%的交付项目,提升服务能力和客户满意度。8月份推出一套完整的服务工程师培训和认证体系,提高服务工程师的专业技能,体现了对人才培养和知识共享的承诺。

    认证课程参考链接:https://www.guance.com/certification

    六、Bug修复与问题解决,保障产品稳定运行

    在过去的一年里,观测云对众多影响用户使用的问题进行了修复,涵盖了集成搜索、快照分享、组合监测、视图设置、排行榜图表展示、定时报告邮件显示、数据聚合、登录方式显示、可用性监测、日志导出和排序、Grafana 图表转换工具兼容性等多个方面的问题,保障了产品的稳定运行,提升了用户的使用体验。

    2024年是观测云不断进化和成长的一年,在技术、产品、市场等多个维度都取得了令人瞩目的成绩。展望未来,观测云将继续秉持“endless evolution”的理念,不断创新和优化,与全球用户和合作伙伴携手共进,迎接新的挑战,创造更加辉煌的未来,持续引领监控观测领域的发展潮流。

    联系我们

    加入社区

    微信扫码
    加入官方交流群

    立即体验

    在线开通,按量计费,真正的云服务!

    立即开始

    选择观测云版本

    代码托管平台