阿里云 RDS PostgreSQL 可观测最佳实践

    阿里云 RDS PostgreSQL

    阿里云RDS PostgreSQL 是阿里云提供的一种稳定、可靠、可扩展的关系型数据库服务,基于开源对象-关系型数据库 PostgreSQL 打造,兼容 SQL 标准,支持复杂查询、事务处理、JSON 数据类型以及强大的扩展能力(如 PostGIS、hstore 等)。RDS PostgreSQL 提供全自动的主备高可用架构,支持跨可用区部署,确保业务连续性。用户无需关心底层运维,系统自动完成备份恢复、监控告警、性能优化和版本升级等操作。

    该服务支持多种实例规格,可根据业务负载灵活调整配置,实现资源弹性伸缩。同时,集成阿里云安全体系,提供网络隔离、数据加密、访问控制等多重安全防护,保障数据安全。RDS PostgreSQL 广泛应用于金融、电商、地理信息、数据分析等对数据一致性与复杂查询要求较高的场景。通过与 DTS、DBS 等阿里云产品无缝集成,还可实现数据迁移、灾备与读写分离,提升系统整体性能与可靠性。是企业构建现代化应用的理想数据库平台之一。

    观测云

    观测云是一款专为 IT 工程师打造的全链路可观测产品,它集成了基础设施监控、应用程序性能监控和日志管理,为整个技术栈提供实时可观察性。这款产品能够帮助工程师全面了解端到端的用户体验追踪,了解应用内函数的每一次调用,以及全面监控云时代的基础设施。此外,观测云还具备快速发现系统安全风险的能力,为数字化时代提供安全保障。

    采集器配置

    1. 登录观测云控制台
    2. 点击【集成】菜单
    3. 点击【云账号管理】-【添加云账号】,选择【阿里云】
    4. 填写界面所需的信息,如之前已配置过云账号信息,则忽略此步骤
    5. 点击【测试】,测试成功后点击【保存】,如果测试失败,请检查相关配置信息是否正确,并重新测试
    6. 点击【云账号管理】列表上可以看到已经添加的云账号,点击进入详情页
    7. 点击【集成】按钮,在未安装列表下找到阿里云 RDS PostgreSQL,点击【安装】按钮,弹出安装界面安装即可。

    关键指标

    指标名 描述 单位
    PG_DBAge PG_数据库年龄 count
    PG_InactiveSlots PG_非活跃复制槽数量 count
    PG_MaxExecutingSQLTime PG_最慢SQL执行耗时 seconds
    PG_MaxSlotWalDelay PG_最大复制槽延迟(MB) byte
    PG_ReplayLatency PG_最慢Standby回放延迟(MB) byte
    PG_SwellTime PG_最长事务执行耗时 seconds
    active_connections_per_cpu PG_每CPU平均活跃连接数 count
    conn_usgae PG_连接数使用率 %
    cpu_usage PG_CPU使用率 %
    five_seconds_executing_sqls PG_五秒慢SQL count
    iops_usage PG_IOPS使用率 %
    local_fs_inode_usage PG_INODE使用率 %
    local_fs_size_usage PG_磁盘空间使用率 %
    local_pg_wal_dir_size PG_WAL文件大小 MB
    mem_usage PG_内存使用率 %
    one_second_executing_sqls PG_一秒慢SQL count
    three_seconds_executing_sqls PG_三秒慢SQL count

    场景视图

    登录观测云控制台,点击「场景」 -「新建仪表板」,输入 阿里云 RDS PostgreSQL, 选择 “阿里云 RDS PostgreSQL 监控视图”,点击 “确定” 即可添加视图。

    监控器

    观测云内置了监控器模板,可以选择从模版创建监控器,并开启适合业务的监控器以及时通知相关成员关注问题,触发条件、频率等信息可以依据实际业务进行调整。

    登录观测云控制台,点击「监控」 -「官方模板库」,输入 “阿里云 RDS PostgreSQL”, 选择对应的监控器,点击 “确定” 即可添加。

    阿里云 RDS PostgreSQL 内存告警

    该告警配置针对阿里云 PostgreSQL 数据库的内存使用率进行监控,检测频率为每分钟一次,检测区间为最近 5 分钟。当内存使用平均值持续高于 90% 时触发严重告警,介于 80% 至 90% 时触发重现告警,并支持连续触发判断机制,确保及时感知数据库资源异常。

    阿里云 RDS PostgreSQL CPU告警

    该告警配置针对阿里云 PostgreSQL 数据库的 CPU 使用率进行监控,检测频率为每分钟 1 次,检测区间为最近 5 分钟。当 CPU 使用平均值持续高于 90% 时触发严重告警,介于 80% 至 90% 时触发重现告警,并支持连续触发判断机制,确保及时感知数据库资源异常。

    阿里云 RDS PostgreSQL 告警

    该告警配置针对阿里云 PostgreSQL 数据库的磁盘使用率进行监控,检测频率为每分钟一次,检测区间为最近 5 分钟。当内存使用平均值持续高于 90% 时触发严重告警,介于 80% 至 90% 时触发重现告警,并支持连续触发判断机制,确保及时感知数据库资源异常。

    总结

    观测云通过一站式采集阿里云 RDS PostgreSQL 的关键指标(如 CPU、内存、连接数等),结合智能告警规则(如多级阈值、连续触发判断),实现对数据库性能的分钟级监控与异常快速定位。该实践可帮助企业提升数据库稳定性,降低运维成本,增强业务连续性,实现云上资源的精细化管控与主动运维。

    联系我们

    加入社区

    微信扫码
    加入官方交流群

    立即体验

    在线开通,按量计费,真正的云服务!

    立即开始

    选择观测云版本

    代码托管平台