阿里云 OceanBase 可观测最佳实践

    阿里云 OceanBase

    OceanBase 数据库是蚂蚁集团不基于任何开源产品,完全自研的原生分布式关系数据库软件,在普通硬件上实现金融级高可用,具备卓越的水平扩展能力,全球首家通过 TPC-C 标准测试的分布式数据库,单集群规模超过 1500 节点。产品具有云原生、强一致性、高度兼容 MySQL 等特性,承担支付宝 100% 核心链路,在国内几十家银行、保险公司等金融客户的核心系统中稳定运行。

    OceanBase 具有数据强一致、高可用、高性能、在线扩展、高度兼容 SQL 标准和主流关系型数据库、低成本等特点。OceanBase 至今已成功应用于支付宝全部核心业务:交易、支付、会员和账务等系统以及阿里巴巴淘宝(天猫)收藏夹和P4P 广告报表等业务。

    OceanBase 监控是金融级分布式数据库的“生命体征仪”,只有实时掌握集群、租户、节点、会话四层 5 秒级指标,才能在秒级发现副本漂移、SQL 抖动或节点故障,避免级联雪崩;它直接决定能否兑现“三地五中心”零数据丢失承诺,是业务连续性与合规审计的底线保障。

    观测云

    观测云是一款专为 IT 工程师打造的全链路可观测产品,它集成了基础设施监控、应用程序性能监控和日志管理,为整个技术栈提供实时可观察性。这款产品能够帮助工程师全面了解端到端的用户体验追踪,了解应用内函数的每一次调用,以及全面监控云时代的基础设施。此外,观测云还具备快速发现系统安全风险的能力,为数字化时代提供安全保障。

    采集器配置

    1. 登录观测云控制台
    2. 点击【集成】菜单,选择【云账号管理】
    3. 点击【添加云账号】,选择【阿里云】,填写界面所需的信息,如之前已配置过云账号信息,则忽略此步骤
    4. 点击【测试】,测试成功后点击【保存】,如果测试失败,请检查相关配置信息是否正确,并重新测试
    5. 点击【云账号管理】列表上可以看到已添加的云账号,点击相应的云账号,进入详情页
    6. 点击云账号详情页的【集成】按钮,在未安装列表下,找到阿里云 OceanBase,点击【安装】按钮,弹出安装界面安装即可。

    关键指标

    指标名 描述 单位
    active_memstore_used 当前活跃 MemStore 已使用内存 字节
    active_session 活跃会话数
    all_session 总会话数
    block_cache_hit_ratio Block Cache 命中率 %
    block_cache_req_total Block Cache 总请求数
    block_cache_size Block Cache 大小 字节
    bloom_filter_cache_hit_ratio Bloom Filter Cache 命中率 %
    bloom_filter_cache_req_total Bloom Filter Cache 总请求数
    bloom_filter_cache_size Bloom Filter Cache 大小 字节
    client_connections 客户端连接数
    clog_cache_hit_ratio Clog Cache 命中率 %
    clog_cache_req_total Clog Cache 总请求数
    clog_cache_size Clog Cache 大小 字节
    clog_trans_log_total_size 事务日志总大小 字节
    cpu_percent CPU 使用率 %
    io_byte IO 总字节数 字节
    io_count IO 总次数
    io_read 读 IO 总字节数 字节
    io_read_byte 读 IO 字节数 字节
    io_read_count 读 IO 次数
    io_read_rt 读 IO 平均响应时间 毫秒
    io_read_size 读 IO 平均大小 字节
    io_rt IO 平均响应时间 毫秒
    io_size IO 平均大小 字节
    io_write 写 IO 总字节数 字节
    io_write_byte 写 IO 字节数 字节
    io_write_count 写 IO 次数
    io_write_rt 写 IO 平均响应时间 毫秒
    io_write_size 写 IO 平均大小 字节
    load_1 1 分钟系统负载
    location_cache_hit_ratio Location Cache 命中率 %
    location_cache_req_total Location Cache 总请求数
    major_freeze_trigger 触发 Major Freeze 次数
    memory_buffers 缓冲区内存 字节
    memory_free 空闲内存 字节
    memory_percent 内存使用率 %
    memstore_limit MemStore 上限 字节
    memstore_percent MemStore 使用率 %
    memstore_write_lock_fail_count MemStore 写锁失败次数
    memstore_write_lock_succ_count MemStore 写锁成功次数
    net_recv 网络接收字节数 字节
    net_send 网络发送字节数 字节
    net_throughput 网络吞吐量 字节/秒
    ob_background_waitevent_count 后台等待事件数
    ob_clog_disk_percent Clog 磁盘使用率 %
    ob_clog_io Clog IO 次数
    ob_clog_io_byte Clog IO 字节数 字节
    ob_clog_io_time Clog IO 时间 毫秒
    ob_clog_io_util Clog IO 利用率 %
    ob_clog_ls_max_replayed_scn 最大回放 SCN
    ob_cpu_percent OB CPU 使用率 %
    ob_data_disk_percent 数据磁盘使用率 %
    ob_data_disk_used_size 数据磁盘已用大小 字节
    ob_data_io 数据 IO 次数
    ob_data_io_byte 数据 IO 字节数 字节
    ob_data_io_time 数据 IO 时间 毫秒
    ob_data_io_util 数据 IO 利用率 %
    ob_data_required_size 数据需求大小 字节
    ob_host_real_time_iops 实时 IOPS 次/秒
    ob_host_real_time_throughput 实时吞吐量 字节/秒
    ob_no_idle_waiting_time 非空闲等待时间 毫秒
    ob_process_exists OB 进程是否存在 布尔
    ob_sql_event SQL 事件数
    ob_sql_event_in_parse SQL 解析中事件数
    ob_sql_event_in_pl_parse PL 解析中事件数
    ob_sql_event_in_plan_cache Plan Cache 中事件数
    ob_sql_event_in_px_execution 并行执行中事件数
    ob_sql_event_in_sequence_load 序列加载中事件数
    ob_sql_event_in_sql_execution SQL 执行中事件数
    ob_sql_event_in_sql_optimize SQL 优化中事件数
    ob_tenant_data_size 租户数据大小 字节
    ob_tenant_disk_used_percentage 租户磁盘使用率 %
    ob_tenant_log_disk_total_bytes 租户日志磁盘总大小 字节
    ob_tenant_log_disk_used_bytes 租户日志磁盘已用大小 字节
    ob_tenant_memory_percent 租户内存使用率 %
    ob_tenant_server_data_size 租户在 Server 上的数据大小 字节
    ob_tenant_server_required_size 租户在 Server 上的需求大小 字节
    ob_waitevent_count 等待事件数
    ob_worktime 工作时间 毫秒
    opened_cursors_count 打开的游标数
    plan_cache_hit_ratio Plan Cache 命中率 %
    plan_cache_size Plan Cache 大小 字节
    qps 每秒查询数 次/秒
    qps_rt 查询平均响应时间 毫秒
    request_dequeue_count 请求出队数
    request_enqueue_count 请求入队数
    request_queue_time 请求排队时间 毫秒
    row_cache_hit_ratio Row Cache 命中率 %
    row_cache_req_total Row Cache 总请求数
    row_cache_size Row Cache 大小 字节
    rpc_packet_in 入 RPC 包数
    rpc_packet_in_rt 入 RPC 包平均响应时间 毫秒
    rpc_packet_out 出 RPC 包数
    rpc_packet_out_rt 出 RPC 包平均响应时间 毫秒
    server_connections Server 连接数
    slow_sql_count 慢 SQL 数
    sql_all_count 总 SQL 数
    sql_all_rt SQL 平均响应时间 毫秒
    sql_all_rt_p_90 SQL 90分位响应时间 毫秒
    sql_all_rt_p_95 SQL 95分位响应时间 毫秒
    sql_all_rt_p_99 SQL 99分位响应时间 毫秒
    sql_delete_count DELETE 语句数
    sql_distributed_count 分布式 SQL 数
    sql_insert_count INSERT 语句数
    sql_insert_rt INSERT 平均响应时间 毫秒
    sql_insert_rt_p_90 INSERT 90分位响应时间 毫秒
    sql_insert_rt_p_95 INSERT 95分位响应时间 毫秒
    sql_insert_rt_p_99 INSERT 99分位响应时间 毫秒
    sql_local_count 本地 SQL 数
    sql_other_count 其他 SQL 数
    sql_other_rt 其他 SQL 平均响应时间 毫秒
    sql_other_rt_p_90 其他 SQL 90分位响应时间 毫秒
    sql_other_rt_p_95 其他 SQL 95分位响应时间 毫秒
    sql_other_rt_p_99 其他 SQL 99分位响应时间 毫秒
    sql_remote_count 远程 SQL 数
    sql_replace_count REPLACE 语句数
    sql_select_count SELECT 语句数
    sql_select_rt SELECT 平均响应时间 毫秒
    sql_select_rt_p_90 SELECT 90分位响应时间 毫秒
    sql_select_rt_p_95 SELECT 95分位响应时间 毫秒
    sql_select_rt_p_99 SELECT 99分位响应时间 毫秒
    sql_update_count UPDATE 语句数
    sql_update_rt UPDATE 平均响应时间 毫秒
    system_event_commit_count 提交类系统事件数
    system_event_commit_waites 提交类等待事件数
    system_event_concurrency_count 并发类系统事件数
    system_event_concurrency_waites 并发类等待事件数
    system_event_configuration_count 配置类系统事件数
    system_event_configuration_time_waites 配置类等待事件数
    system_event_network_count 网络类系统事件数
    system_event_network_waites 网络类等待事件数
    system_event_other_count 其他系统事件数
    system_event_other_time_waites 其他等待事件数
    system_event_system_io_count 系统 IO 事件数
    system_event_system_io_waites 系统 IO 等待事件数
    system_event_user_io_count 用户 IO 事件数
    system_event_user_io_waites 用户 IO 等待事件数
    total_memstore_used MemStore 总使用量 字节
    tps 每秒事务数 次/秒
    trans_commit_log_count 事务提交日志数
    trans_commit_log_sync_rt 事务提交日志同步耗时 毫秒
    transaction_commit_count 事务提交数
    transaction_commit_rt 事务提交耗时 毫秒
    transaction_count 事务总数
    transaction_multi_partition_count 跨分区事务数
    transaction_partition_count 事务涉及分区数
    transaction_rollback_count 事务回滚数
    transaction_rollback_rt 事务回滚耗时 毫秒
    transaction_rt 事务平均响应时间 毫秒
    transaction_single_partition_count 单分区事务数
    transaction_timeout_count 事务超时数
    uptime 运行时长
    wait_event_count 等待事件总数
    wait_event_rt 等待事件平均耗时 毫秒

    场景视图

    登录观测云控制台,点击「场景」 -「新建仪表板」,输入 “”, 选择 “阿里云 OceanBase”,点击 “确定” 即可添加视图。

    监控器(告警)

    观测云内置了监控器模板,可以选择从模版创建监控器,并开启适合业务的监控器以及时通知相关成员关注问题,触发条件、频率等信息可以依据实际业务进行调整。

    登录观测云控制台,点击「监控」 -「新建监控器」,输入 “OceanBase”, 选择对应的监控器,点击 “确定” 即可添加。

    总结

    观测云集成阿里云 OceanBase,实时采集性能、租户、资源等指标与慢查询日志,提供统一可视化监控与告警,助力高效运维。

    联系我们

    加入社区

    微信扫码
    加入官方交流群

    立即体验

    在线开通,按量计费,真正的云服务!

    立即开始

    选择观测云版本

    代码托管平台