阿里云 RocketMQ 4.0 可观测最佳实践

    阿里云 RocketMQ 4.0 介绍

    阿里云 RocketMQ 4.0 产品是阿里云早期基于 Apache RocketMQ 构建的分布式消息中间件,主要面向企业级消息传递和异步解耦场景。RocketMQ 4.0 在发布时已具备高吞吐、低延迟、可扩展的核心特性,支持顺序消息、事务消息、定时/延时消息等多种能力,帮助开发者快速实现系统间的可靠通信。相比更高版本,RocketMQ 4.0 在弹性伸缩、可观测性和集成易用性方面能力有限,更多依赖人工运维和监控工具。但通过合理部署与监控,仍能够满足大多数分布式系统的消息传递需求,为业务提供基础的高可用性和可靠性保障。

    观测云

    观测云是一款专为 IT 工程师打造的全链路可观测产品,它集成了基础设施监控、应用程序性能监控和日志管理,为整个技术栈提供实时可观察性。这款产品能够帮助工程师全面了解端到端的用户体验追踪,了解应用内函数的每一次调用,以及全面监控云时代的基础设施。此外,观测云还具备快速发现系统安全风险的能力,为数字化时代提供安全保障。

    采集方法

    1. 登录观测云控制台
    2. 点击【集成】菜单,选择【云账号管理】
    3. 点击【添加云账号】,选择【阿里云】,填写界面所需的信息,如之前已配置过云账号信息,则忽略此步骤
    4. 点击【测试】,测试成功后点击【保存】,如果测试失败,请检查相关配置信息是否正确,并重新测试
    5. 点击【云账号管理】列表上可以看到已添加的云账号,点击相应的云账号,进入详情页
    6. 点击云账号详情页的【集成】按钮,在未安装列表下,找到阿里云 RocketMQ 4.0,点击【安装】按钮,弹出安装界面安装即可。

    关键指标

    Metric Id Metric Name Dimensions Statistics Uni
    ReadyMessages 已就绪消息量(Group) account_name,InstanceName Average,Maximum count
    ReadyMessagesPerGidTopic 已就绪消息量(Group&Topic) account_name,InstanceName Average,Maximum count
    ReceiveMessageCountPerGid 消费者每分钟接收消息数量(Group) account_name,InstanceName Average,Maximum count/min
    ReceiveMessageCountPerGidTopic 消费者每分钟接收消息数量(Group&Topic) account_name,InstanceName Average,Maximum count/min
    ReceiveMessageCountPerInstance 消费者每分钟接收消息数的数量(Instance) account_name,InstanceName Average,Maximum count/min
    ReceiveMessageCountPerTopic 消费者每分钟接收消息的数量(Topic) account_name,InstanceName Average,Maximum count/min
    SendDLQMessageCountPerGid 每分钟产生死信消息的数量(Group) account_name,InstanceName Average,Maximum count/min
    SendDLQMessageCountPerGidTopic 每分钟产生死信消息的数量(Group&Topic) account_name,InstanceName Average,Maximum count/min
    SendMessageCountPerInstance 生产者每分钟发送消息数量(Instance) account_name,InstanceName Average,Maximum count/min
    SendMessageCountPerTopic 生产者每分钟发送消息数量(Topic) account_name,InstanceName Average,Maximum count/min
    ThrottledReceiveRequestsPerGid 每分钟(GroupId)消费被限流次数 account_name,InstanceName Average,Maximum counts/min
    ThrottledReceiveRequestsPerGidTopic 每分钟(GroupId&Topic)消费被限流次数 account_name,InstanceName Average,Maximum counts/min
    ThrottledReceiveRequestsPerInstance 每分钟(Instance)消费被限流次数 account_name,InstanceName Average,Maximum counts/min
    ThrottledSendRequestsPerInstance 每分钟(Instance)发送被限流次数 account_name,InstanceName Average,Maximum counts/min
    ThrottledSendRequestsPerTopic 每分钟(Topic)发送被限流次数 account_name,InstanceName Average,Maximum counts/min

    场景视图

    登录观测云控制台,点击「场景」 -「新建仪表板」,输入 “阿里云 RocketMQ”, 选择 “阿里云 RocketMQ4监控视图”,点击 “确定” 即可添加视图。

    监控器(告警)

    ReadyMessagesPerGidTopic 消息堆积量异常

    简要描述:消息堆积量异常通常表示某个 Group 或 Group&Topic 维度下的待消费消息数持续增加,说明消费者处理速度低于生产速度。这可能会导致消息延迟变大,甚至出现业务处理超时或丢弃风险。及时监控和处理堆积量异常,有助于发现消费性能瓶颈或消费者实例异常,保障消息系统的稳定性与业务的连续性。

    ReceiveMessageCountPerGid / PerTopic

    简要描述:消费者接收消息速率异常通常表示某个 Group、Topic 或整个实例的消费吞吐量低于预期。这可能源于消费者宕机、线程不足、消费逻辑耗时过长或网络瓶颈。持续的消费速率下降会导致消息堆积增加,从而影响业务的实时性。监控该指标可帮助及时发现和定位消费环节的问题,确保生产与消费之间的速率平衡。

    总结

    通过将阿里云 RocketMQ 4.0 的监控数据接入观测云,用户可实现更直观的运行监控与异常告警。观测云能够采集并展示消息堆积量、消费速率等关键指标,及时发现消费者性能瓶颈或消息延迟问题。借助智能告警与可视化视图,用户可快速定位异常、优化消费逻辑,从而提升系统稳定性与运维效率。整体而言,该方案帮助企业在传统 RocketMQ 4.0 环境下实现现代化可观测运维。

    联系我们

    加入社区

    微信扫码
    加入官方交流群

    立即体验

    在线开通,按量计费,真正的云服务!

    立即开始

    选择观测云版本

    代码托管平台