说起程序员的痛苦时刻,深夜接到告警电话、短信绝对榜上有名,甚至可能留下“铃声 PTSD”。
这也从另一个侧面提醒我们,所有在前台给用户丝滑体验的互联网产品,背后都有庞杂的系统和大量的工程师在支撑。而这其中,监控平台是保证高并发业务稳定运行的关键。
作为全球上百万款应用背后的通信云服务商,融云的高可用架构能保障峰值高达 3572 亿的日消息量 100% 送达。同时,“融云北极星”提供完善的实时数据监控能力和异常指标告警服务,可供业务进行全局监控和问题排查。融云专有云客户可免费使用全部功能,非专有云客户可通过「开发者后台-北极星-概览-立即升级」付费开通服务。
“北极星”的业务数据实时统计、API 监控能力,包含总消息量、消息峰值、消息量变化趋势在内的全局消息数据,用户同时在线数据,接口调用 QPS(每秒查询率) 及报错情况。
在实时监控数据基础上,“融云北极星”还上线了丰富的告警功能,可在业务调用融云 IM、RTC 接口的相关指标发生波动时,通过短信、邮件等方式告知相关人员及时排查和采取应对措施。
一、API告警:API QPS&错误码
QPS:可设置全局或指定某个 API 的 QPS 阈值,当 QPS 大于等于设定频率时触发告警。
错误码:可指定 HTTP 错误码或业务返回错误码,既可以选择全部错误码,也可选择某个指定的错误码;可根据错误码出现的频次设定告警条件,如 1 分钟或 1 小时内出现 404 的次数为 100 次(调整范围 1~ 10000 次)。
二、消息量告警:全部&指定会话类型
可选择全部会话类型或指定的某个会话类型告警,针对上行、分发、下行进行监控;
比较时段支持与昨日同时段、上周同时段、环比上个时段作为对比参照,可选择消息量增长、下降某个单一维度,也可选择异常波动选项(即无论增长还是下降,到达设定幅度后均会触发告警)。
API 和消息量告警均支持设置 1 分钟、5 分钟、30 分钟、1 小时、3 小时的告警间隔。同一规则在设定的告警间隔内不会重复发送告警通知;如规则设置为全局时,不同 API 在告警间隔内会多次触发。全局监控让“融云北极星”得以对 IM 和 RTC 服务进行全局追踪,是保障服务性能的关键手段;实时告警则可以支持开发者掌握业务波动,从而有的放矢地对业务进行管理和优化。