监控
本文介绍如何查看服务相关的监控数据。
操作步骤
- 进入云托管后,通过服务列表,选择需要查询的服务。
- 在服务页面可以查询到基础监控概览。可以通过
更多详情
,进入运维管理的监控页面。通过直接选择环境的运维管理,也可以切换到监控界面查询云托管监控信息。 - 在运维管理的运维仪表盘中,监控项目选择云托管,展开选择具体需要查询的服务。
- 可以在下拉选择列表中,选择具体服务维度的监控,也可以进一步选择具体服务的版本,查询到版本监控。
监控字段说明
- 在服务/版本维度监控选项卡中,顶部时间筛选器对页面内所有监控数据生效。例如:在顶部选择时间"7 天",则统计卡片、统计曲线,均展示过去 7 天的数据。
- 监控曲线图中的“粒度”指每个监控数据对应的单位时间,会随着所选时间区间变化,时间跨度长则粒度粗。曲线图上所有数值需配合粒度解读。
服务监控
- 调用次数:单位时间内服务收到的请求次数总和(包括通过服务域名、HTTP 访问服务产生的请求)。
- 响应时间(毫秒):单位时间内服务收到的所有请求的响应时间取平均值。
- QPS:单位时间内服务平均每秒处理的请求数。
- 错误响应:单位时间内请求服务失败,返回 404、500 的 HTTP 错误的次数。
- CPU 用量:单位时间内服务所有版本 CPU 资源消耗之和,单位为(核 x 小时)。
- 内存用量:单位时间内服务所有版本内存资源消耗之和,单位为(GiB x 小时)。
- 实例个数:服务所有版本的实时实例个数之和,在单位时间内取平均值。
- 异常实例个数:服务所有版本的实时实例状态不正常个数之和,在单位时间内取平均值。非正常运行的实例均会标记为异常实例,其中也会包括启动中的实例。
版本监控
- 调用次数:单位时间内版本收到的请求次数总和(包括通过服务域名、HTTP 访问服务产生的请求)。
- 响应时间(毫秒):单位时间内版本收到的所有请求的响应时间取平均值。
- QPS:单位时间内版本平均每秒处理的请求数。
- HTTP 错误:单位时间内请求版本失败返回 HTTP 错误的次数。
- CPU 用量:单位时间内版本 CPU 资源消耗,单位为(核 x 小时)。
- 内存用量:单位时间内版本内存资源消耗之和,单位为(GiB x 小时)。
- CPU 使用率:版本所有实例 CPU 使用率平均值,在单位之间内再取平均值。可作为设置扩缩容条件的参考值。
- 内存使用率:版本所有实例内存使用率平均值,在单位之间内再取平均值。
- 实例个数:版本的实时实例个数,在单位时间内取平均值。
- 异常实例个数:版本的实时实例状态不正常个数,在单位时间内取平均值。非正常运行的实例均会标记为异常实例,其中也会包括启动中的实例。