跳到主要内容

监控

本文介绍如何查看服务相关的监控数据。

操作步骤

  1. 进入云托管后,通过服务列表,选择需要查询的服务。
  2. 在服务页面可以查询到基础监控概览。可以通过更多详情,进入运维管理的监控页面。通过直接选择环境的运维管理,也可以切换到监控界面查询云托管监控信息。
  3. 在运维管理的运维仪表盘中,监控项目选择云托管,展开选择具体需要查询的服务。
  4. 可以在下拉选择列表中,选择具体服务维度的监控,也可以进一步选择具体服务的版本,查询到版本监控。

监控字段说明

  • 在服务/版本维度监控选项卡中,顶部时间筛选器对页面内所有监控数据生效。例如:在顶部选择时间"7 天",则统计卡片、统计曲线,均展示过去 7 天的数据。
  • 监控曲线图中的“粒度”指每个监控数据对应的单位时间,会随着所选时间区间变化,时间跨度长则粒度粗。曲线图上所有数值需配合粒度解读

服务监控

  • 调用次数:单位时间内服务收到的请求次数总和(包括通过服务域名、HTTP 访问服务产生的请求)。
  • 响应时间(毫秒):单位时间内服务收到的所有请求的响应时间取平均值。
  • QPS:单位时间内服务平均每秒处理的请求数。
  • 错误响应:单位时间内请求服务失败,返回 404、500 的 HTTP 错误的次数。
  • CPU 用量:单位时间内服务所有版本 CPU 资源消耗之和,单位为(核 x 小时)。
  • 内存用量:单位时间内服务所有版本内存资源消耗之和,单位为(GiB x 小时)。
  • 实例个数:服务所有版本的实时实例个数之和,在单位时间内取平均值。
  • 异常实例个数:服务所有版本的实时实例状态不正常个数之和,在单位时间内取平均值。非正常运行的实例均会标记为异常实例,其中也会包括启动中的实例。

版本监控

  • 调用次数:单位时间内版本收到的请求次数总和(包括通过服务域名、HTTP 访问服务产生的请求)。
  • 响应时间(毫秒):单位时间内版本收到的所有请求的响应时间取平均值。
  • QPS:单位时间内版本平均每秒处理的请求数。
  • HTTP 错误:单位时间内请求版本失败返回 HTTP 错误的次数。
  • CPU 用量:单位时间内版本 CPU 资源消耗,单位为(核 x 小时)。
  • 内存用量:单位时间内版本内存资源消耗之和,单位为(GiB x 小时)。
  • CPU 使用率:版本所有实例 CPU 使用率平均值,在单位之间内再取平均值。可作为设置扩缩容条件的参考值。
  • 内存使用率:版本所有实例内存使用率平均值,在单位之间内再取平均值。
  • 实例个数:版本的实时实例个数,在单位时间内取平均值。
  • 异常实例个数:版本的实时实例状态不正常个数,在单位时间内取平均值。非正常运行的实例均会标记为异常实例,其中也会包括启动中的实例。