监控

对云平台和运行在上面的应用进行监控,能随时系统地了解资源使用情况和性能变化,在出现性能瓶颈的时候可以及时合理地调整资源,在故障发生时可以追溯原因等。如果没有进行监控,就可能在业务高峰期时,由于性能不足导致宕机而却无人知晓;在出现异常故障时,因为没有历史性能数据而无法追查故障原因。

监控实践建议:

  • 定期查看云平台性能监控数据,根据业务需求提前弹性调整所需资源
  • 制定合理的监控报警策略,设置好报警信息自动通知的人员,及时处理异常故障
  • 使用「应用监控」对应用运行状态进行监控,快速发现并定位应用问题,及时排除故障 网易云为每个产品提供了「性能监控」看板、「报警管理」、「应用监控」三种服务对云平台进行全面监控。

用户通过「云服务器详情页」中的「性能监控」可以灵活查看不同时间段内CPU利用率、内存利用率、网络流入流出量、磁盘读写操作延迟、磁盘吞吐量、磁盘IOPS等监控项的不同统计指标,帮助用户掌握云服务器运行状态。

通过「报警管理」,用户可以及时了解到正在使用的云服务器各监控指标和特定事件的发生情况,如云服务器停机、重启、变配等,或云服务器CPU利用率、内存使用率是否超出正常范围等,可以让用户方便了解当出现业务峰值时资源的运行情况,及时进行服务扩容。

除了监控云平台运行情况,有时还需同时监控应用运行状态,以便用户及时发现异常情况并做相应处理。通过「应用监控」可以对应用健康状态、请求异常、慢响应等指标及时掌握,方便用户更快定位应用异常原因,采取调整应用等级,限制应用流量等措施。

资源管理

  • 如果拥有多台云服务器,请用规范的服务命名为每台云服务器命名并打上标签,方便时刻对每台云服务器进行跟踪和鉴别。
  • 通过监控信息了解云服务器资源使用情况,在业务高峰期到来时,提前合理按需规划资源配置,保证业务当天资源足够使用。