前言
知名游戏公司云资源使用了腾讯云、AWS 和自研 IDC,业务覆盖了国内和海外。云上资源包括了计算资源服务器、存储类的包括 MySQL、Redis、S3 等、大数据处理(EMR)以及网络资源等。业务服务主要通过 Golang与 PHP 语言开发,服务使用微服务框架,由多个游戏工作室共同开发完成。如此大的业务,如何实现高可用的一体化监控并降低云原生 Prometheus 的监控成本呢?
客户现状和痛点
经内部规划后,该游戏公司决定基于自建的 Prometheus 构建一体化监控系统。但是随着业务量的不断增长,自建的 Prometheus 遇到了越来越多的问题和挑战,包括:
1. 服务保障挑战大。Prometheus 集群使用过程中出现数据不准、误告警、数据丢失、数据展示卡慢。
2. 大量数据下资源成本高。起初自建 Prometheus 所需资源的成本与腾讯云 Prometheus 监控服务的实例成本接近,但随着监控数据量的增长,自建 Prometheus 所需要的资源成本比腾讯云 Prometheus 监控服务更得多。
3. 监控配置复杂。对于不同云资源,需部署不同 exporter ,并进行繁琐的后台配置。新增云服务器监控实例,需重复进行配置。
解决方案
经与云监控团队交流后,云监控 Prometheus 监控服务团队提供了解决方案:
1. 优化运维成本,提升高可用。提供原生的 Prometheus 的一站式服务,免去用户搭建运维及开发成本,并提供7*24小时 SLA 服务保障。
2. 优化资源使用。云监控对 Prometheus 底层占用资源的服务进行了优化,并经过大量海量业务验证,托管 Prometheus 能够平稳运行。还根据不同上报量和存储量的需求,提供不同规格的 Prometheus 实例,并支持配置升级,节省了大量成本。
3. 优化监控配置集成复杂度。腾讯云 Prometheus 监控服务与腾讯云容器服务 联合实现服务自动发现。支持按标签,动态抓取对应云服务器实例的监控数据。页面上分钟级完成 MySQL、Redis 等云资源监控集成,并提供开箱即用的监控大屏及报警模板。
根据上述解决方案和云监控架构师团队的专业协助下,某游戏公司基于 腾讯云 Prometheus 监控服务完成一体化监控系统的构建。
落地场景
通过腾讯云 Prometheus 监控服务实现将多云环境的资源与业务的监控做整合,利用开源 Grafana 插件补充腾讯云产品监控数据。集全了资源与业务监控数据后引入托 Grafana 做展示与监控告警,并基于 Grafana 的组织特性实现监控使用隔离。
1. 多云监控:腾讯云 Prometheus 监控服务提供“集成中心”与多个腾讯云产品直接打通,可快速便捷的完成腾讯云产品资源监控覆盖。AWS 的资源监控由 Cloud Watch 提供的 API 可供客户消费,该游戏公司创建一个相应的监控数据同步服务实时消费数据,将服务部署于腾讯云容器服务环境。同步服务同时将消费的数据基于 Prometheus 协议进行暴露,然后在腾讯云容器服务上安装 Prometheus 监控服务提供的 exporter ,便可实现数据的集成。自研 IDC 上主要有 Redis 和 Pika 等第三方组件以及一些业务服务,保障自研 IDC 与腾讯云网络连通,便可实现对自研 IDC 的监控覆盖。
2. 业务监控:为实现更好的业务监控,将资源监控与业务监控整合集成效果更优。该游戏公司通过腾讯云 Prometheus 监控服务多云覆盖和腾讯云 Grafana可视化服务实现资源与业务服务监控覆盖。腾讯云 Grafana 可视化服务支持多种异构数据源(甚至是自定义数据源插件)可覆盖业务运营类数据。当业务活动大促或上架新游戏发版时,可通过运营或服务性能汇总数据观测是否异常故障,当出现异常时可分析资源使用或服务性能质量详情分析原因。
3. 租户隔离使用:该游戏公司拥有不同的游戏工作室,需监控隔离。腾讯云 Grafana 可视化服务保留了 Grafana 的组织能力,创建组织后将组织授权给相应的工作室自行维护,实现对监控使用的隔离。
总结
通过接入腾讯云 Prometheus 监控服务,该游戏公司既有效降低运维成本,也保障了业务的平稳运行。
1. 使用腾讯云 Prometheus 监控服务,大幅度节约了运维 Prometheus 的运维人力,平均每月可节约 1-2 人天,综合运维成本降低 66.5%,计算方式如下表:
2. Prometheus 的平稳运行,让该游戏公司的业务运行更平稳。
3. 目前的监控系统支撑了数十款游戏产品线,上报峰值数万条/秒。
联系我们
若有任何问题可扫码联系云监控小助手,我们将竭诚为您服务!
腾讯云 Prometheus 监控服务(Managed Service for Prometheus TMP)在继承开源 Prometheus 监控能力的同时 ,还提供高可用的 Prometheus 服务、开源可视化的 Grafana 和云监控告警,可以减少用户的开发及运维成本。
|