1.自己写metrice接口,要遵循数据模型 1) 先知道怎么收集你要的监控指标 2) 集成官方的客户端或者自己写的数据格式,暴露出来 2.使用社区维护的exporter(采集器,以数据模型暴露metrice接口)
如何自动化监控100台服务器? 传统的方式: 1.要在这100台机器上安装node_exporter(采集器) 2.在prometheus配置文件里面增加这100台机器的配置
自动化部署: 1.使用ansible批量部署安装node_exporter 2.基于consul服务发现机制 3.将node_exporter所在机器的IP和端口注册到consul服务发现里面 4.prometheus从consul里面获取所有的IP和端口自动的加入监控
100台: web服务器 db服务器 负载均衡服务器 消息队列服务器 实际运维中会把他们进行分组管理
"id": "web1","name": "webservers" "id": "web2","name": "webservers"
"id": "db1","name": "dbservers" "id": "db2","name": "dbservers"
|