prometheus是一款面向云原生应用程序的开源监控工具,作为第一个从CNCF毕业的监控工具而言,开发者对于Prometheus寄予了巨大的希望。 在Kubernetes社区中,很多人认为Prometheus是容器场景中监控的第一方案,成为容器监控标准的制定者。
cAdvisor (Container Advisor) 是 Google 开源的一个容器监控工具,可用于对容器资源的使用情况和性能进行监控。它以守护进程方式运行,用于收集、聚合、处理和导出正在运行容器的有关信息。具体来说,该组件对每个容器都会记录其资源隔离参数、历史资源使用情况、完整历史资源使用情况的直方图和网络统计信息。
cAdvisor 本身就对 Docker 容器支持,并且还对其它类型的容器尽可能的提供支持,力求兼容与适配所有类型的容器。
由以上介绍我们可以知道,cAdvisor 是用于监控容器引擎的。由于其监控的实用性,Kubernetes 已经默认将其与 Kubelet 融合,所以我们无需再单独部署 cAdvisor 组件来暴露节点中容器运行的信息,直接使用 Kubelet 组件提供的指标采集地址即可。
Cadvisor 进行收集,通过 Prometheus 作为数据源,利用 Grafana 进行展示。
环境准备:
主机名 | IP | 所需软件 |
---|---|---|
master | 192.168.91.138 | docker-ce、prometheus、grafan |
node1 | 192.168.91.137 | docker-ce、node_exporter |
在client主机上拉取google/cadvisor官方镜像
[root@node1 ~]# docker pull google/cadvisor
运行cadvisor容器
[root@node1 ~]# docker run \ --volume=/:/rootfs:ro \ --volume=/var/run:/var/run:ro \ --volume=/sys:/sys:ro \ --volume=/var/lib/docker/:/var/lib/docker:ro \ --volume=/dev/disk/:/dev/disk:ro \ --publish=8080:8080 \ --detach=true \ --name=cadvisor \ --privileged \ --device=/dev/kmsg \ google/cadvisor aaaadb87f18c11448e7be4a77b329372d5b90e300687f21709badacb384bfdb7 [root@node1 ~]# docker images | grep cadvisor google/cadvisor latest eb1210707573 3 years ago 69.6MB
页面访问
像下翻看
查看所在节点的容器详细信息
可以看见容器名、docker版本、使用系统、节点主机名、容器根目录等信息
在 master 主机上配置prometheus.yml文件
使prometheus能够接受到cadvisor采集的信息从而实现对cadvisor所处主机的监控
[root@master ~]# vim /opt/prometheus.yml - job_name: "prometheus" # metrics_path defaults to '/metrics' # scheme defaults to 'http'. static_configs: - targets: ["localhost:9090"] - job_name: amu_node1 static_configs: - targets: ["192.168.91.137:9100"] - job_name: "cadvisor" // 添加任务名字 static_configs: - targets: ["192.168.91.137:8080"] // 添加访问IP // 重启prometheus容器 [root@master ~]# docker restart prometheus prometheus [root@master ~]# docker ps | grep prometheus d8b1bac0d5ff prom/prometheus "/bin/prometheus --c…" 29 hours ago Up 9 seconds 0.0.0.0:9090->9090/tcp, :::9090->9090/tcp prometheus
网页访问
查看监控情况
启动grafana容器
[root@master ~]# docker images | grep gra grafana/grafana latest 9b957e098315 2 weeks ago 275MB [root@master ~]# docker run -dit --name grafan -p 3000:3000 grafana/grafana af898dfa5134c1a27784e19d8813a1293719193ecded58f7af0fef64be94a412 [root@master ~]# docker ps | grep grafan af898dfa5134 grafana/grafana "/run.sh" 13 seconds ago Up 12 seconds 0.0.0.0:3000->3000/tcp, :::3000->3000/tcp grafan
添加访问地址
添加 IP 然后保存
导入模板
选择数据源
在 node1 主机上拉取 prom/node-exporter镜像
[root@node1 ~]# docker pull prom/node-exporter [root@node1 ~]# docker images | grep prom/node-exporter prom/node-exporter latest 1dbe0e931976 3 weeks ago 20.9MB
运行 node-exporter容器
[root@node1 ~]# docker run --name node-exporter -d -p 9100:9100 prom/node-exporter
页面访问
接下来,我们需要将 node-exporter 信息配置到 Prometheus 中,来让 Prometheus 定期获取 exporter 采集的信息,那么就需要在 master 修改 prometheus.yml 配置文件,在 scrape_configs 下新增一个 job,配置如下:
[root@master ~]# vim /opt/prometheus.yml - job_name: "prometheus" # metrics_path defaults to '/metrics' # scheme defaults to 'http'. static_configs: - targets: ["localhost:9090"] - job_name: amu_node1 // 添加此处 static_configs: - targets: ["192.168.91.137:9100"] // 添加访问 IP - job_name: "cadvisor" static_configs: - targets: ["192.168.91.137:8080"] // 重启prometheus容器 [root@master ~]# docker restart prometheus prometheus // 查看prometheus容器状态 [root@master ~]# docker ps | grep prometheus d8b1bac0d5ff prom/prometheus "/bin/prometheus --c…" 30 hours ago Up 24 minutes 0.0.0.0:9090->9090/tcp, :::9090->9090/tcp prometheus
页面访问
.查看监控节点情况
在 node1主机上部署AlertManager
拉取 prom/alertmanager官方镜像
[root@node1 ~]# docker pull prom/alertmanager [root@node1 ~]# docker images | grep alertmanager prom/alertmanager latest ba2b418f427c 4 months ago 57.5MB
在 node1节点主机上运行 alertmanager 容器并进行端口映射
// 运行容器 [root@node1 ~]# docker run --name alertmanager -d -p 9093:9093 prom/alertmanager 5e1e3d285084f64d44284497e2aeca1789d81b2b9b88b4cae8962f3d8266897e [root@node1 ~]# docker ps | grep alertmanager 5e1e3d285084 prom/alertmanager "/bin/alertmanager -…" 19 seconds ago Up 17 seconds 0.0.0.0:9093->9093/tcp, :::9093->9093/tcp alertmanager
页面访问
AlertManager 默认启动的端口为 9093,启动完成后,浏览器访问 http://:9093 可以看到默认提供的 UI 页面,不过现在是没有任何告警信息的,因为我们还没有配置报警规则来触发报警。
AlertManager 默认配置文件为 alertmanager.yml,在容器内路径为 /etc/alertmanager/alertmanager.yml,默认配置如下:
global: resolve_timeout: 5m route: group_by: ['alertname'] group_wait: 10s group_interval: 10s repeat_interval: 1h receiver: 'web.hook' receivers: - name: 'web.hook' webhook_configs: - url: 'http://127.0.0.1:5001/' inhibit_rules: - source_match: severity: 'critical' target_match: severity: 'warning' equal: ['alertname', 'dev', 'instance']
简单介绍一下主要配置的作用:
那么,我们就来配置一下使用 Email 方式通知报警信息,这里以 网易 邮箱为例,配置如下:
[root@node1 ~]# vi alertmanager.yml global: resolve_timeout: 6m smtp_from: 'amuxc159@163.com' smtp_smarthost: 'smtp.163.com:465' smtp_auth_username: 'amuxc159@163.com' smtp_auth_password: 'AMUXINGCHEN' smtp_require_tls: false smtp_hello: 'qq.com' route: group_by: ['alertname'] group_wait: 6s group_interval: 6s repeat_interval: 6m receiver: 'email' receivers: - name: 'email' email_configs: - to: '2781551316@qq.com' send_resolved: true inhibit_rules: - source_match: severity: 'critical' target_match: severity: 'warning' equal: ['alertname', 'dev', 'instance']
创建alertmanager容器,将配置文件 copy 到 node1 主机上
[root@node1 ~]# docker cp alertmanager:/etc/alertmanager/alertmanager.yml /root/alertmanager.yml [root@node1 ~]# mkdir prometheus [root@node1 ~]# mv alertmanager.yml prometheus [root@node1 ~]# cd prometheus [root@node1 prometheus]# ls alertmanager.yml
修改 AlertManager 启动命令,将本地 alertmanager.yml 文件挂载到容器内指定位置。
[root@node1 ~]# docker run -d --name alertmanager -p 9093:9093 -v /root/prometheus/alertmanager.yml:/etc/alertmanager/alertmanager.yml prom/alertmanager 3b32978a4d39bae1a2a946802551b70b8e05b04ae2ed01d5f55795170f980b9a [root@node1 ~]# docker ps | grep alertmanager 3b32978a4d39 prom/alertmanager "/bin/alertmanager -…" 26 seconds ago Up 24 seconds 0.0.0.0:9093->9093/tcp, :::9093->9093/tcp alertmanager
Prometheus 配置 AlertManager 告警规则(master端)
接下来,我们需要在 Prometheus 配置 AlertManager 服务地址以及告警规则,新建报警规则文件 node-up.rules 如下:
$ mkdir -p /opt/prometheus/rules && cd /opt/prometheus/rules/ $ vim node-up.rules groups: - name: node-up rules: - alert: node-up expr: up{job="node-exporter"} == 0 for: 15s labels: severity: 1 team: node annotations: summary: "192.168.91.137 已停止运行超过 15s!"
说明一下:该 rules 目的是监测 node 是否存活,expr 为 PromQL 表达式验证特定节点 job=“node-exporter” 是否活着,for 表示报警状态为 Pending 后等待 15s 变成 Firing 状态,一旦变成 Firing 状态则将报警发送到 AlertManager。
然后,修改 prometheus.yml 配置文件,添加 rules 规则文件。
[root@master ~]# vim /opt/prometheus.yml # my global config global: scrape_interval: 15s # Set the scrape interval to every 15 seconds. Default is every 1 minute. evaluation_interval: 15s # Evaluate rules every 15 seconds. The default is every 1 minute. # scrape_timeout is set to the global default (10s). # Alertmanager configuration alerting: alertmanagers: - static_configs: - targets: - 192.168.91.137:9093 // 修改此行 rule_files: // 添加两行 - "/usr/local/prometheus/rules/*.rules"
注意: 这里 rule_files 为容器内路径,需要将本地 node-up.rules 文件挂载到容器内指定路径,修改 Prometheus 启动命令如下,并重启服务。
[root@master rules]# docker run --name prometheus -d -p 9090:9090 \ > -v /opt/prometheus.yml:/etc/prometheus/prometheus.yml:ro \ > -v /root/prometheus/rules/:/usr/local/prometheus/rules/ \ > prom/prometheus f776b1859f86f1991c314333a6256c8a8e0da426511285e9b3a41ebe1207b48c // 服务异常无法启动 [root@master rules]# docker ps -a| grep prometheus f776b1859f86 prom/prometheus "/bin/prometheus --c…" 45 seconds ago Exited (2) 44 seconds ago prometheus
Prometheus容器化详细部署请点击这里:Prometheus容器化部署