集群角色 | ip | 主机名 |
---|---|---|
控制节点 | 192.168.64.101 | bigdata01 |
工作节点 | 192.168.64.102 | bigdata02 |
工作节点 | 192.168.64.103 | bigdata03 |
软件版本:Cent OS 7.6
# 解压 tar -zxvf prometheus-2.13.1.linux-amd64.tar.gz -C /usr/local/ # 创建软连接 mv /usr/local/prometheus-2.13.1.linux-amd64/ /usr/local/prometheus-2.13.1 ln -s /usr/local/prometheus-2.13.1/ /usr/local/prometheus # 配置data文件夹 mkdir /usr/local/prometheus/data
vi /usr/lib/systemd/system/prometheus.service [Unit] Description=https://prometheus.io [Service] Restart=on-failure ExecStart=/usr/local/prometheus/prometheus --storage.tsdb.path=/usr/local/prometheus/data --config.file=/usr/local/prometheus/prometheus.yml [Install] WantedBy=multi-user.target
# 启动 systemctl start prometheus # 查看状态 systemctl status prometheus
http://ip:9000
global
:此片段指定的是prometheus的全局配置,比如采集间隔、抓取超时时间。
rule_files
:此判断指定报警规则文件,prometheus根据这些规则文件,会推送报警信息到alert Manager中。
scrape_configs
:此片段指定抓取配置,prometheus的数据采集通过此片段配置。
alerting
:此片段指定报警配置,这里主要是指定prometheus将报警规则推送到指定的alertManager实例地址。
remote_writer
:指定后端的存储的写入地址
remote_reader
:指定后端的存储的读取api地址。
Global配置参数
# How frequently to scrape targets by default. 抓取间隔 [ scrape_interval: <duration> | default = 1m ] # How long until a scrape request times out.抓取超时时间 [ scrape_timeout: <duration> | default = 10s ] # How frequently to evaluate rules.评估规则间隔 [ evaluation_interval: <duration> | default = 1m ]
scrapy_config片段的主要参数
一个scrape_config片段指定一组目标和参数,目标就是实例,指定采集的端点,参数描述如何采集这些实例,主要参数如下
scrape_interval: 抓取间隔,默认继承 global 值。 scrape_timeout: 抓取超时时间,默认继承 global 值。 metric_path: 抓取路径, 默认是/metrics *_sd_configs: 指定服务发现配置 static_configs: 静态指定服务 job。 relabel_config: relabel 设置。
Node-exporter 可以采集机器(物理机、虚拟机、云主机)的监控指标数据,能够采集到的指标包括cpu、内存、磁盘、网络、文件数等信息。
# 解压 tar -zxvf node_exporter-0.18.1.linux-amd64.tar.gz -C /usr/local/ mv /usr/local/node_exporter-0.18.1.linux-amd64/ /usr/local/node_exporter-0.18.1 # 创建软连接 ln -s /usr/local/node_exporter-0.18.1/ /usr/local/node_exporter
vi /usr/lib/systemd/system/node_exporter.service [Unit] Description=Prometheus node_exporter [Service] User=nobody ExecStart=/usr/local/node_exporter/node_exporter --log.level=error ExecStop=/usr/bin/killall node_exporter [Install] WantedBy=default.target
# 启动 systemctl start node_exporter # 查看服务状态 systemctl status node_exporter
访问地址: http://ip:9100/metrics,可以看到监控的指标信息
在prometheus.yml中配置node_exporter的metrics
端点,配置如下
global: scrape_interval: 5s evaluation_interval: 5s scrape_timeout: 5s scrape_configs: - job_name: 'prometheus' static_configs: - targets: ['localhost:9090'] - job_name: 'linux-exporter' metrics_path: /metrics static_configs: - targets: ['localhost:9100']
重启prometheus服务
systemctl restart prometheus
访问Prometheus Web UI地址 http://ip:9090/targets,可以看到新增了target为host_monitor
的监测点。
Grafana是一款用Go语言开发的开源数据可视化工具,可以做数据监控和数据统计,带有告警功能。目前使用grafana的公司有很多,如paypal、ebay、intel等。
# 下载 wget https://dl.grafana.com/oss/release/grafana-8.3.2-1.x86_64.rpm # 安装 yum install -y grafana-8.3.2-1.x86_64.rpm
systemctl start grafana-server
访问 http://ip:3000。默认用户名 密码 admin/admin,设置初始密码。
选择添加Prometheus 数据源。
添加配置prometheus,然后HTTP URL : http://ip:9090。下拉到最下面的,点击Save& Test
。
Grafana 官方和社区对已经做好了常用的 DashBoard,可以访问 https://grafana.com/grafana/dashboards 进行查询,选择DashBoard
通过Grafana + 图标导入(import)。输入Grafana id 为 8919
,
注意选中prometheus数据源。