monitor

{D4} - Prometheus的Relabeling机制

六二三
写这篇文章的目的是解释Prometheus relabeling的价值,以及它在整个prometheus数据流不同阶段的重要性。 在面向大型互联网公司、金融行业等大规模业务监控的场景,原生的 Prometheus 单实例模式无法直接满足需求,需要一种面向生产环境的集群化高可用方案来进行支撑。 Prometheus 常见的集群化高可用思路包括两种: Prometheus 联邦集群方案,是基于Prometheus单体模式的一种补充。可以让一系列Prometheus的单体分别采集不同的目标,然后将数据统一汇总到中央的Pr

{D3} - Prometheus数据格式及指标类型

六二三
Prometheus metrics 概念已被广泛采用,不仅被Prometheus用户采用,还被包括InfluxDB、OpenTSDB、Graphite 和Sysdig Monitor在内的其他监控系统广泛采用。如今,许多CNCF项目使用Prometheus指标格式公开了开箱即用的指标。您还可以在API服务器、etcd、CoreDNS 等核心Kubernetes组件中找到它们。您可以在使用Prometheus的Kubernetes监控指南中了解更多信息。 Prometheus 指标格式被广泛采用,以至于它成

{D2} - Prometheus配置详解之global,alerting,rule_files,scrape_configs,remote_read,remote_write

六二三
今天这里就不做过多解释了,直接上配置,可以先对prometheus的配置参数有个了解。 global: # 抓取指标的间隔,默认1m scrape_interval: 10s # 抓取指标的超时时间,默认10s scrape_timeout: 15s # 指定Prometheus评估规则的频率[记录规则(record)和告警规则(alert)],默认1m. # 可以理解为执行规则的时间间隔 evaluation_interval: 15s # PromQL查询日志的相关记录文件,有点类似mysql slowlog query_log_file: prometheus_query_log # 用于区分不同的prometheus external_labels: datacenter: 'hangzhou-1' region: 'huadong' # Alertmanager configuration alerting: alertmanagers: - static_configs: - targets: - 192.168.56.11:9093 alert_relabel_configs: - source_labels: [dc] regex: (.+)\d+ target_label: dc - source_labels: "host" target_label: "instance" regex:

{D1} - Prometheus初识和服务部署

六二三
+++ 第一部分:Prometheus简介及一些必要的名词解释 +++ From metrics to insight Power your metrics and alerting with the leading open-source monitoring solution. 从指标到洞察力,使用领先的开源监控解决方案为您的数据指标和警报提供助力。 什么是Prometheus? Prometheus是一个开源系统监控和警报工具包,最初在 SoundCloud构建。自 2012 年成立以来,许多公司和组织都采用了 Prometheus,该项目拥有非常活跃的开发者和用户社区。它现在是一个独立的开源项目,独立于任何公司维护。为了强调这一点,并明确项目的治理