Differences between revisions 1 and 15 (spanning 14 versions)
Revision 1 as of 2018-09-03 10:46:11
Size: 768
Comment:
Revision 15 as of 2018-09-05 13:48:08
Size: 3364
Comment:
Deletions are marked like this. Additions are marked like this.
Line 4: Line 4:
Informationen zu Prometheus befinden sich [[./Prometheus|hier]].  Informationen zu Prometheus befinden sich [[./Prometheus|hier]].
Line 8: Line 9:
Aus 20_base2.cfg
|| Titel || Command || Umsetzung || Infos ||
|| (1) check_crond || /usr/lib64/nagios/plugins/check_procs -v -w 1: -c 1: -C crond || script_exporter.pl/check_systemd_process() || ||
|| (2) check_rsyslogd || /usr/lib64/nagios/plugins/check_procs -v -w 1: -c 1: -C rsyslogd || script_exporter.pl/check_process() || ||
|| (3) check_zombie_procs || /usr/lib64/nagios/plugins/check_procs -w 5 -c 10 -s ZN || script_exporter.pl/check_zombie_process() || [[https://www.unix.com/unix-for-dummies-questions-and-answers/100737-how-do-you-create-zombie-process.html|Script]] zum erzeugen eines Zombieprozesses ||
|| (4) check_swap || /usr/lib64/nagios/plugins/check_swap -w 50% -c 20% || node_vmstat_kswapd_* node_vmstat_pgscan_kswapd_* node_memory_Swap* || ||
|| (5) check_load || /usr/lib64/nagios/plugins/check_load -w 15,10,5 -c 30,25,20 || node_load* || ||
|| (6) check_total_procs || usr/lib64/nagios/plugins/check_procs -k -w 700 -c 800 || script_exporter.pl/check_sum_process() || ||
|| (7) check_disks || /usr/lib/nagios/plugins/check_disks -w 10% -c 5% || || ||
|| (8) check_mem || /usr/lib/nagios/plugins/check_mem -w 80% -c 95% || || ||
|| (9) check_memcache || /usr/lib/nagios/plugins/check_memcache -w 30 -c 25 || || ||
|| (10) check_ramspeed || /usr/nagios/libexec/check_ramspeed -w 5 -c 2 || script_exporter.pl/memory_speed() || ||
|| (11) check_crl || /usr/lib/nagios/plugins/check_crl -w 2 -c 4 || script_exporter.pl/check_crl() || ||
|| (12)check_cvmfs || /usr/lib/nagios/plugins/check_cvmfs || cvmfs_exporter.pl || Achtung check_cvmfs_repo.sh vom CERN muss mit ausgerollt werden ||
|| (13) check_mounts || /usr/lib/nagios/plugins/check_mounts || || ||
|| (14) check_ipmisel || usr/lib/nagios/plugins/check_ipmisel || || ||
|| (15) check_bonding || /usr/lib/nagios/plugins/check_bonding || || ||
Line 9: Line 27:
|| Titel || Command || Umsetzung || Infos ||
|| check_ramspeed || /usr/nagios/libexec/check_ramspeed -w 5 -c 2 || script_exporter.pl || ||
Line 13: Line 29:
zu check_ramspeed zu check_ramspeed (10)
Line 15: Line 31:
   * wie oft wird es aufgerufen
 * warum ist [vulcan01] /etc/prometheus/ssl/client.crl leer
 * wie werden Fehler am besten mit dem Exporter exportiert? Variante 1 wenn nur Positive Zahlen dann mit -1 oder Variante 2 mit Tags.
Line 17: Line 36:
 * Projekt nach GIT umziehen Offen
 * Änderungen für Wünsche am GIT Projekt (inventar als ini und ein Playbook ohne includes) mit Timm besprechen
 * Ein cvmfs auf dem Testrechner installieren

Umgesetzt
 * Projekt nach GIT umziehen https://stash.desy.de/projects/ZNDV/repos/ansible-prometheus/browse
 * Testrechner aufgesetzt der die neuen exportiert (flaco-vm10)

== Probleme ==
 * Auslagern der Konfiguration unter /etc/prometheus/config funktioniert nicht. Finde zu der Option auch nichts in der Doku vom [[https://github.com/QubitProducts/exporter_exporter|exporter_exporter]].

== Weiterführende Links ==
 * [[https://github.com/QubitProducts/exporter_exporter|exporter_exporter]]

Prometheus AlertManager

Ziel

Ablösen von Icinga durch Prometheus. In dem Artikel geht es darum was der Alertmanager an Funktionalitäten benötigt um Icinga abzulösen. Informationen zu Prometheus befinden sich hier.

Alerts

In der Tabelle werden Alerts aus dem Altsystem zusammen gefasst und betrachtet wie diese in den Alertmanager übernommen werden können. Aus 20_base2.cfg

Titel

Command

Umsetzung

Infos

(1) check_crond

/usr/lib64/nagios/plugins/check_procs -v -w 1: -c 1: -C crond

script_exporter.pl/check_systemd_process()

(2) check_rsyslogd

/usr/lib64/nagios/plugins/check_procs -v -w 1: -c 1: -C rsyslogd

script_exporter.pl/check_process()

(3) check_zombie_procs

/usr/lib64/nagios/plugins/check_procs -w 5 -c 10 -s ZN

script_exporter.pl/check_zombie_process()

Script zum erzeugen eines Zombieprozesses

(4) check_swap

/usr/lib64/nagios/plugins/check_swap -w 50% -c 20%

node_vmstat_kswapd_* node_vmstat_pgscan_kswapd_* node_memory_Swap*

(5) check_load

/usr/lib64/nagios/plugins/check_load -w 15,10,5 -c 30,25,20

node_load*

(6) check_total_procs

usr/lib64/nagios/plugins/check_procs -k -w 700 -c 800

script_exporter.pl/check_sum_process()

(7) check_disks

/usr/lib/nagios/plugins/check_disks -w 10% -c 5%

(8) check_mem

/usr/lib/nagios/plugins/check_mem -w 80% -c 95%

(9) check_memcache

/usr/lib/nagios/plugins/check_memcache -w 30 -c 25

(10) check_ramspeed

/usr/nagios/libexec/check_ramspeed -w 5 -c 2

script_exporter.pl/memory_speed()

(11) check_crl

/usr/lib/nagios/plugins/check_crl -w 2 -c 4

script_exporter.pl/check_crl()

(12)check_cvmfs

/usr/lib/nagios/plugins/check_cvmfs

cvmfs_exporter.pl

Achtung check_cvmfs_repo.sh vom CERN muss mit ausgerollt werden

(13) check_mounts

/usr/lib/nagios/plugins/check_mounts

(14) check_ipmisel

usr/lib/nagios/plugins/check_ipmisel

(15) check_bonding

/usr/lib/nagios/plugins/check_bonding

Offene Frage

zu check_ramspeed (10)

  • wo ist im Altsystem definiert welcher Rechner welche Geschwindigkeit bereitstellen muss bevor ein Alert ausgelöst wird
  • wie oft wird es aufgerufen
  • warum ist [vulcan01] /etc/prometheus/ssl/client.crl leer
  • wie werden Fehler am besten mit dem Exporter exportiert? Variante 1 wenn nur Positive Zahlen dann mit -1 oder Variante 2 mit Tags.

Todo Liste

Offen

  • Änderungen für Wünsche am GIT Projekt (inventar als ini und ein Playbook ohne includes) mit Timm besprechen
  • Ein cvmfs auf dem Testrechner installieren

Umgesetzt

Probleme

  • Auslagern der Konfiguration unter /etc/prometheus/config funktioniert nicht. Finde zu der Option auch nichts in der Doku vom exporter_exporter.

Alertmanager (last edited 2018-09-27 12:42:05 by JanPhilippBolle)