Un plugin Helm qui permet de déclencher un rollback automatique suite à l'upgrade d'une release Helm en fonction d'une query Elasticsearch ou Prometheus
Thanos permit de requeter plusieurs serveurs Prometheus et d'agréger leurs données au sein d'une vue commune
Méthode de monitoring particulièrement adaptée pour les architectures cloud qui définit 3 métriques clés à superviser pour chaque microservice:
- (Request) Rate - the number of requests, per second, you services are serving.
- (Request) Errors - the number of failed requests per second.
- (Request) Duration - distributions of the amount of time each request takes.
EDIT: voir aussi A Practical Guide: From Instrumenting Code to Specifying Alerts with the RED Method en complément
Une bonne introduction au concept d'Observability qui englobe Logging, Monitoring, Tracing et Visualization.
Quelques règles pour mettre en place un système d'alerting de la production pertinent dans le cadre d'astreintes 24/24.
-
Privilégiez les alertes sur les symptômes (disponibilité du service pour les utilisateurs, temps de réponse...) plutôt que les alertes sur les causes techniques (CPU, RAM, process, erreur 500, ...)
-
Scripter toutes les actions sur alertes qui peuvent être automatisée
-
Ne déclencher l'astreinte que pour les alertes qui nécessitent une action immédiate ne pouvant pas être automatisée
Une présentation des avantages de Prometheus pour le monitoring de clusters Kubernetes
Une description plus détaillé de la métrique Memory Pressure.
Le Memory Pressure est une des principales métriques pour vérifier le sizing de son cluster ES sur Elastic Cloud.
- Tant que la Memory Pressure est en dessous de 75%, le cluster est bien dimensionnée au niveau mémoire.
- Entre 75% et 85%, le cluster va consommer de plus en plus de CPU pour faire des GC. Tant que les perfs et la conso CPU sont acceptables, pas de soucis, le cas échéant il faut upgrader le cluster.
- Au dessus de 85%, Le temps passé à faire des GC et le risque d'OOM sera trop important. Il faut absolument upgrader le cluster.
Pour aller plus loin: Understanding the Memory Pressure Indicator
Description des métriques de performance pour Elastic Cloud (la solution SAAS Elastic Search officielle)
Les métriques ElasticSearch à monitorer
Introduction au Real User Monitoring pour récupérer les métriques (temps de chargement des pages...) coté navigateur web des utilisateurs
Un module Zabbix pour faire du monitoring Docker
Une présentation de solutions de monitoring pour Docker avec Cadvisor et les services payant Scoutapp et Datadog, ainsi qu'un quickstart pour superviser docker avec Sensu
EDIT: Suite à cet article, la solution Prometeus et le service payant Sysdig sont aussi présentés ici: http://rancher.com/docker-monitoring-continued-prometheus-and-sysdig/
Presentation d'une architecture de monitoring de flux metier. Intéressant pour comprendre comment vont s'articuler les technos nosql (elasticsearch) pour l'indexation et bigdata (hdfs) pour le stockage notamment.
Plugin Nagios pour superviser Redis
Plugin Nagios pour superviser les bases MongoDB