Un plugin Helm qui permet de déclencher un rollback automatique suite à l'upgrade d'une release Helm en fonction d'une query Elasticsearch ou Prometheus
Thanos permit de requeter plusieurs serveurs Prometheus et d'agréger leurs données au sein d'une vue commune
Méthode de monitoring particulièrement adaptée pour les architectures cloud qui définit 3 métriques clés à superviser pour chaque microservice:
EDIT: voir aussi A Practical Guide: From Instrumenting Code to Specifying Alerts with the RED Method en complément
Une bonne introduction au concept d'Observability qui englobe Logging, Monitoring, Tracing et Visualization.
Quelques règles pour mettre en place un système d'alerting de la production pertinent dans le cadre d'astreintes 24/24.
Privilégiez les alertes sur les symptômes (disponibilité du service pour les utilisateurs, temps de réponse...) plutôt que les alertes sur les causes techniques (CPU, RAM, process, erreur 500, ...)
Scripter toutes les actions sur alertes qui peuvent être automatisée
Ne déclencher l'astreinte que pour les alertes qui nécessitent une action immédiate ne pouvant pas être automatisée
Une présentation des avantages de Prometheus pour le monitoring de clusters Kubernetes
Une description plus détaillé de la métrique Memory Pressure.
Le Memory Pressure est une des principales métriques pour vérifier le sizing de son cluster ES sur Elastic Cloud.
Pour aller plus loin: Understanding the Memory Pressure Indicator
Description des métriques de performance pour Elastic Cloud (la solution SAAS Elastic Search officielle)
Les métriques ElasticSearch à monitorer
Introduction au Real User Monitoring pour récupérer les métriques (temps de chargement des pages...) coté navigateur web des utilisateurs
Un module Zabbix pour faire du monitoring Docker
Une présentation de solutions de monitoring pour Docker avec Cadvisor et les services payant Scoutapp et Datadog, ainsi qu'un quickstart pour superviser docker avec Sensu
EDIT: Suite à cet article, la solution Prometeus et le service payant Sysdig sont aussi présentés ici: http://rancher.com/docker-monitoring-continued-prometheus-and-sysdig/
Presentation d'une architecture de monitoring de flux metier. Intéressant pour comprendre comment vont s'articuler les technos nosql (elasticsearch) pour l'indexation et bigdata (hdfs) pour le stockage notamment.
Plugin Nagios pour superviser Redis
Plugin Nagios pour superviser les bases MongoDB