Quelques règles pour mettre en place un système d'alerting de la production pertinent dans le cadre d'astreintes 24/24.
-
Privilégiez les alertes sur les symptômes (disponibilité du service pour les utilisateurs, temps de réponse...) plutôt que les alertes sur les causes techniques (CPU, RAM, process, erreur 500, ...)
-
Scripter toutes les actions sur alertes qui peuvent être automatisée
-
Ne déclencher l'astreinte que pour les alertes qui nécessitent une action immédiate ne pouvant pas être automatisée
LinkedIn utilise un outils maison pour analyser les exceptions dans les logs applicatifs. Chaque nouvelle exception est enregistrée dans une base avec son hash. Le nombre d'occurrence de chaque exception par période de temps est ensuite enregistré dans une autre table. Cette solution nécessite seulement 30Gb pour stocker l'ensemble des exceptions alors qu'une solution ELK nécessiterait 50Pb pour centraliser l'ensemble des logs de leurs applications.