- Habit 1: You analyze every change in the context of the (much) bigger picture
- Habit 2: You’re pragmatic and forward-thinking about that analysis
- Habit 3: You are willing to move on when something isn’t actually helping
- Habit 4: You embrace every opportunity to automate
- Habit 5: You can persuade organizations to do what needs to be done
- Habit 6: You expand your existing skill set to include new tools and approaches
- Habit 7: You trust the process
Chez Netflix, les équipes de dev sont responsable du cycle de vie complet de leur application jusqu'à la production. Pour les aider dans cette tâche, des équipes spécialisées (Build Tools, Deployment Pipeline, Metrics & Alerts, ...) sont chargées de développer des outils réutilisables par tous. Lorsqu'un nouveau besoin d'outillage apparait dans une équipe de dev, si ce besoin est commun à d'autres équipes, ce besoin sera pris en compte par une équipe spécialisée, si le besoin est spécifique à une seule équipe de dev, celle-ci devra le prendre en charge elle-même.
Le livre de Google qui explique le concept de SRE et comment ils gèrent leur prod est disponible en consultation en ligne
une bonne présentation des caractéristiques du jobs d'ingénieur systèmes
Une explication du concept SRE (Site Reliability Engineering) qui est utilisée pour gérer la production chez Google.
Parmi les points marquant par rapport à DevOps:
- Error Budget:
- tant qu'on est dans les SLA (99.999...), les devs peuvent mettre en prod de nouvelles features
- dès que les SLA ne sont plus respectés, les devs ne peuvent plus mettre en prod de nouvelles features
- Les devs ont le droit à 3 "silver bullet" (et pas une de plus) pour livrer de nouvelles features en dehors des SLA.
- Pour utiliser 1 silver bullet, il faut convaincre le responsable des équipes dev
- En cas d'incident, la restoration du service est prioritaire, le troubleshooting vient après. tous les logs, traces, métriques, ... permettant de diagnostiquer l'incident doivent donc collectées automatiquement.
- La résolution des incidents connus doit être réalisée automatiquement par des bots sans intervention humaine
EDIT: en complément, l'interview du Vice President Engineering de Google qui donne plus de détails sur le fonctionnement chez Google
https://landing.google.com/sre/interview/ben-treynor.html