How Does Google do Planet-Scale Engineering for a Planet-Scale Infrastructure? - High Scalability -

627 shaares

Filters

Links per page

20 50 100

Une explication du concept SRE (Site Reliability Engineering) qui est utilisée pour gérer la production chez Google.

Parmi les points marquant par rapport à DevOps:

Error Budget:
- tant qu'on est dans les SLA (99.999...), les devs peuvent mettre en prod de nouvelles features
- dès que les SLA ne sont plus respectés, les devs ne peuvent plus mettre en prod de nouvelles features
- Les devs ont le droit à 3 "silver bullet" (et pas une de plus) pour livrer de nouvelles features en dehors des SLA.
- Pour utiliser 1 silver bullet, il faut convaincre le responsable des équipes dev
En cas d'incident, la restoration du service est prioritaire, le troubleshooting vient après. tous les logs, traces, métriques, ... permettant de diagnostiquer l'incident doivent donc collectées automatiquement.
La résolution des incidents connus doit être réalisée automatiquement par des bots sans intervention humaine

EDIT: en complément, l'interview du Vice President Engineering de Google qui donne plus de détails sur le fonctionnement chez Google
https://landing.google.com/sre/interview/ben-treynor.html

devops · sre · production · infrastructure

Filters

Links per page

20 50 100