Site Reliability Workbook
Apr. 18th, 2021 09:09 pmSite Reliability Workbook
https://sre.google/sre-book/table-of-contents/
Оглавление
Содержание 1
Предисловие 3
Table of Contents
Foreword
Preface
Part I - Introduction
Chapter 1 - Introduction
Chapter 2 - The Production Environment at Google, from the Viewpoint of an SRE
Part II - Principles
Chapter 3 - Embracing Risk
Chapter 4 - Service Level Objectives
Chapter 5 - Eliminating Toil
Chapter 6 - Monitoring Distributed Systems
Chapter 7 - The Evolution of Automation at Google
Chapter 8 - Release Engineering
Chapter 9 - Simplicity
Содержание
Предисловие
Введение
Часть 1 . Введение.
Раздел 1. Введение
Раздел 2. Рабочее окружение в Гугл с точки зрения SRE
Часть 2. Принципы
Раздел 3. Принимаемый риск
Раздел 4. Задачи уровня обслуживания
Раздел 5. Прекращение изматывающей работы
Раздел 6. Мониторинг распределенной системы
Раздел 7. Эволюция автоматизации в гугл
Раздел 8. Инженерия релизов (надо посмотреть про что глава)
Раздел 9. Простота.
Part III - Practices
Chapter 10 - Practical Alerting
Chapter 11 - Being On-Call
Chapter 12 - Effective Troubleshooting
Chapter 13 - Emergency Response
Chapter 14 - Managing Incidents
Chapter 15 - Postmortem Culture: Learning from Failure
Chapter 16 - Tracking Outages
Chapter 17 - Testing for Reliability
Chapter 18 - Software Engineering in SRE
Chapter 19 - Load Balancing at the Frontend
Chapter 20 - Load Balancing in the Datacenter
Chapter 21 - Handling Overload
Chapter 22 - Addressing Cascading Failures
Chapter 23 - Managing Critical State: Distributed Consensus for Reliability
Chapter 24 - Distributed Periodic Scheduling with Cron
Chapter 25 - Data Processing Pipelines
Chapter 26 - Data Integrity: What You Read Is What You Wrote
Chapter 27 - Reliable Product Launches at Scale
Часть 3. Практика.
Раздел 10. Оповещения в рабочей среде
Раздел 11. Быть на связи / на дежурстве (в готовности к звонку по телефону)
Раздел 12. Эффективное устранение неполадок
Раздел 13. Немедленное реагирование
Раздел 14. Управление инцидентами
Раздел 15. Культура разбора: обучение на ошибках
Раздел 16. Отслеживание перерывов / отказов (надо смотреть про что глава)
Раздел 17. Тестирование надежности
Раздел 18. Разработка ПО в SRE
Раздел 19. Балансировка нагрузки фронтенда
Раздел 20. Балансировка нагрузки в датацентре
Раздел 21. Обработка перегрузки
Раздел 22. Устранение каскада отказов
Раздел 23. Управление критическими состояниями: распределенный консенсус для нагрузки (что?)
Раздел 24. Распределение периодической нагрузки по расписанию (Cron)
Раздел 25. Конвейерная обработка данных
Раздел 26. Целостность данных: что записали, то и получили.
Раздел 27. Надежный запуск продуктов (в масштабе ? )
Part IV - Management
Chapter 28 - Accelerating SREs to On-Call and Beyond
Chapter 29 - Dealing with Interrupts
Chapter 30 - Embedding an SRE to Recover from Operational Overload
Chapter 31 - Communication and Collaboration in SRE
Chapter 32 - The Evolving SRE Engagement Model
Часть 4. Управление
Раздел 28. Ускорение SRE по звонку и после него
Раздел 29. Работа с прерываниями (чего? )
Раздел 30. Встраивание SRE для восстановления от операционной перегрузки
Раздел 31. Коммуникация и сотрудничество в SRE
Раздел 32. Развивающаяся модель взаимодействия с SRE
Part V - Conclusions
Chapter 33 - Lessons Learned from Other Industries
Chapter 34 - Conclusion
Appendix A - Availability Table
Appendix B - A Collection of Best Practices for Production Services
Appendix C - Example Incident State Document
Appendix D - Example Postmortem
Appendix E - Launch Coordination Checklist
Appendix F - Example Production Meeting Minutes
Bibliography
Часть 5. Выводы
Раздел 33. Выученные уроки из других отраслей
Раздел 34. Выводы
Приложение А. Таблица доступности
Приложение B. Набор лучших практик для рабочих сервисов
Приложение С. Пример документа по инциденту
Приложение D. Пример итогового (посмертного) разбора инцидента
Приложение E. Контрольный список координации
Приложение F. Пример протокола производственной встречи / митинга.
Библиография
Предисловие
https://sre.google/sre-book/table-of-contents/
Оглавление
Содержание 1
Предисловие 3
Table of Contents
Foreword
Preface
Part I - Introduction
Chapter 1 - Introduction
Chapter 2 - The Production Environment at Google, from the Viewpoint of an SRE
Part II - Principles
Chapter 3 - Embracing Risk
Chapter 4 - Service Level Objectives
Chapter 5 - Eliminating Toil
Chapter 6 - Monitoring Distributed Systems
Chapter 7 - The Evolution of Automation at Google
Chapter 8 - Release Engineering
Chapter 9 - Simplicity
Содержание
Предисловие
Введение
Часть 1 . Введение.
Раздел 1. Введение
Раздел 2. Рабочее окружение в Гугл с точки зрения SRE
Часть 2. Принципы
Раздел 3. Принимаемый риск
Раздел 4. Задачи уровня обслуживания
Раздел 5. Прекращение изматывающей работы
Раздел 6. Мониторинг распределенной системы
Раздел 7. Эволюция автоматизации в гугл
Раздел 8. Инженерия релизов (надо посмотреть про что глава)
Раздел 9. Простота.
Part III - Practices
Chapter 10 - Practical Alerting
Chapter 11 - Being On-Call
Chapter 12 - Effective Troubleshooting
Chapter 13 - Emergency Response
Chapter 14 - Managing Incidents
Chapter 15 - Postmortem Culture: Learning from Failure
Chapter 16 - Tracking Outages
Chapter 17 - Testing for Reliability
Chapter 18 - Software Engineering in SRE
Chapter 19 - Load Balancing at the Frontend
Chapter 20 - Load Balancing in the Datacenter
Chapter 21 - Handling Overload
Chapter 22 - Addressing Cascading Failures
Chapter 23 - Managing Critical State: Distributed Consensus for Reliability
Chapter 24 - Distributed Periodic Scheduling with Cron
Chapter 25 - Data Processing Pipelines
Chapter 26 - Data Integrity: What You Read Is What You Wrote
Chapter 27 - Reliable Product Launches at Scale
Часть 3. Практика.
Раздел 10. Оповещения в рабочей среде
Раздел 11. Быть на связи / на дежурстве (в готовности к звонку по телефону)
Раздел 12. Эффективное устранение неполадок
Раздел 13. Немедленное реагирование
Раздел 14. Управление инцидентами
Раздел 15. Культура разбора: обучение на ошибках
Раздел 16. Отслеживание перерывов / отказов (надо смотреть про что глава)
Раздел 17. Тестирование надежности
Раздел 18. Разработка ПО в SRE
Раздел 19. Балансировка нагрузки фронтенда
Раздел 20. Балансировка нагрузки в датацентре
Раздел 21. Обработка перегрузки
Раздел 22. Устранение каскада отказов
Раздел 23. Управление критическими состояниями: распределенный консенсус для нагрузки (что?)
Раздел 24. Распределение периодической нагрузки по расписанию (Cron)
Раздел 25. Конвейерная обработка данных
Раздел 26. Целостность данных: что записали, то и получили.
Раздел 27. Надежный запуск продуктов (в масштабе ? )
Part IV - Management
Chapter 28 - Accelerating SREs to On-Call and Beyond
Chapter 29 - Dealing with Interrupts
Chapter 30 - Embedding an SRE to Recover from Operational Overload
Chapter 31 - Communication and Collaboration in SRE
Chapter 32 - The Evolving SRE Engagement Model
Часть 4. Управление
Раздел 28. Ускорение SRE по звонку и после него
Раздел 29. Работа с прерываниями (чего? )
Раздел 30. Встраивание SRE для восстановления от операционной перегрузки
Раздел 31. Коммуникация и сотрудничество в SRE
Раздел 32. Развивающаяся модель взаимодействия с SRE
Part V - Conclusions
Chapter 33 - Lessons Learned from Other Industries
Chapter 34 - Conclusion
Appendix A - Availability Table
Appendix B - A Collection of Best Practices for Production Services
Appendix C - Example Incident State Document
Appendix D - Example Postmortem
Appendix E - Launch Coordination Checklist
Appendix F - Example Production Meeting Minutes
Bibliography
Часть 5. Выводы
Раздел 33. Выученные уроки из других отраслей
Раздел 34. Выводы
Приложение А. Таблица доступности
Приложение B. Набор лучших практик для рабочих сервисов
Приложение С. Пример документа по инциденту
Приложение D. Пример итогового (посмертного) разбора инцидента
Приложение E. Контрольный список координации
Приложение F. Пример протокола производственной встречи / митинга.
Библиография
Предисловие