howtheysre скачать - howtheysre исходный код скачать

Как они sre

Введение

Как они определяют то, как они-это кураторский хранилище знаний о лучших практиках, инструментах, методах и культуре, применяемых ведущими технологиями или техническими организациями.

Многочисленные организации часто делятся своим пониманием и опытом, охватывающими лучшие практики, инструменты и методы, которые формируют их инженерную культуру. Они делают это через различные общедоступные платформы, такие как инженерные блоги, конференции и встречи. Этот репозиторий собирает и представляет контент, собранной из этих источников.

Темы

Инженерность надежности сайта
Наем и строительство команд SRE
Культура SRE
DevOps
Мониторинг и наблюдение
Предупреждение
Ответ инцидента и посмертная
По вызову
Тестирование в производстве
Хаос Инжиниринг
Автоматизация
Производительность
Платформа Инжиниринг

Организации

Достижения

Сообщения в блоге

Введите скотобую - здание
Масштабирование производства по всему миру-обслуживание сетки подтяжки лица (часть-1)
Масштабирование производства в глобальном масштабе - Решение проблем наблюдения для разработчиков (часть 2)
Нагрузочное тестирование kubernetes: построение структуры (часть-1)
Нагрузочное тестирование Kubernetes: разрешение узких мест и повышение производительности (часть 2)

Airbnb

Сообщения в блоге

Автоматическое управление инцидентами через Slack
Обнаружение уязвимостей с Vulnure
Оповещение рамки в Airbnb
Когда облако темнеет - как отключение Amazon повлияло на Airbnb
Интеллектуальная платформа автоматизации: расширение прав и возможностей разговорного ИИ и за его пределами в Airbnb
Управление секретом производства в Airbnb
Автоматизация защиты данных в масштабе, часть 1
Автоматизация защиты данных в масштабе, часть 2
Автоматизация защиты данных в масштабе, часть 3
Динамическое масштабирование кластера Kubernetes в Airbnb

Алголия

Сообщения в блоге

30 мая инцидент SSL
Путешествие в SRE
CI/CDAY 2024: Что делает хорошую платформу CI/CD?

Alibaba Cloud

Сообщения в блоге

Почему ведущие интернет -компании выбирают SRE по сравнению с традиционным O & M?
Архитектура и практика платформы в реальном времени Билибили

Асана

Сообщения в блоге

Как Асана использует асану: ответ на инцидент безопасности
Как выпускает стабильные веб -приложения Asana
Анализ недавнего времени простоя и того, что мы делаем, чтобы предотвратить будущие инциденты
Среда разработчика: достижение надежности, сделав ее быстро
Три тактики безопасности для каждого ИТ -лидера, чтобы рассмотреть эту осень

Асос

Сообщения в блоге

Играя в игру без обвинений
День из жизни… кошек (руководитель инженерии надежности)
Путешествие AKS Performance: Часть 1 - Определение размера все
AKS Performance Jourder
Кибербезопасность @ asos.com
Операции безопасности 24x7
Навыки, которые мы ищем в реакции инцидента в кибербезопасности

Atlassian

Сообщения в блоге

Лучшие методы управления изменениями в эпоху DevOps
Автоматизированное тестирование: 5 уроков из команды Atlassian Kubernetes по тестированию инфраструктуры в качестве кода
Как экспортировать события Kubernetes для наблюдения и предупреждения
Инцидент посмертный шаблон

Backmarket

Сообщения в блоге

Как Back Market Sres подготовился к Черной пятнице

Байду

Видео

Обнаружение аномалий на золотых сигналах
NetRadar: мониторинг сети обработки данных DataCenter
Пусть хаос начнется - Инженерная инженерия Хаоса встречает кибербезопасность

Базовый лагерь

Сообщения в блоге

Внутри кода Red: сетевое издание
Три отключения базового лагеря. Одна неделя. Что случилось?
Basecamp 2 и Basecamp 3 отчет о поиске отключения поиска
Сокращение эскалаций инцидентов в Basecamp

Книги

Формировать

Блумберг

Видео

Планирование пропускной способности и повышение производительности с помощью справочной выборки страниц
Почему SRES не может позволить себе не заниматься хаосом
Отслеживание распределенных систем в реальном времени
История Bloomberg: строительство команд SRE в «неизмеримой» организации
Видимость в лесозаготовителях (и других низкоуровневых услугах) - ищите деревья из леса

Booking.com

Сообщения в блоге

Как команды надежности и продуктов сотрудничают на Booking.com
Инциденты, исправления и на следующий день после
Устранение неполадок: путешествие в неизвестное

Видео

SLO для данных интенсивных данных
Преимущества прохождения менее пройденной дороги с инфраструктурой контейнеров

Капитал один

Сообщения в блоге

Автоматизируйте мониторинг приложений с помощью Slack
Автоматизируйте инфраструктуру AWS с Boto 3: проверка здоровья AWS
Активно-активная архитектура базы данных общего нет
3 R SRES: устойчивость, восстановление и надежность
5 шагов к подготовке хаоса вашего приложения
4 сценария в реальном мире, которые читаются как инженерные эксперименты в хаосе
Охватите хаос ...
3 уроки, извлеченные из внедрения инженерии Chaos на Enterprise
Глубокое погружение в бесшовное синее/зеленое развертывание с использованием aws Codedeploy
Защитные контейнеры Docker требуют безопасных приложений
4 шага для сочетания облака и DevOps для повышения устойчивости
Приложения готового контейнера с двенадцатифакторным приложением и архитектурой микросервисов
Развертывание с уверенностью - минимизировать риск, максимизировать устойчивость с помощью канарейских развертываний на AWS
Архитирование для устойчивости
Непрерывный хаос - внедрение инженерии хаоса в практики DevOps
Мон-эфистое, часть 1: метрики

Основные инциденты и аналитические отчеты

Информация о кибер -инциденте Capital One
Тематическое исследование взлома данных Capital One

Видео

Банковское дело о непрерывной доставке - Capital One
Непрерывный хаос в DevOps - Capital One
DevOps в Capital One: сосредоточение внимания на трубопроводе и измерениях
Автоматизация управления оперативным здоровьем облачных учетных записей в масштабе

Coinbase

Сообщения в блоге

Закрытый трубопровод Coinbase Coinbase

Дайнн

Сообщения в блоге

Надежность сайта в Dazn

ДБ

Сообщения в блоге

Представление на конференции Ithome SRE: наше путешествие по трансформации DBS SRE до сих пор
Разоблачение семи самых популярных мифов о надежности сайта
Как использовать SRE для развития безупречной культуры на рабочем месте
Инженерность надежности сайта в DBS Bank
Автоматизация управления конфигурацией в масштабе
Как DBS развеял мифы о инженерии хаоса
Двойной, двойной труд и неприятности

Видео

Sreecon Congsations Asia/Pacific с Koon Seng Lim, DBS

Глубокий

Сообщения в блоге

Redis без дисков репликации: что, как, почему и оговорки
Как настроить хранилище с Kubernetes
Развертывание развертывания с нулем простоя в Kubernetes

Мечта11

Сообщения в блоге

Развертывание в масштабе: история, стоящая за мечтой 11-го сине-зеленого развертывания «OneClick».
Повышение безопасности и доверия с помощью AWS WAFV2
Уроки, извлеченные из запуска GraphQL в масштабе
Разорвать цепи, Спасите Конг?
Поиск заказа в хаосе: как мы автоматизировали тестирование производительности с крутящим моментом
Поддержание гипер-москорочных выпусков на Dream11
Масштабировать или масштабировать? Вот как мы масштабируем на Dream11
Аналитика, оповещение и обнаружение аномалий в реальном времени в реальном времени

Dropbox

Сообщения в блоге

Dropbox Engineering Framework - инженер по надежности (SRE)
Атлас: наше путешествие от монолита Python на управляемую платформу
Приложения сервера мониторинга с вихрями
Афина: наша автоматизированная система управления здравоохранением
Заинтересованы в том, чтобы стать инженером по надежности сайта?

Видео

Проблемы обнаружения услуг в масштабе

eBay

Сообщения в блоге

Устойчивость и аварийное восстановление с кафкой
SRE CASTER: Выпуск не-HEAP JVM вне вопроса
Примерное исследование SRE: таинственный дисбаланс движения трафика
Нулевое время простоя, мгновенное развертывание и откат
Как уведомление eBay использовала инъекцию неисправности по -новому

Видео

Мадаари: заказ обезьян

Эпические игры

Видео

AWS Re: Invent 2018: Epic Games использует AWS, чтобы доставить Fortnite 200 миллионам игроков

Etsy

Сообщения в блоге

Улучшение опыта развертывания десятилетнего заявления
Как Etsy подготовилась к историческим объемам праздничного трафика в 2020 году
Ваш мозг на прогрессе
Руководство по облегчению облегчения Etsy для безупречных посмерти
Opsweekly: измерение опыта по вызову с классификацией оповещения
Демистификация отключений сайта
Безупречные посмерти и справедливая культура
Измерить что -нибудь, измерить все

Видео

Скорость 09: Джон Аллеппау и Пол Хаммонд, «10+ развертывает PE
Мигрируя монолит в облако

Expedia

Сообщения в блоге

Автоматизация стандартов производительности
Политика бюджета ошибок - Часть 1 - Принятие в Expedia Group
Политика бюджета ошибок - Часть 2 - практика в Expedia Group
Использование впрыскивания неисправностей для повышения надежности нашей новой платформы выполнения платформы выполнения
Учиться на инцидентах в Expedia Group
Улучшение опыта загрузки домашней страницы VRBO
Устранение неполадок 502 ошибок: контрольный список ECS
Начало работы с Elasticsearch
Все о проблемах ISTIO-Proxy 5xx
Автоскалирование в Kubernetes: почему горизонтальный POD Autoscaler не работает для меня?
Как сохранить сбалансированные развертывания Kubernetes в нескольких зонах
Ваши показатели задержки Dropwizard вводит вас в заблуждение?
Стоимость надежности 100%
Создание мониторинга панелей мониторинга
Использование Bash для DevOps

Быстро

Видео

Управление SRE & Products: Как повысить уровень вашей команды (и карьеры!), Думая как менеджер по продукту
Устойчиво инженерия миф

G-Research

Сообщения в блоге

Наше путешествие в G-Research
Путешествие в SRE продолжается
Meta Cache OpentsDB-компромиссы для производительности

Getaround

Сообщения в блоге

Как мы справляемся с инцидентами в Getaround
Эволюция нашего непрерывного процесса доставки

GitHub

Сообщения в блоге

Как мы улучшили доступность за счет итеративного упрощения
Как мы улучшили обработку push на GitHub
Как GitHub использует очередь слияния, чтобы отправлять сотни изменений каждый день
Исправление уязвимостей безопасности с помощью ИИ
Программа инженерных фундаментов GitHub: как мы обеспечиваем доступность, безопасность и доступность
Как GitHub использует действия и действия GitHub, более крупные бегуны для создания и тестирования github.com
Путешествие лаборатории безопасности GitHub, чтобы раскрыть 500 CVE в проектах с открытым исходным кодом
Команда CodeQL использует ИИ для обнаружения уязвимости в коде в коде
Решение о последних проблемах доступности GitHub
Создание управления и повторного использования в масштабах всей организации для CI/CD и автоматизации с помощью GitHub Actions
Включение развертывания филиалов с помощью вопросов с действиями GitHub
Использование Chatops, чтобы помочь инженерам по вызову действий
Разделение реляционных баз данных GitHub для обработки масштаба
Увеличение счастья разработчика с помощью сканирования кода GitHub
Почему (и как) GitHub принимает OpenElemetry
Улучшение крупной производительности Monorepo на GitHub
Надежность развертывания на GitHub
Улучшение того, как мы развертываем GitHub
Строительство культуры по вызову в GitHub
Уменьшение словных сборки в 18x
Развивающаяся роль операций в DevOps
Начало работы с автоматизацией DevOps
MySQL высокая доступность на GitHub

Основные инциденты и аналитические отчеты

Отчет о доступности GitHub: август 2024 г.
Отчет о доступности GitHub: июль 2024 г.
Отчет о доступности GitHub: июнь 2024 г.
Отчет о доступности GitHub: май 2024
Отчет о доступности GitHub: апрель 2024 г.
Отчет о доступности GitHub: март 2024 г.
Отчет о доступности GitHub: февраль 2024 г.
Отчет о доступности GitHub: январь 2024 г.
Отчет о доступности GitHub: декабрь 2023 г.
Отчет о доступности GitHub: ноябрь 2023 г.
Отчет о доступности GitHub: октябрь 2023 г.
Отчет о доступности GitHub: сентябрь 2023 г.
Отчет о доступности GitHub: август 2023 г.
Отчет о доступности GitHub: июль 2023 г.
Отчет о доступности GitHub: июнь 2023 г.
Отчет о доступности GitHub: май 2023 г.
Отчет о доступности GitHub: апрель 2023 г.
Отчет о доступности GitHub: март 2023 г.
Отчет о доступности GitHub: февраль 2023 г.
Отчет о доступности GitHub: январь 2023 г.
Отчет о доступности GitHub: декабрь 2022 г.
Отчет о доступности GitHub: ноябрь 2022 г.
Отчет о доступности GitHub: октябрь 2022 г.
Отчет о доступности GitHub: сентябрь 2022 г.
Отчет о доступности GitHub: август 2022 г.
Отчет о доступности GitHub: июль 2022 г.
Отчет о доступности GitHub: июнь 2022 г.
Отчет о доступности GitHub: май 2022 г.
Отчет о доступности GitHub: апрель 2022 г.
Отчет о доступности GitHub: март 2022 г.
Отчет о доступности GitHub: февраль 2022 г.
Отчет о доступности GitHub: январь 2022 г.
Отчет о доступности GitHub: декабрь 2021 г.
Отчет о доступности GitHub: ноябрь 2021 г.
Отчет о доступности GitHub: октябрь 2021 г.
Отчет о доступности GitHub: сентябрь 2021 г.
Отчет о доступности GitHub: август 2021 г.
Отчет о доступности GitHub: июль 2021 г.
Отчет о доступности GitHub: июнь 2021 г.
Отчет о доступности GitHub: май 2021 г.
Отчет о доступности GitHub: апрель 2021 г.
Отчет о доступности GitHub: март 2021 г.
Отчет о доступности GitHub: февраль 2021 г.
Отчет о доступности GitHub: январь 2021 г.
Отчет о доступности GitHub: декабрь 2020 года
Отчет о доступности GitHub: ноябрь 2020 г.
Отчет о доступности GitHub: август 2020 г.
Отчет о доступности GitHub: июль 2020 г.
Представление отчета о доступности GitHub
Февральские сбои за обслуживание после инцидента анализа
21 октября пост-инцидент анализ
28 февраля отчет о инциденте DDOS
Отчет об инциденте: непреднамеренное раскрытие частного хранилища

Видео

Один на один SRE

Гитлаб

Сообщения в блоге

Этот SRE попытался развернуть изменение конфигурации Haproxy. Вы не поверите, что произошло дальше ...
Моя неделя затеняна инженера по надежности сайта Gitlab
Обновление: уроки Elasticsearch, извлеченные для расширенного глобального поиска
Уроки в итерации от новой команды в инфраструктуре
Как мы оптимизировали инфраструктуру, тратясь в Gitlab
Как мы масштабировали асинхронную обработку рабочей нагрузки на gitlab.com с помощью sidekiq
Inside Gitlab: как мы выпускаем программные патчи
Что отслеживание пропавших TCP Keepalives научило меня о Docker, Golang и Gitlab
Как мы использовали отложенную репликацию для аварийного восстановления с PostgreSQL

Gocardless

Сообщения в блоге

Развертывание программного обеспечения в Gocardless: открытые источники нашего учебника «Начало работы»
Как мы сжимаем пабы/подразделением и многое другое, экономя груз денег
Без страха миграции PostgreSQL для рельсов
Наблюдаемость в Gocardless: рассказ об улучшении производительности API
Отладка планировщика запросов postgresql
Постгресс -миграции с нулевым временем - жесткие части
В поисках производительности - как мы сбрыгнули 200 мс с каждого запроса поста

Основные инциденты и аналитические отчеты

Обзор инцидентов: отключение обслуживания 25 октября 2020 года, истечение срока действия Vault TLS
Обзор инцидентов: отключение API и на панели на панели. 10 октября 2017 года

Годадди

Сообщения в блоге

Kubernetes Загруженные развертывания
Kubernetes Внешние секреты
Kubernetes - Практическое введение для разработчиков приложений
Интуитивно понятный клиент Node.js для API Kubernetes

Годжек

Сообщения в блоге

Представляем Skynet: инфраструктура как код для Gojek
Масштабирование нашей службы геоипрык для 10-кратной нагрузки
Почему мы клянусь RCA
Как мы обновляем Kubernetes на GKE
Как мы контролируем воздушный поток Apache в производстве

Goldman Sachs

Сообщения в блоге

SECDB ОБРАЗОВАНИЕ Путешествие
Хаос проверяет приложение на AWS
Прогнозирующие отключения емкости с использованием машинного обучения для устойчивости применения
Обеспечение доступности 99,9% и времени отклика на субсекунду с мультиплексами Sybase IQ с помощью HAPROXY
Строительство многорегионной устойчивости с помощью Amazon RDS и Amazon Aurora
Включение очень доступных кластеров Trino в Goldman Sachs
Наблюдаемость в масштабе
Инфраструктура и шаблон командной цепочки
Мобильный CICD с macOS EC2
Объявление Catchit - Secret Scanner исходного кода
Строительные платформы для разработки данных

Google

Сообщения в блоге

Ускорение ответа на инцидент с использованием генеративного ИИ
Ловушки и паттерны в управлении зависимостями микросервиса
SRE практики и процессы
Надежность сайта Google с использованием GO
Три месяца, 30-кратный спрос: как мы масштабировали Google Meet во время Covid-19
SRE Classroom: распределенный Pubsub
Как организованы команды SRE и как начать

Видео

В чем разница между DevOps и SRE? С Сет Варго и Лиз Фонг-Джонс из Google
Бюджеты риска и ошибок с Сет Варго и Лиз Фонг-Джонс из Google
Прагматическая автоматизация 'с Максом Луббе из GCP
Должен смотреть! - Google SRE YouTube Playlist
Цели уровня Squish: как SRE может помочь согласовать техническую работу с преимуществом пользователя
Реализация распределенного консенсуса
То, что я стремлюсь быть
SRE Classroom, или, как разработать надежную распределенную систему за 3 часа
Zero Touch Prod: к более безопасной и безопасной производственной среде
Все наши идеи ML плохие (и мы должны чувствовать себя плохо)
Карта не территория: как SLO ведут нас с пути, и что мы можем с этим сделать
Развертывание лучших практик обучения SRE для производства: как мы SRE's нашли нашу образовательную программу SRE
BigTable: Путешествие от бинарного до обслуживания и уроки, извлеченные по пути
Практическая инструментария для наблюдения
Что такое ML OPS: решения и лучшие практики для DevOps производственных услуг ML
Единая отчетность по надежности обслуживания
Как обменять использование сервера и задержку хвоста
Сохранение равновесия: демистифицировано в интернет-масштабе.
От черного ящика до известного количества: как создать предсказуемые, надежные сервисы на основе ML
Осознанность в SRE: мониторинг и предупреждение о себе
Прагматическая автоматизация
Сублиевое масштабирование на практике: проект 1K SRE
Стратегии для редактирования данных производства
Проклятие автономии и как его управлять
Масштабирование организаций SRE: путешествие от 1 до многих команд
SRE Classroom - Как разработать распределенную систему за 3 часа
Использование PRD и поездок пользователей для разработки удобных инструментов
Как Google SRE и разработчики работают вместе
SRECON21 - Эксперименты для SRE

Схватить

Сообщения в блоге

Наше путешествие к непрерывной доставке в Grab (часть 1)
Наше путешествие к непрерывной доставке в Grab (часть 2)
Проектирование устойчивых систем: автоматические выключатели или повторения? (Часть 1)
Проектирование устойчивых систем: автоматические выключатели или повторения? (Часть 2)
Проектирование устойчивых систем за пределами повторных рисунков (часть 3): Архитектурные шаблоны и инженерия хаоса
Орчесструирование хаоса с помощью платформы экспериментов Grab
Как мы разработали квоты микросервиса для предотвращения злоупотребления ресурсами
Как мы масштабировали наш кеш и хорошо выспались

Грамматика

Сообщения в блоге

Масштабирование инфраструктуры AWS для поддержки нескольких регионов
Операции безопасности в среде AWS

Смак

Сообщения в блоге

Цели уровня обслуживания для душевного спокойствия
Отладка Sidekiq ядовитых таблеток

Halodoc

Сообщения в блоге

Инженерность надежности сайта для нативных мобильных приложений

Хероку

Сообщения в блоге

Приключения Рендеву в новой архитектуре Героку
Ответ об инциденте в Хероку

IBM

Сообщения в блоге

Что такое инженерная инженерия сайта (SRE)?
Инструменты и решения AIOPS

Действительно

Сообщения в блоге

Действительно SRE: внутренний взгляд
Быть достаточно надежным
Автоматизация процесса выпуска действительно
Lloth, инструмент для индукции сбоев сети с Preetha Appan of Eily.com

Видео

Мы еще становились лучше? Прогресс в сторону более безопасных операций

Действительно

Сообщения в блоге

SRE Playbook - Практический гид

Ханская академия

Сообщения в блоге

Как Ханская академия успешно справилась с 2,5 -кратным трафиком в неделю
Развитие нашей контент -инфраструктуры

Сообщения в блоге

Переосмысление прогнозов емкости участка с анализатором емкости
Понимание команды SRE в LinkedIn
Наем SRES в LinkedIn
Обновление с открытым исходным кодом: школа SRE
Исправление регрессий производительности файловых систем Linux
Производственные тестирование с темными канарскими
Умные оповещения в Thirdeye, платформе мониторинга LinkedIn в реальном времени
Iris Mobile: с открытым исходным кодом, мобильный интерфейс для управления инцидентами
LinkedOut: структура впрыска на уровне запроса
Устранение труда с полностью автоматизированным нагрузочным тестированием
Макияж успешных географически распределенных команд SRE: Часть 1
Макияж успешных географически распределенных команд SRE: часть 2
Звезда проекта*: оптимизация нашего процесса вызовов
Автоматизация вашего OnCall: открытый источник Fossor и ASCII ETCH
Инженерность устойчивости в LinkedIn с Project Waterbear
Наем SRES на LinkedIn, 2017
Открытый источник ириса и онколл
Создание культуры SRE в LinkedIn
Неудача не вариант
Mttd и Mttr - это ключ
То, что измеряется, исправляется

Видео

Расширение команды по надежности сайта в LinkedIn: наем сложно - Грег Леффлер
9 лет неудачи: как гоночные дрянные автомобили сделали меня лучше
Вертировка шторма: как ранние предупреждения спасают ферму
Неконференция: нерешенные проблемы в SRE
Ведущий без управления: стать техническим лидером SRE
Почему (мой) мониторинг отстой?
Прогнозирование движения и инфраструктура тестирования стресса
Коллективная осознанность для лучших решений в SRE
TCP - архитектура, усовершенствования и настройка
Более 600 миллионов участников и сотни микросслуги: как мы масштабировали нашу систему мониторинга, чтобы не отставать
Понимание показателей бизнеса может сделать вас лучшим SRE
Код-желтый: помогая операциям самым тяжелым командам Smart Way
Различия в реализации SRE между компаниями

Инструменты

По вызову

Логги

Сообщения в блоге

Модель менеджера релиза
SRE Teams #8: loggi

Loveholidays

Сообщения в блоге

Динамическая маршрутизация оповещения с Прометеем и Алертмангером
Сделать LoveHolidays на 18% быстрее с http/3
Обеспечение наилучшей практики инфраструктуры самообслуживания с Terraform, Atlantis и Policy в качестве кода
5 принципов, которые помогли масштабировать Loveholidays
Реальное время быстро вводит с Графана Локи менее чем за 1 доллар в день

Маккуори

Сообщения в блоге

Наше путешествие Devsecops с Golang
Конфигурация трубопровода в качестве кода с котлином
DevOps и сегрегация обязанностей
Macquarie обнимает DevOps
Масштабирование платформы Kubernetes по всему предприятию

Материал

Сообщения в блоге

Мониторинг облачных среда в масштабе с Прометеем и Таносом
Как мы используем ленивцы для мониторинга SLO и оповещения с Prometheus

Meituan (美团)

Сообщения в блоге

Развитие и практика SRE в облаке (云端的 SRE 发展与实践)

Меркари

Сообщения в блоге

Кто смотрит на сторожи? Следить за нашими системами мониторинга
Что команда MicroServices SRE делает как евангелисты SRE
Каково работать как встроенные микросервисы SRE
Команда Merpay SRE: прошлое и будущее
Встроенный SRE в Mercari
Чего хочет достичь команда SRE с командой разработчиков
Devsecops: Что это такое и почему он набирает обороты в отрасли?
Как мы делимся навыками устранения неполадок
Datadog Dashboard в масштабе с терраформой

Мета

Сообщения в блоге

Использование ИИ для эффективного ответа на инцидент
Улучшение рабочих процессов Meta SLO с помощью аннотаций данных
Slick: принятие SLO для повышения надежности
Более подробная информация о отключении 4 октября
Обновление о отключении 4 октября

Видео

Подход к обслуживанию клиентов к SRE
Как (не) масштабировать проект: посмертный
Выпуск крупнейшего в мире участка Python каждые 7 минут
Использование ML для автоматизации категоризации динамической ошибки

Microsoft

Видео

SLI & Relithy Deep Dive 'с Дэвидом Н. Бланком-Эдлманом из Microsoft
Иронии автоматизации: комедия в трех частях »с Таннером Лундом из Microsoft
Устойчивая разработка программного обеспечения и SRES
Изучение человеческого фактора и командной культуры для улучшения усталости пейджера
Приоритет доверия при создании приложений
Строительство устойчивости: как узнать больше о инцидентах
Сказка о двух посмертных средствах: взгляд на человеческий фактор
Доступность - за пределами 9 -х годов
Иронии автоматизации: комедия в трех частях
OPS в без сервера

Миро

Сообщения в блоге

Prometheus высокая доступность и стратегия устойчивости к разломам, долгосрочное хранение с Victoriametrics
Управление сотнями серверов для тестирования нагрузки: автомассалирование, пользовательский мониторинг, культура DevOps
Надежное тестирование нагрузки в отношении неожиданных нюансов

Монзо

Сообщения в блоге

Автомаскарирование Monzo: как мы оптимизируем нашу платформу, чтобы быть как раз правильным размером
Как мы развивались по вызову в Монзо
Как мы реагируем на инциденты
Как мы контролируем Монзо

Видео

В конечном итоге последовательное обнаружение услуг

Инструменты

Ответ

Netflix

Сообщения в блоге

Достижение наблюдаемости в асинхронных рабочих процессах
Строительство распределенной инфраструктуры трассировки Netflix
Уроки от построения инструментов наблюдения в Netflix
Эдгар: Решение загадков быстрее с наблюдением
Telltale: мониторинг приложений Netflix упрощен
Поддержание потоковой передачи клиентов - централизованная практика надежности сайта в Netflix
Представление отправки
Применение шаблонов Netflix DevOps в Windows
Глава: платформа автоматизации хаоса
Начало лавины
Netflix Chaos Monkey обновлена
Хаос Инжиниринг обновляется
Автоматизированное испытание на сбой
От хаоса до контроля - проверка устойчивости платформы обнаружения контента Netflix
Представление Atlas: основная платформа телеметрии Netflix
Подгонка: тестирование на инъекцию отказа
Объявление Security Monkey - мониторинг и анализ конфигурации безопасности AWS
Уроки Netflix извлечены из отключения AWS
Scryer: Прогнозирующий двигатель Auto масштабирования Netflix

Основные инциденты и аналитические отчеты

Последующая сумма 22 октября 2012 г. деградация AWS

Видео

AWS Re: Invent 2019: день в жизни инженера Netflix (NFX202)
Когда /bin /sh атаки: пересмотреть «Автоматизировать все вещи»
Как дела идут правильно? Больше изучать инциденты
Мониторинг и отслеживание @netflix потоковой инфраструктуры данных
Реальный мониторинг производительности пользователя в масштабе Netflix - Martin Spier
AWS Re: Invent 2017 - Нора Джонс описывает, почему нам нужно больше хаоса - инженерия хаоса, то есть
AWS Re: Invent 2017: Выполнение хаоса в масштабе Netflix (DEV334)
Netflix: многорегиональная устойчивость и Amazon Route 53
Проектирование услуг для устойчивости: уроки Netflix
South Bay SRE Meetup - команда Cloud Performance Netflix
AWS Re: Invent 2017: день в жизни инженера Netflix III (ARC209)
Как Netflix использует потоки кинезиса для мониторинга приложений и анализа миллиардов трафика
Мастерский хаос - руководство Netflix по микросервисам
AWS Re: Invent 2016: от устойчивости к повсеместному распространению - #netflixeverywhere Global Architecture (ARC204)
Srecon 2016 - Netflix: 190 стран и 5 основных SRES
От Sys Admin до Netflix SRE
Инжиниринг и операции устойчивости приложений в Netflix с Hystrix
Отказ впрыскивания в Netflix
LISA13 - Как Netflix использует неспособность повысить устойчивость и максимизировать доступность
Управление инцидентами на скорости Netflix

Подкасты

Райан Китченс в обучении инцидентов в Netflix, роли SRE и социотехнических системах

Инструменты

Отправлять

Новая реликвия

Сообщения в блоге

Определение современных программных ролей: SRES в New Relic
10 вещей, которые каждый должен знать о инженерии надежности сайта (SRE)
Какие инструменты используют инженеры по надежности сайта?
День из жизни нового реликвического SRE
7 привычек очень успешных инженеров по надежности сайта
Принятие практики SRE
Использование современной наблюдаемости для создания культуры, управляемой данными,

Нубанк

Сообщения в блоге

Инженерное управление, случай непрерывного совершенствования
Как мы справляемся с техническими инцидентами
Как мы делаем вращение на вызове в Нубанке
Как мы масштабируем нашу платформу данных эффективно и надежно
Почему мы убили наш сквозной тестовой набор
Автоматическая переподготовка для моделей машинного обучения: советы и извлеченные уроки

Openai

Сообщения в блоге

20 марта отключение Chatgpt: вот что случилось
Openai SRE и масштабирование объяснили легко.
Масштабирование Kubernetes до 2500 узлов
Масштабирование Kubernetes до 7500 узлов
Масштабирование инфраструктуры ИИ на OpenAI

PayPal

Сообщения в блоге

Запускается: инцидент № 1234 (процесс инцидента нуждается в исправлении)
Реализация наблюдаемости в сервисной сетке
PostgreSQL в масштабе: схема базы данных изменяется без времени простоя
Масштабирование GraphQL в PayPal

Видео

Sreecon Conglingsations Asia/Pacific с Karthikeyan Selvaraj и Rajesh Ramachandran, Paypal
SRE теперь против SRE: баланс между рефлексами и интуитивно понятными инстинктами в PayPal
Обнаружение деградации и сбоев обслуживания в масштабе посредством распределенной обработки журнала
Эксплуатация Elasticsearch с легкостью в масштабе
Обеспечение надежности сайта с помощью контроля безопасности

Пикник

Сообщения в блоге

Микрометр и современный стек наблюдения
Мониторинг и наблюдение на пикнике

Сообщения в блоге

Обеспечение высокой доступности рекламных потоковых услуг в реальном времени
Повышение эффективности и сокращение времени выполнения с использованием оптимизации чтения S3
Масштабирование Kubernetes с уверенностью в Pinterest
Что мы узнали из инцидента с приложением для iOS OOMS
Как мы разработали нашу систему непрерывной интеграции, чтобы быть более чем на 50% быстрее
Упрощение веб -развертываний
Обновление операционных метрик Pinterest
Распределенная трассировка в Pinterest с новыми инструментами с открытым исходным кодом
Автоматическое масштабирование Pinterest

Видео

Построение действенного владения кодом
Эволюция инструментов наблюдения в Pinterest
Автоматизация обновлений ОС/платформы для владельцев услуг

Почтальон

Сообщения в блоге

Узнайте, как ваши кластеры Kubernetes реагируют на неудачу, используя Gremlin и Grafana

Прези

Сообщения в блоге

Как избежать глобального отключения - плавно мигрируя этикетки Daemonset
В поисках скорости - отладка производительности Elasticsearch
Prometheus в Prezi: замена 10 лет анти-паттернов

Красная шляпа

Сообщения в блоге

От OPS до SRE: эволюция специальной команды OpenShift
5 Agile Practices Каждая команда SRE должна принять
7 лучших практик для написания операторов Kubernetes: перспектива SRE

Бунт игры

Сообщения в блоге

Легенды трубопровода Runeterra CI/CD
Стратегии работы в неопределенных системах
Улучшение опыта разработчиков для операционных услуг
Масштабируемость и нагрузка для доблести
Использование Golang для разработки игр и операций
Контролируемый хаос с тестированием на инъекцию неисправностей
Вниз по кроличьей дыре мониторинга производительности
Профилирование: случай пропавших миллисекундов
Профилирование: реальный мир в лиге
Профилирование: оптимизация
Профилирование: измерение и анализ
Запуск онлайн -услуг в Riot: часть I
Запуск онлайн -услуг в Riot: Часть II
Запуск онлайн -услуг в Riot: Часть III
Запуск онлайн -сервисов в Riot: Часть III: Part Deux
Запуск онлайн -услуг в Riot: Часть IV
Запуск онлайн -услуг в Riot: Часть V
Эволюция безопасности в бунте
Запуск автоматического тестового конвейера для обновления клиента лиги
Автоматизированное тестирование для League of Legends

Salesforce

Сообщения в блоге

Глядя на плоскость управления Kubernetes для многоцелевого
Оптимизация сети EKS для масштаба
Узел с нулевым простоям в кластере Kubernetes Cluster
Как, не почему: альтернатива пяти, что для посмертных
Общий инжектор по боковой автоматике для Kubernetes
Внедрение стратегии мониторинга для продуктов на основе микросервисов
10 шагов по разработке плана реагирования на инцидент, который вы на самом деле используете
Наше путешествие в почти идеальный бревенчатый трубопровод
Оптимизация производительности с веб -работниками
Найдите минутку, чтобы переориентироваться

Шибстед СМИ

Сообщения в блоге

Инжинирирование надежности для некоторых из 10 лучших сайтов в Скандинавии

Спирбд

Сообщения в блоге

Обучение у инцидентов: получение Sidekiq, готового к получению миллиардов рабочих мест
Свидетельство об использовании Pagerduty в Scribd
Назначение обязанности пейджера разработчикам

Shopify

Сообщения в блоге

Планирование устойчивости для мероприятий с высоким трафиком
Планирование пропускной способности в масштабе
Использование управления трафиком DNS для добавления устойчивости в услуги Shopify
Четыре шага к созданию эффективных игровых тестов
Внедрение Chatops в нашу процедуру управления инцидентами
STATSD в Shopify

Видео

Сетевой монитор: рассказ о признании пробела наблюдения
Ожидайте неожиданного: подготовка команд SRE для ответа на новые неудачи
Продвинутая математика салфетки: оценка эффективности системы по первым принципам

Ставки на небо и игры

Сообщения в блоге

Это просто изменение мониторинга
«Что самое худшее, что может произойти?»: Проработанный пример того, как мы справляемся с живыми инцидентами
Поднимаясь от пепла
Крушение! Хлопнуть! Пока! Практика идеально подходит
Производительность влево и в центре

Пролечить

Сообщения в блоге

Инцидент Слэка на 2-22-22
Наблюдаемость инфраструктуры для изменения кривой расходов
Отключение Slack 4 января 2021 года
Ужасный, ужасный, без хорошего, очень плохой день в Slack
Развертывается в Slack
Театр стихийных бедствий: Процесс Slack для доступного хаоса

Видео

Провиснуть на краю
Что ломает наши системы: таксономия черных лебедей

Слалом сборка

Сообщения в блоге

Как реализовать цели уровня обслуживания в новой реликвии APM
Руководство для начинающих по DevOps: как войти в отрасль
Действия GitHub: за пределами CI/CD
Почему все тестовые автоматизации не работают на трубопроводе?
Многочисленные формы инженерии надежности сайта
Как построить надежный кластер Kubernetes с базовым трубопроводом CI/CD на AWS
Архитектуры секретного управления: поиск баланса между безопасностью и сложностью
Обнаружение вредоносных запросов с помощью Keras & Tensorflow
LEGO Monolith - монолитное микросервисное доказательство концепции
Управление секретами с использованием хранилища hashicorp
Упаковка Pring Boot Applications для развертывания на Kubernetes
Необываемая инфраструктура и непрерывная доставка в облаке

SoundCloud

Сообщения в блоге

Как успешно передавать системы
Создание здоровой культуры по вызову
Предупреждение о SLO, такими как профессионалы
Развертывание рук с канарейкой
Прометей достиг совершеннолетия-размышление о разработке проекта с открытым исходным кодом
Прометей: мониторинг на SoundCloud
Что я узнал за год как стажер SRE
Тесты под увеличительными объективами

Spotify

Сообщения в блоге

Мэтт Кларк: старший инженер по инфраструктуре бэкэнд
Проектирование лучшего опыта Kubernetes для разработчиков
Techbytes: Что отрасль пропускает в инцидентах и что вы можете сделать
Автоматизированная инфраструктура реагирования на инциденты в GCP

Видео

Трассирование, быстрое и медленное: копаться и улучшать производительность веб -сервиса

Squarespace

Сообщения в блоге

Под капотом: обеспечение надежности сайта

Видео

Проталкивая трение
Как сделать, когда все уже в огне
Тема исследования: внедрение SLO для нового сервиса
Создание культуры обзора кода

Переполнение стека

Сообщения в блоге

“This should never happen. If it does, call the developers.”
Infrastructure as code: Create and configure infrastructure elements in seconds
Fulfilling the promise of CI/CD
A deeper dive into our May 2019 security incident
Guest Post - Failing over without falling over
How We Built Our Blog
Stack Overflow Frees Up Engineering Time with Netlify

Видео

Low Context DevOps: Improving SRE Team Culture through Defaults, Documentation, and Discipline

Strava

Blog Posts

Scaling Club Leaderboard Infrastructure for Millions of Users
Distributed Tracing at Strava

Полоса

Blog Posts

Fast and flexible observability with canonical log lines
Fast builds, secure builds. Choose two.
Introducing Veneur: high performance and global aggregation for Datadog

Видео

How Stripe Invests in Technical Infrastructure
The AWS Billing Machine and Optimizing Cloud Costs

Цель

Blog Posts

Ɔhaos Ǝnginǝǝring @ Target - Part 2
Ɔhaos Ǝnginǝǝring @ Target - Part 1
GoAlert - Your Future Open Source, On-Call Notification Product

Teads

Blog Posts

Scaling your on-duty team

Tinder

Blog Posts

The Ultimate Load Test
How We Improved Our Performance Using ElasticSearch Plugins: Part 1
How We Improved Our Performance Using ElasticSearch Plugins: Part 2
Tinder's move to Kubernetes

Tokopedia

Blog Posts

Benefits of benchmarking with Go
Simulating Customized Chaos in Golang using Toxiproxy
How Tokopedia Rank Millions of Products in Search Page

Trivago

Blog Posts

How To Get Fooled By Metrics

Твилио

Blog Posts

Twilio SRE Gameday Template

Twitter

Blog Posts

Logging at Twitter: Updated
Deleting data distributed throughout your microservices architecture
Deterministic Aperture: A distributed, load balancing algorithm
MetricsDB: TimeSeries Database for storing metrics at Twitter
The Infrastructure Behind Twitter: Scale
The infrastructure behind Twitter: efficiency and optimization

Uber

Blog Posts

Founding Uber SRE
Disaster Recovery for Multi-Region Kafka at Uber
Engineering Failover Handling in Uber's Mobile Networking Infrastructure
Optimizing Observability with Jaeger, M3, and XYS at Uber

Видео

A Tale of Two Rotations: Building a Humane & Effective On-Call
Testing in Production at Scale
A History of SRE at Uber' with Rick Boone of Uber

Удеми

Blog Posts

Blameless Incident Reviews at Udemy
How Udemy does Build Engineering

upGrad

Blog Posts

Web Performance and Related Stories — upgrad.com
Beginner's guide to web analytics
iOS Continuous Deployment with Bitbucket, Jenkins and Fastlane at UpGrad

VGW

Blog Posts

The SRE Incident Response game

Видео

Level Up Your Incident Response With Gameplay

Фонд Викимедии

Видео

Testing Encyclopedias in Production
What Happens When You Type en.wikipedia.org?

Викс

Blog Posts

How We Improved Website Performance by Evolving Our Infrastructure
Wix Inbox Journey: 3 Approaches for Zero Downtime Database Migration
Moving Velo to Multiple Container Sites: The Why, The How and The Lessons Learned
Making Order in CI/CD Mess

Yelp

Blog Posts

The process: Implementing Yelp's failover strategy

Видео

Yelp - What I Wish I Knew before Going On-Call

Zalando

Blog Posts

Tracing SRE's journey in Zalando - Part I
Tracing SRE's journey in Zalando - Part II
Tracing SRE's journey in Zalando - Part III

Zerodha

Blog Posts

Infrastructure monitoring with Prometheus at Zerodha
Logging at Zerodha

Zomato

Blog Posts

Huddle Diaries – DevOps and Data Platform

SRECon Mix Playlist

Видео

Adobe - The Good, the Bad and the Ugly: The 3 Learnings of an SRE
Amdocs - SREs at Telecom and Media Industry: Bridging between Legacy and Cloud Native Apps
Amazon - Confessions of a Systems Engineer: Learning from My 20+ Years of Failure
Alaska Airlines - Capacity Prediction in External Services
BuzzFeed - Optimizing for Learning
BT - Challenges of Starting an SRE Team from Scratch in an Enterprise
Cloudflare - Support Operations Engineering: Scaling Developer Products to the Millions
Cloudlock - My Life as a Solo SRE
Hudson River Trading - Fixing On-Call When Nobody Thinks It's (Too) Broken
IBM - Why Automating Everything Adds to Your Toil
Genesys - The Smallest Possible SRE Team
Grafana Labs - SRE in the Third Age
Kenna Security - Building a Scalable Monitoring System
Lightstep - Building Service Ownership Using Documentation, Telemetry, and a Chance to Make Things Better
MessageBird - Autopsy of a MySQL Automation Disaster
Netlify - Perks and Pitfalls of Building a Remote First Team
ReactiveOps - Zero to SRE
Salesforce - Incident Response in Unfamiliar Sociotechnical Systems: One Incident Commander's Challenges Supporting Inter-organizational Anomaly Response in the Age of COVID-19
Sprax - From Nothing to SRE: Practical Guidance on Implementing SRE in Smaller Organisations
The New York Times - SRE by Influence, Not Authority: How the New York Times Prepares for Large-Scale Events
Twitter - Hiring Great SREs
United States Digital Service - Lessons Learned in Black Box Monitoring 25,000 Endpoints and Proving the SRE Team's Value
Unity Technologies - Being Reasonable about SRE
Udemy - How to Do SRE When You Have No SRE
Vanguard - Cloudy with a Chance of Chaos
WeWork - Learning from Learnings: Anatomy of Three Incidents
Zendesk - Latency and Availability Error Budgets Done Right at Scale

Ресурсы

Книги

Новый! Enterprise Roadmap to SRE
Building Secure & Reliable Systems | Read free online version hosted by Google
Site Reliability Engineering | Read free online version hosted by Google
The Site Reliability Workbook from Google | Read free online version hosted by Google
Training Site Reliability Engineers | Read free online version hosted by Google
97 Things Every SRE Should Know | Complimentary Copy from Nginx
SLO Adoption and Usage in Site Reliability Engineering
Practical Site Reliability Engineering
Implementing Service Level Objectives
Chaos Engineering
Seeking SRE
Security Chaos Engineering
Chaos Engineering Observability
Database Reliability Engineering
What Is SRE?
Database Reliability Engineering: What, Why, and How?
Observability Engineering
Chaos Engineering: Site reliability through controlled disruption
Incident Metrics in SRE | Read free online version hosted by Google
Engineering Reliable Mobile Applications
Monitoring the SRE Golden Signals
Site Reliability Engineering: Philosophies, habits, and tools for SRE success | Портативная версия
97 Things Every Cloud Engineer Should Know
Real-World SRE
Hands-on Site Reliability Engineering