Как они sre

Введение
Как они определяют то, как они-это кураторский хранилище знаний о лучших практиках, инструментах, методах и культуре, применяемых ведущими технологиями или техническими организациями.
Многочисленные организации часто делятся своим пониманием и опытом, охватывающими лучшие практики, инструменты и методы, которые формируют их инженерную культуру. Они делают это через различные общедоступные платформы, такие как инженерные блоги, конференции и встречи. Этот репозиторий собирает и представляет контент, собранной из этих источников.
Темы
- Инженерность надежности сайта
- Наем и строительство команд SRE
- Культура SRE
- DevOps
- Мониторинг и наблюдение
- Предупреждение
- Ответ инцидента и посмертная
- По вызову
- Тестирование в производстве
- Хаос Инжиниринг
- Автоматизация
- Производительность
- Платформа Инжиниринг
Организации
Достижения
Сообщения в блоге
- Введите скотобую - здание
- Масштабирование производства по всему миру-обслуживание сетки подтяжки лица (часть-1)
- Масштабирование производства в глобальном масштабе - Решение проблем наблюдения для разработчиков (часть 2)
- Нагрузочное тестирование kubernetes: построение структуры (часть-1)
- Нагрузочное тестирование Kubernetes: разрешение узких мест и повышение производительности (часть 2)
Airbnb
Сообщения в блоге
- Автоматическое управление инцидентами через Slack
- Обнаружение уязвимостей с Vulnure
- Оповещение рамки в Airbnb
- Когда облако темнеет - как отключение Amazon повлияло на Airbnb
- Интеллектуальная платформа автоматизации: расширение прав и возможностей разговорного ИИ и за его пределами в Airbnb
- Управление секретом производства в Airbnb
- Автоматизация защиты данных в масштабе, часть 1
- Автоматизация защиты данных в масштабе, часть 2
- Автоматизация защиты данных в масштабе, часть 3
- Динамическое масштабирование кластера Kubernetes в Airbnb
Алголия
Сообщения в блоге
- 30 мая инцидент SSL
- Путешествие в SRE
- CI/CDAY 2024: Что делает хорошую платформу CI/CD?
Alibaba Cloud
Сообщения в блоге
- Почему ведущие интернет -компании выбирают SRE по сравнению с традиционным O & M?
- Архитектура и практика платформы в реальном времени Билибили
Асана
Сообщения в блоге
- Как Асана использует асану: ответ на инцидент безопасности
- Как выпускает стабильные веб -приложения Asana
- Анализ недавнего времени простоя и того, что мы делаем, чтобы предотвратить будущие инциденты
- Среда разработчика: достижение надежности, сделав ее быстро
- Три тактики безопасности для каждого ИТ -лидера, чтобы рассмотреть эту осень
Асос
Сообщения в блоге
- Играя в игру без обвинений
- День из жизни… кошек (руководитель инженерии надежности)
- Путешествие AKS Performance: Часть 1 - Определение размера все
- AKS Performance Jourder
- Кибербезопасность @ asos.com
- Операции безопасности 24x7
- Навыки, которые мы ищем в реакции инцидента в кибербезопасности
Atlassian
Сообщения в блоге
- Лучшие методы управления изменениями в эпоху DevOps
- Автоматизированное тестирование: 5 уроков из команды Atlassian Kubernetes по тестированию инфраструктуры в качестве кода
- Как экспортировать события Kubernetes для наблюдения и предупреждения
- Инцидент посмертный шаблон
Backmarket
Сообщения в блоге
- Как Back Market Sres подготовился к Черной пятнице
Байду
Видео
- Обнаружение аномалий на золотых сигналах
- NetRadar: мониторинг сети обработки данных DataCenter
- Пусть хаос начнется - Инженерная инженерия Хаоса встречает кибербезопасность
Базовый лагерь
Сообщения в блоге
- Внутри кода Red: сетевое издание
- Три отключения базового лагеря. Одна неделя. Что случилось?
- Basecamp 2 и Basecamp 3 отчет о поиске отключения поиска
- Сокращение эскалаций инцидентов в Basecamp
Книги
Блумберг
Видео
- Планирование пропускной способности и повышение производительности с помощью справочной выборки страниц
- Почему SRES не может позволить себе не заниматься хаосом
- Отслеживание распределенных систем в реальном времени
- История Bloomberg: строительство команд SRE в «неизмеримой» организации
- Видимость в лесозаготовителях (и других низкоуровневых услугах) - ищите деревья из леса
Booking.com
Сообщения в блоге
- Как команды надежности и продуктов сотрудничают на Booking.com
- Инциденты, исправления и на следующий день после
- Устранение неполадок: путешествие в неизвестное
Видео
- SLO для данных интенсивных данных
- Преимущества прохождения менее пройденной дороги с инфраструктурой контейнеров
Капитал один
Сообщения в блоге
- Автоматизируйте мониторинг приложений с помощью Slack
- Автоматизируйте инфраструктуру AWS с Boto 3: проверка здоровья AWS
- Активно-активная архитектура базы данных общего нет
- 3 R SRES: устойчивость, восстановление и надежность
- 5 шагов к подготовке хаоса вашего приложения
- 4 сценария в реальном мире, которые читаются как инженерные эксперименты в хаосе
- Охватите хаос ...
- 3 уроки, извлеченные из внедрения инженерии Chaos на Enterprise
- Глубокое погружение в бесшовное синее/зеленое развертывание с использованием aws Codedeploy
- Защитные контейнеры Docker требуют безопасных приложений
- 4 шага для сочетания облака и DevOps для повышения устойчивости
- Приложения готового контейнера с двенадцатифакторным приложением и архитектурой микросервисов
- Развертывание с уверенностью - минимизировать риск, максимизировать устойчивость с помощью канарейских развертываний на AWS
- Архитирование для устойчивости
- Непрерывный хаос - внедрение инженерии хаоса в практики DevOps
- Мон-эфистое, часть 1: метрики
Основные инциденты и аналитические отчеты
- Информация о кибер -инциденте Capital One
- Тематическое исследование взлома данных Capital One
Видео
- Банковское дело о непрерывной доставке - Capital One
- Непрерывный хаос в DevOps - Capital One
- DevOps в Capital One: сосредоточение внимания на трубопроводе и измерениях
- Автоматизация управления оперативным здоровьем облачных учетных записей в масштабе
Coinbase
Сообщения в блоге
- Закрытый трубопровод Coinbase Coinbase
Дайнн
Сообщения в блоге
ДБ
Сообщения в блоге
- Представление на конференции Ithome SRE: наше путешествие по трансформации DBS SRE до сих пор
- Разоблачение семи самых популярных мифов о надежности сайта
- Как использовать SRE для развития безупречной культуры на рабочем месте
- Инженерность надежности сайта в DBS Bank
- Автоматизация управления конфигурацией в масштабе
- Как DBS развеял мифы о инженерии хаоса
- Двойной, двойной труд и неприятности
Видео
- Sreecon Congsations Asia/Pacific с Koon Seng Lim, DBS
Глубокий
Сообщения в блоге
- Redis без дисков репликации: что, как, почему и оговорки
- Как настроить хранилище с Kubernetes
- Развертывание развертывания с нулем простоя в Kubernetes
Мечта11
Сообщения в блоге
- Развертывание в масштабе: история, стоящая за мечтой 11-го сине-зеленого развертывания «OneClick».
- Повышение безопасности и доверия с помощью AWS WAFV2
- Уроки, извлеченные из запуска GraphQL в масштабе
- Разорвать цепи, Спасите Конг?
- Поиск заказа в хаосе: как мы автоматизировали тестирование производительности с крутящим моментом
- Поддержание гипер-москорочных выпусков на Dream11
- Масштабировать или масштабировать? Вот как мы масштабируем на Dream11
- Аналитика, оповещение и обнаружение аномалий в реальном времени в реальном времени
Dropbox
Сообщения в блоге
- Dropbox Engineering Framework - инженер по надежности (SRE)
- Атлас: наше путешествие от монолита Python на управляемую платформу
- Приложения сервера мониторинга с вихрями
- Афина: наша автоматизированная система управления здравоохранением
- Заинтересованы в том, чтобы стать инженером по надежности сайта?
Видео
- Проблемы обнаружения услуг в масштабе
eBay
Сообщения в блоге
- Устойчивость и аварийное восстановление с кафкой
- SRE CASTER: Выпуск не-HEAP JVM вне вопроса
- Примерное исследование SRE: таинственный дисбаланс движения трафика
- Нулевое время простоя, мгновенное развертывание и откат
- Как уведомление eBay использовала инъекцию неисправности по -новому
Видео
Эпические игры
Видео
- AWS Re: Invent 2018: Epic Games использует AWS, чтобы доставить Fortnite 200 миллионам игроков
Etsy
Сообщения в блоге
- Улучшение опыта развертывания десятилетнего заявления
- Как Etsy подготовилась к историческим объемам праздничного трафика в 2020 году
- Ваш мозг на прогрессе
- Руководство по облегчению облегчения Etsy для безупречных посмерти
- Opsweekly: измерение опыта по вызову с классификацией оповещения
- Демистификация отключений сайта
- Безупречные посмерти и справедливая культура
- Измерить что -нибудь, измерить все
Видео
- Скорость 09: Джон Аллеппау и Пол Хаммонд, «10+ развертывает PE
- Мигрируя монолит в облако
Expedia
Сообщения в блоге
- Автоматизация стандартов производительности
- Политика бюджета ошибок - Часть 1 - Принятие в Expedia Group
- Политика бюджета ошибок - Часть 2 - практика в Expedia Group
- Использование впрыскивания неисправностей для повышения надежности нашей новой платформы выполнения платформы выполнения
- Учиться на инцидентах в Expedia Group
- Улучшение опыта загрузки домашней страницы VRBO
- Устранение неполадок 502 ошибок: контрольный список ECS
- Начало работы с Elasticsearch
- Все о проблемах ISTIO-Proxy 5xx
- Автоскалирование в Kubernetes: почему горизонтальный POD Autoscaler не работает для меня?
- Как сохранить сбалансированные развертывания Kubernetes в нескольких зонах
- Ваши показатели задержки Dropwizard вводит вас в заблуждение?
- Стоимость надежности 100%
- Создание мониторинга панелей мониторинга
- Использование Bash для DevOps
Быстро
Видео
- Управление SRE & Products: Как повысить уровень вашей команды (и карьеры!), Думая как менеджер по продукту
- Устойчиво инженерия миф
G-Research
Сообщения в блоге
- Наше путешествие в G-Research
- Путешествие в SRE продолжается
- Meta Cache OpentsDB-компромиссы для производительности
Getaround
Сообщения в блоге
- Как мы справляемся с инцидентами в Getaround
- Эволюция нашего непрерывного процесса доставки
GitHub
Сообщения в блоге
- Как мы улучшили доступность за счет итеративного упрощения
- Как мы улучшили обработку push на GitHub
- Как GitHub использует очередь слияния, чтобы отправлять сотни изменений каждый день
- Исправление уязвимостей безопасности с помощью ИИ
- Программа инженерных фундаментов GitHub: как мы обеспечиваем доступность, безопасность и доступность
- Как GitHub использует действия и действия GitHub, более крупные бегуны для создания и тестирования github.com
- Путешествие лаборатории безопасности GitHub, чтобы раскрыть 500 CVE в проектах с открытым исходным кодом
- Команда CodeQL использует ИИ для обнаружения уязвимости в коде в коде
- Решение о последних проблемах доступности GitHub
- Создание управления и повторного использования в масштабах всей организации для CI/CD и автоматизации с помощью GitHub Actions
- Включение развертывания филиалов с помощью вопросов с действиями GitHub
- Использование Chatops, чтобы помочь инженерам по вызову действий
- Разделение реляционных баз данных GitHub для обработки масштаба
- Увеличение счастья разработчика с помощью сканирования кода GitHub
- Почему (и как) GitHub принимает OpenElemetry
- Улучшение крупной производительности Monorepo на GitHub
- Надежность развертывания на GitHub
- Улучшение того, как мы развертываем GitHub
- Строительство культуры по вызову в GitHub
- Уменьшение словных сборки в 18x
- Развивающаяся роль операций в DevOps
- Начало работы с автоматизацией DevOps
- MySQL высокая доступность на GitHub
Основные инциденты и аналитические отчеты
- Отчет о доступности GitHub: август 2024 г.
- Отчет о доступности GitHub: июль 2024 г.
- Отчет о доступности GitHub: июнь 2024 г.
- Отчет о доступности GitHub: май 2024
- Отчет о доступности GitHub: апрель 2024 г.
- Отчет о доступности GitHub: март 2024 г.
- Отчет о доступности GitHub: февраль 2024 г.
- Отчет о доступности GitHub: январь 2024 г.
- Отчет о доступности GitHub: декабрь 2023 г.
- Отчет о доступности GitHub: ноябрь 2023 г.
- Отчет о доступности GitHub: октябрь 2023 г.
- Отчет о доступности GitHub: сентябрь 2023 г.
- Отчет о доступности GitHub: август 2023 г.
- Отчет о доступности GitHub: июль 2023 г.
- Отчет о доступности GitHub: июнь 2023 г.
- Отчет о доступности GitHub: май 2023 г.
- Отчет о доступности GitHub: апрель 2023 г.
- Отчет о доступности GitHub: март 2023 г.
- Отчет о доступности GitHub: февраль 2023 г.
- Отчет о доступности GitHub: январь 2023 г.
- Отчет о доступности GitHub: декабрь 2022 г.
- Отчет о доступности GitHub: ноябрь 2022 г.
- Отчет о доступности GitHub: октябрь 2022 г.
- Отчет о доступности GitHub: сентябрь 2022 г.
- Отчет о доступности GitHub: август 2022 г.
- Отчет о доступности GitHub: июль 2022 г.
- Отчет о доступности GitHub: июнь 2022 г.
- Отчет о доступности GitHub: май 2022 г.
- Отчет о доступности GitHub: апрель 2022 г.
- Отчет о доступности GitHub: март 2022 г.
- Отчет о доступности GitHub: февраль 2022 г.
- Отчет о доступности GitHub: январь 2022 г.
- Отчет о доступности GitHub: декабрь 2021 г.
- Отчет о доступности GitHub: ноябрь 2021 г.
- Отчет о доступности GitHub: октябрь 2021 г.
- Отчет о доступности GitHub: сентябрь 2021 г.
- Отчет о доступности GitHub: август 2021 г.
- Отчет о доступности GitHub: июль 2021 г.
- Отчет о доступности GitHub: июнь 2021 г.
- Отчет о доступности GitHub: май 2021 г.
- Отчет о доступности GitHub: апрель 2021 г.
- Отчет о доступности GitHub: март 2021 г.
- Отчет о доступности GitHub: февраль 2021 г.
- Отчет о доступности GitHub: январь 2021 г.
- Отчет о доступности GitHub: декабрь 2020 года
- Отчет о доступности GitHub: ноябрь 2020 г.
- Отчет о доступности GitHub: август 2020 г.
- Отчет о доступности GitHub: июль 2020 г.
- Представление отчета о доступности GitHub
- Февральские сбои за обслуживание после инцидента анализа
- 21 октября пост-инцидент анализ
- 28 февраля отчет о инциденте DDOS
- Отчет об инциденте: непреднамеренное раскрытие частного хранилища
Видео
Гитлаб
Сообщения в блоге
- Этот SRE попытался развернуть изменение конфигурации Haproxy. Вы не поверите, что произошло дальше ...
- Моя неделя затеняна инженера по надежности сайта Gitlab
- Обновление: уроки Elasticsearch, извлеченные для расширенного глобального поиска
- Уроки в итерации от новой команды в инфраструктуре
- Как мы оптимизировали инфраструктуру, тратясь в Gitlab
- Как мы масштабировали асинхронную обработку рабочей нагрузки на gitlab.com с помощью sidekiq
- Inside Gitlab: как мы выпускаем программные патчи
- Что отслеживание пропавших TCP Keepalives научило меня о Docker, Golang и Gitlab
- Как мы использовали отложенную репликацию для аварийного восстановления с PostgreSQL
Gocardless
Сообщения в блоге
- Развертывание программного обеспечения в Gocardless: открытые источники нашего учебника «Начало работы»
- Как мы сжимаем пабы/подразделением и многое другое, экономя груз денег
- Без страха миграции PostgreSQL для рельсов
- Наблюдаемость в Gocardless: рассказ об улучшении производительности API
- Отладка планировщика запросов postgresql
- Постгресс -миграции с нулевым временем - жесткие части
- В поисках производительности - как мы сбрыгнули 200 мс с каждого запроса поста
Основные инциденты и аналитические отчеты
- Обзор инцидентов: отключение обслуживания 25 октября 2020 года, истечение срока действия Vault TLS
- Обзор инцидентов: отключение API и на панели на панели. 10 октября 2017 года
Годадди
Сообщения в блоге
- Kubernetes Загруженные развертывания
- Kubernetes Внешние секреты
- Kubernetes - Практическое введение для разработчиков приложений
- Интуитивно понятный клиент Node.js для API Kubernetes
Годжек
Сообщения в блоге
- Представляем Skynet: инфраструктура как код для Gojek
- Масштабирование нашей службы геоипрык для 10-кратной нагрузки
- Почему мы клянусь RCA
- Как мы обновляем Kubernetes на GKE
- Как мы контролируем воздушный поток Apache в производстве
Goldman Sachs
Сообщения в блоге
- SECDB ОБРАЗОВАНИЕ Путешествие
- Хаос проверяет приложение на AWS
- Прогнозирующие отключения емкости с использованием машинного обучения для устойчивости применения
- Обеспечение доступности 99,9% и времени отклика на субсекунду с мультиплексами Sybase IQ с помощью HAPROXY
- Строительство многорегионной устойчивости с помощью Amazon RDS и Amazon Aurora
- Включение очень доступных кластеров Trino в Goldman Sachs
- Наблюдаемость в масштабе
- Инфраструктура и шаблон командной цепочки
- Мобильный CICD с macOS EC2
- Объявление Catchit - Secret Scanner исходного кода
- Строительные платформы для разработки данных
Google
Сообщения в блоге
- Ускорение ответа на инцидент с использованием генеративного ИИ
- Ловушки и паттерны в управлении зависимостями микросервиса
- SRE практики и процессы
- Надежность сайта Google с использованием GO
- Три месяца, 30-кратный спрос: как мы масштабировали Google Meet во время Covid-19
- SRE Classroom: распределенный Pubsub
- Как организованы команды SRE и как начать
Видео
- В чем разница между DevOps и SRE? С Сет Варго и Лиз Фонг-Джонс из Google
- Бюджеты риска и ошибок с Сет Варго и Лиз Фонг-Джонс из Google
- Прагматическая автоматизация 'с Максом Луббе из GCP
- Должен смотреть! - Google SRE YouTube Playlist
- Цели уровня Squish: как SRE может помочь согласовать техническую работу с преимуществом пользователя
- Реализация распределенного консенсуса
- То, что я стремлюсь быть
- SRE Classroom, или, как разработать надежную распределенную систему за 3 часа
- Zero Touch Prod: к более безопасной и безопасной производственной среде
- Все наши идеи ML плохие (и мы должны чувствовать себя плохо)
- Карта не территория: как SLO ведут нас с пути, и что мы можем с этим сделать
- Развертывание лучших практик обучения SRE для производства: как мы SRE's нашли нашу образовательную программу SRE
- BigTable: Путешествие от бинарного до обслуживания и уроки, извлеченные по пути
- Практическая инструментария для наблюдения
- Что такое ML OPS: решения и лучшие практики для DevOps производственных услуг ML
- Единая отчетность по надежности обслуживания
- Как обменять использование сервера и задержку хвоста
- Сохранение равновесия: демистифицировано в интернет-масштабе.
- От черного ящика до известного количества: как создать предсказуемые, надежные сервисы на основе ML
- Осознанность в SRE: мониторинг и предупреждение о себе
- Прагматическая автоматизация
- Сублиевое масштабирование на практике: проект 1K SRE
- Стратегии для редактирования данных производства
- Проклятие автономии и как его управлять
- Масштабирование организаций SRE: путешествие от 1 до многих команд
- SRE Classroom - Как разработать распределенную систему за 3 часа
- Использование PRD и поездок пользователей для разработки удобных инструментов
- Как Google SRE и разработчики работают вместе
- SRECON21 - Эксперименты для SRE
Схватить
Сообщения в блоге
- Наше путешествие к непрерывной доставке в Grab (часть 1)
- Наше путешествие к непрерывной доставке в Grab (часть 2)
- Проектирование устойчивых систем: автоматические выключатели или повторения? (Часть 1)
- Проектирование устойчивых систем: автоматические выключатели или повторения? (Часть 2)
- Проектирование устойчивых систем за пределами повторных рисунков (часть 3): Архитектурные шаблоны и инженерия хаоса
- Орчесструирование хаоса с помощью платформы экспериментов Grab
- Как мы разработали квоты микросервиса для предотвращения злоупотребления ресурсами
- Как мы масштабировали наш кеш и хорошо выспались
Грамматика
Сообщения в блоге
- Масштабирование инфраструктуры AWS для поддержки нескольких регионов
- Операции безопасности в среде AWS
Смак
Сообщения в блоге
- Цели уровня обслуживания для душевного спокойствия
- Отладка Sidekiq ядовитых таблеток
Halodoc
Сообщения в блоге
- Инженерность надежности сайта для нативных мобильных приложений
Хероку
Сообщения в блоге
- Приключения Рендеву в новой архитектуре Героку
- Ответ об инциденте в Хероку
IBM
Сообщения в блоге
- Что такое инженерная инженерия сайта (SRE)?
- Инструменты и решения AIOPS
Действительно
Сообщения в блоге
- Действительно SRE: внутренний взгляд
- Быть достаточно надежным
- Автоматизация процесса выпуска действительно
- Lloth, инструмент для индукции сбоев сети с Preetha Appan of Eily.com
Видео
- Мы еще становились лучше? Прогресс в сторону более безопасных операций
Действительно
Сообщения в блоге
- SRE Playbook - Практический гид
Ханская академия
Сообщения в блоге
- Как Ханская академия успешно справилась с 2,5 -кратным трафиком в неделю
- Развитие нашей контент -инфраструктуры
LinkedIn
Сообщения в блоге
- Переосмысление прогнозов емкости участка с анализатором емкости
- Понимание команды SRE в LinkedIn
- Наем SRES в LinkedIn
- Обновление с открытым исходным кодом: школа SRE
- Исправление регрессий производительности файловых систем Linux
- Производственные тестирование с темными канарскими
- Умные оповещения в Thirdeye, платформе мониторинга LinkedIn в реальном времени
- Iris Mobile: с открытым исходным кодом, мобильный интерфейс для управления инцидентами
- LinkedOut: структура впрыска на уровне запроса
- Устранение труда с полностью автоматизированным нагрузочным тестированием
- Макияж успешных географически распределенных команд SRE: Часть 1
- Макияж успешных географически распределенных команд SRE: часть 2
- Звезда проекта*: оптимизация нашего процесса вызовов
- Автоматизация вашего OnCall: открытый источник Fossor и ASCII ETCH
- Инженерность устойчивости в LinkedIn с Project Waterbear
- Наем SRES на LinkedIn, 2017
- Открытый источник ириса и онколл
- Создание культуры SRE в LinkedIn
- Неудача не вариант
- Mttd и Mttr - это ключ
- То, что измеряется, исправляется
Видео
- Расширение команды по надежности сайта в LinkedIn: наем сложно - Грег Леффлер
- 9 лет неудачи: как гоночные дрянные автомобили сделали меня лучше
- Вертировка шторма: как ранние предупреждения спасают ферму
- Неконференция: нерешенные проблемы в SRE
- Ведущий без управления: стать техническим лидером SRE
- Почему (мой) мониторинг отстой?
- Прогнозирование движения и инфраструктура тестирования стресса
- Коллективная осознанность для лучших решений в SRE
- TCP - архитектура, усовершенствования и настройка
- Более 600 миллионов участников и сотни микросслуги: как мы масштабировали нашу систему мониторинга, чтобы не отставать
- Понимание показателей бизнеса может сделать вас лучшим SRE
- Код-желтый: помогая операциям самым тяжелым командам Smart Way
- Различия в реализации SRE между компаниями
Инструменты
Логги
Сообщения в блоге
- Модель менеджера релиза
- SRE Teams #8: loggi
Loveholidays
Сообщения в блоге
- Динамическая маршрутизация оповещения с Прометеем и Алертмангером
- Сделать LoveHolidays на 18% быстрее с http/3
- Обеспечение наилучшей практики инфраструктуры самообслуживания с Terraform, Atlantis и Policy в качестве кода
- 5 принципов, которые помогли масштабировать Loveholidays
- Реальное время быстро вводит с Графана Локи менее чем за 1 доллар в день
Маккуори
Сообщения в блоге
- Наше путешествие Devsecops с Golang
- Конфигурация трубопровода в качестве кода с котлином
- DevOps и сегрегация обязанностей
- Macquarie обнимает DevOps
- Масштабирование платформы Kubernetes по всему предприятию
Материал
Сообщения в блоге
- Мониторинг облачных среда в масштабе с Прометеем и Таносом
- Как мы используем ленивцы для мониторинга SLO и оповещения с Prometheus
Meituan (美团)
Сообщения в блоге
- Развитие и практика SRE в облаке (云端的 SRE 发展与实践)
Меркари
Сообщения в блоге
- Кто смотрит на сторожи? Следить за нашими системами мониторинга
- Что команда MicroServices SRE делает как евангелисты SRE
- Каково работать как встроенные микросервисы SRE
- Команда Merpay SRE: прошлое и будущее
- Встроенный SRE в Mercari
- Чего хочет достичь команда SRE с командой разработчиков
- Devsecops: Что это такое и почему он набирает обороты в отрасли?
- Как мы делимся навыками устранения неполадок
- Datadog Dashboard в масштабе с терраформой
Мета
Сообщения в блоге
- Использование ИИ для эффективного ответа на инцидент
- Улучшение рабочих процессов Meta SLO с помощью аннотаций данных
- Slick: принятие SLO для повышения надежности
- Более подробная информация о отключении 4 октября
- Обновление о отключении 4 октября
Видео
- Подход к обслуживанию клиентов к SRE
- Как (не) масштабировать проект: посмертный
- Выпуск крупнейшего в мире участка Python каждые 7 минут
- Использование ML для автоматизации категоризации динамической ошибки
Microsoft
Видео
- SLI & Relithy Deep Dive 'с Дэвидом Н. Бланком-Эдлманом из Microsoft
- Иронии автоматизации: комедия в трех частях »с Таннером Лундом из Microsoft
- Устойчивая разработка программного обеспечения и SRES
- Изучение человеческого фактора и командной культуры для улучшения усталости пейджера
- Приоритет доверия при создании приложений
- Строительство устойчивости: как узнать больше о инцидентах
- Сказка о двух посмертных средствах: взгляд на человеческий фактор
- Доступность - за пределами 9 -х годов
- Иронии автоматизации: комедия в трех частях
- OPS в без сервера
Миро
Сообщения в блоге
- Prometheus высокая доступность и стратегия устойчивости к разломам, долгосрочное хранение с Victoriametrics
- Управление сотнями серверов для тестирования нагрузки: автомассалирование, пользовательский мониторинг, культура DevOps
- Надежное тестирование нагрузки в отношении неожиданных нюансов
Монзо
Сообщения в блоге
- Автомаскарирование Monzo: как мы оптимизируем нашу платформу, чтобы быть как раз правильным размером
- Как мы развивались по вызову в Монзо
- Как мы реагируем на инциденты
- Как мы контролируем Монзо
Видео
- В конечном итоге последовательное обнаружение услуг
Инструменты
Netflix
Сообщения в блоге
- Достижение наблюдаемости в асинхронных рабочих процессах
- Строительство распределенной инфраструктуры трассировки Netflix
- Уроки от построения инструментов наблюдения в Netflix
- Эдгар: Решение загадков быстрее с наблюдением
- Telltale: мониторинг приложений Netflix упрощен
- Поддержание потоковой передачи клиентов - централизованная практика надежности сайта в Netflix
- Представление отправки
- Применение шаблонов Netflix DevOps в Windows
- Глава: платформа автоматизации хаоса
- Начало лавины
- Netflix Chaos Monkey обновлена
- Хаос Инжиниринг обновляется
- Автоматизированное испытание на сбой
- От хаоса до контроля - проверка устойчивости платформы обнаружения контента Netflix
- Представление Atlas: основная платформа телеметрии Netflix
- Подгонка: тестирование на инъекцию отказа
- Объявление Security Monkey - мониторинг и анализ конфигурации безопасности AWS
- Уроки Netflix извлечены из отключения AWS
- Scryer: Прогнозирующий двигатель Auto масштабирования Netflix
Основные инциденты и аналитические отчеты
- Последующая сумма 22 октября 2012 г. деградация AWS
Видео
- AWS Re: Invent 2019: день в жизни инженера Netflix (NFX202)
- Когда /bin /sh атаки: пересмотреть «Автоматизировать все вещи»
- Как дела идут правильно? Больше изучать инциденты
- Мониторинг и отслеживание @netflix потоковой инфраструктуры данных
- Реальный мониторинг производительности пользователя в масштабе Netflix - Martin Spier
- AWS Re: Invent 2017 - Нора Джонс описывает, почему нам нужно больше хаоса - инженерия хаоса, то есть
- AWS Re: Invent 2017: Выполнение хаоса в масштабе Netflix (DEV334)
- Netflix: многорегиональная устойчивость и Amazon Route 53
- Проектирование услуг для устойчивости: уроки Netflix
- South Bay SRE Meetup - команда Cloud Performance Netflix
- AWS Re: Invent 2017: день в жизни инженера Netflix III (ARC209)
- Как Netflix использует потоки кинезиса для мониторинга приложений и анализа миллиардов трафика
- Мастерский хаос - руководство Netflix по микросервисам
- AWS Re: Invent 2016: от устойчивости к повсеместному распространению - #netflixeverywhere Global Architecture (ARC204)
- Srecon 2016 - Netflix: 190 стран и 5 основных SRES
- От Sys Admin до Netflix SRE
- Инжиниринг и операции устойчивости приложений в Netflix с Hystrix
- Отказ впрыскивания в Netflix
- LISA13 - Как Netflix использует неспособность повысить устойчивость и максимизировать доступность
- Управление инцидентами на скорости Netflix
Подкасты
- Райан Китченс в обучении инцидентов в Netflix, роли SRE и социотехнических системах
Инструменты
Новая реликвия
Сообщения в блоге
- Определение современных программных ролей: SRES в New Relic
- 10 вещей, которые каждый должен знать о инженерии надежности сайта (SRE)
- Какие инструменты используют инженеры по надежности сайта?
- День из жизни нового реликвического SRE
- 7 привычек очень успешных инженеров по надежности сайта
- Принятие практики SRE
- Использование современной наблюдаемости для создания культуры, управляемой данными,
Нубанк
Сообщения в блоге
- Инженерное управление, случай непрерывного совершенствования
- Как мы справляемся с техническими инцидентами
- Как мы делаем вращение на вызове в Нубанке
- Как мы масштабируем нашу платформу данных эффективно и надежно
- Почему мы убили наш сквозной тестовой набор
- Автоматическая переподготовка для моделей машинного обучения: советы и извлеченные уроки
Openai
Сообщения в блоге
- 20 марта отключение Chatgpt: вот что случилось
- Openai SRE и масштабирование объяснили легко.
- Масштабирование Kubernetes до 2500 узлов
- Масштабирование Kubernetes до 7500 узлов
- Масштабирование инфраструктуры ИИ на OpenAI
PayPal
Сообщения в блоге
- Запускается: инцидент № 1234 (процесс инцидента нуждается в исправлении)
- Реализация наблюдаемости в сервисной сетке
- PostgreSQL в масштабе: схема базы данных изменяется без времени простоя
- Масштабирование GraphQL в PayPal
Видео
- Sreecon Conglingsations Asia/Pacific с Karthikeyan Selvaraj и Rajesh Ramachandran, Paypal
- SRE теперь против SRE: баланс между рефлексами и интуитивно понятными инстинктами в PayPal
- Обнаружение деградации и сбоев обслуживания в масштабе посредством распределенной обработки журнала
- Эксплуатация Elasticsearch с легкостью в масштабе
- Обеспечение надежности сайта с помощью контроля безопасности
Пикник
Сообщения в блоге
- Микрометр и современный стек наблюдения
- Мониторинг и наблюдение на пикнике
Pinterest
Сообщения в блоге
- Обеспечение высокой доступности рекламных потоковых услуг в реальном времени
- Повышение эффективности и сокращение времени выполнения с использованием оптимизации чтения S3
- Масштабирование Kubernetes с уверенностью в Pinterest
- Что мы узнали из инцидента с приложением для iOS OOMS
- Как мы разработали нашу систему непрерывной интеграции, чтобы быть более чем на 50% быстрее
- Упрощение веб -развертываний
- Обновление операционных метрик Pinterest
- Распределенная трассировка в Pinterest с новыми инструментами с открытым исходным кодом
- Автоматическое масштабирование Pinterest
Видео
- Построение действенного владения кодом
- Эволюция инструментов наблюдения в Pinterest
- Автоматизация обновлений ОС/платформы для владельцев услуг
Почтальон
Сообщения в блоге
- Узнайте, как ваши кластеры Kubernetes реагируют на неудачу, используя Gremlin и Grafana
Прези
Сообщения в блоге
- Как избежать глобального отключения - плавно мигрируя этикетки Daemonset
- В поисках скорости - отладка производительности Elasticsearch
- Prometheus в Prezi: замена 10 лет анти-паттернов
Красная шляпа
Сообщения в блоге
- От OPS до SRE: эволюция специальной команды OpenShift
- 5 Agile Practices Каждая команда SRE должна принять
- 7 лучших практик для написания операторов Kubernetes: перспектива SRE
Бунт игры
Сообщения в блоге
- Легенды трубопровода Runeterra CI/CD
- Стратегии работы в неопределенных системах
- Улучшение опыта разработчиков для операционных услуг
- Масштабируемость и нагрузка для доблести
- Использование Golang для разработки игр и операций
- Контролируемый хаос с тестированием на инъекцию неисправностей
- Вниз по кроличьей дыре мониторинга производительности
- Профилирование: случай пропавших миллисекундов
- Профилирование: реальный мир в лиге
- Профилирование: оптимизация
- Профилирование: измерение и анализ
- Запуск онлайн -услуг в Riot: часть I
- Запуск онлайн -услуг в Riot: Часть II
- Запуск онлайн -услуг в Riot: Часть III
- Запуск онлайн -сервисов в Riot: Часть III: Part Deux
- Запуск онлайн -услуг в Riot: Часть IV
- Запуск онлайн -услуг в Riot: Часть V
- Эволюция безопасности в бунте
- Запуск автоматического тестового конвейера для обновления клиента лиги
- Автоматизированное тестирование для League of Legends
Salesforce
Сообщения в блоге
- Глядя на плоскость управления Kubernetes для многоцелевого
- Оптимизация сети EKS для масштаба
- Узел с нулевым простоям в кластере Kubernetes Cluster
- Как, не почему: альтернатива пяти, что для посмертных
- Общий инжектор по боковой автоматике для Kubernetes
- Внедрение стратегии мониторинга для продуктов на основе микросервисов
- 10 шагов по разработке плана реагирования на инцидент, который вы на самом деле используете
- Наше путешествие в почти идеальный бревенчатый трубопровод
- Оптимизация производительности с веб -работниками
- Найдите минутку, чтобы переориентироваться
Шибстед СМИ
Сообщения в блоге
- Инжинирирование надежности для некоторых из 10 лучших сайтов в Скандинавии
Спирбд
Сообщения в блоге
- Обучение у инцидентов: получение Sidekiq, готового к получению миллиардов рабочих мест
- Свидетельство об использовании Pagerduty в Scribd
- Назначение обязанности пейджера разработчикам
Shopify
Сообщения в блоге
- Планирование устойчивости для мероприятий с высоким трафиком
- Планирование пропускной способности в масштабе
- Использование управления трафиком DNS для добавления устойчивости в услуги Shopify
- Четыре шага к созданию эффективных игровых тестов
- Внедрение Chatops в нашу процедуру управления инцидентами
- STATSD в Shopify
Видео
- Сетевой монитор: рассказ о признании пробела наблюдения
- Ожидайте неожиданного: подготовка команд SRE для ответа на новые неудачи
- Продвинутая математика салфетки: оценка эффективности системы по первым принципам
Ставки на небо и игры
Сообщения в блоге
- Это просто изменение мониторинга
- «Что самое худшее, что может произойти?»: Проработанный пример того, как мы справляемся с живыми инцидентами
- Поднимаясь от пепла
- Крушение! Хлопнуть! Пока! Практика идеально подходит
- Производительность влево и в центре
Пролечить
Сообщения в блоге
- Инцидент Слэка на 2-22-22
- Наблюдаемость инфраструктуры для изменения кривой расходов
- Отключение Slack 4 января 2021 года
- Ужасный, ужасный, без хорошего, очень плохой день в Slack
- Развертывается в Slack
- Театр стихийных бедствий: Процесс Slack для доступного хаоса
Видео
- Провиснуть на краю
- Что ломает наши системы: таксономия черных лебедей
Слалом сборка
Сообщения в блоге
- Как реализовать цели уровня обслуживания в новой реликвии APM
- Руководство для начинающих по DevOps: как войти в отрасль
- Действия GitHub: за пределами CI/CD
- Почему все тестовые автоматизации не работают на трубопроводе?
- Многочисленные формы инженерии надежности сайта
- Как построить надежный кластер Kubernetes с базовым трубопроводом CI/CD на AWS
- Архитектуры секретного управления: поиск баланса между безопасностью и сложностью
- Обнаружение вредоносных запросов с помощью Keras & Tensorflow
- LEGO Monolith - монолитное микросервисное доказательство концепции
- Управление секретами с использованием хранилища hashicorp
- Упаковка Pring Boot Applications для развертывания на Kubernetes
- Необываемая инфраструктура и непрерывная доставка в облаке
SoundCloud
Сообщения в блоге
- Как успешно передавать системы
- Создание здоровой культуры по вызову
- Предупреждение о SLO, такими как профессионалы
- Развертывание рук с канарейкой
- Прометей достиг совершеннолетия-размышление о разработке проекта с открытым исходным кодом
- Прометей: мониторинг на SoundCloud
- Что я узнал за год как стажер SRE
- Тесты под увеличительными объективами
Spotify
Сообщения в блоге
- Мэтт Кларк: старший инженер по инфраструктуре бэкэнд
- Проектирование лучшего опыта Kubernetes для разработчиков
- Techbytes: Что отрасль пропускает в инцидентах и что вы можете сделать
- Автоматизированная инфраструктура реагирования на инциденты в GCP
Видео
- Трассирование, быстрое и медленное: копаться и улучшать производительность веб -сервиса
Squarespace
Сообщения в блоге
- Под капотом: обеспечение надежности сайта
Видео
- Проталкивая трение
- Как сделать, когда все уже в огне
- Тема исследования: внедрение SLO для нового сервиса
- Создание культуры обзора кода
Переполнение стека
Сообщения в блоге
- “This should never happen. If it does, call the developers.”
- Infrastructure as code: Create and configure infrastructure elements in seconds
- Fulfilling the promise of CI/CD
- A deeper dive into our May 2019 security incident
- Guest Post - Failing over without falling over
- How We Built Our Blog
- Stack Overflow Frees Up Engineering Time with Netlify
Видео
- Low Context DevOps: Improving SRE Team Culture through Defaults, Documentation, and Discipline
Strava
Blog Posts
- Scaling Club Leaderboard Infrastructure for Millions of Users
- Distributed Tracing at Strava
Полоса
Blog Posts
- Fast and flexible observability with canonical log lines
- Fast builds, secure builds. Choose two.
- Introducing Veneur: high performance and global aggregation for Datadog
Видео
- How Stripe Invests in Technical Infrastructure
- The AWS Billing Machine and Optimizing Cloud Costs
Цель
Blog Posts
- Ɔhaos Ǝnginǝǝring @ Target - Part 2
- Ɔhaos Ǝnginǝǝring @ Target - Part 1
- GoAlert - Your Future Open Source, On-Call Notification Product
Teads
Blog Posts
- Scaling your on-duty team
Tinder
Blog Posts
- The Ultimate Load Test
- How We Improved Our Performance Using ElasticSearch Plugins: Part 1
- How We Improved Our Performance Using ElasticSearch Plugins: Part 2
- Tinder's move to Kubernetes
Tokopedia
Blog Posts
- Benefits of benchmarking with Go
- Simulating Customized Chaos in Golang using Toxiproxy
- How Tokopedia Rank Millions of Products in Search Page
Trivago
Blog Posts
- How To Get Fooled By Metrics
Твилио
Blog Posts
- Twilio SRE Gameday Template
Twitter
Blog Posts
- Logging at Twitter: Updated
- Deleting data distributed throughout your microservices architecture
- Deterministic Aperture: A distributed, load balancing algorithm
- MetricsDB: TimeSeries Database for storing metrics at Twitter
- The Infrastructure Behind Twitter: Scale
- The infrastructure behind Twitter: efficiency and optimization
Uber
Blog Posts
- Founding Uber SRE
- Disaster Recovery for Multi-Region Kafka at Uber
- Engineering Failover Handling in Uber's Mobile Networking Infrastructure
- Optimizing Observability with Jaeger, M3, and XYS at Uber
Видео
- A Tale of Two Rotations: Building a Humane & Effective On-Call
- Testing in Production at Scale
- A History of SRE at Uber' with Rick Boone of Uber
Удеми
Blog Posts
- Blameless Incident Reviews at Udemy
- How Udemy does Build Engineering
upGrad
Blog Posts
- Web Performance and Related Stories — upgrad.com
- Beginner's guide to web analytics
- iOS Continuous Deployment with Bitbucket, Jenkins and Fastlane at UpGrad
VGW
Blog Posts
- The SRE Incident Response game
Видео
- Level Up Your Incident Response With Gameplay
Фонд Викимедии
Видео
- Testing Encyclopedias in Production
- What Happens When You Type en.wikipedia.org?
Викс
Blog Posts
- How We Improved Website Performance by Evolving Our Infrastructure
- Wix Inbox Journey: 3 Approaches for Zero Downtime Database Migration
- Moving Velo to Multiple Container Sites: The Why, The How and The Lessons Learned
- Making Order in CI/CD Mess
Yelp
Blog Posts
- The process: Implementing Yelp's failover strategy
Видео
- Yelp - What I Wish I Knew before Going On-Call
Zalando
Blog Posts
- Tracing SRE's journey in Zalando - Part I
- Tracing SRE's journey in Zalando - Part II
- Tracing SRE's journey in Zalando - Part III
Zerodha
Blog Posts
- Infrastructure monitoring with Prometheus at Zerodha
- Logging at Zerodha
Zomato
Blog Posts
- Huddle Diaries – DevOps and Data Platform
SRECon Mix Playlist
Видео
- Adobe - The Good, the Bad and the Ugly: The 3 Learnings of an SRE
- Amdocs - SREs at Telecom and Media Industry: Bridging between Legacy and Cloud Native Apps
- Amazon - Confessions of a Systems Engineer: Learning from My 20+ Years of Failure
- Alaska Airlines - Capacity Prediction in External Services
- BuzzFeed - Optimizing for Learning
- BT - Challenges of Starting an SRE Team from Scratch in an Enterprise
- Cloudflare - Support Operations Engineering: Scaling Developer Products to the Millions
- Cloudlock - My Life as a Solo SRE
- Hudson River Trading - Fixing On-Call When Nobody Thinks It's (Too) Broken
- IBM - Why Automating Everything Adds to Your Toil
- Genesys - The Smallest Possible SRE Team
- Grafana Labs - SRE in the Third Age
- Kenna Security - Building a Scalable Monitoring System
- Lightstep - Building Service Ownership Using Documentation, Telemetry, and a Chance to Make Things Better
- MessageBird - Autopsy of a MySQL Automation Disaster
- Netlify - Perks and Pitfalls of Building a Remote First Team
- ReactiveOps - Zero to SRE
- Salesforce - Incident Response in Unfamiliar Sociotechnical Systems: One Incident Commander's Challenges Supporting Inter-organizational Anomaly Response in the Age of COVID-19
- Sprax - From Nothing to SRE: Practical Guidance on Implementing SRE in Smaller Organisations
- The New York Times - SRE by Influence, Not Authority: How the New York Times Prepares for Large-Scale Events
- Twitter - Hiring Great SREs
- United States Digital Service - Lessons Learned in Black Box Monitoring 25,000 Endpoints and Proving the SRE Team's Value
- Unity Technologies - Being Reasonable about SRE
- Udemy - How to Do SRE When You Have No SRE
- Vanguard - Cloudy with a Chance of Chaos
- WeWork - Learning from Learnings: Anatomy of Three Incidents
- Zendesk - Latency and Availability Error Budgets Done Right at Scale
Ресурсы
Книги
- Новый! Enterprise Roadmap to SRE
- Building Secure & Reliable Systems | Read free online version hosted by Google
- Site Reliability Engineering | Read free online version hosted by Google
- The Site Reliability Workbook from Google | Read free online version hosted by Google
- Training Site Reliability Engineers | Read free online version hosted by Google
- 97 Things Every SRE Should Know | Complimentary Copy from Nginx
- SLO Adoption and Usage in Site Reliability Engineering
- Practical Site Reliability Engineering
- Implementing Service Level Objectives
- Chaos Engineering
- Seeking SRE
- Security Chaos Engineering
- Chaos Engineering Observability
- Database Reliability Engineering
- What Is SRE?
- Database Reliability Engineering: What, Why, and How?
- Observability Engineering
- Chaos Engineering: Site reliability through controlled disruption
- Incident Metrics in SRE | Read free online version hosted by Google
- Engineering Reliable Mobile Applications
- Monitoring the SRE Golden Signals
- Site Reliability Engineering: Philosophies, habits, and tools for SRE success | Портативная версия
- 97 Things Every Cloud Engineer Should Know
- Real-World SRE
- Hands-on Site Reliability Engineering
События
- SRECon Past Events
- ChaosConf
- SLOConf
- cdCon
- cdCon 2021 Playlist
- cdCon 2020 Playlist
- Conf42
Другие ресурсы
Awesome Lists
- Awesome SRE
- Awesome Site Reliability Engineering Tools
- Awesome Chaos Engineering
- Awesome Monitoring
- Awesome Observability
- Awesome MLOps
- ML-Ops.org
SRE Resources from various organizations
- Google SRE Page
- Google SRE Classroom
- Google Cloud SRE Page
- Microsoft SRE Page
- School of SRE from LinkedIn
- Stripe Increment Magazine Issue 16 on Reliability
- AWS Observability Recipes
- Awesome Sysadmin
Incidents & postmortems
- The Verica Open Incident Database
- Postmortem Templates
- Incident Review and Postmortem Best Practices
Информационные бюллетени
- SRE Weekly Newsletter
- Chaos Engineering Newsletter
- DevOps Weekly Newsletter
Кредиты
- Inspired by Howtheytest from Abhijeet Vaikar
- The list of organizations is referred from my other repo awesome-engineering
- Banner image Cartoon vector created by vectorjuice - www.freepik.com
Other How They... repos
- Howtheytest
- Howtheydevops
- Howtheyaws
Участники
Способствовать
Contributions welcome! Read the contribution guidelines first.
Stargazers Over Time
Лицензия
To the extent possible under law, Unmesh Gundecha has waived all copyright and related or neighboring rights to this work.
If you decide to use this anywhere, please credit @upgundecha on X. Also, if you like my work, check out my other projects on GitHub.