그들이 어떻게

소개
그들이 어떻게 SRE 가 SRE가 SER (Site Reliability Engineering)의 선별 된 지식 저장소 (SRE) 모범 사례, 도구, 기술 및 주요 기술 또는 기술에 정통한 조직이 채택한 문화의 선별 된 지식 저장소입니다.
수많은 조직은 종종 엔지니어링 문화를 형성하는 모범 사례, 도구 및 기술을 포함하여 통찰력과 전문 지식을 자주 공유합니다. 엔지니어링 블로그, 컨퍼런스 및 회의와 같은 다양한 공개 플랫폼을 통해이를 수행합니다. 이 저장소는 이러한 소스에서 수집 된 컨텐츠를 컴파일하고 제시합니다.
주제
- 현장 안정성 엔지니어링
- SRE 팀 채용 및 구축
- SRE 문화
- DevOps
- 모니터링 및 관찰 가능성
- 경고
- 사고 응답 및 사후 사후
- 통신
- 생산 테스트
- 혼돈 공학
- 오토메이션
- 성능
- 플랫폼 엔지니어링
조직
성취 자
블로그 게시물
- ABATTOIR 입력 - 'à la carte'기티 툴링 빌딩
- 전 세계적으로 스케일링-서비스 메쉬 페인트 (Part-1)
- 전 세계적으로 생산 스케일 - 개발자를위한 관찰 가능성 문제 해결 (Part -2)
- Kubernetes로드 : 프레임 워크 구축 (Part-1)
- 로드 테스트 Kubernetes : 병목 현상 해결 및 성능 향상 (Part-2)
에어 비앤비
블로그 게시물
- 슬랙을 통한 자동 입사 관리
- vulnture로 취약성을 감지합니다
- 에어 비앤비의 경고 프레임 워크
- 클라우드가 어두워지면 - 아마존의 정전이 에어 비앤비에 영향을 미쳤습니다.
- 지능형 자동화 플랫폼 : 에어 비앤비에서 대화 AI 및 그 너머의 권한 부여
- 에어 비앤비의 생산 비밀 관리
- 규모로 데이터 보호 자동화, 1 부
- 규모로 데이터 보호 자동화, 2 부
- 규모로 데이터 보호 자동화, 파트 3
- 에어 비앤비에서 동적 kubernetes 클러스터 스케일링
조류
블로그 게시물
- 5 월 30 일 SSL 사건
- SRE 로의 여행
- CI/CDAY 2024 : 좋은 CI/CD 플랫폼은 무엇입니까?
알리바바 클라우드
블로그 게시물
- 최고의 인터넷 회사가 전통적인 O & M보다 SRE를 선택하는 이유는 무엇입니까?
- Bilibili의 실시간 플랫폼의 건축 및 관행
아사나
블로그 게시물
- 아사나가 아사나를 사용하는 방법 : 보안 사고 대응
- Asana가 안정적인 웹 응용 프로그램을 선적하는 방법
- 최근 다운 타임 분석 및 향후 사고를 예방하기 위해 우리가하는 일
- 개발자 환경 : 빠르게 재설정하도록하여 신뢰성을 달성합니다.
- 이번 가을에 모든 IT 리더가 고려해야 할 세 가지 보안 전술
ASOS
블로그 게시물
- 비난이없는 게임
- Cat S (신뢰성 공학 책임자)의 삶의 하루
- AKS Performance Journey : Part 1 - 모든 것을 크기
- AKS Performance Journey : Part 2 - 네트워킹 IT
- 사이버 보안 @ asos.com
- 보안 운영 24x7
- 사이버 보안 사고 응답에서 우리가 찾는 기술
아틀라 시안
블로그 게시물
- DevOps 시대의 변화 관리를위한 모범 사례
- 자동 테스트 : 코드로 인프라 테스트에 대한 Atlassian의 Kubernetes 팀의 5 개 교훈
- 관찰 및 경고를 위해 Kubernetes 이벤트를 내보내는 방법
- 사후 사후 템플릿
백마켓
블로그 게시물
- Back Market SRE가 Black Friday를 위해 어떻게 준비했는지
바이두
비디오
- 황금 신호에서의 이상 감지
- Netradar : 데이터 센터 네트워크 모니터링
- 혼돈을 시작하게하십시오 - Sre Chaos 엔지니어링은 사이버 보안을 만납니다
베이스 캠프
블로그 게시물
- 코드 레드 내부 : 네트워크 에디션
- 3 개의베이스 캠프 정전. 일주일. 무슨 일이에요?
- 베이스 캠프 2 및베이스 캠프 3 검색 중단 보고서
- 베이스 캠프에서의 입사 에스컬레이션 감소
서적
블룸버그
비디오
- 페이지 참조 샘플링을 통한 용량 계획 및 성능 향상
- SRE가 혼돈 공학을 할 여유가없는 이유
- 실시간 분산 시스템 추적
- Bloomberg 이야기 : "헤아릴 수없는"조직에서 SRE 팀 구축
- 로거 (및 기타 저수준 서비스)에 대한 가시성 - 숲에서 나무를 보는 것
Booking.com
블로그 게시물
- 신뢰성 및 제품 팀이 Booking.com에서 협업하는 방법
- 사건, 수정 및 다음날
- 문제 해결 : 미지의 여행
비디오
- 데이터 집약적 인 서비스를위한 SLO
- 컨테이너 인프라로 덜 여행하는 도로를 취하는 이점
자본 원
블로그 게시물
- 슬랙으로 애플리케이션 모니터링을 자동화합니다
- Boto 3 : AWS Health Check로 AWS 인프라를 자동화하십시오
- 활성 활성 공유 공유 데이터베이스 아키텍처
- SRES의 3 R : 탄력성, 회복 및 신뢰성
- 앱 혼돈 준비를위한 5 단계
- 4 개의 Chaos Engineering 실험과 같은 실제 시나리오
- 혼돈… 엔지니어링을 포용하십시오
- 3 Enterprise에서 Chaos Engineering 구현에서 배운 교훈
- AWS CodeDeploy를 사용하여 원활한 블루/그린 배포로의 깊은 다이빙
- 안전한 도커 컨테이너에는 안전한 응용 프로그램이 필요합니다
- 복원력을 향상시키기 위해 클라우드와 DevOps의 페어링을위한 4 단계
- 12 단계 앱 및 마이크로 서비스 아키텍처가있는 컨테이너 준비 애플리케이션
- 신뢰로 배포 - AWS의 카나리아 배치로 위험 최소화, 탄력성 최대화
- 탄력성을위한 건축
- 지속적인 혼돈 - DevOps 관행에 혼돈 엔지니어링을 소개합니다
- MON-IFESTO 1 부 : 메트릭
주요 사건 및 분석 보고서
- Capital One 사이버 사건에 대한 정보
- Capital One 데이터 위반에 대한 사례 연구
비디오
- 지속적인 배송 뱅킹 - 자본 1
- DevOps의 지속적인 혼돈 - Capital One
- Capital One의 DevOps : 파이프 라인 및 측정에 중점을 둡니다
- 규모에 따라 클라우드 계정의 운영 건강 관리 자동화
코인베이스
블로그 게시물
- 오픈 소싱 코인베이스의 보안 배포 파이프 라인
Dazn
블로그 게시물
DBS
블로그 게시물
- Ithome의 SRE 컨퍼런스에서 발표 : 지금까지 DBS SRE Transformation Journey
- 가장 인기있는 7 가지 사이트 신뢰성 엔지니어링 신화를 폭로합니다
- 직장에서 흠없는 문화를 키우기 위해 SRE를 사용하는 방법
- DBS Bank의 현장 안정성 엔지니어링
- 구성 관리를 규모로 자동화합니다
- DBS가 혼돈 공학의 신화를 없애는 방법
- 이중, 이중 수고 및 문제
비디오
- Koon Seng Lim, DBS와 함께 Srecon 대화 아시아/태평양
심해
블로그 게시물
- Redis Diskless Replication : 무엇, 어떻게, 왜, 왜 그리고 경고
- Kubernetes로 Vault를 설정하는 방법
- Kubernetes에서 제로 다운 타임 배포를 분해합니다
Dream11
블로그 게시물
- 규모의 배포 : Dream11의 사내 청록색 배포 플랫폼 'Oneclick'의 이야기.
- AWS WAFV2의 보안 및 신뢰 향상
- 규모로 GraphQL을 실행하여 배운 교훈
- 회로 파손, 콩을 구해?
- 혼돈에서의 순서 찾기 : 토크로 성능 테스트를 자동화하는 방법
- Dream11에서 초음속 릴리스 유지
- 확장하거나 확장하려면? 우리가 Dream11에서 확장하는 방법은 다음과 같습니다
- 규모의 실시간 분석, 경고 및 이상 탐지 아키텍처 구축 Dream11
드롭 박스
블로그 게시물
- Dropbox Engineering Career 프레임 워크 - 신뢰성 엔지니어 (SRE)
- 아틀라스 : 파이썬 모노리스에서 관리 플랫폼으로의 여행
- 소용돌이로 서버 응용 프로그램을 모니터링합니다
- Athena : 자동화 된 빌드 건강 관리 시스템
- 사이트 신뢰성 엔지니어가되고 싶으십니까?
비디오
이베이
블로그 게시물
- Kafka와의 탄력성 및 재해 복구
- SRE 사례 연구 : 메모리 문제를 벗어난 비유
- SRE 사례 연구 : 신비한 교통 불균형
- 가동 중지 시간, 즉시 배포 및 롤백
- eBay의 알림 플랫폼이 새로운 방식으로 결함 주입을 사용한 방법
동영상
서사시 게임
동영상
- AWS Re : Invent 2018 : Epic Games는 AWS를 사용하여 Fortnite를 2 억 명의 플레이어에게 제공합니다.
Etsy
블로그 게시물
- 열 살짜리 응용 프로그램의 배포 경험 향상
- Etsy가 2020 년에 역사적인 수량의 휴가 교통을 준비하는 방법
- 진보에 대한 당신의 두뇌
- 흠없는 사후 사후에 대한 Etsy의 브리핑 촉진 안내서
- opsweekly : 경보 분류로 통화 경험 측정
- 현장 정전을 탈취합니다
- 흠없는 사후 사후와 정당한 문화
- 모든 것을 측정하고 모든 것을 측정하십시오
비디오
- Velocity 09 : John Allspaw와 Paul Hammond, "10+ 배포 PE
- 모 놀리를 클라우드로 마이그레이션합니다
Expedia
블로그 게시물
- 성능 표준 자동화
- 오류 예산 정책 - 1 부 - Expedia Group에서의 채택
- 오류 예산 정책 - 2 부 - Expedia Group의 관행
- 결함 주입을 사용하여 새로운 런타임 플랫폼의 안정성을 향상시킵니다
- Expedia Group의 사건으로부터 학습
- VRBO 홈페이지 로딩 경험 향상
- 문제 해결 502 오류 : ECS 체크리스트
- Elasticsearch를 시작합니다
- Istio-Proxy 5xx 문제에 관한 모든 것
- Kubernetes에서의 자동화 : 수평 포드 오토 스케이너가 왜 나에게 작동하지 않습니까?
- Kubernetes 배포를 여러 구역에서 균형을 유지하는 방법
- Dropwizard 대기 시간 지표가 당신을 오도하고 있습니까?
- 100% 신뢰성의 비용
- 모니터링 대시 보드 생성
- DevOps 용 Bash 사용
빠르게
비디오
- SRE & 제품 관리 : 제품 관리자처럼 생각하여 팀 (및 경력)을 수준하는 방법
- 탄력성 공학 신화
G- 연구
블로그 게시물
- G-Research에서의 SRE 여정
- SRE 여정은 계속됩니다
- OpentSDB 메타 캐시-성능을위한 트레이드 오프
getaround
블로그 게시물
- 우리가 GetAround에서 사건을 처리하는 방법
- 지속적인 전달 과정의 진화
github
블로그 게시물
- 반복 단순화를 통해 가용성을 향상시키는 방법
- Github에서 푸시 처리를 개선하는 방법
- Github가 Merge 대기열을 사용하여 매일 수백 개의 변경 사항을 배송하는 방법
- AI로 보안 취약점 수정
- Github의 엔지니어링 기초 프로그램 : 가용성, 보안 및 접근성을 제공하는 방법
- Github가 Github 액션 및 액션을 사용하여 더 큰 주자를 사용하여 Github.com을 구축하고 테스트합니다.
- 오픈 소스 프로젝트에서 500 cves를 공개하기위한 Github Security Lab의 여정
- CodeQL 팀은 AI를 사용하여 코드의 취약성 감지에 전원을 공급합니다.
- Github의 최근 가용성 문제를 해결합니다
- CI/CD에 대한 조직 전체 거버넌스 및 재사용 및 GitHub Actions의 자동화 구축
- GitHub 조치를 통한 이슈를 통해 지점 배포 활성화
- chatops를 사용하여 호출 엔지니어 작업을 도와줍니다
- 척도를 처리하기 위해 Github의 관계형 데이터베이스를 분할합니다
- Github 코드 스캔으로 개발자의 행복을 늘립니다
- Github가 OpenTelemetry를 채택하는 이유 (그리고 어떻게)
- Github의 대규모 Monorepo 성능 향상
- GitHub의 배포 신뢰성
- GitHub를 배포하는 방법 개선
- Github에서 국내 문화 구축
- 플라키 빌드 감소는 18 배입니다
- DevOps에서 운영의 진화하는 역할
- DevOps 자동화를 시작합니다
- Github의 MySQL 고 가용성
주요 사건 및 분석 보고서
- Github 가용성 보고서 : 2024 년 8 월
- Github 가용성 보고서 : 2024 년 7 월
- Github 가용성 보고서 : 2024 년 6 월
- Github 가용성 보고서 : 2024 년 5 월
- Github 가용성 보고서 : 2024 년 4 월
- Github 가용성 보고서 : 2024 년 3 월
- Github 가용성 보고서 : 2024 년 2 월
- Github 가용성 보고서 : 2024 년 1 월
- Github 가용성 보고서 : 2023 년 12 월
- Github 가용성 보고서 : 2023 년 11 월
- Github 가용성 보고서 : 2023 년 10 월
- Github 가용성 보고서 : 2023 년 9 월
- Github 가용성 보고서 : 2023 년 8 월
- Github 가용성 보고서 : 2023 년 7 월
- Github 가용성 보고서 : 2023 년 6 월
- Github 가용성 보고서 : 2023 년 5 월
- Github 가용성 보고서 : 2023 년 4 월
- Github 가용성 보고서 : 2023 년 3 월
- Github 가용성 보고서 : 2023 년 2 월
- Github 가용성 보고서 : 2023 년 1 월
- Github 가용성 보고서 : 2022 년 12 월
- Github 가용성 보고서 : 2022 년 11 월
- Github 가용성 보고서 : 2022 년 10 월
- Github 가용성 보고서 : 2022 년 9 월
- Github 가용성 보고서 : 2022 년 8 월
- Github 가용성 보고서 : 2022 년 7 월
- Github 가용성 보고서 : 2022 년 6 월
- Github 가용성 보고서 : 2022 년 5 월
- Github 가용성 보고서 : 2022 년 4 월
- Github 가용성 보고서 : 2022 년 3 월
- Github 가용성 보고서 : 2022 년 2 월
- Github 가용성 보고서 : 2022 년 1 월
- Github 가용성 보고서 : 2021 년 12 월
- Github 가용성 보고서 : 2021 년 11 월
- Github 가용성 보고서 : 2021 년 10 월
- Github 가용성 보고서 : 2021 년 9 월
- Github 가용성 보고서 : 2021 년 8 월
- Github 가용성 보고서 : 2021 년 7 월
- Github 가용성 보고서 : 2021 년 6 월
- Github 가용성 보고서 : 2021 년 5 월
- Github 가용성 보고서 : 2021 년 4 월
- Github 가용성 보고서 : 2021 년 3 월
- Github 가용성 보고서 : 2021 년 2 월
- Github 가용성 보고서 : 2021 년 1 월
- Github 가용성 보고서 : 2020 년 12 월
- Github 가용성 보고서 : 2020 년 11 월
- Github 가용성 보고서 : 2020 년 8 월
- Github 가용성 보고서 : 2020 년 7 월
- GitHub 가용성 보고서 소개
- 2 월 서비스 중단 사업 후 분석
- 10 월 21 일 사후 분석
- 2 월 28 일 DDOS 사건 보고서
- 사고 보고서 : 부주의 한 개인 저장소 공개
비디오
gitlab
블로그 게시물
- 이 SRE는 Haproxy 구성 변경을 출시하려고 시도했습니다. 당신은 다음에 일어난 일을 믿지 않을 것입니다 ...
- 내 주 gitlab 사이트 안정성 엔지니어를 도시했습니다
- 업데이트 : 고급 글로벌 검색을 위해 배운 Elasticsearch 레슨
- 인프라의 새로운 팀의 반복 교훈
- Gitlab에서 인프라 지출을 최적화하는 방법
- sidekiq를 사용하여 gitlab.com에서 비동기 워크로드 처리 방법
- 내부 Gitlab : 소프트웨어 패치를 출시하는 방법
- 누락 된 TCP Keepalives를 추적하는 것은 Docker, Golang 및 Gitlab에 대해 가르쳐주었습니다.
- Postgresql로 재해 복구를 위해 지연된 복제를 사용한 방법
Gocardless
블로그 게시물
- Gocardless에 소프트웨어 배포 : "시작"자습서를 오픈 소싱합니다
- 우리가 술집/하위 메시지 등을 압축하여 많은 돈을 절약하는 방법
- 레일에 대한 두려움이없는 postgresql 마이그레이션
- Gocardless의 관찰 가능성 : API 성능 개선 이야기
- PostgreSQL 쿼리 플래너 디버깅
- 제로 다운 타임 포스트 그레스 마이그레이션 - 하드 부품
- 성능 검색 - 모든 게시물 요청에서 200ms를 면도하는 방법
주요 사건 및 분석 보고서
- 사고 검토 : 2020 년 10 월 25 일에 서비스 중단, Vault TLS 만료
- 사고 검토 : 2017 년 10 월 10 일 API 및 대시 보드 중단
Godaddy
블로그 게시물
- Kubernetes Gated 배포
- Kubernetes 외부 비밀
- Kubernetes- 응용 프로그램 개발자를위한 실질적인 소개
- Kubernetes API의 직관적 인 node.js 클라이언트
GOJEK
블로그 게시물
- Skynet 소개 : Gojek의 코드로 인프라
- 10 배의 부하에 대한 지리 검색 서비스 스케일링
- 우리가 RCA에 의해 맹세하는 이유
- GKE에서 Kubernetes를 업그레이드하는 방법
- 생산에서 Apache 공기 흐름을 모니터링하는 방법
Goldman Sachs
블로그 게시물
- SECDB 관측 가능성 여행
- 혼돈 AWS 응용 프로그램 테스트
- 응용 프로그램 복원력을 강화하기 위해 기계 학습을 사용한 용량 정전 예측
- Haproxy를 사용하여 Sybase IQ 멀티 플렉스를 사용하여 99.9% 가용성 및 초반 응답 시간 제공
- Amazon RDS 및 Amazon Aurora를 통한 다중 지역 복원력 구축
- Goldman Sachs에서 사용 가능한 Trino 클러스터를 활성화합니다
- 규모로 관찰 가능성
- 인프라 및 명령 체인 패턴
- EC2 MACOS와 함께 모바일 CICD
- 포획 발표 - 소스 코드 비밀 스캐너
- 데이터 엔지니어링을위한 플랫폼 구축
Google
블로그 게시물
- 생성 AI를 사용한 입사 응답 가속화
- 마이크로 서비스 의존성 관리의 함정 및 패턴
- SRE 관행 및 프로세스
- Go를 사용한 Google 사이트 안정성
- 3 개월, 30 배 수요 : Covid-19 동안 Google 모임을 축소하는 방법
- SRE 교실 : 분산 펍 서브
- SRE 팀이 구성되는 방법 및 시작 방법
비디오
- DevOps와 SRE의 차이점은 무엇입니까? Google의 Seth Vargo 및 Liz Fong-Jones와 함께
- Seth Vargo 및 Google의 Liz Fong-Jones와 함께 위험 및 오류 예산
- GCP의 Max Luebbe와 함께 실용적인 자동화
- 시청해야합니다! -Google SRE YouTube 재생 목록
- Squish 레벨 목표 : SRE가 기술 작업을 사용자 이익에 맞추는 데 도움이되는 방법
- 분산 합의 구현
- SRE는 내가되기를 열망합니다
- SRE 교실, 또는 3 시간 안에 안정적인 분산 시스템을 설계하는 방법
- Zero Touch Prod : 더 안전하고 안전한 생산 환경을 향해
- 우리의 모든 ML 아이디어는 나쁘다 (그리고 우리는 기분이 나쁘다)
- 지도는 영토가 아닙니다 : 슬로스가 우리를 어떻게 길로 인도 하는가, 그리고 우리가 할 수있는 일
- SRE 교육 모범 사례 배치 생산에 : SRE 교육 프로그램을 어떻게 작성하는지
- Bigtable : 이진에서 서비스로의 여정 및 길을 따라 배운 교훈
- 관찰 가능성을위한 실용적인 계측
- ML OPS 란 무엇입니까? 생산 ML 서비스의 DevOps를위한 솔루션 및 모범 사례
- 서비스 신뢰성 통일보고
- 서버 활용 및 꼬리 대기 시간을 트레이드하는 방법
- 균형 유지 : 인터넷 스케일로드 밸런싱이 정식화되었습니다
- 블랙 박스에서 알려진 수량 : 예측 가능한 신뢰할 수있는 ML 기반 서비스를 구축하는 방법
- SRE의 마음 챙김 : 자아를 모니터링하고 경고합니다
- 실용적인 자동화
- 실시간 스케일링 : 1K SRE 프로젝트
- 생산 데이터를 편집하기위한 전략
- SRE 자율성의 저주와 관리 방법
- SRE 조직 스케일링 : 1에서 많은 팀으로의 여정
- SRE Classroom- 분산 시스템을 3 시간 안에 설계하는 방법
- PRD 및 사용자 여행을 사용하여 사용자 친화적 인 도구를 설계합니다
- Google SRE와 개발자가 함께 일하는 방식
- SRECON21- SRE에 대한 실험
붙잡다
블로그 게시물
- Grab에서 지속적인 배달로의 여정 (1 부)
- Grab에서 지속적인 배달로의 여정 (2 부)
- 탄력성 시스템 설계 : 회로 차단기 또는 검색? (1 부)
- 탄력성 시스템 설계 : 회로 차단기 또는 검색? (2 부)
- 재심을 넘어서 탄력성 시스템 설계 (3 부) : 아키텍처 패턴 및 혼돈 엔지니어링
- Grab의 실험 플랫폼을 사용하여 혼돈을 조정합니다
- 자원 남용을 방지하기 위해 할당량 마이크로 서비스를 설계하는 방법
- 우리가 캐시를 축소하고 숙면을 취하는 방법
문법
블로그 게시물
- 여러 지역을 지원하기 위해 AWS 인프라를 스케일링합니다
- AWS 환경에서의 보안 운영
맛
블로그 게시물
- 통화의 마음의 평화를위한 서비스 수준 목표
- 디버깅 사이드 키크 독 약
halodoc
블로그 게시물
- 기본 모바일 앱을위한 사이트 안정성 엔지니어링
헤로쿠
블로그 게시물
- Heroku의 새로운 건축물에서 Rendezvous의 모험
- Heroku의 사고 대응
IBM
블로그 게시물
- SRE (Site Reliability Engineering) 란 무엇입니까?
- AIOPS 도구 및 솔루션
물론
블로그 게시물
- 실제로 SRE : 내부 룩
- 충분히 신뢰할 수 있습니다
- 실제로 릴리스 프로세스를 자동화합니다
- Sloth, Preetha Appan of Enderc.com과 함께 네트워크 장애를 유도하는 도구
비디오
- 우리는 아직 나아지고 있습니까? 더 안전한 운영을 향한 진전
물론
블로그 게시물
칸 아카데미
블로그 게시물
- 칸 아카데미가 일주일에 2.5 배의 트래픽을 성공적으로 처리 한 방법
- 콘텐츠 인프라 발전
LinkedIn
블로그 게시물
- 용량 분석기를 통한 현장 용량 예측 재고
- LinkedIn의 제품 SRE 팀에 대한 통찰력
- LinkedIn에서 SRE를 고용합니다
- 오픈 소스 업데이트 : SRE 학교
- Linux 파일 시스템 성능 회귀 분석 수정
- 다크 카나리아로 생산 테스트
- LinkedIn의 실시간 모니터링 플랫폼 인 Temleye의 스마트 경고
- Iris Mobile : 사고 관리를위한 오픈 소스, 모바일 인터페이스
- Linkedout : 요청 수준 실패 주입 프레임 워크
- 완전 자동화로드 테스트로 수고를 제거합니다
- 성공적인 지리적으로 분산 된 SRE 팀의 구성 : 1 부
- 성공적인 지리적으로 분산 된 SRE 팀의 구성 : Part 2
- Project Star*: 우리의 통화 프로세스를 간소화합니다
- ONCALL 자동화 : 오픈 소싱 Fossor 및 Ascii Etch
- Project WaterBear와 LinkedIn의 탄력성 공학
- LinkedIn에서 SRES 채용, 2017
- 개방형 소싱 아이리스 및 콜
- LinkedIn에서 SRE 문화 구축
- 실패는 옵션이 아닙니다
- mttd와 mttr이 핵심입니다
- 측정되는 것은 고정됩니다
비디오
- LinkedIn : Hiring Is Use -Greg Leffler에서 사이트 신뢰도 팀 성장
- 9 년의 실패 : 엉터리 자동차가 나를 더 나은 SRE로 만든 방법
- 폭풍 풍화 : 조기 경고가 농장을 구하는 방법
- 회의 : SRE의 해결되지 않은 문제
- 관리없이 선도 : SRE 기술 리더가되기
- (내) 모니터링이 왜 빨라 집니까?
- 트래픽 예측 및 스트레스 테스트 인프라
- SRE의 더 나은 결정을위한 집단적 마음 챙김
- TCP - 구조, 향상 및 튜닝
- 6 억 명 이상의 회원과 수백 개의 마이크로 서비스 : 모니터링 시스템을 유지하여 유지하는 방법
- 비즈니스 메트릭을 이해하면 더 나은 SRE가 될 수 있습니다
- 코드-노란색 : 운영의 최고 팀이 현명한 방식으로 도와줍니다
- 회사 간의 SRE 구현의 차이
도구
로지
블로그 게시물
사랑의 홀리데이
블로그 게시물
- Prometheus 및 Alertmanager의 동적 경보 라우팅
- HTTP/3으로 Love Holidays를 18% 더 빠르게 만듭니다
- Terraform, Atlantis 및 정책으로 셀프 서비스 인프라에 대한 모범 사례 시행
- Love Holidays를 확장하는 데 도움이 된 5 가지 원칙
- 실시간 Grafana Loki와 함께 하루에 $ 1 미만으로 빠르게 로그
맥쿼리
블로그 게시물
- Golang과의 Devsecops 여행
- Kotlin의 코드로서의 파이프 라인 구성
- 의무의 분리 및 분리
- Macquarie는 DevOps를 포용합니다
- 기업 전체의 Kubernetes 플랫폼 스케일링
가장 중요합니다
블로그 게시물
- Prometheus 및 Thanos로 규모의 클라우드 환경을 모니터링합니다
- SLO 모니터링 및 Prometheus에 대한 경고를 수행하기 위해 도망기를 사용하는 방법
메이투안 (()
블로그 게시물
- 클라우드에서 SRE의 개발과 실습 (云端的 sre 发展与实践)
메르 카리
블로그 게시물
- 누가 파수꾼을 보나요? 모니터링 시스템을 주시하십시오
- SRE 전도자로서 MicroServices SRE 팀이 무엇을하고 있는지
- 임베디드 마이크로 서비스 SRE로 일하는 것이 어떤 것인지
- Merpay SRE 팀 : 과거와 미래
- Mercari에 내장 된 SRE
- SRE 팀이 개발 팀과 달성하고자하는 것
- DevSecops : 그것은 무엇이며 왜 업계에서 추진력을 얻고 있습니까?
- 문제 해결 기술을 어떻게 공유합니까?
- Terraform이있는 스케일의 Datadog 대시 보드
메타
블로그 게시물
- 효율적인 사고 응답을 위해 AI를 활용합니다
- 데이터 주석으로 메타의 SLO 워크 플로우를 개선합니다
- Slick : 신뢰성 향상을 위해 SLO를 채택합니다
- 10 월 4 일 중단에 대한 자세한 내용
- 10 월 4 일 중단에 대한 업데이트
비디오
- SRE에 대한 고객 서비스 접근 방식
- 프로젝트를 확장하는 방법 : 사후 사후
- 7 분마다 세계 최대의 파이썬 사이트를 출시합니다
- ML을 사용하여 동적 오류 분류를 자동화합니다
마이크로 소프트
비디오
- SLI & Reliability Deep-Dive '와 함께 David N. Blank-Edelman of Microsoft
- 자동화의 아이러니 : Microsoft의 Tanner Lund와 함께 세 부분의 코미디
- 지속 가능한 소프트웨어 엔지니어링 및 SRE
- 호출기 피로를 개선하기위한 인적 요소와 팀 문화에 대한 연구
- 응용 프로그램을 작성하는 동안 신뢰 우선 순위
- 회복력 구축 : 사건에서 더 많은 것을 배우는 방법
- 두 가지 사후 사후 이야기 : 인적 요소보기
- 가용성 - 9 초 이상의 생각
- 자동화의 아이러니 : 세 부분의 코미디
- 서버리스의 OPS
미로
블로그 게시물
- Prometheus 고 가용성 및 결함 허용 전략, Victoriametrics와의 장기 스토리지
- 로드 테스트를위한 수백 개의 서버 관리 : 자동화, 맞춤형 모니터링, DevOps 문화
- 예상치 못한 뉘앙스와 관련하여 신뢰할 수있는 부하 테스트
몬조
블로그 게시물
- 자동화 Monzo : 플랫폼을 올바른 크기로 최적화하는 방법
- 우리가 Monzo에서 통화를 진화시키는 방법
- 우리가 사건에 어떻게 대응하는지
- 우리가 모조를 모니터링하는 방법
비디오
도구
넷플릭스
블로그 게시물
- 비동기 워크 플로에서 관찰 가능성을 달성합니다
- Netflix의 분산 추적 인프라 구축
- Netflix의 관찰 도구 구축의 교훈
- Edgar : 관찰 가능성으로 미스터리를 더 빨리 해결합니다
- Telltale : Netflix 응용 프로그램 모니터링 단순화
- 고객 스트리밍 유지 - Netflix에서 중앙 집중식 사이트 신뢰성 관행
- 파견 소개
- Windows에 Netflix DevOps 패턴을 적용합니다
- 챕터 : 혼돈 자동화 플랫폼
- 눈사태를 시작합니다
- Netflix Chaos 원숭이가 업그레이드되었습니다
- 혼돈 엔지니어링 업그레이드
- 자동 고장 테스트
- 혼돈에서 제어까지 - Netflix의 콘텐츠 발견 플랫폼의 탄력성 테스트
- Atlas 소개 : Netflix의 1 차 원격 측정 플랫폼
- 적합 : 실패 주입 테스트
- 보안 원숭이 발표 - AWS 보안 구성 모니터링 및 분석
- Netflix가 AWS 중단에서 배운 교훈
- Scryer : Netflix의 예측 자동 스케일링 엔진
주요 사건 및 분석 보고서
- 2012 년 10 월 22 일 사후 AWS 저하
비디오
- AWS Re : Invent 2019 : Netflix 엔지니어의 삶의 날 (NFX202)
- /bin /sh 공격시기 : "모든 것들을 자동화"
- 일이 어떻게 제대로 되었습니까? 사건에서 더 많은 것을 배우십시오
- @netflix 스트리밍 데이터 인프라 모니터링 및 추적
- Netflix Scale의 실제 사용자 성능 모니터링 - Martin Spier
- AWS Re : Invent 2017 -Nora Jones
- AWS Re : Invent 2017 : Netflix Scale에서 혼돈 공연 (Dev334)
- Netflix : 다중 지역 복원력 및 Amazon Route 53
- 탄력성을위한 서비스 설계 : Netflix 레슨
- South Bay SRE Meetup -Netflix Cloud Performance 팀
- AWS Re : 발명 2017 : Netflix 엔지니어 III의 삶의 날 (ARC209)
- Netflix가 Kinesis 스트림을 사용하여 응용 프로그램을 모니터링하고 수십억 개의 트래픽 흐름을 분석하는 방법
- 마스터 링 혼란 - 마이크로 서비스에 대한 넷플릭스 가이드
- AWS Re : 발명 2016 : 탄력성에서 유비쿼터스 - #Netflixeverywhere 글로벌 아키텍처 (ARC204)
- Srecon 2016 -Netflix : 190 개국 및 5 개의 핵심 SRES
- SYS 관리자에서 Netflix SRE까지
- Hystrix와 함께 Netflix의 응용 프로그램 탄력성 엔지니어링 및 운영
- Netflix에서 실패를 주입합니다
- LISA13 -Netflix가 탄력성 향상에 실패하고 가용성을 극대화하는 방법
- Netflix Velocity의 사고 관리
팟 캐스트
- Ryan Kitchens Netflix의 사건, SRE의 역할 및 사회 기술 시스템
도구
새로운 유물
블로그 게시물
- 현대 소프트웨어 역할 정의 : New Relic의 SRES
- SRE (Site Reliability Engineering)에 대해 모두가 알아야 할 10 가지
- 현장 안정성 엔지니어는 어떤 도구를 사용합니까?
- 새로운 유물의 삶의 하루
- 매우 성공적인 현장 안정성 엔지니어의 7 습관
- SRE의 실천 채택
- 현대의 관찰 가능성을 사용하여 데이터 중심 문화를 확립합니다
누 뱅크
블로그 게시물
- 엔지니어링 운영 우수성, 지속적인 개선의 사례
- 기술 사고를 다루는 방법
- Nubank에서 우리가 통화로 회전하는 방법
- 데이터 플랫폼을 효율적이고 안정적으로 확장하는 방법
- 우리가 엔드 투 엔드 테스트 스위트를 죽인 이유
- 머신 러닝 모델에 대한 자동 재교육 : 팁 및 교훈
Openai
블로그 게시물
- 3 월 20 일 chatgpt 정전 : 여기에 무슨 일이 있었는지
- Openai Sre와 스케일링이 쉽게 설명되었습니다.
- Kubernetes를 2,500 개의 노드로 스케일링합니다
- Kubernetes를 7,500 개의 노드로 스케일링합니다
- OpenAI에서 AI 인프라 스케일링
PayPal
블로그 게시물
- 트리거링 : 사고 #1234 (사고 과정이 수정 필요)
- 서비스 메시에서 관측 성 구현
- Scale의 PostgreSQL : Database Schema는 다운 타임없이 변경됩니다
- PayPal에서 GraphQL 스케일링
비디오
- Karthikeyan Selvaraj 및 Rajesh Ramachandran, PayPal과 Srecon 대화 아시아/태평양
- SRE vs SRE Now : PayPal에서 반사 신경과 직관적 인 본능 사이의 균형 행동
- 분산 로그 처리를 통해 서비스 저하 및 규모의 실패 감지
- 규모가 쉽게 Elasticsearch 운영
- 보안 제어를 통한 사이트 신뢰성 보장
피크닉
블로그 게시물
- 마이크로 미터 및 최신 관측 성 스택
- 피크닉에서 모니터링 및 관찰 가능성
Pinterest
블로그 게시물
- ADS 실시간 스트리밍 서비스의 고 가용성 보장
- S3 읽기 최적화를 사용하여 효율성 향상 및 런타임 감소
- Pinterest에서 보증으로 Kubernetes를 스케일링합니다
- iOS 앱에서 배운 내용
- 지속적인 통합 시스템을 50% 더 빠르게 설계하는 방법
- 웹 배포 단순화
- Pinterest 운영 메트릭 업그레이드
- 새로운 오픈 소스 도구를 사용하여 Pinterest에서 배포 된 추적
- 자동 스케일링 Pinterest
비디오
- 실행 가능한 코드 소유권 구축
- Pinterest에서 관측 성 도구의 진화
- 서비스 소유자를위한 OS/플랫폼 업그레이드 자동화
우편 집배원
블로그 게시물
- Kubernetes 클러스터가 Gremlin과 Grafana를 사용하여 고장에 어떻게 반응하는지 알아보십시오.
프레지
블로그 게시물
- 글로벌 정전을 피하는 방법 - 데몬셋 레이블을 원활하게 마이그레이션
- 속도 검색 - Elasticsearch 성능 디버깅
- Prezi의 Prometheus : 10 년 동안의 패턴을 대체합니다
빨간 모자
블로그 게시물
- OPS에서 SRE로 : OpenShift 전용 팀의 진화
- 5 애자일 관행 모든 SRE 팀이 채택해야합니다
- Kubernetes 작업자 작성을위한 7 가지 모범 사례 : SRE 관점
폭동 게임
블로그 게시물
- Runeterra CI/CD 파이프 라인의 전설
- 불확실한 시스템에서 작업하기위한 전략
- 운영 서비스를위한 개발자 경험을 향상시킵니다
- 평가자에 대한 확장 성 및 하중 테스트
- 게임 개발 및 운영을 위해 Golang을 활용합니다
- 결함 주입 테스트를 통제 한 혼돈
- 성능 모니터링의 토끼 구멍 아래로
- 프로파일 링 : 실종 된 밀리 초의 경우
- 프로파일 링 : 리그의 실제 공연
- 프로파일 링 : 최적화
- 프로파일 링 : 측정 및 분석
- Riot에서 온라인 서비스 실행 : 1 부
- Riot에서 온라인 서비스 실행 : Part II
- Riot에서 온라인 서비스 실행 : Part III
- Riot에서 온라인 서비스 실행 : Part III : Part Deux
- Riot에서 온라인 서비스 실행 : Part IV
- Riot에서 온라인 서비스 실행 : 파트 V.
- 폭동에서 보안의 진화
- 리그 클라이언트 업데이트 용 자동 테스트 파이프 라인 실행
- 리그 오브 레전드에 대한 자동 테스트
Salesforce
블로그 게시물
- 다중 테넌시를위한 Kubernetes 컨트롤 평면을보고 있습니다
- 스케일 용 EKS 네트워킹 최적화
- Kubernetes 클러스터의 제로 다운 타임 노드 패치
- 어떻게, 이유가 아님 : 사후 사후에 대한 5 개의 날에 대한 대안
- Kubernetes의 일반 사이드카 인젝터
- 마이크로 서비스를 기반으로하는 제품에 대한 모니터링 전략 구현
- 실제로 사용할 입사 응답 계획을 개발하기위한 10 단계
- 거의 완벽한 로그 파이프 라인으로의 여행
- 웹 작업자와 성능을 최적화합니다
- 잠시 동안 다시 초점을 맞추십시오
Schibsted Media
블로그 게시물
- 스칸디나비아의 상위 10 개 사이트 중 일부에 대한 신뢰성 엔지니어링
scribd
블로그 게시물
- 사고로부터 배우기 : Sidekiq을 10 억 구직에 봉사 할 준비를하기
- Scribd에서 Pagerduty를 사용하는 것에 대한 평가
- 개발자에게 호출기 의무를 할당합니다
Shopify
블로그 게시물
- 교통량이 많은 사건에 대한 탄력성 계획
- 규모의 용량 계획
- DNS Traffic Management를 사용하여 Shopify의 서비스에 탄력성을 추가합니다.
- 효과적인 게임 일 테스트를 만드는 4 단계
- 사고 관리 절차에 Chatops를 구현합니다
- Shopify의 Statsd
비디오
- 네트워크 모니터 : 관측 성 격차를 인정하는 이야기
- 예상치 못한 일을 기대하십시오 : 새로운 실패에 응답 할 SRE 팀 준비
- 고급 냅킨 수학 : 첫 번째 원칙에서 시스템 성능 추정
스카이 베팅 및 게임
블로그 게시물
- 단지 모니터링 변경 일뿐입니다
- “일어날 수있는 최악의 상황은 무엇입니까?”: 우리가 라이브 사건을 어떻게 다루는 지에 대한 예를 들어
- 재에서 상승
- 충돌! 쾅! 구타! 연습은 완벽합니다
- 성능 왼쪽 왼쪽과 중앙
느슨하게
블로그 게시물
- 2-22-22에서 슬랙의 사건
- 지출 곡선 변경을위한 인프라 관찰 가능성
- 2021 년 1 월 4 일 슬랙의 중단
- 슬랙에서 끔찍하고 끔찍하고, 좋은, 매우 나쁜 날
- 슬랙에 배포됩니다
- 재난 극장 : 접근 가능한 혼돈 공학을위한 슬랙의 프로세스
비디오
- 가장자리에서 느슨합니다
- 우리의 시스템을 깨뜨리는 것 : 검은 백조의 분류
슬랄롬 빌드
블로그 게시물
- New Relic APM에서 서비스 수준 목표를 구현하는 방법
- 초보자 가이드 DevOps : 업계로 만드는 방법
- Github 동작 : CI/CD를 넘어서
- 모든 테스트 자동화가 파이프 라인에서 실행되지 않는 이유는 무엇입니까?
- 현장 신뢰성 엔지니어링의 많은 모양
- AWS의 기본 CI/CD 파이프 라인을 사용하여 기본적으로 안전한 구축 방법 Kubernetes 클러스터
- 비밀 관리 아키텍처 : 보안과 복잡성 사이의 균형 찾기
- Keras & Tensorflow로 악의적 인 요청을 감지합니다
- 레고 모놀리스 - 모노리스 마이크로 서비스 개념 증명
- Hashicorp Vault를 사용하여 비밀 관리
- Kubernetes의 배포를위한 스프링 부팅 애플리케이션 포장
- 클라우드에서의 불변 인프라 및 지속적인 전달
SoundCloud
블로그 게시물
- 시스템을 성공적으로 양도하는 방법
- 건강한 통화 문화 구축
- 전문가와 같은 슬로에 경고
- 카나리아와의 핸드 오프 배치
- Prometheus는 나이가 들어 왔습니다-오픈 소스 프로젝트의 개발에 대한 반영
- Prometheus : SoundCloud에서 모니터링
- SRE 연수생으로 1 년 만에 배운 것
- 확대 렌즈 아래 테스트
Spotify
블로그 게시물
- Matt Clarke : 수석 백엔드 인프라 엔지니어
- 개발자를위한 더 나은 Kubernetes 경험을 설계합니다
- Techbytes : 산업이 사건에 대해 놓친 것과 당신이 할 수있는 일
- GCP의 자동 입사 응답 인프라
비디오
- 추적, 빠르고 느리게 : 웹 서비스의 성능을 파고 개선합니다.
Squarespace
블로그 게시물
비디오
- 마찰을 통해 밀고 있습니다
- 모든 것이 이미 불이 났을 때 sre하는 방법
- 사례 연구 : 새로운 서비스를위한 SLO 구현
- Creating a Code Review Culture
Stack Overflow
Blog Posts
- “This should never happen. If it does, call the developers.”
- Infrastructure as code: Create and configure infrastructure elements in seconds
- Fulfilling the promise of CI/CD
- A deeper dive into our May 2019 security incident
- Guest Post - Failing over without falling over
- How We Built Our Blog
- Stack Overflow Frees Up Engineering Time with Netlify
비디오
- Low Context DevOps: Improving SRE Team Culture through Defaults, Documentation, and Discipline
Strava
Blog Posts
- Scaling Club Leaderboard Infrastructure for Millions of Users
- Distributed Tracing at Strava
줄무늬
Blog Posts
- Fast and flexible observability with canonical log lines
- Fast builds, secure builds. Choose two.
- Introducing Veneur: high performance and global aggregation for Datadog
비디오
- How Stripe Invests in Technical Infrastructure
- The AWS Billing Machine and Optimizing Cloud Costs
목표
Blog Posts
- Ɔhaos Ǝnginǝǝring @ Target - Part 2
- Ɔhaos Ǝnginǝǝring @ Target - Part 1
- GoAlert - Your Future Open Source, On-Call Notification Product
Teads
Blog Posts
- Scaling your on-duty team
부싯깃
Blog Posts
- The Ultimate Load Test
- How We Improved Our Performance Using ElasticSearch Plugins: Part 1
- How We Improved Our Performance Using ElasticSearch Plugins: Part 2
- Tinder's move to Kubernetes
Tokopedia
Blog Posts
- Benefits of benchmarking with Go
- Simulating Customized Chaos in Golang using Toxiproxy
- How Tokopedia Rank Millions of Products in Search Page
Trivago
Blog Posts
- How To Get Fooled By Metrics
Twilio
Blog Posts
- Twilio SRE Gameday Template
지저귀다
Blog Posts
- Logging at Twitter: Updated
- Deleting data distributed throughout your microservices architecture
- Deterministic Aperture: A distributed, load balancing algorithm
- MetricsDB: TimeSeries Database for storing metrics at Twitter
- The Infrastructure Behind Twitter: Scale
- The infrastructure behind Twitter: efficiency and optimization
우버
Blog Posts
- Founding Uber SRE
- Disaster Recovery for Multi-Region Kafka at Uber
- Engineering Failover Handling in Uber's Mobile Networking Infrastructure
- Optimizing Observability with Jaeger, M3, and XYS at Uber
비디오
- A Tale of Two Rotations: Building a Humane & Effective On-Call
- Testing in Production at Scale
- A History of SRE at Uber' with Rick Boone of Uber
Udemy
Blog Posts
- Blameless Incident Reviews at Udemy
- How Udemy does Build Engineering
upGrad
Blog Posts
- Web Performance and Related Stories — upgrad.com
- Beginner's guide to web analytics
- iOS Continuous Deployment with Bitbucket, Jenkins and Fastlane at UpGrad
VGW
Blog Posts
- The SRE Incident Response game
비디오
- Level Up Your Incident Response With Gameplay
Wikimedia Foundation
비디오
- Testing Encyclopedias in Production
- What Happens When You Type en.wikipedia.org?
wix
Blog Posts
- How We Improved Website Performance by Evolving Our Infrastructure
- Wix Inbox Journey: 3 Approaches for Zero Downtime Database Migration
- Moving Velo to Multiple Container Sites: The Why, The How and The Lessons Learned
- Making Order in CI/CD Mess
개가 깽깽 우는 소리
Blog Posts
- The process: Implementing Yelp's failover strategy
비디오
- Yelp - What I Wish I Knew before Going On-Call
Zalando
Blog Posts
- Tracing SRE's journey in Zalando - Part I
- Tracing SRE's journey in Zalando - Part II
- Tracing SRE's journey in Zalando - Part III
Zerodha
Blog Posts
- Infrastructure monitoring with Prometheus at Zerodha
- Logging at Zerodha
Zomato
Blog Posts
- Huddle Diaries – DevOps and Data Platform
SRECon Mix Playlist
비디오
- Adobe - The Good, the Bad and the Ugly: The 3 Learnings of an SRE
- Amdocs - SREs at Telecom and Media Industry: Bridging between Legacy and Cloud Native Apps
- Amazon - Confessions of a Systems Engineer: Learning from My 20+ Years of Failure
- Alaska Airlines - Capacity Prediction in External Services
- BuzzFeed - Optimizing for Learning
- BT - Challenges of Starting an SRE Team from Scratch in an Enterprise
- Cloudflare - Support Operations Engineering: Scaling Developer Products to the Millions
- Cloudlock - My Life as a Solo SRE
- Hudson River Trading - Fixing On-Call When Nobody Thinks It's (Too) Broken
- IBM - Why Automating Everything Adds to Your Toil
- Genesys - The Smallest Possible SRE Team
- Grafana Labs - SRE in the Third Age
- Kenna Security - Building a Scalable Monitoring System
- Lightstep - Building Service Ownership Using Documentation, Telemetry, and a Chance to Make Things Better
- MessageBird - Autopsy of a MySQL Automation Disaster
- Netlify - Perks and Pitfalls of Building a Remote First Team
- ReactiveOps - Zero to SRE
- Salesforce - Incident Response in Unfamiliar Sociotechnical Systems: One Incident Commander's Challenges Supporting Inter-organizational Anomaly Response in the Age of COVID-19
- Sprax - From Nothing to SRE: Practical Guidance on Implementing SRE in Smaller Organisations
- The New York Times - SRE by Influence, Not Authority: How the New York Times Prepares for Large-Scale Events
- Twitter - Hiring Great SREs
- United States Digital Service - Lessons Learned in Black Box Monitoring 25,000 Endpoints and Proving the SRE Team's Value
- Unity Technologies - Being Reasonable about SRE
- Udemy - How to Do SRE When You Have No SRE
- Vanguard - Cloudy with a Chance of Chaos
- WeWork - Learning from Learnings: Anatomy of Three Incidents
- Zendesk - Latency and Availability Error Budgets Done Right at Scale
자원
서적
- 새로운! Enterprise Roadmap to SRE
- Building Secure & Reliable Systems | Read free online version hosted by Google
- Site Reliability Engineering | Read free online version hosted by Google
- The Site Reliability Workbook from Google | Read free online version hosted by Google
- Training Site Reliability Engineers | Read free online version hosted by Google
- 97 Things Every SRE Should Know | Complimentary Copy from Nginx
- SLO Adoption and Usage in Site Reliability Engineering
- Practical Site Reliability Engineering
- Implementing Service Level Objectives
- Chaos Engineering
- Seeking SRE
- Security Chaos Engineering
- Chaos Engineering Observability
- Database Reliability Engineering
- What Is SRE?
- Database Reliability Engineering: What, Why, and How?
- Observability Engineering
- Chaos Engineering: Site reliability through controlled disruption
- Incident Metrics in SRE | Read free online version hosted by Google
- Engineering Reliable Mobile Applications
- Monitoring the SRE Golden Signals
- Site Reliability Engineering: Philosophies, habits, and tools for SRE success | Portable version
- 97 Things Every Cloud Engineer Should Know
- Real-World SRE
- Hands-on Site Reliability Engineering
이벤트
- SRECon Past Events
- ChaosConf
- SLOConf
- cdCon
- cdCon 2021 Playlist
- cdCon 2020 Playlist
- Conf42
기타 리소스
Awesome Lists
- Awesome SRE
- Awesome Site Reliability Engineering Tools
- Awesome Chaos Engineering
- Awesome Monitoring
- Awesome Observability
- Awesome MLOps
- ML-Ops.org
SRE Resources from various organizations
- Google SRE Page
- Google SRE Classroom
- Google Cloud SRE Page
- Microsoft SRE Page
- School of SRE from LinkedIn
- Stripe Increment Magazine Issue 16 on Reliability
- AWS Observability Recipes
- Awesome Sysadmin
Incidents & postmortems
- The Verica Open Incident Database
- Postmortem Templates
- Incident Review and Postmortem Best Practices
뉴스 레터
- SRE Weekly Newsletter
- Chaos Engineering Newsletter
- DevOps Weekly Newsletter
크레딧
- Inspired by Howtheytest from Abhijeet Vaikar
- The list of organizations is referred from my other repo awesome-engineering
- Banner image Cartoon vector created by vectorjuice - www.freepik.com
Other How They... repos
- Howtheytest
- Howtheydevops
- Howtheyaws
기고자
기여하다
Contributions welcome! Read the contribution guidelines first.
Stargazers Over Time
특허
To the extent possible under law, Unmesh Gundecha has waived all copyright and related or neighboring rights to this work.
If you decide to use this anywhere, please credit @upgundecha on X. Also, if you like my work, check out my other projects on GitHub.