howtheysre 다운로드 - howtheysre 소스 코드 다운로드

그들이 어떻게

소개

그들이 어떻게 SRE 가 SRE가 SER (Site Reliability Engineering)의 선별 된 지식 저장소 (SRE) 모범 사례, 도구, 기술 및 주요 기술 또는 기술에 정통한 조직이 채택한 문화의 선별 된 지식 저장소입니다.

수많은 조직은 종종 엔지니어링 문화를 형성하는 모범 사례, 도구 및 기술을 포함하여 통찰력과 전문 지식을 자주 공유합니다. 엔지니어링 블로그, 컨퍼런스 및 회의와 같은 다양한 공개 플랫폼을 통해이를 수행합니다. 이 저장소는 이러한 소스에서 수집 된 컨텐츠를 컴파일하고 제시합니다.

주제

현장 안정성 엔지니어링
SRE 팀 채용 및 구축
SRE 문화
DevOps
모니터링 및 관찰 가능성
경고
사고 응답 및 사후 사후
통신
생산 테스트
혼돈 공학
오토메이션
성능
플랫폼 엔지니어링

조직

성취 자

블로그 게시물

ABATTOIR 입력 - 'à la carte'기티 툴링 빌딩
전 세계적으로 스케일링-서비스 메쉬 페인트 (Part-1)
전 세계적으로 생산 스케일 - 개발자를위한 관찰 가능성 문제 해결 (Part -2)
Kubernetes로드 : 프레임 워크 구축 (Part-1)
로드 테스트 Kubernetes : 병목 현상 해결 및 성능 향상 (Part-2)

에어 비앤비

블로그 게시물

슬랙을 통한 자동 입사 관리
vulnture로 취약성을 감지합니다
에어 비앤비의 경고 프레임 워크
클라우드가 어두워지면 - 아마존의 정전이 에어 비앤비에 영향을 미쳤습니다.
지능형 자동화 플랫폼 : 에어 비앤비에서 대화 AI 및 그 너머의 권한 부여
에어 비앤비의 생산 비밀 관리
규모로 데이터 보호 자동화, 1 부
규모로 데이터 보호 자동화, 2 부
규모로 데이터 보호 자동화, 파트 3
에어 비앤비에서 동적 kubernetes 클러스터 스케일링

조류

블로그 게시물

5 월 30 일 SSL 사건
SRE 로의 여행
CI/CDAY 2024 : 좋은 CI/CD 플랫폼은 무엇입니까?

알리바바 클라우드

블로그 게시물

최고의 인터넷 회사가 전통적인 O & M보다 SRE를 선택하는 이유는 무엇입니까?
Bilibili의 실시간 플랫폼의 건축 및 관행

아사나

블로그 게시물

아사나가 아사나를 사용하는 방법 : 보안 사고 대응
Asana가 안정적인 웹 응용 프로그램을 선적하는 방법
최근 다운 타임 분석 및 향후 사고를 예방하기 위해 우리가하는 일
개발자 환경 : 빠르게 재설정하도록하여 신뢰성을 달성합니다.
이번 가을에 모든 IT 리더가 고려해야 할 세 가지 보안 전술

ASOS

블로그 게시물

비난이없는 게임
Cat S (신뢰성 공학 책임자)의 삶의 하루
AKS Performance Journey : Part 1 - 모든 것을 크기
AKS Performance Journey : Part 2 - 네트워킹 IT
사이버 보안 @ asos.com
보안 운영 24x7
사이버 보안 사고 응답에서 우리가 찾는 기술

아틀라 시안

블로그 게시물

DevOps 시대의 변화 관리를위한 모범 사례
자동 테스트 : 코드로 인프라 테스트에 대한 Atlassian의 Kubernetes 팀의 5 개 교훈
관찰 및 경고를 위해 Kubernetes 이벤트를 내보내는 방법
사후 사후 템플릿

백마켓

블로그 게시물

Back Market SRE가 Black Friday를 위해 어떻게 준비했는지

바이두

비디오

황금 신호에서의 이상 감지
Netradar : 데이터 센터 네트워크 모니터링
혼돈을 시작하게하십시오 - Sre Chaos 엔지니어링은 사이버 보안을 만납니다

베이스 캠프

블로그 게시물

코드 레드 내부 : 네트워크 에디션
3 개의베이스 캠프 정전. 일주일. 무슨 일이에요?
베이스 캠프 2 및베이스 캠프 3 검색 중단 보고서
베이스 캠프에서의 입사 에스컬레이션 감소

서적

모양

블룸버그

비디오

페이지 참조 샘플링을 통한 용량 계획 및 성능 향상
SRE가 혼돈 공학을 할 여유가없는 이유
실시간 분산 시스템 추적
Bloomberg 이야기 : "헤아릴 수없는"조직에서 SRE 팀 구축
로거 (및 기타 저수준 서비스)에 대한 가시성 - 숲에서 나무를 보는 것

Booking.com

블로그 게시물

신뢰성 및 제품 팀이 Booking.com에서 협업하는 방법
사건, 수정 및 다음날
문제 해결 : 미지의 여행

비디오

데이터 집약적 인 서비스를위한 SLO
컨테이너 인프라로 덜 여행하는 도로를 취하는 이점

자본 원

블로그 게시물

슬랙으로 애플리케이션 모니터링을 자동화합니다
Boto 3 : AWS Health Check로 AWS 인프라를 자동화하십시오
활성 활성 공유 공유 데이터베이스 아키텍처
SRES의 3 R : 탄력성, 회복 및 신뢰성
앱 혼돈 준비를위한 5 단계
4 개의 Chaos Engineering 실험과 같은 실제 시나리오
혼돈… 엔지니어링을 포용하십시오
3 Enterprise에서 Chaos Engineering 구현에서 배운 교훈
AWS CodeDeploy를 사용하여 원활한 블루/그린 배포로의 깊은 다이빙
안전한 도커 컨테이너에는 안전한 응용 프로그램이 필요합니다
복원력을 향상시키기 위해 클라우드와 DevOps의 페어링을위한 4 단계
12 단계 앱 및 마이크로 서비스 아키텍처가있는 컨테이너 준비 애플리케이션
신뢰로 배포 - AWS의 카나리아 배치로 위험 최소화, 탄력성 최대화
탄력성을위한 건축
지속적인 혼돈 - DevOps 관행에 혼돈 엔지니어링을 소개합니다
MON-IFESTO 1 부 : 메트릭

주요 사건 및 분석 보고서

Capital One 사이버 사건에 대한 정보
Capital One 데이터 위반에 대한 사례 연구

비디오

지속적인 배송 뱅킹 - 자본 1
DevOps의 지속적인 혼돈 - Capital One
Capital One의 DevOps : 파이프 라인 및 측정에 중점을 둡니다
규모에 따라 클라우드 계정의 운영 건강 관리 자동화

코인베이스

블로그 게시물

오픈 소싱 코인베이스의 보안 배포 파이프 라인

Dazn

블로그 게시물

Dazn의 사이트 안정성

DBS

블로그 게시물

Ithome의 SRE 컨퍼런스에서 발표 : 지금까지 DBS SRE Transformation Journey
가장 인기있는 7 가지 사이트 신뢰성 엔지니어링 신화를 폭로합니다
직장에서 흠없는 문화를 키우기 위해 SRE를 사용하는 방법
DBS Bank의 현장 안정성 엔지니어링
구성 관리를 규모로 자동화합니다
DBS가 혼돈 공학의 신화를 없애는 방법
이중, 이중 수고 및 문제

비디오

Koon Seng Lim, DBS와 함께 Srecon 대화 아시아/태평양

심해

블로그 게시물

Redis Diskless Replication : 무엇, 어떻게, 왜, 왜 그리고 경고
Kubernetes로 Vault를 설정하는 방법
Kubernetes에서 제로 다운 타임 배포를 분해합니다

Dream11

블로그 게시물

규모의 배포 : Dream11의 사내 청록색 배포 플랫폼 'Oneclick'의 이야기.
AWS WAFV2의 보안 및 신뢰 향상
규모로 GraphQL을 실행하여 배운 교훈
회로 파손, 콩을 구해?
혼돈에서의 순서 찾기 : 토크로 성능 테스트를 자동화하는 방법
Dream11에서 초음속 릴리스 유지
확장하거나 확장하려면? 우리가 Dream11에서 확장하는 방법은 다음과 같습니다
규모의 실시간 분석, 경고 및 이상 탐지 아키텍처 구축 Dream11

드롭 박스

블로그 게시물

Dropbox Engineering Career 프레임 워크 - 신뢰성 엔지니어 (SRE)
아틀라스 : 파이썬 모노리스에서 관리 플랫폼으로의 여행
소용돌이로 서버 응용 프로그램을 모니터링합니다
Athena : 자동화 된 빌드 건강 관리 시스템
사이트 신뢰성 엔지니어가되고 싶으십니까?

비디오

규모의 서비스 발견 과제

이베이

블로그 게시물

Kafka와의 탄력성 및 재해 복구
SRE 사례 연구 : 메모리 문제를 벗어난 비유
SRE 사례 연구 : 신비한 교통 불균형
가동 중지 시간, 즉시 배포 및 롤백
eBay의 알림 플랫폼이 새로운 방식으로 결함 주입을 사용한 방법

동영상

Madaari : 원숭이 주문

서사시 게임

동영상

AWS Re : Invent 2018 : Epic Games는 AWS를 사용하여 Fortnite를 2 억 명의 플레이어에게 제공합니다.

Etsy

블로그 게시물

열 살짜리 응용 프로그램의 배포 경험 향상
Etsy가 2020 년에 역사적인 수량의 휴가 교통을 준비하는 방법
진보에 대한 당신의 두뇌
흠없는 사후 사후에 대한 Etsy의 브리핑 촉진 안내서
opsweekly : 경보 분류로 통화 경험 측정
현장 정전을 탈취합니다
흠없는 사후 사후와 정당한 문화
모든 것을 측정하고 모든 것을 측정하십시오

비디오

Velocity 09 : John Allspaw와 Paul Hammond, "10+ 배포 PE
모 놀리를 클라우드로 마이그레이션합니다

Expedia

블로그 게시물

성능 표준 자동화
오류 예산 정책 - 1 부 - Expedia Group에서의 채택
오류 예산 정책 - 2 부 - Expedia Group의 관행
결함 주입을 사용하여 새로운 런타임 플랫폼의 안정성을 향상시킵니다
Expedia Group의 사건으로부터 학습
VRBO 홈페이지 로딩 경험 향상
문제 해결 502 오류 : ECS 체크리스트
Elasticsearch를 시작합니다
Istio-Proxy 5xx 문제에 관한 모든 것
Kubernetes에서의 자동화 : 수평 포드 오토 스케이너가 왜 나에게 작동하지 않습니까?
Kubernetes 배포를 여러 구역에서 균형을 유지하는 방법
Dropwizard 대기 시간 지표가 당신을 오도하고 있습니까?
100% 신뢰성의 비용
모니터링 대시 보드 생성
DevOps 용 Bash 사용

빠르게

비디오

SRE & 제품 관리 : 제품 관리자처럼 생각하여 팀 (및 경력)을 수준하는 방법
탄력성 공학 신화

G- 연구

블로그 게시물

G-Research에서의 SRE 여정
SRE 여정은 계속됩니다
OpentSDB 메타 캐시-성능을위한 트레이드 오프

getaround

블로그 게시물

우리가 GetAround에서 사건을 처리하는 방법
지속적인 전달 과정의 진화

github

블로그 게시물

반복 단순화를 통해 가용성을 향상시키는 방법
Github에서 푸시 처리를 개선하는 방법
Github가 Merge 대기열을 사용하여 매일 수백 개의 변경 사항을 배송하는 방법
AI로 보안 취약점 수정
Github의 엔지니어링 기초 프로그램 : 가용성, 보안 및 접근성을 제공하는 방법
Github가 Github 액션 및 액션을 사용하여 더 큰 주자를 사용하여 Github.com을 구축하고 테스트합니다.
오픈 소스 프로젝트에서 500 cves를 공개하기위한 Github Security Lab의 여정
CodeQL 팀은 AI를 사용하여 코드의 취약성 감지에 전원을 공급합니다.
Github의 최근 가용성 문제를 해결합니다
CI/CD에 대한 조직 전체 거버넌스 및 재사용 및 GitHub Actions의 자동화 구축
GitHub 조치를 통한 이슈를 통해 지점 배포 활성화
chatops를 사용하여 호출 엔지니어 작업을 도와줍니다
척도를 처리하기 위해 Github의 관계형 데이터베이스를 분할합니다
Github 코드 스캔으로 개발자의 행복을 늘립니다
Github가 OpenTelemetry를 채택하는 이유 (그리고 어떻게)
Github의 대규모 Monorepo 성능 향상
GitHub의 배포 신뢰성
GitHub를 배포하는 방법 개선
Github에서 국내 문화 구축
플라키 빌드 감소는 18 배입니다
DevOps에서 운영의 진화하는 역할
DevOps 자동화를 시작합니다
Github의 MySQL 고 가용성

주요 사건 및 분석 보고서

Github 가용성 보고서 : 2024 년 8 월
Github 가용성 보고서 : 2024 년 7 월
Github 가용성 보고서 : 2024 년 6 월
Github 가용성 보고서 : 2024 년 5 월
Github 가용성 보고서 : 2024 년 4 월
Github 가용성 보고서 : 2024 년 3 월
Github 가용성 보고서 : 2024 년 2 월
Github 가용성 보고서 : 2024 년 1 월
Github 가용성 보고서 : 2023 년 12 월
Github 가용성 보고서 : 2023 년 11 월
Github 가용성 보고서 : 2023 년 10 월
Github 가용성 보고서 : 2023 년 9 월
Github 가용성 보고서 : 2023 년 8 월
Github 가용성 보고서 : 2023 년 7 월
Github 가용성 보고서 : 2023 년 6 월
Github 가용성 보고서 : 2023 년 5 월
Github 가용성 보고서 : 2023 년 4 월
Github 가용성 보고서 : 2023 년 3 월
Github 가용성 보고서 : 2023 년 2 월
Github 가용성 보고서 : 2023 년 1 월
Github 가용성 보고서 : 2022 년 12 월
Github 가용성 보고서 : 2022 년 11 월
Github 가용성 보고서 : 2022 년 10 월
Github 가용성 보고서 : 2022 년 9 월
Github 가용성 보고서 : 2022 년 8 월
Github 가용성 보고서 : 2022 년 7 월
Github 가용성 보고서 : 2022 년 6 월
Github 가용성 보고서 : 2022 년 5 월
Github 가용성 보고서 : 2022 년 4 월
Github 가용성 보고서 : 2022 년 3 월
Github 가용성 보고서 : 2022 년 2 월
Github 가용성 보고서 : 2022 년 1 월
Github 가용성 보고서 : 2021 년 12 월
Github 가용성 보고서 : 2021 년 11 월
Github 가용성 보고서 : 2021 년 10 월
Github 가용성 보고서 : 2021 년 9 월
Github 가용성 보고서 : 2021 년 8 월
Github 가용성 보고서 : 2021 년 7 월
Github 가용성 보고서 : 2021 년 6 월
Github 가용성 보고서 : 2021 년 5 월
Github 가용성 보고서 : 2021 년 4 월
Github 가용성 보고서 : 2021 년 3 월
Github 가용성 보고서 : 2021 년 2 월
Github 가용성 보고서 : 2021 년 1 월
Github 가용성 보고서 : 2020 년 12 월
Github 가용성 보고서 : 2020 년 11 월
Github 가용성 보고서 : 2020 년 8 월
Github 가용성 보고서 : 2020 년 7 월
GitHub 가용성 보고서 소개
2 월 서비스 중단 사업 후 분석
10 월 21 일 사후 분석
2 월 28 일 DDOS 사건 보고서
사고 보고서 : 부주의 한 개인 저장소 공개

비디오

일대일에 하나

gitlab

블로그 게시물

이 SRE는 Haproxy 구성 변경을 출시하려고 시도했습니다. 당신은 다음에 일어난 일을 믿지 않을 것입니다 ...
내 주 gitlab 사이트 안정성 엔지니어를 도시했습니다
업데이트 : 고급 글로벌 검색을 위해 배운 Elasticsearch 레슨
인프라의 새로운 팀의 반복 교훈
Gitlab에서 인프라 지출을 최적화하는 방법
sidekiq를 사용하여 gitlab.com에서 비동기 워크로드 처리 방법
내부 Gitlab : 소프트웨어 패치를 출시하는 방법
누락 된 TCP Keepalives를 추적하는 것은 Docker, Golang 및 Gitlab에 대해 가르쳐주었습니다.
Postgresql로 재해 복구를 위해 지연된 복제를 사용한 방법

Gocardless

블로그 게시물

Gocardless에 소프트웨어 배포 : "시작"자습서를 오픈 소싱합니다
우리가 술집/하위 메시지 등을 압축하여 많은 돈을 절약하는 방법
레일에 대한 두려움이없는 postgresql 마이그레이션
Gocardless의 관찰 가능성 : API 성능 개선 이야기
PostgreSQL 쿼리 플래너 디버깅
제로 다운 타임 포스트 그레스 마이그레이션 - 하드 부품
성능 검색 - 모든 게시물 요청에서 200ms를 면도하는 방법

주요 사건 및 분석 보고서

사고 검토 : 2020 년 10 월 25 일에 서비스 중단, Vault TLS 만료
사고 검토 : 2017 년 10 월 10 일 API 및 대시 보드 중단

Godaddy

블로그 게시물

Kubernetes Gated 배포
Kubernetes 외부 비밀
Kubernetes- 응용 프로그램 개발자를위한 실질적인 소개
Kubernetes API의 직관적 인 node.js 클라이언트

GOJEK

블로그 게시물

Skynet 소개 : Gojek의 코드로 인프라
10 배의 부하에 대한 지리 검색 서비스 스케일링
우리가 RCA에 의해 맹세하는 이유
GKE에서 Kubernetes를 업그레이드하는 방법
생산에서 Apache 공기 흐름을 모니터링하는 방법

Goldman Sachs

블로그 게시물

SECDB 관측 가능성 여행
혼돈 AWS 응용 프로그램 테스트
응용 프로그램 복원력을 강화하기 위해 기계 학습을 사용한 용량 정전 예측
Haproxy를 사용하여 Sybase IQ 멀티 플렉스를 사용하여 99.9% 가용성 및 초반 응답 시간 제공
Amazon RDS 및 Amazon Aurora를 통한 다중 지역 복원력 구축
Goldman Sachs에서 사용 가능한 Trino 클러스터를 활성화합니다
규모로 관찰 가능성
인프라 및 명령 체인 패턴
EC2 MACOS와 함께 모바일 CICD
포획 발표 - 소스 코드 비밀 스캐너
데이터 엔지니어링을위한 플랫폼 구축

Google

블로그 게시물

생성 AI를 사용한 입사 응답 가속화
마이크로 서비스 의존성 관리의 함정 및 패턴
SRE 관행 및 프로세스
Go를 사용한 Google 사이트 안정성
3 개월, 30 배 수요 : Covid-19 동안 Google 모임을 축소하는 방법
SRE 교실 : 분산 펍 서브
SRE 팀이 구성되는 방법 및 시작 방법

비디오

DevOps와 SRE의 차이점은 무엇입니까? Google의 Seth Vargo 및 Liz Fong-Jones와 함께
Seth Vargo 및 Google의 Liz Fong-Jones와 함께 위험 및 오류 예산
GCP의 Max Luebbe와 함께 실용적인 자동화
시청해야합니다! -Google SRE YouTube 재생 목록
Squish 레벨 목표 : SRE가 기술 작업을 사용자 이익에 맞추는 데 도움이되는 방법
분산 합의 구현
SRE는 내가되기를 열망합니다
SRE 교실, 또는 3 시간 안에 안정적인 분산 시스템을 설계하는 방법
Zero Touch Prod : 더 안전하고 안전한 생산 환경을 향해
우리의 모든 ML 아이디어는 나쁘다 (그리고 우리는 기분이 나쁘다)
지도는 영토가 아닙니다 : 슬로스가 우리를 어떻게 길로 인도 하는가, 그리고 우리가 할 수있는 일
SRE 교육 모범 사례 배치 생산에 : SRE 교육 프로그램을 어떻게 작성하는지
Bigtable : 이진에서 서비스로의 여정 및 길을 따라 배운 교훈
관찰 가능성을위한 실용적인 계측
ML OPS 란 무엇입니까? 생산 ML 서비스의 DevOps를위한 솔루션 및 모범 사례
서비스 신뢰성 통일보고
서버 활용 및 꼬리 대기 시간을 트레이드하는 방법
균형 유지 : 인터넷 스케일로드 밸런싱이 정식화되었습니다
블랙 박스에서 알려진 수량 : 예측 가능한 신뢰할 수있는 ML 기반 서비스를 구축하는 방법
SRE의 마음 챙김 : 자아를 모니터링하고 경고합니다
실용적인 자동화
실시간 스케일링 : 1K SRE 프로젝트
생산 데이터를 편집하기위한 전략
SRE 자율성의 저주와 관리 방법
SRE 조직 스케일링 : 1에서 많은 팀으로의 여정
SRE Classroom- 분산 시스템을 3 시간 안에 설계하는 방법
PRD 및 사용자 여행을 사용하여 사용자 친화적 인 도구를 설계합니다
Google SRE와 개발자가 함께 일하는 방식
SRECON21- SRE에 대한 실험

붙잡다

블로그 게시물

Grab에서 지속적인 배달로의 여정 (1 부)
Grab에서 지속적인 배달로의 여정 (2 부)
탄력성 시스템 설계 : 회로 차단기 또는 검색? (1 부)
탄력성 시스템 설계 : 회로 차단기 또는 검색? (2 부)
재심을 넘어서 탄력성 시스템 설계 (3 부) : 아키텍처 패턴 및 혼돈 엔지니어링
Grab의 실험 플랫폼을 사용하여 혼돈을 조정합니다
자원 남용을 방지하기 위해 할당량 마이크로 서비스를 설계하는 방법
우리가 캐시를 축소하고 숙면을 취하는 방법

문법

블로그 게시물

여러 지역을 지원하기 위해 AWS 인프라를 스케일링합니다
AWS 환경에서의 보안 운영

맛

블로그 게시물

통화의 마음의 평화를위한 서비스 수준 목표
디버깅 사이드 키크 독 약

halodoc

블로그 게시물

기본 모바일 앱을위한 사이트 안정성 엔지니어링

헤로쿠

블로그 게시물

Heroku의 새로운 건축물에서 Rendezvous의 모험
Heroku의 사고 대응

IBM

블로그 게시물

SRE (Site Reliability Engineering) 란 무엇입니까?
AIOPS 도구 및 솔루션

물론

블로그 게시물

실제로 SRE : 내부 룩
충분히 신뢰할 수 있습니다
실제로 릴리스 프로세스를 자동화합니다
Sloth, Preetha Appan of Enderc.com과 함께 네트워크 장애를 유도하는 도구

비디오

우리는 아직 나아지고 있습니까? 더 안전한 운영을 향한 진전

물론

블로그 게시물

SRE Playbook- 실용 가이드

칸 아카데미

블로그 게시물

칸 아카데미가 일주일에 2.5 배의 트래픽을 성공적으로 처리 한 방법
콘텐츠 인프라 발전

블로그 게시물

용량 분석기를 통한 현장 용량 예측 재고
LinkedIn의 제품 SRE 팀에 대한 통찰력
LinkedIn에서 SRE를 고용합니다
오픈 소스 업데이트 : SRE 학교
Linux 파일 시스템 성능 회귀 분석 수정
다크 카나리아로 생산 테스트
LinkedIn의 실시간 모니터링 플랫폼 인 Temleye의 스마트 경고
Iris Mobile : 사고 관리를위한 오픈 소스, 모바일 인터페이스
Linkedout : 요청 수준 실패 주입 프레임 워크
완전 자동화로드 테스트로 수고를 제거합니다
성공적인 지리적으로 분산 된 SRE 팀의 구성 : 1 부
성공적인 지리적으로 분산 된 SRE 팀의 구성 : Part 2
Project Star*: 우리의 통화 프로세스를 간소화합니다
ONCALL 자동화 : 오픈 소싱 Fossor 및 Ascii Etch
Project WaterBear와 LinkedIn의 탄력성 공학
LinkedIn에서 SRES 채용, 2017
개방형 소싱 아이리스 및 콜
LinkedIn에서 SRE 문화 구축
실패는 옵션이 아닙니다
mttd와 mttr이 핵심입니다
측정되는 것은 고정됩니다

비디오

LinkedIn : Hiring Is Use -Greg Leffler에서 사이트 신뢰도 팀 성장
9 년의 실패 : 엉터리 자동차가 나를 더 나은 SRE로 만든 방법
폭풍 풍화 : 조기 경고가 농장을 구하는 방법
회의 : SRE의 해결되지 않은 문제
관리없이 선도 : SRE 기술 리더가되기
(내) 모니터링이 왜 빨라 집니까?
트래픽 예측 및 스트레스 테스트 인프라
SRE의 더 나은 결정을위한 집단적 마음 챙김
TCP - 구조, 향상 및 튜닝
6 억 명 이상의 회원과 수백 개의 마이크로 서비스 : 모니터링 시스템을 유지하여 유지하는 방법
비즈니스 메트릭을 이해하면 더 나은 SRE가 될 수 있습니다
코드-노란색 : 운영의 최고 팀이 현명한 방식으로 도와줍니다
회사 간의 SRE 구현의 차이

도구

통신

로지

블로그 게시물

릴리스 관리자 모델
SRE 팀 #8 : 로지

사랑의 홀리데이

블로그 게시물

Prometheus 및 Alertmanager의 동적 경보 라우팅
HTTP/3으로 Love Holidays를 18% 더 빠르게 만듭니다
Terraform, Atlantis 및 정책으로 셀프 서비스 인프라에 대한 모범 사례 시행
Love Holidays를 확장하는 데 도움이 된 5 가지 원칙
실시간 Grafana Loki와 함께 하루에 $ 1 미만으로 빠르게 로그

맥쿼리

블로그 게시물

Golang과의 Devsecops 여행
Kotlin의 코드로서의 파이프 라인 구성
의무의 분리 및 분리
Macquarie는 DevOps를 포용합니다
기업 전체의 Kubernetes 플랫폼 스케일링

가장 중요합니다

블로그 게시물

Prometheus 및 Thanos로 규모의 클라우드 환경을 모니터링합니다
SLO 모니터링 및 Prometheus에 대한 경고를 수행하기 위해 도망기를 사용하는 방법

메이투안 (()

블로그 게시물

클라우드에서 SRE의 개발과 실습 (云端的 sre 发展与实践)

메르 카리

블로그 게시물

누가 파수꾼을 보나요? 모니터링 시스템을 주시하십시오
SRE 전도자로서 MicroServices SRE 팀이 무엇을하고 있는지
임베디드 마이크로 서비스 SRE로 일하는 것이 어떤 것인지
Merpay SRE 팀 : 과거와 미래
Mercari에 내장 된 SRE
SRE 팀이 개발 팀과 달성하고자하는 것
DevSecops : 그것은 무엇이며 왜 업계에서 추진력을 얻고 있습니까?
문제 해결 기술을 어떻게 공유합니까?
Terraform이있는 스케일의 Datadog 대시 보드

메타

블로그 게시물

효율적인 사고 응답을 위해 AI를 활용합니다
데이터 주석으로 메타의 SLO 워크 플로우를 개선합니다
Slick : 신뢰성 향상을 위해 SLO를 채택합니다
10 월 4 일 중단에 대한 자세한 내용
10 월 4 일 중단에 대한 업데이트

비디오

SRE에 대한 고객 서비스 접근 방식
프로젝트를 확장하는 방법 : 사후 사후
7 분마다 세계 최대의 파이썬 사이트를 출시합니다
ML을 사용하여 동적 오류 분류를 자동화합니다

마이크로 소프트

비디오

SLI & Reliability Deep-Dive '와 함께 David N. Blank-Edelman of Microsoft
자동화의 아이러니 : Microsoft의 Tanner Lund와 함께 세 부분의 코미디
지속 가능한 소프트웨어 엔지니어링 및 SRE
호출기 피로를 개선하기위한 인적 요소와 팀 문화에 대한 연구
응용 프로그램을 작성하는 동안 신뢰 우선 순위
회복력 구축 : 사건에서 더 많은 것을 배우는 방법
두 가지 사후 사후 이야기 : 인적 요소보기
가용성 - 9 초 이상의 생각
자동화의 아이러니 : 세 부분의 코미디
서버리스의 OPS

미로

블로그 게시물

Prometheus 고 가용성 및 결함 허용 전략, Victoriametrics와의 장기 스토리지
로드 테스트를위한 수백 개의 서버 관리 : 자동화, 맞춤형 모니터링, DevOps 문화
예상치 못한 뉘앙스와 관련하여 신뢰할 수있는 부하 테스트

몬조

블로그 게시물

자동화 Monzo : 플랫폼을 올바른 크기로 최적화하는 방법
우리가 Monzo에서 통화를 진화시키는 방법
우리가 사건에 어떻게 대응하는지
우리가 모조를 모니터링하는 방법

비디오

결국 일관된 서비스 발견

도구

응답

넷플릭스

블로그 게시물

비동기 워크 플로에서 관찰 가능성을 달성합니다
Netflix의 분산 추적 인프라 구축
Netflix의 관찰 도구 구축의 교훈
Edgar : 관찰 가능성으로 미스터리를 더 빨리 해결합니다
Telltale : Netflix 응용 프로그램 모니터링 단순화
고객 스트리밍 유지 - Netflix에서 중앙 집중식 사이트 신뢰성 관행
파견 소개
Windows에 Netflix DevOps 패턴을 적용합니다
챕터 : 혼돈 자동화 플랫폼
눈사태를 시작합니다
Netflix Chaos 원숭이가 업그레이드되었습니다
혼돈 엔지니어링 업그레이드
자동 고장 테스트
혼돈에서 제어까지 - Netflix의 콘텐츠 발견 플랫폼의 탄력성 테스트
Atlas 소개 : Netflix의 1 차 원격 측정 플랫폼
적합 : 실패 주입 테스트
보안 원숭이 발표 - AWS 보안 구성 모니터링 및 분석
Netflix가 AWS 중단에서 배운 교훈
Scryer : Netflix의 예측 자동 스케일링 엔진

주요 사건 및 분석 보고서

2012 년 10 월 22 일 사후 AWS 저하

비디오

AWS Re : Invent 2019 : Netflix 엔지니어의 삶의 날 (NFX202)
/bin /sh 공격시기 : "모든 것들을 자동화"
일이 어떻게 제대로 되었습니까? 사건에서 더 많은 것을 배우십시오
@netflix 스트리밍 데이터 인프라 모니터링 및 추적
Netflix Scale의 실제 사용자 성능 모니터링 - Martin Spier
AWS Re : Invent 2017 -Nora Jones
AWS Re : Invent 2017 : Netflix Scale에서 혼돈 공연 (Dev334)
Netflix : 다중 지역 복원력 및 Amazon Route 53
탄력성을위한 서비스 설계 : Netflix 레슨
South Bay SRE Meetup -Netflix Cloud Performance 팀
AWS Re : 발명 2017 : Netflix 엔지니어 III의 삶의 날 (ARC209)
Netflix가 Kinesis 스트림을 사용하여 응용 프로그램을 모니터링하고 수십억 개의 트래픽 흐름을 분석하는 방법
마스터 링 혼란 - 마이크로 서비스에 대한 넷플릭스 가이드
AWS Re : 발명 2016 : 탄력성에서 유비쿼터스 - #Netflixeverywhere 글로벌 아키텍처 (ARC204)
Srecon 2016 -Netflix : 190 개국 및 5 개의 핵심 SRES
SYS 관리자에서 Netflix SRE까지
Hystrix와 함께 Netflix의 응용 프로그램 탄력성 엔지니어링 및 운영
Netflix에서 실패를 주입합니다
LISA13 -Netflix가 탄력성 향상에 실패하고 가용성을 극대화하는 방법
Netflix Velocity의 사고 관리

팟 캐스트

Ryan Kitchens Netflix의 사건, SRE의 역할 및 사회 기술 시스템

도구

보내다

새로운 유물

블로그 게시물

현대 소프트웨어 역할 정의 : New Relic의 SRES
SRE (Site Reliability Engineering)에 대해 모두가 알아야 할 10 가지
현장 안정성 엔지니어는 어떤 도구를 사용합니까?
새로운 유물의 삶의 하루
매우 성공적인 현장 안정성 엔지니어의 7 습관
SRE의 실천 채택
현대의 관찰 가능성을 사용하여 데이터 중심 문화를 확립합니다

누 뱅크

블로그 게시물

엔지니어링 운영 우수성, 지속적인 개선의 사례
기술 사고를 다루는 방법
Nubank에서 우리가 통화로 회전하는 방법
데이터 플랫폼을 효율적이고 안정적으로 확장하는 방법
우리가 엔드 투 엔드 테스트 스위트를 죽인 이유
머신 러닝 모델에 대한 자동 재교육 : 팁 및 교훈

Openai

블로그 게시물

3 월 20 일 chatgpt 정전 : 여기에 무슨 일이 있었는지
Openai Sre와 스케일링이 쉽게 설명되었습니다.
Kubernetes를 2,500 개의 노드로 스케일링합니다
Kubernetes를 7,500 개의 노드로 스케일링합니다
OpenAI에서 AI 인프라 스케일링

PayPal

블로그 게시물

트리거링 : 사고 #1234 (사고 과정이 수정 필요)
서비스 메시에서 관측 성 구현
Scale의 PostgreSQL : Database Schema는 다운 타임없이 변경됩니다
PayPal에서 GraphQL 스케일링

비디오

Karthikeyan Selvaraj 및 Rajesh Ramachandran, PayPal과 Srecon 대화 아시아/태평양
SRE vs SRE Now : PayPal에서 반사 신경과 직관적 인 본능 사이의 균형 행동
분산 로그 처리를 통해 서비스 저하 및 규모의 실패 감지
규모가 쉽게 Elasticsearch 운영
보안 제어를 통한 사이트 신뢰성 보장

피크닉

블로그 게시물

마이크로 미터 및 최신 관측 성 스택
피크닉에서 모니터링 및 관찰 가능성

블로그 게시물

ADS 실시간 스트리밍 서비스의 고 가용성 보장
S3 읽기 최적화를 사용하여 효율성 향상 및 런타임 감소
Pinterest에서 보증으로 Kubernetes를 스케일링합니다
iOS 앱에서 배운 내용
지속적인 통합 시스템을 50% 더 빠르게 설계하는 방법
웹 배포 단순화
Pinterest 운영 메트릭 업그레이드
새로운 오픈 소스 도구를 사용하여 Pinterest에서 배포 된 추적
자동 스케일링 Pinterest

비디오

실행 가능한 코드 소유권 구축
Pinterest에서 관측 성 도구의 진화
서비스 소유자를위한 OS/플랫폼 업그레이드 자동화

우편 집배원

블로그 게시물

Kubernetes 클러스터가 Gremlin과 Grafana를 사용하여 고장에 어떻게 반응하는지 알아보십시오.

프레지

블로그 게시물

글로벌 정전을 피하는 방법 - 데몬셋 레이블을 원활하게 마이그레이션
속도 검색 - Elasticsearch 성능 디버깅
Prezi의 Prometheus : 10 년 동안의 패턴을 대체합니다

빨간 모자

블로그 게시물

OPS에서 SRE로 : OpenShift 전용 팀의 진화
5 애자일 관행 모든 SRE 팀이 채택해야합니다
Kubernetes 작업자 작성을위한 7 가지 모범 사례 : SRE 관점

폭동 게임

블로그 게시물

Runeterra CI/CD 파이프 라인의 전설
불확실한 시스템에서 작업하기위한 전략
운영 서비스를위한 개발자 경험을 향상시킵니다
평가자에 대한 확장 성 및 하중 테스트
게임 개발 및 운영을 위해 Golang을 활용합니다
결함 주입 테스트를 통제 한 혼돈
성능 모니터링의 토끼 구멍 아래로
프로파일 링 : 실종 된 밀리 초의 경우
프로파일 링 : 리그의 실제 공연
프로파일 링 : 최적화
프로파일 링 : 측정 및 분석
Riot에서 온라인 서비스 실행 : 1 부
Riot에서 온라인 서비스 실행 : Part II
Riot에서 온라인 서비스 실행 : Part III
Riot에서 온라인 서비스 실행 : Part III : Part Deux
Riot에서 온라인 서비스 실행 : Part IV
Riot에서 온라인 서비스 실행 : 파트 V.
폭동에서 보안의 진화
리그 클라이언트 업데이트 용 자동 테스트 파이프 라인 실행
리그 오브 레전드에 대한 자동 테스트

Salesforce

블로그 게시물

다중 테넌시를위한 Kubernetes 컨트롤 평면을보고 있습니다
스케일 용 EKS 네트워킹 최적화
Kubernetes 클러스터의 제로 다운 타임 노드 패치
어떻게, 이유가 아님 : 사후 사후에 대한 5 개의 날에 대한 대안
Kubernetes의 일반 사이드카 인젝터
마이크로 서비스를 기반으로하는 제품에 대한 모니터링 전략 구현
실제로 사용할 입사 응답 계획을 개발하기위한 10 단계
거의 완벽한 로그 파이프 라인으로의 여행
웹 작업자와 성능을 최적화합니다
잠시 동안 다시 초점을 맞추십시오

Schibsted Media

블로그 게시물

스칸디나비아의 상위 10 개 사이트 중 일부에 대한 신뢰성 엔지니어링

scribd

블로그 게시물

사고로부터 배우기 : Sidekiq을 10 억 구직에 봉사 할 준비를하기
Scribd에서 Pagerduty를 사용하는 것에 대한 평가
개발자에게 호출기 의무를 할당합니다

Shopify

블로그 게시물

교통량이 많은 사건에 대한 탄력성 계획
규모의 용량 계획
DNS Traffic Management를 사용하여 Shopify의 서비스에 탄력성을 추가합니다.
효과적인 게임 일 테스트를 만드는 4 단계
사고 관리 절차에 Chatops를 구현합니다
Shopify의 Statsd

비디오

네트워크 모니터 : 관측 성 격차를 인정하는 이야기
예상치 못한 일을 기대하십시오 : 새로운 실패에 응답 할 SRE 팀 준비
고급 냅킨 수학 : 첫 번째 원칙에서 시스템 성능 추정

스카이 베팅 및 게임

블로그 게시물

단지 모니터링 변경 일뿐입니다
“일어날 수있는 최악의 상황은 무엇입니까?”: 우리가 라이브 사건을 어떻게 다루는 지에 대한 예를 들어
재에서 상승
충돌! 쾅! 구타! 연습은 완벽합니다
성능 왼쪽 왼쪽과 중앙

느슨하게

블로그 게시물

2-22-22에서 슬랙의 사건
지출 곡선 변경을위한 인프라 관찰 가능성
2021 년 1 월 4 일 슬랙의 중단
슬랙에서 끔찍하고 끔찍하고, 좋은, 매우 나쁜 날
슬랙에 배포됩니다
재난 극장 : 접근 가능한 혼돈 공학을위한 슬랙의 프로세스

비디오

가장자리에서 느슨합니다
우리의 시스템을 깨뜨리는 것 : 검은 백조의 분류

슬랄롬 빌드

블로그 게시물

New Relic APM에서 서비스 수준 목표를 구현하는 방법
초보자 가이드 DevOps : 업계로 만드는 방법
Github 동작 : CI/CD를 넘어서
모든 테스트 자동화가 파이프 라인에서 실행되지 않는 이유는 무엇입니까?
현장 신뢰성 엔지니어링의 많은 모양
AWS의 기본 CI/CD 파이프 라인을 사용하여 기본적으로 안전한 구축 방법 Kubernetes 클러스터
비밀 관리 아키텍처 : 보안과 복잡성 사이의 균형 찾기
Keras & Tensorflow로 악의적 인 요청을 감지합니다
레고 모놀리스 - 모노리스 마이크로 서비스 개념 증명
Hashicorp Vault를 사용하여 비밀 관리
Kubernetes의 배포를위한 스프링 부팅 애플리케이션 포장
클라우드에서의 불변 인프라 및 지속적인 전달

SoundCloud

블로그 게시물

시스템을 성공적으로 양도하는 방법
건강한 통화 문화 구축
전문가와 같은 슬로에 경고
카나리아와의 핸드 오프 배치
Prometheus는 나이가 들어 왔습니다-오픈 소스 프로젝트의 개발에 대한 반영
Prometheus : SoundCloud에서 모니터링
SRE 연수생으로 1 년 만에 배운 것
확대 렌즈 아래 테스트

Spotify

블로그 게시물

Matt Clarke : 수석 백엔드 인프라 엔지니어
개발자를위한 더 나은 Kubernetes 경험을 설계합니다
Techbytes : 산업이 사건에 대해 놓친 것과 당신이 할 수있는 일
GCP의 자동 입사 응답 인프라

비디오

추적, 빠르고 느리게 : 웹 서비스의 성능을 파고 개선합니다.

Squarespace

블로그 게시물

후드 아래 : 사이트 신뢰성 보장

비디오

마찰을 통해 밀고 있습니다
모든 것이 이미 불이 났을 때 sre하는 방법
사례 연구 : 새로운 서비스를위한 SLO 구현
Creating a Code Review Culture

Stack Overflow

Blog Posts

“This should never happen. If it does, call the developers.”
Infrastructure as code: Create and configure infrastructure elements in seconds
Fulfilling the promise of CI/CD
A deeper dive into our May 2019 security incident
Guest Post - Failing over without falling over
How We Built Our Blog
Stack Overflow Frees Up Engineering Time with Netlify

비디오

Low Context DevOps: Improving SRE Team Culture through Defaults, Documentation, and Discipline

Strava

Blog Posts

Scaling Club Leaderboard Infrastructure for Millions of Users
Distributed Tracing at Strava

줄무늬

Blog Posts

Fast and flexible observability with canonical log lines
Fast builds, secure builds. Choose two.
Introducing Veneur: high performance and global aggregation for Datadog

비디오

How Stripe Invests in Technical Infrastructure
The AWS Billing Machine and Optimizing Cloud Costs

목표

Blog Posts

Ɔhaos Ǝnginǝǝring @ Target - Part 2
Ɔhaos Ǝnginǝǝring @ Target - Part 1
GoAlert - Your Future Open Source, On-Call Notification Product

Teads

Blog Posts

Scaling your on-duty team

부싯깃

Blog Posts

The Ultimate Load Test
How We Improved Our Performance Using ElasticSearch Plugins: Part 1
How We Improved Our Performance Using ElasticSearch Plugins: Part 2
Tinder's move to Kubernetes

Tokopedia

Blog Posts

Benefits of benchmarking with Go
Simulating Customized Chaos in Golang using Toxiproxy
How Tokopedia Rank Millions of Products in Search Page

Trivago

Blog Posts

How To Get Fooled By Metrics

Twilio

Blog Posts

Twilio SRE Gameday Template

지저귀다

Blog Posts

Logging at Twitter: Updated
Deleting data distributed throughout your microservices architecture
Deterministic Aperture: A distributed, load balancing algorithm
MetricsDB: TimeSeries Database for storing metrics at Twitter
The Infrastructure Behind Twitter: Scale
The infrastructure behind Twitter: efficiency and optimization

우버

Blog Posts

Founding Uber SRE
Disaster Recovery for Multi-Region Kafka at Uber
Engineering Failover Handling in Uber's Mobile Networking Infrastructure
Optimizing Observability with Jaeger, M3, and XYS at Uber

비디오

A Tale of Two Rotations: Building a Humane & Effective On-Call
Testing in Production at Scale
A History of SRE at Uber' with Rick Boone of Uber

Udemy

Blog Posts

Blameless Incident Reviews at Udemy
How Udemy does Build Engineering

upGrad

Blog Posts

Web Performance and Related Stories — upgrad.com
Beginner's guide to web analytics
iOS Continuous Deployment with Bitbucket, Jenkins and Fastlane at UpGrad

VGW

Blog Posts

The SRE Incident Response game

비디오

Level Up Your Incident Response With Gameplay

Wikimedia Foundation

비디오

Testing Encyclopedias in Production
What Happens When You Type en.wikipedia.org?

wix

Blog Posts

How We Improved Website Performance by Evolving Our Infrastructure
Wix Inbox Journey: 3 Approaches for Zero Downtime Database Migration
Moving Velo to Multiple Container Sites: The Why, The How and The Lessons Learned
Making Order in CI/CD Mess

개가 깽깽 우는 소리

Blog Posts

The process: Implementing Yelp's failover strategy

비디오

Yelp - What I Wish I Knew before Going On-Call

Zalando

Blog Posts

Tracing SRE's journey in Zalando - Part I
Tracing SRE's journey in Zalando - Part II
Tracing SRE's journey in Zalando - Part III

Zerodha

Blog Posts

Infrastructure monitoring with Prometheus at Zerodha
Logging at Zerodha

Zomato

Blog Posts

Huddle Diaries – DevOps and Data Platform

SRECon Mix Playlist

비디오

Adobe - The Good, the Bad and the Ugly: The 3 Learnings of an SRE
Amdocs - SREs at Telecom and Media Industry: Bridging between Legacy and Cloud Native Apps
Amazon - Confessions of a Systems Engineer: Learning from My 20+ Years of Failure
Alaska Airlines - Capacity Prediction in External Services
BuzzFeed - Optimizing for Learning
BT - Challenges of Starting an SRE Team from Scratch in an Enterprise
Cloudflare - Support Operations Engineering: Scaling Developer Products to the Millions
Cloudlock - My Life as a Solo SRE
Hudson River Trading - Fixing On-Call When Nobody Thinks It's (Too) Broken
IBM - Why Automating Everything Adds to Your Toil
Genesys - The Smallest Possible SRE Team
Grafana Labs - SRE in the Third Age
Kenna Security - Building a Scalable Monitoring System
Lightstep - Building Service Ownership Using Documentation, Telemetry, and a Chance to Make Things Better
MessageBird - Autopsy of a MySQL Automation Disaster
Netlify - Perks and Pitfalls of Building a Remote First Team
ReactiveOps - Zero to SRE
Salesforce - Incident Response in Unfamiliar Sociotechnical Systems: One Incident Commander's Challenges Supporting Inter-organizational Anomaly Response in the Age of COVID-19
Sprax - From Nothing to SRE: Practical Guidance on Implementing SRE in Smaller Organisations
The New York Times - SRE by Influence, Not Authority: How the New York Times Prepares for Large-Scale Events
Twitter - Hiring Great SREs
United States Digital Service - Lessons Learned in Black Box Monitoring 25,000 Endpoints and Proving the SRE Team's Value
Unity Technologies - Being Reasonable about SRE
Udemy - How to Do SRE When You Have No SRE
Vanguard - Cloudy with a Chance of Chaos
WeWork - Learning from Learnings: Anatomy of Three Incidents
Zendesk - Latency and Availability Error Budgets Done Right at Scale

자원

서적

새로운! Enterprise Roadmap to SRE
Building Secure & Reliable Systems | Read free online version hosted by Google
Site Reliability Engineering | Read free online version hosted by Google
The Site Reliability Workbook from Google | Read free online version hosted by Google
Training Site Reliability Engineers | Read free online version hosted by Google
97 Things Every SRE Should Know | Complimentary Copy from Nginx
SLO Adoption and Usage in Site Reliability Engineering
Practical Site Reliability Engineering
Implementing Service Level Objectives
Chaos Engineering
Seeking SRE
Security Chaos Engineering
Chaos Engineering Observability
Database Reliability Engineering
What Is SRE?
Database Reliability Engineering: What, Why, and How?
Observability Engineering
Chaos Engineering: Site reliability through controlled disruption
Incident Metrics in SRE | Read free online version hosted by Google
Engineering Reliable Mobile Applications
Monitoring the SRE Golden Signals
Site Reliability Engineering: Philosophies, habits, and tools for SRE success | Portable version
97 Things Every Cloud Engineer Should Know
Real-World SRE
Hands-on Site Reliability Engineering