كيف هم sre

مقدمة
كيف هم SRE كيف هم SRE هو مستودع المعرفة منسقة لموثونة الموقع هندسة (SRE) أفضل الممارسات ، والأدوات ، والتقنيات ، والثقافة التي اعتمدت من قبل المنظمات التكنولوجية أو التكنولوجيا التكنولوجية.
تشارك العديد من المنظمات في كثير من الأحيان رؤى وخبراتها ، وتشمل أفضل الممارسات والأدوات والتقنيات التي تشكل ثقافتها الهندسية. يفعلون ذلك من خلال مختلف المنصات العامة مثل المدونات الهندسية والمؤتمرات والاجتماعات. هذا المستودع يجمع ويعرض محتوى تم جمعه من هذه المصادر.
موضوعات
- هندسة موثوقية الموقع
- توظيف وبناء فرق SRE
- ثقافة SRE
- ديفوبس
- المراقبة والملاحظة
- التنبيه
- استجابة الحوادث وما بعد الوفاة
- عند الطلب
- اختبار في الإنتاج
- فوضى الهندسة
- الأتمتة
- أداء
- هندسة المنصة
المنظمات
الإنجازات
منشورات المدونة
- أدخل أدوات Abattoir - Building 'à la carte' gitops
- تحجيم الإنتاج على مستوى العالم-عملية تجميل شبكة الخدمة (الجزء 1)
- تحجيم الإنتاج على مستوى العالم - حل مشاكل الملاحظة للمطورين (الجزء 2)
- تحميل kubernetes: بناء إطار (الجزء 1)
- اختبار التحميل kubernetes: حل الاختناقات وتحسين الأداء (الجزء 2)
Airbnb
منشورات المدونة
- إدارة الحوادث الآلية من خلال الركود
- اكتشاف نقاط الضعف مع الفقه
- إطار التنبيه في Airbnb
- عندما تصبح السحابة مظلمة - كيف أثر انقطاع أمازون على Airbnb
- منصة الأتمتة الذكية: تمكين الذكاء الاصطناعي للمحادثة وما بعدها في Airbnb
- الإنتاج السري الإدارة في Airbnb
- أتمتة حماية البيانات على نطاق واسع ، الجزء 1
- أتمتة حماية البيانات على نطاق واسع ، الجزء 2
- أتمتة حماية البيانات على نطاق واسع ، الجزء 3
- مجموعة Kubernetes ديناميكية تحجيم في Airbnb
الغوليا
منشورات المدونة
- 30 مايو حادث SSL
- رحلة إلى SRE
- CI/CDAY 2024: ما الذي يجعل منصة CI/CD جيدة؟
سحابة علي بابا
منشورات المدونة
- لماذا تختار أفضل شركات الإنترنت SRE على O&M التقليدية؟
- الهندسة المعمارية وممارسات منصة بيلبيلي في الوقت الفعلي
أسانا
منشورات المدونة
- كيف تستخدم Asana Asana: رد الحادث الأمني
- كيف تشحن Asana شحن تطبيقات الويب المستقرة
- تحليل وقت التوقف الأخير وما نقوم به لمنع الحوادث المستقبلية
- بيئة المطور: تحقيق الموثوقية من خلال جعلها سريعة لإعادة التعيين
- ثلاثة تكتيكات أمنية لكل قائد لتكنولوجيا المعلومات للنظر في هذا الخريف
ASOS
منشورات المدونة
- لعب لعبة أقل اللوم
- يوم في حياة ... Cat S (رئيس هندسة الموثوقية)
- رحلة أداء AKS: الجزء 1 - تحجيم كل شيء
- رحلة أداء AKS: الجزء 2 - شبكته
- Cyber Security @ asos.com
- العمليات الأمنية 24x7
- المهارات التي نبحث عنها في استجابة حادث الأمن السيبراني
أتلاسيان
منشورات المدونة
- أفضل الممارسات لإدارة التغيير في عصر DevOps
- الاختبار الآلي: 5 دروس من فريق Kubernetes في Atlassian على اختبار البنية التحتية كرمز
- كيفية تصدير أحداث kubernetes من أجل الملاحظة والتنبيه
- قالب ما بعد الوفاة
Backmarket
منشورات المدونة
- كيف استعدت سوق السوق ليوم الجمعة السوداء
بايدو
مقاطع الفيديو
- اكتشاف الشذوذ على الإشارات الذهبية
- NetRadar: مراقبة شبكة مركز البيانات
- دع الفوضى تبدأ - تقابل الهندسة الفوضوية الأمن السيبراني
Basecamp
منشورات المدونة
- داخل رمز أحمر: إصدار الشبكة
- ثلاثة انقطاع باسكامب. أسبوع واحد. ماذا حدث؟
- Basecamp 2 و Basecamp 3 تقرير انقطاع البحث
- تقليل تصاعد الحادث في Basecamp
كتب
بلومبرج
مقاطع الفيديو
- تخطيط القدرات وتعزيز الأداء مع أخذ أخذ العينات المرجعية الصفحة
- لماذا لا تستطيع SRES عدم القيام بالفوضى الهندسية
- تتبع الأنظمة الموزعة في الوقت الفعلي
- قصة بلومبرج: بناء فرق SRE في منظمة "لا حصر لها"
- الرؤية في سجلات تسجيل الدخول (وغيرها من الخدمات ذات المستوى المنخفض) - شاهد الأشجار من الغابة
booking.com
منشورات المدونة
- كيف تتعاون فرق الموثوقية والمنتج في booking.com
- الحوادث والإصلاحات واليوم التالي
- استكشاف الأخطاء وإصلاحها: رحلة إلى المجهول
مقاطع الفيديو
- SLOS للخدمات المكثفة للبيانات
- فوائد اتخاذ الطريق الأقل سفرًا مع البنية التحتية للحاويات
رأس المال واحد
منشورات المدونة
- أتمتة مراقبة التطبيق مع الركود
- أتمتة البنية التحتية لـ AWS مع Boto 3: AWS Health Check
- بنية قاعدة البيانات المشتركة نشطة نشطة
- 3 R's من SRES: المرونة والانتعاش والموثوقية
- 5 خطوات للحصول على فوضى التطبيق الخاصة بك جاهزة
- 4 سيناريوهات العالم الحقيقي التي تقرأ مثل تجارب هندسة الفوضى
- احتضان الفوضى ... الهندسة
- 3 دروس مستفادة من تنفيذ هندسة الفوضى في المؤسسة
- غوص عميق في نشر زرقاء/أخضر سلس باستخدام AWS CodedEploy
- تتطلب حاويات Docker الآمنة تطبيقات آمنة
- 4 خطوات لإقران السحابة و devops لتحسين المرونة
- تطبيقات حاويات جاهزة مع تطبيق اثني عشر عاملًا وعمارة الخدمات الصغيرة
- النشر بثقة - تقليل المخاطر ، وزيادة المرونة مع عمليات نشر الكناري على AWS
- المعمارة للمرونة
- الفوضى المستمرة - إدخال هندسة الفوضى في ممارسات DevOps
- الجزء الأول من الاثنين: المقاييس
الحوادث الرئيسية وتقارير التحليل
- معلومات عن حادثة Capital One Cyber
- دراسة حالة لرأس المال خرق بيانات
مقاطع الفيديو
- الخدمات المصرفية على التسليم المستمر - رأس المال واحد
- الفوضى المستمرة في ديفوبس - رأس المال واحد
- DevOps في Capital One: التركيز على خط الأنابيب والقياس
- أتمتة إدارة الصحة التشغيلية لحسابات السحابة على نطاق واسع
Coinbase
منشورات المدونة
- Open Sourcing Coinbase Secure Sister
Dazn
منشورات المدونة
DBS
منشورات المدونة
- تقديم في مؤتمر SRE الخاص بـ ITHOME: رحلة تحول DBS SRE الخاصة بنا حتى الآن
- فضح أساطير هندسة موثوقية الموقع السبعة الأكثر شعبية
- كيفية استخدام SRE لزراعة ثقافة بلا لوم في مكان العمل
- هندسة موثوقية الموقع في بنك DBS
- أتمتة إدارة التكوين على نطاق واسع
- كيف تبددت DBS أساطير هندسة الفوضى
- مزدوج ، كدح مزدوج ومتاعب
مقاطع الفيديو
- محادثات Srecon Asia/Pacific مع Koon Seng Lim ، DBS
DeepSource
منشورات المدونة
- Redis Diskless Replication: ماذا وكيف ولماذا والتحذير
- كيفية إعداد Vault مع Kubernetes
- تحطيم عمليات نشر وقت التوقف في Kubernetes
Dream11
منشورات المدونة
- النشر على نطاق واسع: قصة وراء Dream11 من منصة نشر الأزرق الخضراء "OneClick".
- تعزيز الأمن والثقة مع AWS WAFV2
- الدروس المستفادة من تشغيل GraphQL على نطاق واسع
- دوائر كسر ، حفظ كونغ؟
- إيجاد ترتيب في الفوضى: كيف قمنا باختبار الأداء الآلي مع عزم الدوران
- الحفاظ على الإصدارات المفرطة في Dream11
- لتوسيع نطاق أو توسيع نطاقه؟ إليكم كيف نتواصل في Dream11
- بناء التحليلات في الوقت الحقيقي القابل للتطوير ، والتنبيه ، والعمارة الكشف عن الشذوذ في Dream11
Dropbox
منشورات المدونة
- الإطار الوظيفي للهندسة الهندسية - مهندس الموثوقية (SRE)
- أطلس: رحلتنا من بيثون متراصة إلى منصة مُدارة
- مراقبة تطبيقات الخادم مع دوامة
- أثينا: نظام إدارة الصحة الآلي لدينا
- هل أنت مهتم بأن تصبح مهندس موثوقية الموقع؟
مقاطع الفيديو
- تحديات اكتشاف الخدمة على نطاق واسع
موقع ئي باي
منشورات المدونة
- المرونة والتعافي من الكوارث مع كافكا
- دراسة حالة SRE: TriAping A JVM غير المقطوعة من الذاكرة
- دراسة حالة SRE: اختلال حركة المرور الغامض
- الصفر في الوقت المناسب ، النشر الفوري والتراجع
- كيف استخدمت منصة إشعار موقع eBay حقن الخطأ بطرق جديدة
فيديو
ألعاب ملحمية
فيديو
- AWS RE: Invent 2018: تستخدم Epic Games AWS لتسليم Fortnite إلى 200 مليون لاعب
etsy
منشورات المدونة
- تحسين تجربة نشر طلب عمره عشر سنوات
- كيف استعدت Etsy للكميات التاريخية لحركة مرور العطلات في عام 2020
- عقلك عند التقدم
- دليل تسهيل استخلاص استخلاص المعلومات من Etsy لما بعد الوفاة بلا لوم
- Opsweeekly: قياس الخبرة عند الطلب مع تصنيف التنبيه
- إزالة الغموض عن الموقع
- اللوم بعد الوفاة وثقافة عادلة
- قياس أي شيء ، قياس كل شيء
مقاطع الفيديو
- Velocity 09: John Allspaw و Paul Hammond ، "10+ ينشر PE
- ترحيل متراصة إلى السحابة
إكسبيا
منشورات المدونة
- أتمتة معايير الأداء
- سياسة ميزانية الخطأ - الجزء 1 - التبني في مجموعة Expedia Group
- سياسة ميزانية الخطأ - الجزء 2 - الممارسات في مجموعة Expedia Group
- باستخدام حقن الأعطال لتحسين موثوقية منصة وقت التشغيل الجديدة
- التعلم من الحوادث في مجموعة Expedia
- تحسين تجربة تحميل الصفحة الرئيسية VRBO
- استكشاف الأخطاء وإصلاحها 502 خطأ: قائمة مراجعة ECS
- البدء مع Elasticsearch
- كل شيء عن مشكلات Istio-Proxy 5xx
- Autoscaling في Kubernetes: لماذا لا يعمل Pod Autoscaler الأفقي بالنسبة لي؟
- كيف تبقي عمليات نشر Kubernetes الخاصة بك متوازنة عبر مناطق متعددة
- هل مقاييس زمن انتقال Dropwizard الخاصة بك تضللك؟
- تكلفة الموثوقية 100 ٪
- إنشاء لوحات معلومات المراقبة
- باستخدام Bash لـ DevOps
بسرعة
مقاطع الفيديو
- إدارة المنتجات والمنتجات: كيفية رفع مستوى فريقك (وحياتك المهنية!) من خلال التفكير كمدير للمنتجات
- هندسة المرونة الأسطورية
G-Research
منشورات المدونة
- رحلة SRE لدينا في G-Research
- تستمر رحلة SRE
- OpentsDB Meta Cache-مقايضات الأداء
getAround
منشورات المدونة
- كيف نتعامل مع الحوادث في getAround
- تطور عملية التسليم المستمر لدينا
جيثب
منشورات المدونة
- كيف قمنا بتحسين التوفر من خلال التبسيط التكراري
- كيف قمنا بتحسين معالجة الدفع على جيثب
- كيف يستخدم Github قائمة انتظار دمج لشحن مئات التغييرات كل يوم
- إصلاح ثغرات الأمن مع الذكاء الاصطناعي
- برنامج GitHub للأساسيات الهندسية: كيف نفي بالتوافر والأمن وسهولة الوصول
- كيف يستخدم Github إجراءات GitHub والإجراءات المتسابقين الأكبر لإنشاء واختبار github.com
- رحلة GitHub Security Lab للكشف عن 500 CVES في مشاريع مفتوحة المصدر
- يستخدم فريق CodeQL AI لاكتشاف قابلية الضعف في الكود
- معالجة مشكلات توافر جيثب الأخيرة
- بناء الحوكمة على مستوى المنظمة وإعادة استخدامها لـ CI/CD والأتمتة مع إجراءات github
- تمكين عمليات نشر الفروع من خلال issuePOPs مع إجراءات github
- استخدام chatops لمساعدة الإجراءات على المهندسين
- تقسيم قواعد البيانات العلائقية لـ Github للتعامل مع المقياس
- زيادة سعادة المطور مع مسح رمز جيثب
- لماذا (وكيف) جيثب يتبنى قياس الأوبن
- تحسين أداء monorepo الكبير على جيثب
- موثوقية النشر في جيثب
- تحسين كيفية نشر github
- بناء الثقافة عند الاتصال في جيثب
- تقليل بنيات Flaky بحلول 18x
- الدور المتطور للعمليات في DevOps
- البدء في أتمتة DevOps
- توافر MySQL عالية في Github
الحوادث الرئيسية وتقارير التحليل
- تقرير توافر جيثب: أغسطس 2024
- تقرير توافر جيثب: يوليو 2024
- تقرير توافر جيثب: يونيو 2024
- تقرير توافر جيثب: مايو 2024
- تقرير توافر Github: أبريل 2024
- تقرير توافر جيثب: مارس 2024
- تقرير توافر Github: فبراير 2024
- تقرير توافر Github: يناير 2024
- تقرير توافر جيثب: ديسمبر 2023
- تقرير توافر جيثب: نوفمبر 2023
- تقرير توافر جيثب: أكتوبر 2023
- تقرير توافر Github: سبتمبر 2023
- تقرير توافر جيثب: أغسطس 2023
- تقرير توافر جيثب: يوليو 2023
- تقرير توافر جيثب: يونيو 2023
- تقرير توافر جيثب: مايو 2023
- تقرير توافر جيثب: أبريل 2023
- تقرير توافر جيثب: مارس 2023
- تقرير توافر جيثب: فبراير 2023
- تقرير توافر جيثب: يناير 2023
- تقرير توافر جيثب: ديسمبر 2022
- تقرير توافر جيثب: نوفمبر 2022
- تقرير توافر جيثب: أكتوبر 2022
- تقرير توافر جيثب: سبتمبر 2022
- تقرير توافر جيثب: أغسطس 2022
- تقرير توافر جيثب: يوليو 2022
- تقرير توافر جيثب: يونيو 2022
- تقرير توافر جيثب: مايو 2022
- تقرير توافر جيثب: أبريل 2022
- تقرير توافر جيثب: مارس 2022
- تقرير توافر Github: فبراير 2022
- تقرير توافر جيثب: يناير 2022
- تقرير توافر جيثب: ديسمبر 2021
- تقرير توافر Github: نوفمبر 2021
- تقرير توافر Github: أكتوبر 2021
- تقرير توافر Github: سبتمبر 2021
- تقرير توافر جيثب: أغسطس 2021
- تقرير توافر جيثب: يوليو 2021
- تقرير توافر جيثب: يونيو 2021
- تقرير توافر جيثب: مايو 2021
- تقرير توافر جيثب: أبريل 2021
- تقرير توافر جيثب: مارس 2021
- تقرير توافر جيثب: فبراير 2021
- تقرير توافر جيثب: يناير 2021
- تقرير توافر جيثب: ديسمبر 2020
- تقرير توافر جيثب: نوفمبر 2020
- تقرير توافر جيثب: أغسطس 2020
- تقرير توافر جيثب: يوليو 2020
- تقديم تقرير توافر جيثب
- فبراير تعطلات خدمة ما بعد الحالات
- 21 أكتوبر تحليل ما بعد الحالات
- 28 فبراير تقرير حادث DDOS
- تقرير الحادث: الكشف عن مستودع خاص غير مقصود
مقاطع الفيديو
جيتلاب
منشورات المدونة
- حاول هذا SRE طرح تغيير تكوين haproxy. لن تصدق ما حدث بعد ذلك ...
- أسبوعي أظلم مهندس موثوقية موقع gitlab
- تحديث: دروس Elasticsearch المستفادة للبحث العالمي المتقدم
- دروس في التكرار من فريق جديد في البنية التحتية
- كيف قمنا بتحسين إنفاق البنية التحتية في جيتلاب
- كيف قمنا بتوسيع نطاق معالجة عبء العمل Async في gitlab.com باستخدام sidekiq
- داخل Gitlab: كيف ننشر تصحيحات البرامج
- ما الذي علمني تتبعه في مفقود TCP عن Docker و Golang و Gitlab
- كيف استخدمنا تأخير النسخ المتماثل للتعافي من الكوارث مع postgresql
Gocardless
منشورات المدونة
- نشر البرامج في Gocardless: Open Mouncing الخاص بنا التعليمي "البدء"
- كيف نقوم بضغط الرسائل/الفرعية وأكثر من ذلك ، وتوفير حمولة من المال
- هجرات ما بعد الخوف من الخوف من القضبان
- قابلية الملاحظة في Gocardless: قصة تحسين أداء واجهة برمجة التطبيقات
- تصحيح أخطاء مخطط استعلام PostgreSQL
- هجرات بعد التنازل عن الوقت - الأجزاء الصلبة
- بحثًا عن الأداء - كيف نحلق 200 مللي ثانية من كل طلب نشر
الحوادث الرئيسية وتقارير التحليل
- مراجعة الحوادث: انقطاع الخدمة في 25 أكتوبر 2020 ، انتهاء صلاحية قبو
- مراجعة الحوادث: انقطاع API و Dashboard في 10 أكتوبر 2017
غوددا
منشورات المدونة
- Kubernetes النشر بوابات
- Kubernetes الأسرار الخارجية
- Kubernetes - مقدمة عملية لمطوري التطبيقات
- عميل Node.js بديهية لـ Kubernetes API
غوجيك
منشورات المدونة
- تقديم Skynet: البنية التحتية كرمز لـ Gojek
- تحجيم خدمة البحث الجغرافي لتحميل 10x
- لماذا أقسم من قبل RCA
- كيف نقوم بترقية kubernetes على GKE
- كيف نراقب تدفق الهواء Apache في الإنتاج
جولدمان ساكس
منشورات المدونة
- رحلة الملاحظة secdb
- الفوضى اختبار تطبيق على AWS
- انقطاع السعة التنبؤ باستخدام التعلم الآلي لدعم مرونة التطبيق
- توفير 99.9 ٪ من أوقات الاستجابة للثانية ثانية مع مضاعفات IQ Sybase باستخدام haproxy
- بناء مرونة متعددة المنطقة مع Amazon RDS و Amazon Aurora
- تمكين مجموعات ترينو متوفرة للغاية في جولدمان ساكس
- قابلية الملاحظة على المقياس
- البنية التحتية ونمط سلسلة القيادة
- CICD Mobile مع MACOS EC2
- الإعلان عن Catchit - ماسح Secort Code Secret
- بناء منصات لهندسة البيانات
جوجل
منشورات المدونة
- تسريع استجابة الحوادث باستخدام الذكاء الاصطناعي التوليدي
- المزالق والأنماط في إدارة تبعية الخدمات الدقيقة
- ممارسات وعمليات SRE
- موثوقية موقع Google باستخدام GO
- ثلاثة أشهر ، 30x الطلب: كيف قمنا بتوسيع نطاق Google خلال Covid-19
- SRE Classroom: PubSub الموزعة
- كيف يتم تنظيم فرق SRE ، وكيفية البدء
مقاطع الفيديو
- ما الفرق بين DevOps و SRE؟ مع Seth Vargo و Liz Fong-Jones من Google
- ميزانيات المخاطر والخطأ مع Seth Vargo و Liz Fong-Jones من Google
- الأتمتة البراغماتية "مع ماكس لوببي من GCP
- يجب أن تشاهد! - قائمة تشغيل Google Sre Youtube
- أهداف مستوى Squish: كيف يمكن أن تساعد SRE في مواءمة العمل الفني لصالح المستخدم
- تنفيذ الإجماع الموزعة
- سري أنا أطمح إلى أن أكون
- SRE Classroom ، أو ، كيفية تصميم نظام موزع موثوق به في 3 ساعات
- prod Zero Touch: نحو بيئات إنتاج أكثر أمانًا وأكثر أمانًا
- جميع أفكار ML لدينا سيئة (ويجب أن نشعر بالسوء)
- الخريطة ليست هي الإقليم: كيف تقودنا Slos ضلالنا ، وما يمكننا فعله حيال ذلك
- نشر أفضل ممارسات تدريب SRE على الإنتاج: كيف قمنا بتخليص برنامج التعليم SRE لدينا
- Bigtable: رحلة من الثنائية إلى الخدمة والدروس المستفادة على طول الطريق
- الأجهزة العملية للملاحظة
- ما هو ML OPS: الحلول وأفضل الممارسات لخدمات DevOps of Production ML
- الإبلاغ الموحد عن موثوقية الخدمة
- كيفية تداول استخدام الخادم والكمون الذيل
- الحفاظ على التوازن: على نطاق الإنترنت التحميل غير المصقول
- من الصندوق الأسود إلى كمية معروفة: كيفية بناء الخدمات المستندة إلى ML يمكن التنبؤ بها
- الذهن في SRE: المراقبة والتنبيه من أجل الذات
- الأتمتة البراغماتية
- التحجيم تحت الخط في الممارسة: مشروع 1K SRE
- استراتيجيات لتحرير بيانات الإنتاج
- لعنة الحكم الذاتي SRE وكيفية إدارتها
- تحجيم منظمات SRE: الرحلة من 1 إلى العديد من الفرق
- SRE Classroom - كيفية تصميم نظام موزع في 3 ساعات
- استخدام PRDs ورحلات المستخدم لتصميم أدوات سهلة الاستخدام
- كيف تعمل Google SRE والمطورين معًا
- SRECON21 - تجارب SRE
يمسك
منشورات المدونة
- رحلتنا إلى التوصيل المستمر عند Grab (الجزء 1)
- رحلتنا إلى التسليم المستمر عند الاستيلاء (الجزء 2)
- تصميم أنظمة مرنة: قواطع الدوائر أو إعادة المحاكاة؟ (الجزء 1)
- تصميم أنظمة مرنة: قواطع الدوائر أو إعادة المحاكاة؟ (الجزء 2)
- تصميم أنظمة مرنة تتجاوز إعادة المحاولة (الجزء 3): أنماط الهندسة المعمارية وهندسة الفوضى
- تنظيم الفوضى باستخدام منصة تجريب Grab
- كيف قمنا بتصميم الحصص المجهرية لمنع إساءة استخدام الموارد
- كيف قمنا بتقييد ذاكرة التخزين المؤقت لدينا وحصلنا على نوم جيد ليلاً
نحوي
منشورات المدونة
- تحجيم البنية التحتية AWS لدعم مناطق متعددة
- العمليات الأمنية في بيئة AWS
ميل
منشورات المدونة
- أهداف مستوى الخدمة لراحة البال عند الطلب
- تصحيح حبوب السمك الصاحبة
هالودوك
منشورات المدونة
- هندسة موثوقية الموقع لتطبيقات الأجهزة المحمولة الأصلية
هيروكو
منشورات المدونة
- مغامرات Rendezvous في الهندسة المعمارية الجديدة لهيروكو
- رد الحادث في هيروكو
IBM
منشورات المدونة
- ما هي موثوقية الموقع هندسة (SRE)؟
- أدوات وحلول AIOPS
بالفعل
منشورات المدونة
- في الواقع SRE: نظرة داخلية
- أن تكون موثوقًا بدرجة كافية
- أتمتة عملية إصدار بالفعل
- sloth ، أداة لإحداث فشل الشبكة 'مع preetha appan من ferels.com
مقاطع الفيديو
- هل نتحسن بعد؟ التقدم نحو العمليات الأكثر أمانًا
بالفعل
منشورات المدونة
أكاديمية خان
منشورات المدونة
- كيف نجحت أكاديمية خان في التعامل مع 2.5x حركة المرور في الأسبوع
- تطور البنية التحتية للمحتوى لدينا
LinkedIn
منشورات المدونة
- إعادة التفكير في إسقاطات سعة الموقع مع محلل السعة
- نظرة ثاقبة على فريق SRE منتج في LinkedIn
- توظيف SRES في LinkedIn
- تحديث مفتوح المصدر: مدرسة SRE
- إصلاح انحدار أداء نظام ملفات Linux
- اختبار الإنتاج مع الكناري المظلم
- التنبيهات الذكية في Thirdeye ، منصة مراقبة LinkedIn في الوقت الفعلي
- IRIS Mobile: واجهة مفتوحة المصدر للهاتف المحمول لإدارة الحوادث
- Linkedout: إطار حقن الفشل على مستوى الطلب
- التخلص من الكدح باختبار الحمل الآلي بالكامل
- تركيب فرق SRE الناجحة جغرافياً: الجزء 1
- تركيب فرق SRE الناجحة جغرافيا: الجزء 2
- Project Star*: تبسيط العملية عند الطلب
- أتمتة Oncall الخاص بك: فتح المصادر الأحفور وحفر ASCII
- هندسة المرونة في LinkedIn مع Project Waterbear
- توظيف SRES في LinkedIn ، 2017
- مفتوح المصادر القزحية والطول
- بناء ثقافة SRE في LinkedIn
- الفشل ليس خيارًا
- MTTD و MTTR هي المفتاح
- ما يتم قياسه يتم إصلاحه
مقاطع الفيديو
- تنمية فريق موثوقية الموقع في LinkedIn: التوظيف صعب - جريج ليفلر
- 9 سنوات من الفشل: كيف جعلتني سيارات السباق كربي سيري أفضل
- التجويف بالعاصفة: كيف تنقذ التحذيرات المبكرة المزرعة
- غير مؤتمر: مشاكل لم تحل في SRE
- القيادة دون إدارة: أن تصبح قائدًا تقنيًا SRE
- لماذا (بلدي) مراقبة تمتص؟
- التنبؤ حركة المرور واختبار الإجهاد البنية التحتية
- الذهن الجماعي لقرارات أفضل في SRE
- TCP - البنية والتحسينات والضبط
- أكثر من 600 مليون عضو ومئات الخدمات الصغيرة: كيف قمنا بتوسيع نطاق نظام المراقبة لدينا لمواكبة
- يمكن أن يجعلك فهم مقاييس العمل أفضل SRE
- الرمز الصفراء: مساعدة العمليات في الفرق الثقيلة على الطريقة الذكية
- الاختلافات في تطبيقات SRE عبر الشركات
أدوات
loggi
منشورات المدونة
- نموذج مدير الإصدار
- فرق SRE رقم 8: Loggi
الحب
منشورات المدونة
- توجيه التنبيه الديناميكي مع بروميثيوس وإنذارمانجر
- جعل Loveholidays 18 ٪ أسرع مع HTTP/3
- إنفاذ أفضل الممارسات على البنية التحتية للخدمة الذاتية مع Terraform و Atlantis والسياسة كرمز
- المبادئ الخمسة التي ساعدت في توسيع نطاق الحب
- تسجل الوقت الحقيقي مع Grafana Loki مقابل أقل من دولار واحد في اليوم
ماكواري
منشورات المدونة
- رحلة DevSecops الخاصة بنا مع Golang
- تكوين خط الأنابيب كرمز مع Kotlin
- ديفوبس وفصل الواجبات
- Macquarie تحتضن DevOps
- تحجيم منصة Kubernetes عبر المؤسسة
المادة
منشورات المدونة
- مراقبة البيئات السحابية على نطاق واسع مع Prometheus و Thanos
- كيف نستخدم sloth للقيام بمراقبة SLO والتنبيه مع Prometheus
Meituan (美团)
منشورات المدونة
- تطوير وممارسة SRE في السحابة (云端的 sre 发展与实践)
ميركاري
منشورات المدونة
- من يشاهد الحراس؟ مراقبة أنظمة المراقبة لدينا
- ما يفعله فريق SRE Microservices كبشرات SRE
- ما يشبه العمل كخدمات microservices مدمجة
- فريق Merpay Sre: الماضي والمستقبل
- SRE المضمنة في Mercari
- ما يريد فريق SRE تحقيقه مع فريق التطوير
- DevSecops: ما هو ولماذا يكتسب الزخم في الصناعة؟
- كيف نشارك مهارات استكشاف الأخطاء وإصلاحها
- لوحة معلومات DataDog على مقياس ث / تيرافورم
ميتا
منشورات المدونة
- الاستفادة من الذكاء الاصطناعي للاستجابة الفعالة للحوادث
- تحسين سير عمل SLO من Meta مع تعليقات البيانات
- Slick: اعتماد SLOS لتحسين الموثوقية
- مزيد من التفاصيل حول انقطاع 4 أكتوبر
- تحديث حول انقطاع 4 أكتوبر
مقاطع الفيديو
- نهج خدمة العملاء في SRE
- كيف (لا) لتوسيع نطاق المشروع: بعد الوفاة
- إصدار أكبر موقع للثعبان في العالم كل 7 دقائق
- باستخدام ML لأتمتة تصنيف الأخطاء الديناميكية
Microsoft
مقاطع الفيديو
- Sli & Nibility Deep Dive "مع David N. Blank-Edelman of Microsoft
- مفارقات الأتمتة: كوميديا في ثلاثة أجزاء "مع تانر لوند من Microsoft
- هندسة البرمجيات المستدامة و sres
- دراسة على العوامل البشرية وثقافة الفريق لتحسين التعب من النداء
- إعطاء الأولوية للثقة أثناء إنشاء التطبيقات
- المباني المرونة: كيفية معرفة المزيد من الحوادث
- حكاية من اثنين بعد الوفاة: عرض العوامل البشرية
- التوافر - التفكير بعد 9s
- مفارقات الأتمتة: كوميديا في ثلاثة أجزاء
- OPS في الخادم
ميرو
منشورات المدونة
- بروميثيوس عالية التوفر واستراتيجية التسامح مع الأخطاء ، تخزين طويل الأجل مع Victoriametrics
- إدارة المئات من الخوادم لاختبار الحمل: التلقائي ، المراقبة المخصصة ، ثقافة DevOps
- اختبار الحمل الموثوق فيما يتعلق بالفروق الدقيقة غير المتوقعة
مونزو
منشورات المدونة
- Autoscaling Monzo: كيف نؤدي إلى تحسين منصتنا لتكون مجرد الحجم المناسب
- كيف تطورنا عند الطلب في مونزو
- كيف نرد على الحوادث
- كيف نراقب مونزو
مقاطع الفيديو
- في النهاية اكتشاف الخدمة المتسق
أدوات
Netflix
منشورات المدونة
- تحقيق قابلية الملاحظة في سير العمل Async
- بناء البنية التحتية التتبع الموزعة من Netflix
- دروس من أدوات قابلية البناء في Netflix
- إدغار: حل الألغاز بشكل أسرع مع قابلية الملاحظة
- Telltale: مراقبة تطبيق Netflix مبسطة
- الحفاظ على تدفق العملاء - ممارسة موثوقية الموقع المركزية في Netflix
- تقديم الإرسال
- تطبيق أنماط Netflix DevOps على Windows
- الفصل: منصة أتمتة الفوضى
- بدء الانهيار
- تمت ترقية Netflix Chaos Monkey
- فوضى الهندسة ترقية
- اختبار الفشل الآلي
- من الفوضى إلى التحكم - اختبار مرونة منصة اكتشاف محتوى Netflix
- تقديم أطلس: منصة القياس عن بُعد من Netflix
- الملاءمة: اختبار حقن الفشل
- الإعلان عن مونكي الأمن - مراقبة وتحليل تكوين أمان AWS
- الدروس التي تعلمتها Netflix من انقطاع AWS
- Scryer: محرك تحجيم السيارات التنبؤية لـ Netflix
الحوادث الرئيسية وتقارير التحليل
- بعد الوفاة من 22 أكتوبر 2012 تدهور AWS
مقاطع الفيديو
- AWS Re: Invent 2019: يوم في حياة مهندس Netflix (NFX202)
- متى /bin /sh هجمات: إعادة النظر في "أتمتة كل الأشياء"
- كيف سارت الأمور على ما يرام؟ تعلم المزيد من الحوادث
- مراقبة وتتبع Netflix البنية التحتية للبيانات
- مراقبة أداء المستخدم الحقيقية على مقياس Netflix - Martin Spier
- AWS RE: Invent 2017 - Nora Jones تصف لماذا نحتاج إلى مزيد من الفوضى - فوضى هندسة ، وهذا هو
- AWS Re: Invent 2017: أداء الفوضى على مقياس Netflix (Dev334)
- Netflix: المرونة المتعددة الإقليمية وطريق Amazon 53
- تصميم الخدمات للمرونة: دروس Netflix
- South Bay Sre Meetup - Netflix Cloud Performance Team
- AWS Re: Invent 2017: يوم في حياة مهندس Netflix III (ARC209)
- كيف يستخدم Netflix تدفقات Kinesis لمراقبة التطبيقات وتحليل مليارات من تدفقات المرور
- إتقان الفوضى - دليل Netflix للخدمات الدقيقة
- AWS Re: Invent 2016: من المرونة إلى الانتشار - #NETFLIXEvery While Global Architecture (ARC204)
- SRECON 2016 - Netflix: 190 دولة و 5 أسر
- من مسؤول SYS إلى Netflix SRE
- هندسة مرونة التطبيق والعمليات في Netflix مع Hystrix
- حقن الفشل في Netflix
- LISA13 - كيف تتبنى Netflix الفشل في تحسين المرونة وزيادة التوافر إلى الحد الأقصى
- إدارة الحوادث في Netflix Velocity
البودكاست
- مطابخ ريان حول التعلم من الحوادث في Netflix ، ودور SRE ، والأنظمة الاجتماعية
أدوات
بقايا جديدة
منشورات المدونة
- تحديد أدوار البرمجيات الحديثة: SRES في New Relic
- 10 أشياء يحتاج الجميع إلى معرفتها عن موثوقية الموقع (SRE)
- ما هي الأدوات التي يستخدمها مهندسو موثوقية الموقع؟
- يوم في حياة بقايا جديدة
- 7 عادات لمهندسي موثوقية الموقع الناجحين للغاية
- تبني ممارسة SRE
- باستخدام قابلية الملاحظة الحديثة لإنشاء ثقافة تعتمد على البيانات
Nubank
منشورات المدونة
- التميز التشغيلي الهندسي ، حالة التحسين المستمر
- كيف نتعامل مع الحوادث الفنية
- كيف نفعل التناوب عند الطلب في Nubank
- كيف نقوم بتوسيع نطاق منصة البيانات الخاصة بنا بكفاءة وموثوقية
- لماذا قتلنا جناح الاختبار الشامل
- إعادة التدريب التلقائي لنماذج التعلم الآلي: النصائح والدروس المستفادة
Openai
منشورات المدونة
- 20 مارس ، انقطاع chatgpt: إليك ما حدث
- أوضح سري وتوسيع نطاق سهلة.
- تحجيم kubernetes إلى 2500 العقد
- تحجيم kubernetes إلى 7500 عقد
- تحجيم البنية التحتية لمنظمة العفو الدولية في Openai
PayPal
منشورات المدونة
- نشأ: الحادث #1234 (تحتاج عملية الحوادث إلى إصلاح)
- تنفيذ قابلية الملاحظة في شبكة الخدمة
- postgreSQL على المقياس: يتغير مخطط قاعدة البيانات دون توقف
- تحجيم GraphQL في PayPal
مقاطع الفيديو
- محادثات Srecon آسيا/المحيط الهادئ مع كارثيكيان سيلفاراج وراجيش راماشاندران ، باي بال
- SRE ثم SRE الآن: عمل موازنة بين ردود الفعل والغرائز البديهية في PayPal
- اكتشاف تدهور الخدمة وفشلها على نطاق واسع من خلال معالجة السجل الموزعة
- تشغيل Elasticsearch بسهولة على نطاق واسع
- ضمان موثوقية الموقع من خلال الضوابط الأمنية
نزهه
منشورات المدونة
- ميكرومتر ومكدس الملاحظة الحديثة
- المراقبة والملاحظة في النزهة
بينتيريست
منشورات المدونة
- ضمان توفر خدمات البث في الوقت الفعلي الإعلانات
- تحسين الكفاءة وتقليل وقت التشغيل باستخدام S3 قراءة التحسين
- تحجيم kubernetes مع ضمان في Pinterest
- ما تعلمناه من حادثة تطبيق iOS
- كيف صممنا نظام التكامل المستمر لدينا ليكون أسرع أكثر من 50 ٪
- تبسيط الويب ينشر
- ترقية المقاييس التشغيلية بينتيريست
- تتبع موزعة في Pinterest مع أدوات جديدة مفتوحة المصدر
- توقيت التحجيم بينتيريست
مقاطع الفيديو
- بناء ملكية رمز قابلة للتنفيذ
- تطور أدوات قابلية الملاحظة في Pinterest
- أتمتة ترقيات نظام التشغيل/النظام الأساسي لأصحاب الخدمات
ساعي البريد
منشورات المدونة
- تعرف على كيفية استجابة مجموعات Kubernetes للفشل باستخدام Gremlin و Grafana
بريزي
منشورات المدونة
- كيفية تجنب انقطاع التيار العالمي - تسميات Daemonset بسلاسة
- بحثًا عن السرعة - تصحيح الأداء Elasticsearch
- Prometheus في Prezi: استبدال 10 سنوات من المناهضين
قبعة ريد
منشورات المدونة
- من OPS إلى SRE: تطور فريق OpenShift المخصص
- 5 ممارسات رشيقة يجب على كل فريق SRE تبنيه
- 7 أفضل الممارسات لكتابة مشغلي Kubernetes: منظور SRE
ألعاب مكافحة الشغب
منشورات المدونة
- أساطير خط أنابيب Runeterra CI/CD
- استراتيجيات العمل في أنظمة غير مؤكدة
- تحسين تجربة المطور لخدمات التشغيل
- قابلية التوسع واختبار الحمل للفترات
- الاستفادة من Golang لتطوير اللعبة وعملياتها
- الفوضى التي يتم التحكم فيها مع اختبار حقن الصدع
- أسفل حفرة الأرنب لمراقبة الأداء
- التنميط: حالة المللي ثانية المفقودة
- التنميط: أداء العالم الحقيقي في الدوري
- التنميط: التحسين
- التنميط: القياس والتحليل
- تشغيل الخدمات عبر الإنترنت في RIOT: الجزء الأول
- تشغيل الخدمات عبر الإنترنت في RIOT: الجزء الثاني
- تشغيل الخدمات عبر الإنترنت في RIOT: الجزء الثالث
- تشغيل الخدمات عبر الإنترنت في Riot: الجزء الثالث: جزء Deux
- تشغيل الخدمات عبر الإنترنت في RIOT: الجزء الرابع
- تشغيل الخدمات عبر الإنترنت في RIOT: الجزء الخامس
- تطور الأمن في أعمال الشغب
- تشغيل خط أنابيب اختبار آلي لتحديث عميل الدوري
- الاختبار التلقائي لرابطة الأساطير
Salesforce
منشورات المدونة
- بالنظر إلى طائرة التحكم في Kubernetes للتأخير المتعدد
- تحسين شبكات EKS للمقياس
- ترقيع عقدة التوقف صفر في مجموعة Kubernetes
- كيف ، ليس لماذا: بديل لأسباب الخمسة لما بعد الوفاة
- حاقن جانبي عام لـ Kubernetes
- تنفيذ استراتيجية مراقبة للمنتجات القائمة على الخدمات الصغيرة
- 10 خطوات لتطوير خطة استجابة للحوادث ستستخدمها بالفعل
- رحلتنا إلى خط أنابيب السجل القريب القريب
- تحسين الأداء مع عمال الويب
- خذ لحظة لإعادة التركيز
وسائل الإعلام Schibsted
منشورات المدونة
- هندسة الموثوقية لبعض أفضل 10 مواقع في الدول الاسكندنافية
Scribd
منشورات المدونة
- التعلم من الحوادث: الحصول على sidekiq جاهز لخدمة مليار وظيفة
- شهادة لاستخدام Pagerduty في Scribd
- تعيين واجب النداء للمطورين
Shopify
منشورات المدونة
- تخطيط المرونة للأحداث ذات الحركة العالية
- تخطيط القدرات على نطاق واسع
- استخدام إدارة حركة مرور DNS لإضافة مرونة إلى خدمات Shopify
- أربع خطوات لإنشاء اختبارات يوم اللعبة الفعالة
- تنفيذ chatops في إجراءات إدارة الحوادث لدينا
- STATSD في Shopify
مقاطع الفيديو
- شاشة الشبكة: قصة الاعتراف بفجوة الملاحظة
- توقع ما هو غير متوقع: إعداد فرق SRE للرد على إخفاقات جديدة
- رياضيات منديل المتقدمة: تقدير أداء النظام من المبادئ الأولى
المراهنة واللعب السماء
منشورات المدونة
- إنه مجرد تغيير مراقبة
- "ما هو أسوأ ما يمكن أن يحدث؟": مثال عمل على كيفية تعاملنا مع الحوادث الحية
- يرتفع من الرماد
- يتحطم! انفجار! وولوب! الممارسة تجعل الكمال
- الأداء اليسار اليمين والمركز
الركود
منشورات المدونة
- حادثة سلاك في 2-22-22
- قابلية الملاحظة في البنية التحتية لتغيير منحنى الإنفاق
- انقطاع Slack في 4 يناير 2021
- يوم رهيب ، فظيع ، بدون طيبة ، سيء للغاية في سلاك
- ينشر في Slack
- مسرح Disasterpiece: عملية سلاك للهندسة الفوضوية القابلة للدورة
مقاطع الفيديو
- الركود على الحافة
- ما الذي يكسر أنظمتنا: تصنيف البجعات السوداء
تبني التعرج
منشورات المدونة
- كيفية تنفيذ أهداف مستوى الخدمة في New Relic APM
- دليل المبتدئين لـ DevOps: كيفية الوصول إلى الصناعة
- إجراءات جيثب: ما وراء CI/CD
- لماذا لا يتم تشغيل جميع أتمتة الاختبار على خط الأنابيب؟
- العديد من أشكال هندسة موثوقية الموقع
- كيفية بناء مجموعة آمنة بشكل افتراضي Kubernetes مع خط أنابيب CI/CD أساسي على AWS
- هياكل الإدارة السرية: إيجاد التوازن بين الأمن والتعقيد
- اكتشاف الطلبات الضارة مع Keras & TensorFlow
- The Lego Monolith - دليل متراصة على الخدمات المجهرية للمفهوم
- إدارة الأسرار باستخدام Hashicorp Vault
- تطبيقات التمهيد الربيع للتغليف للنشر على Kubernetes
- البنية التحتية غير القابلة للتغيير والتسليم المستمر في السحابة
SoundCloud
منشورات المدونة
- كيفية تسليم الأنظمة بنجاح
- بناء ثقافة صحية عند الطلب
- التنبيه على SLOS مثل الإيجابيات
- نشر اليدين مع الكناري
- لقد حان سن بروميثيوس-انعكاس على تطوير مشروع مفتوح المصدر
- بروميثيوس: المراقبة في SoundCloud
- ما تعلمته في عام واحد كمتدرب SRE
- اختبارات تحت العدسة المكبرة
سبوتيفي
منشورات المدونة
- مات كلارك: مهندس بنية تحتية كبار في الخلفية
- تصميم تجربة أفضل Kubernetes للمطورين
- Techbytes: ما تفتقده الصناعة عن الحوادث وما يمكنك فعله
- البنية التحتية الآلية للاستجابة للحوادث في GCP
مقاطع الفيديو
- التتبع ، سريع وبطيء: البحث في أداء خدمة الويب وتحسينه
Squarespace
منشورات المدونة
- تحت الغطاء: ضمان موثوقية الموقع
مقاطع الفيديو
- الضغط من خلال الاحتكاك
- كيفية SRE عندما يكون كل شيء مشتعلاً بالفعل
- دراسة حالة: تنفيذ SLOS لخدمة جديدة
- Creating a Code Review Culture
Stack Overflow
Blog Posts
- “This should never happen. If it does, call the developers.”
- Infrastructure as code: Create and configure infrastructure elements in seconds
- Fulfilling the promise of CI/CD
- A deeper dive into our May 2019 security incident
- Guest Post - Failing over without falling over
- How We Built Our Blog
- Stack Overflow Frees Up Engineering Time with Netlify
مقاطع الفيديو
- Low Context DevOps: Improving SRE Team Culture through Defaults, Documentation, and Discipline
Strava
Blog Posts
- Scaling Club Leaderboard Infrastructure for Millions of Users
- Distributed Tracing at Strava
شريط
Blog Posts
- Fast and flexible observability with canonical log lines
- Fast builds, secure builds. اختر اثنين.
- Introducing Veneur: high performance and global aggregation for Datadog
مقاطع الفيديو
- How Stripe Invests in Technical Infrastructure
- The AWS Billing Machine and Optimizing Cloud Costs
هدف
Blog Posts
- Ɔhaos Ǝnginǝǝring @ Target - Part 2
- Ɔhaos Ǝnginǝǝring @ Target - Part 1
- GoAlert - Your Future Open Source, On-Call Notification Product
Teads
Blog Posts
- Scaling your on-duty team
Tinder
Blog Posts
- The Ultimate Load Test
- How We Improved Our Performance Using ElasticSearch Plugins: Part 1
- How We Improved Our Performance Using ElasticSearch Plugins: Part 2
- Tinder's move to Kubernetes
Tokopedia
Blog Posts
- Benefits of benchmarking with Go
- Simulating Customized Chaos in Golang using Toxiproxy
- How Tokopedia Rank Millions of Products in Search Page
Trivago
Blog Posts
- How To Get Fooled By Metrics
twilio
Blog Posts
- Twilio SRE Gameday Template
تغريد
Blog Posts
- Logging at Twitter: Updated
- Deleting data distributed throughout your microservices architecture
- Deterministic Aperture: A distributed, load balancing algorithm
- MetricsDB: TimeSeries Database for storing metrics at Twitter
- The Infrastructure Behind Twitter: Scale
- The infrastructure behind Twitter: efficiency and optimization
أوبر
Blog Posts
- Founding Uber SRE
- Disaster Recovery for Multi-Region Kafka at Uber
- Engineering Failover Handling in Uber's Mobile Networking Infrastructure
- Optimizing Observability with Jaeger, M3, and XYS at Uber
مقاطع الفيديو
- A Tale of Two Rotations: Building a Humane & Effective On-Call
- Testing in Production at Scale
- A History of SRE at Uber' with Rick Boone of Uber
Udemy
Blog Posts
- Blameless Incident Reviews at Udemy
- How Udemy does Build Engineering
upGrad
Blog Posts
- Web Performance and Related Stories — upgrad.com
- Beginner's guide to web analytics
- iOS Continuous Deployment with Bitbucket, Jenkins and Fastlane at UpGrad
VGW
Blog Posts
- The SRE Incident Response game
مقاطع الفيديو
- Level Up Your Incident Response With Gameplay
Wikimedia Foundation
مقاطع الفيديو
- Testing Encyclopedias in Production
- What Happens When You Type en.wikipedia.org?
ويكس
Blog Posts
- How We Improved Website Performance by Evolving Our Infrastructure
- Wix Inbox Journey: 3 Approaches for Zero Downtime Database Migration
- Moving Velo to Multiple Container Sites: The Why, The How and The Lessons Learned
- Making Order in CI/CD Mess
عواء
Blog Posts
- The process: Implementing Yelp's failover strategy
مقاطع الفيديو
- Yelp - What I Wish I Knew before Going On-Call
Zalando
Blog Posts
- Tracing SRE's journey in Zalando - Part I
- Tracing SRE's journey in Zalando - Part II
- Tracing SRE's journey in Zalando - Part III
Zerodha
Blog Posts
- Infrastructure monitoring with Prometheus at Zerodha
- Logging at Zerodha
زوماتو
Blog Posts
- Huddle Diaries – DevOps and Data Platform
SRECon Mix Playlist
مقاطع الفيديو
- Adobe - The Good, the Bad and the Ugly: The 3 Learnings of an SRE
- Amdocs - SREs at Telecom and Media Industry: Bridging between Legacy and Cloud Native Apps
- Amazon - Confessions of a Systems Engineer: Learning from My 20+ Years of Failure
- Alaska Airlines - Capacity Prediction in External Services
- BuzzFeed - Optimizing for Learning
- BT - Challenges of Starting an SRE Team from Scratch in an Enterprise
- Cloudflare - Support Operations Engineering: Scaling Developer Products to the Millions
- Cloudlock - My Life as a Solo SRE
- Hudson River Trading - Fixing On-Call When Nobody Thinks It's (Too) Broken
- IBM - Why Automating Everything Adds to Your Toil
- Genesys - The Smallest Possible SRE Team
- Grafana Labs - SRE in the Third Age
- Kenna Security - Building a Scalable Monitoring System
- Lightstep - Building Service Ownership Using Documentation, Telemetry, and a Chance to Make Things Better
- MessageBird - Autopsy of a MySQL Automation Disaster
- Netlify - Perks and Pitfalls of Building a Remote First Team
- ReactiveOps - Zero to SRE
- Salesforce - Incident Response in Unfamiliar Sociotechnical Systems: One Incident Commander's Challenges Supporting Inter-organizational Anomaly Response in the Age of COVID-19
- Sprax - From Nothing to SRE: Practical Guidance on Implementing SRE in Smaller Organisations
- The New York Times - SRE by Influence, Not Authority: How the New York Times Prepares for Large-Scale Events
- Twitter - Hiring Great SREs
- United States Digital Service - Lessons Learned in Black Box Monitoring 25,000 Endpoints and Proving the SRE Team's Value
- Unity Technologies - Being Reasonable about SRE
- Udemy - How to Do SRE When You Have No SRE
- Vanguard - Cloudy with a Chance of Chaos
- WeWork - Learning from Learnings: Anatomy of Three Incidents
- Zendesk - Latency and Availability Error Budgets Done Right at Scale
موارد
كتب
- جديد! Enterprise Roadmap to SRE
- Building Secure & Reliable Systems | Read free online version hosted by Google
- Site Reliability Engineering | Read free online version hosted by Google
- The Site Reliability Workbook from Google | Read free online version hosted by Google
- Training Site Reliability Engineers | Read free online version hosted by Google
- 97 Things Every SRE Should Know | Complimentary Copy from Nginx
- SLO Adoption and Usage in Site Reliability Engineering
- Practical Site Reliability Engineering
- Implementing Service Level Objectives
- Chaos Engineering
- Seeking SRE
- Security Chaos Engineering
- Chaos Engineering Observability
- Database Reliability Engineering
- What Is SRE?
- Database Reliability Engineering: What, Why, and How?
- Observability Engineering
- Chaos Engineering: Site reliability through controlled disruption
- Incident Metrics in SRE | Read free online version hosted by Google
- Engineering Reliable Mobile Applications
- Monitoring the SRE Golden Signals
- Site Reliability Engineering: Philosophies, habits, and tools for SRE success | Portable version
- 97 Things Every Cloud Engineer Should Know
- Real-World SRE
- Hands-on Site Reliability Engineering
الأحداث
- SRECon Past Events
- ChaosConf
- SLOConf
- cdCon
- cdCon 2021 Playlist
- cdCon 2020 Playlist
- Conf42
موارد أخرى
Awesome Lists
- Awesome SRE
- Awesome Site Reliability Engineering Tools
- Awesome Chaos Engineering
- Awesome Monitoring
- Awesome Observability
- Awesome MLOps
- ML-Ops.org
SRE Resources from various organizations
- Google SRE Page
- Google SRE Classroom
- Google Cloud SRE Page
- Microsoft SRE Page
- School of SRE from LinkedIn
- Stripe Increment Magazine Issue 16 on Reliability
- AWS Observability Recipes
- Awesome Sysadmin
Incidents & postmortems
- The Verica Open Incident Database
- Postmortem Templates
- Incident Review and Postmortem Best Practices
النشرات الإخبارية
- SRE Weekly Newsletter
- Chaos Engineering Newsletter
- DevOps Weekly Newsletter
الاعتمادات
- Inspired by Howtheytest from Abhijeet Vaikar
- The list of organizations is referred from my other repo awesome-engineering
- Banner image Cartoon vector created by vectorjuice - www.freepik.com
Other How They... repos
- Howtheytest
- Howtheydevops
- Howtheyaws
المساهمين
يساهم
Contributions welcome! Read the contribution guidelines first.
Stargazers Over Time
رخصة
To the extent possible under law, Unmesh Gundecha has waived all copyright and related or neighboring rights to this work.
If you decide to use this anywhere, please credit @upgundecha on X. Also, if you like my work, check out my other projects on GitHub.