Artwork

İçerik Adam Hawkins tarafından sağlanmıştır. Bölümler, grafikler ve podcast açıklamaları dahil tüm podcast içeriği doğrudan Adam Hawkins veya podcast platform ortağı tarafından yüklenir ve sağlanır. Birinin telif hakkıyla korunan çalışmanızı izniniz olmadan kullandığını düşünüyorsanız burada https://tr.player.fm/legal özetlenen süreci takip edebilirsiniz.
Player FM - Podcast Uygulaması
Player FM uygulamasıyla çevrimdışı Player FM !

Incidents & Operations with Dan Slimmon

1:01:48
 
Paylaş
 

Manage episode 433608422 series 2814917
İçerik Adam Hawkins tarafından sağlanmıştır. Bölümler, grafikler ve podcast açıklamaları dahil tüm podcast içeriği doğrudan Adam Hawkins veya podcast platform ortağı tarafından yüklenir ve sağlanır. Birinin telif hakkıyla korunan çalışmanızı izniniz olmadan kullandığını düşünüyorsanız burada https://tr.player.fm/legal özetlenen süreci takip edebilirsiniz.

In this episode, Adam welcomes Dan Slimmon, an experienced Site Reliability Engineer (SRE) to discuss aspects of incident response and troubleshooting in software engineering. Dan explains his methodology for clinical troubleshooting, the importance of maintaining a common mental model, and techniques for leading effective incident response efforts. They also delve into the value of continuous ops reviews and ongoing mental model updates to prevent issues, emphasizing the need for structured processes and effective communication.

Want more?

Chapters

  • (00:00) - Incidents & Operations
  • (01:14) - Guest Welcome
  • (01:40) - Dan's Career Journey
  • (02:33) - Evolution of Tech Stacks
  • (04:59) - Clinical Troubleshooting Explained
  • (11:53) - Incident Response Fundamentals
  • (17:41) - Effective Communication in Incidents
  • (26:09) - Training for Incident Response
  • (33:22) - The Essence of Incident Response
  • (33:53) - Balancing Short-Term and Long-Term Fixes
  • (35:01) - The Firefighting Analogy in Software Incidents
  • (37:11) - Postmortems: Learning from Incidents
  • (42:14) - Building a Shared Mental Model
  • (42:41) - Looking for Trouble: Proactive System Monitoring
  • (47:59) - Ops Reviews: Continuous Improvement
  • (54:37) - The Importance of Closing the Feedback Loop
  • (59:40) - Final Thoughts and Resources
★ Support this podcast on Patreon ★
  continue reading

120 bölüm

Artwork
iconPaylaş
 
Manage episode 433608422 series 2814917
İçerik Adam Hawkins tarafından sağlanmıştır. Bölümler, grafikler ve podcast açıklamaları dahil tüm podcast içeriği doğrudan Adam Hawkins veya podcast platform ortağı tarafından yüklenir ve sağlanır. Birinin telif hakkıyla korunan çalışmanızı izniniz olmadan kullandığını düşünüyorsanız burada https://tr.player.fm/legal özetlenen süreci takip edebilirsiniz.

In this episode, Adam welcomes Dan Slimmon, an experienced Site Reliability Engineer (SRE) to discuss aspects of incident response and troubleshooting in software engineering. Dan explains his methodology for clinical troubleshooting, the importance of maintaining a common mental model, and techniques for leading effective incident response efforts. They also delve into the value of continuous ops reviews and ongoing mental model updates to prevent issues, emphasizing the need for structured processes and effective communication.

Want more?

Chapters

  • (00:00) - Incidents & Operations
  • (01:14) - Guest Welcome
  • (01:40) - Dan's Career Journey
  • (02:33) - Evolution of Tech Stacks
  • (04:59) - Clinical Troubleshooting Explained
  • (11:53) - Incident Response Fundamentals
  • (17:41) - Effective Communication in Incidents
  • (26:09) - Training for Incident Response
  • (33:22) - The Essence of Incident Response
  • (33:53) - Balancing Short-Term and Long-Term Fixes
  • (35:01) - The Firefighting Analogy in Software Incidents
  • (37:11) - Postmortems: Learning from Incidents
  • (42:14) - Building a Shared Mental Model
  • (42:41) - Looking for Trouble: Proactive System Monitoring
  • (47:59) - Ops Reviews: Continuous Improvement
  • (54:37) - The Importance of Closing the Feedback Loop
  • (59:40) - Final Thoughts and Resources
★ Support this podcast on Patreon ★
  continue reading

120 bölüm

Tüm bölümler

×
 
Loading …

Player FM'e Hoş Geldiniz!

Player FM şu anda sizin için internetteki yüksek kalitedeki podcast'leri arıyor. En iyi podcast uygulaması ve Android, iPhone ve internet üzerinde çalışıyor. Aboneliklerinizi cihazlar arasında eş zamanlamak için üye olun.

 

Hızlı referans rehberi