Собрали в одном месте самые важные ссылкии сделали Тренажер IT-инцидентов для DevOps/SRE
Хорошая статья о том как реализовать автоматическую повторную отправку провалившихся http-запросов в библиотеке Requests