IT-новости про Python, которые стоит знать

Собрали в одном месте самые важные ссылки
и сделали Тренажер IT-инцидентов для DevOps/SRE

     22.05.2025       Выпуск 597 (19.05.2025 - 25.05.2025)       Статьи

Повышаем эффективность хранения данных до 300 раз с помощью таблиц SCD-2

В этой статье расскажу о том, как можно повысить эффективность хранения данных за счет уменьшения их дублирования. Разберем, что из себя представляют Slowly Changing Dimensions-2 (далее SCD-2) таблицы и самостоятельно реализуем на PySpark алгоритм сохранения данных в них. Попутно поговорим о том, как находить изменения в любой таблице, даже если отсутствуют поля для выбора изменившихся записей, и научимся получать из созданной SCD-2 таблицы срезы на требуемую дату в прошлом.