Собрали в одном месте самые важные ссылки
и сделали Тренажер IT-инцидентов для DevOps/SRE
Задача нахождения неточных дубликатов текстовых строк - удивительно часто встречается на практике.Нахождение неточных дубликатов позволяет лучше понять структуру списка, повысить его качество (удаление дубликатов), провести техническую кластеризацию (выделить группы похожих). Всё это видно на графе выше.Но приключения начинаются, когда список становится размером несколько миллионов строк.