09.11.2020 Выпуск 360 (09.11.2020 - 15.11.2020) Статьи

Напишем и поймем Decision Tree на Python с нуля! Часть 5. Информационная энтропия

При создании дерева решений из данных алгоритм ID3 использует индекс, называемый информационной энтропией, чтобы определить, какой атрибут следует использовать для ветвления с наиболее эффективным распределением данных.

В начале, определимся с понятием объем информации. Интуитивно понятно, что объем данных = сложность, запутанность данных. Дерево решений собирает данные с одинаковыми значениями классов с каждого ветвления, таким образом снижая степень запутанности значений класса. Следовательно, при выборе атрибута, согласно которому лучше всего проводить ветвление, опираться стоит на то, насколько простыми стали данные после разветвления.

IT-новости про Python, которые стоит знать

Напишем и поймем Decision Tree на Python с нуля! Часть 5. Информационная энтропия