Дерево решений - это алгоритм классификации, используемый в машинном обучении. Он достаточно универсален, так как может использоваться и для решения задач регрессии. Это древовидная или графоподобная структура с корневым узлом, нелистовыми узлами, листовыми узлами и ветвями.

Вот пример дерева решений с использованием операции И: -

При работе с деревьями решений необходимо знать несколько важных терминов:

  1. Корневой узел. Корневой узел является отправной точкой дерева решений. Он представляет собой совокупность дерева решений. Население - это данные, которые мы используем для решения проблемы. Корневой узел разделяется по значениям функций (столбца / атрибута).
  2. Узел без листьев: когда узел разделяется на части (по значению функции), узлы, образованные в результате разделения, называются узлами без листьев.
  3. Конечный узел: узел, который нельзя разделить дальше (по любому значению функции), называется конечным узлом.
  4. Разделение: разделение - это разделение узлов на два или более подузлов в зависимости от результата. В случае «Да» или «Нет» узел будет разделен на два подузла, один из которых указывает на результат, полученный при ответе ДА, а другой - на результат, полученный при ответе «НЕТ».
  5. Примесь: когда узел не имеет четкого результата или не принадлежит к единственному целевому классу / классу вывода, будь то класс «Да» или «Нет», класс 0 или 1, узел считается как нечистый. Если узел имеет все значения одного класса, он называется чистым узлом.

КАК УЗЕЛ И КАК МЫ ЗНАЕМ, НА КАКУЮ ФУНКЦИЮ, ЧТОБЫ РАЗДЕЛИТЬ УЗЕЛ?

Чтобы выбрать объект для разделения, мы вычисляем примесь узла. Мы хотим выбрать функцию, которая дает нам самую низкую нечистоту.

Наименьшая примесь означает, что в результате разделения будет получено «меньше» нечистых узлов.

Цель состоит в том, чтобы достичь чистых узлов, где каждый узел принадлежит одному выходному классу.

Как рассчитать нечистоту?

Самый распространенный метод - GINI INDEX. Он используется для двоичного разбиения, то есть для вывода, имеющего только два класса. Другие меры включают: -

  1. Точность
  2. Получение информации
  3. Коэффициент усиления

Давайте сосредоточимся на GINI INDEX, чтобы понять концепцию разделения узла с помощью функции.

Как рассчитать индекс Джини?

Индекс Джини = 1 - квадрат (Вероятность «Да») - квадрат (Вероятность «Нет»)

Давайте теперь возьмем набор данных, чтобы понять, как выбрать объект для разделения узла?

У нас есть набор данных с независимыми переменными или функциями, такими как боль в груди, хорошее кровообращение и заблокированные артерии, которые определяют, есть ли у человека заболевание сердца или нет. Сердечные заболевания - это наш целевой класс или зависимая переменная. Следовательно, набор данных имеет целевые классы как Да или Нет.

В наборе данных выше у нас есть четыре функции: боль в груди, хорошее кровообращение и заблокированные артерии. Из четырех функций мы можем сделать любую из них корневым узлом. Чтобы решить, какой узел сделать корнем, мы вычисляем индекс Джини и выбираем элемент с наименьшей примесью.

Предположим, мы выбрали «Боль в груди» в качестве функции корневого узла: -

  • Если ДА от боли в груди - ›105 человек страдают сердечными заболеваниями, а 39 - нет.
  • Если боли в груди НЕТ - ›34 человека страдают заболеванием сердца, а 125 - нет.

Теперь вычисляем индекс Джини для признака боли в груди: -

Индекс Джини для случая, когда боль в груди ДА = 1 - квадрат (Вероятность болезни сердца Да) - квадрат (Вероятность болезни сердца Нет)

= 1- квадрат (105/105 + 39) - квадрат (39/105 + 39)

= 0.395

Используя ту же формулу, индекс Джини при отсутствии боли в груди = 0,336.

Теперь мы рассчитаем общий индекс Джини для ответа на вопрос «Да и нет» боли в груди.

Общий индекс Джини = средневзвешенное значение примесей Джини для листовых узлов.

Итого Г. для узла боли в груди = [(боль в груди да / пациенты с общей болью в груди) x G.I боли в груди да] + [(пациенты с болью в груди нет / пациенты с общей болью в груди) x G.I боли в груди нет]

= [(144/144+159) x 0.395] + [(159/144+159) x 0.336)]

= 0.364

Примесь для характеристики боли в груди, рассчитанная с использованием индекса Джини, составляет 0,364.

После расчета индекса Джини для каждой функции, как мы делали для функции боли в груди, мы обнаружили, что функция хорошего кровообращения имеет наименьшую степень примеси. Таким образом, мы выбираем функцию «Хорошее кровообращение» в качестве корневого узла.

Точно так же мы продолжаем процесс, чтобы найти следующий узел и завершить наше дерево решений.