Что нужно помнить перед использованием алгоритмов машинного обучения

Этот блог в основном предназначен для пересмотра концепций алгоритмов машинного обучения перед собеседованием с DS. Важные вопросы интервью покрыты !!

Запуск блога В основном это для новичков, которые плохо знакомы с ML и беспокоятся о процессе своего собеседования, поскольку их спрашивают об алгоритме и почему они его использовали. Итак, позвольте мне начать с краткого введения в ML. Это тип искусственного интеллекта (ИИ), который позволяет программным приложениям более точно прогнозировать результаты без явного программирования для этого. Алгоритмы машинного обучения используют исторические данные в качестве входных данных для прогнозирования новых выходных значений.

Как инженер машинного обучения в процессе найма, это основной вопрос, который задают большинство рекрутеров, почему вы используете этот алгоритм и какие предположения делаются при использовании этого алгоритма. Так что этот блог будет руководством по пересмотру для всех вас. Двигаясь вперед, я сначала познакомлю вас с предположениями, сделанными при использовании конкретного алгоритма, а также с их преимуществами и недостатками.

ЛИНЕЙНАЯ РЕГРЕССИЯ

Линейная регрессия — это алгоритм машинного обучения, основанный на обучении с учителем. Он выполняет задачу регрессии. Регрессия моделирует целевое значение прогноза на основе независимых переменных. Он в основном используется для выяснения взаимосвязи между переменными и прогнозирования.

Допущения линейной регрессии:

Должна быть линейная зависимость.
Данные имеют гауссово распределение.
Мультиколлинеарности не должно быть или быть мало.
Гомоскедастичность: дисперсия остатка должна быть одинаковой для любого значения X.

Преимущества линейной регрессии:

Работает очень хорошо, когда существует линейная связь между независимыми и зависимыми переменными.
Если иногда это приводит к переобучению, переобучение можно легко уменьшить с помощью регуляризации L1 (LASSO) или L2 (RIDGE).

Недостатки линейной регрессии:

Его предположение о независимости данных.
Предположение о линейной отделимости.
Чувствителен к выбросам.

ЛОГИСТИЧЕСКАЯ РЕГРЕССИЯ

Логистическая регрессия — это статистическая модель, которая в своей базовой форме использует логистическую функцию для моделирования бинарной зависимой переменной, хотя существует множество более сложных расширений. В регрессионном анализе логистическая регрессия (или логит-регрессия) оценивает параметры логистической модели (форма бинарной регрессии). Мы можем использовать это для бинарной классификации и мультиклассовой классификации.

Допущения логистической регрессии:

Предполагается, что мультиколлинеарность между независимыми переменными минимальна или отсутствует.
Обычно для правильного прогнозирования требуется большой размер выборки.
Предполагается, что наблюдения независимы друг от друга.

Преимущества логистической регрессии:

Легко интерпретировать, внедрять и обучать. Не требует слишком больших вычислительных мощностей.
Не делает никаких предположений о распределении классов.
Быстро классифицирует неизвестные записи.
Может легко разместить новые точки данных.
Очень эффективен, когда функции линейно разделимы.

Недостатки логистической регрессии:

Пытается предсказать точные вероятностные результаты, что приводит к переоснащению в больших размерностях.
Поскольку он имеет линейную поверхность решений, он не может решать нелинейные задачи.
Трудно получить сложные отношения, отличные от линейных отношений.
Требует очень мало или вообще не требует мультиколлинеарности.
Требуется большой набор данных и достаточное количество обучающих примеров для всех категорий, чтобы делать правильные прогнозы.

ДЕРЕВО РЕШЕНИЙ

Дерево решений представляет собой древовидную структуру, похожую на блок-схему, где каждый внутренний узел обозначает проверку атрибута, каждая ветвь представляет результат проверки, а каждый конечный узел содержит метку класса. Его можно использовать для решения как задач регрессии, так и задач классификации. Так что помните об этом ключевом моменте в деревьях решений, мы определяем чистый разлив на основе энтропии и коэффициента Джини, а для выбора функций в DT мы принимаем во внимание получение информации, что является важным вопросом интервью.

Допущения деревьев решений:

Первоначально все обучающие данные считаются корневыми.
Записи распределяются рекурсивно на основе значения атрибута.

Преимущества деревьев решений:

По сравнению с другими алгоритмами подготовка данных требует меньше времени.
Не требует нормализации данных.
Отсутствующие значения в некоторой степени не сильно влияют на его производительность.
Очень интуитивно понятен, так как может быть объяснен как условия if-else.

Недостатки деревьев решений:

Требуется много времени для обучения модели.
Небольшое изменение данных может привести к значительным изменениям в структуре дерева решений.
Сравнительно дорогое обучение.
Не подходит для задач регрессии.

Примечание:

1. Деревья решений имеют худшую временную сложность

2. Говоря о времени, энтропия тратит больше времени на определение разделения, если у нас есть 100–200 признаков, мы должны использовать примесь Джини, иначе наоборот.

СЛУЧАЙНЫЙ ЛЕС (СБОРКА)

Случайные леса или случайные леса решений — это метод ансамблевого обучения для классификации, регрессии и других задач, который работает путем построения множества деревьев решений во время обучения. По сути, это метод бэггинга (параллельные модели).

Предположения случайного леса:

Предположение об отсутствии формальных распределений. Будучи непараметрической моделью, она может обрабатывать искаженные и мультимодальные данные.

Преимущества случайного леса:

Устойчив к выбросам.
Хорошо работает для нелинейных данных.
Низкий риск переобучения.
Эффективно работает с большими наборами данных.

Недостатки случайного леса:

Медленное обучение.
Предвзятость при работе с категориальными переменными.

K БЛИЖАЙШИЙ СОСЕД (KNN)

Алгоритм K ближайших соседей относится к категории контролируемого обучения и используется для классификации (чаще всего) и регрессии. Это универсальный алгоритм, который также используется для вменения пропущенных значений и повторной выборки наборов данных.

Предположения KNN:

Данные находятся в пространстве признаков, что означает, что данные в пространстве признаков могут быть измерены с помощью показателей расстояния, таких как Манхэттен, Евклидов и т. д.
Каждая из точек обучающих данных состоит из набора векторов и метки класса, связанной с каждым вектором.
Желательно иметь 'K' в качестве нечетного числа в случае классификации 2-го класса.

Преимущества KNN:

Легко понять, реализовать и объяснить.
Является непараметрическим алгоритмом, поэтому не имеет строгих допущений.
Никаких этапов обучения не требуется. Он использует обучающие данные во время выполнения, чтобы делать прогнозы, что делает его быстрее, чем все те алгоритмы, которые необходимо обучить.
Поскольку обучение на данных поезда не требуется, точки данных можно легко добавить.

Недостатки KNN:

Неэффективно и медленно, когда набор данных большой. Что касается стоимости расчета, то расстояние между новой точкой и пунктами поезда велико.
Плохо работает с многомерными данными, потому что становится сложнее найти расстояние в более высоких измерениях.
Чувствителен к выбросам, так как выбросы легко влияют на него.
Не может работать, когда данные отсутствуют. Таким образом, данные необходимо вводить вручную, чтобы заставить их работать.
Требуется масштабирование/нормализация функций.

НАИВНЫЙ БАЙЕС

Наивный байесовский алгоритм классификации подходит для бинарной и мультиклассовой классификации. Наивный байесовский метод хорошо работает в случаях категориальных входных переменных по сравнению с числовыми переменными. Это полезно для прогнозирования и прогнозирования данных на основе исторических результатов.

Наивные байесовские предположения:

Самым большим и единственным предположением является предположение об условной независимости.

Преимущества наивного байесовского метода:

Дает высокую производительность, когда выполняется предположение об условной независимости.
Простота реализации, потому что нужно рассчитать только вероятности.
Хорошо работает с многомерными данными, такими как текст.
Быстро для прогнозов в реальном времени.

Недостатки наивного байесовского метода:

Если условная независимость не выполняется, то он работает плохо.
Имеет проблему числовой стабильности иличисленного недополнения из-за умножения нескольких маленьких цифр.

МАШИНЫ ОПОРНЫХ ВЕКТОРОВ (SVM)

SVM – это контролируемый алгоритм машинного обучения, который можно использовать для решения задач классификации или регрессии. Он использует метод, называемый трюком ядра, для преобразования ваших данных, а затем на основе этих преобразований находит оптимальную границу между возможными выходными данными.

Предположения SVM:

Предполагается, что данные независимы и одинаково распределены.

Преимущества SVM:

Очень хорошо работает с многомерными данными.
Эффективная память.
Эффективно в тех случаях, когда количество измерений больше, чем количество выборок.

Недостатки SVM:

Не подходит для больших наборов данных.
Не работает, когда в наборе данных есть шум, т. е. целевые классы перекрываются.
Медленно тренироваться.
Нет вероятностного объяснения классификации.

XGBOOST (Экстремальное усиление градиента)

XGBoost — это масштабируемая и высокоточная реализация повышения градиента, которая расширяет пределы вычислительной мощности для алгоритмов форсированного дерева и в основном предназначена для повышения производительности модели машинного обучения и скорости вычислений.

Предположения XGBoost:

У него может быть предположение, что закодированное целочисленное значение для каждой переменной имеет порядковое отношение.

Преимущества XGBoost:

Может работать параллельно.
Может обрабатывать пропущенные значения.
Нет необходимости масштабировать или нормализовать данные.
Быстро интерпретировать.
Отличная скорость выполнения.

Недостатки XGBoost:

Может легко подходить, если параметры не настроены должным образом.
Трудно настроить.

Статья только для предположений Нажмите здесь

Мои социальные ссылки: LinkedIn, Research Gate, GitHub, Tableau

Что нужно помнить перед использованием алгоритмов машинного обучения

Вопросы по теме