Этот блог в основном предназначен для пересмотра концепций алгоритмов машинного обучения перед собеседованием с DS. Важные вопросы интервью покрыты !!
Запуск блога В основном это для новичков, которые плохо знакомы с ML и беспокоятся о процессе своего собеседования, поскольку их спрашивают об алгоритме и почему они его использовали. Итак, позвольте мне начать с краткого введения в ML. Это тип искусственного интеллекта (ИИ), который позволяет программным приложениям более точно прогнозировать результаты без явного программирования для этого. Алгоритмы машинного обучения используют исторические данные в качестве входных данных для прогнозирования новых выходных значений.
Как инженер машинного обучения в процессе найма, это основной вопрос, который задают большинство рекрутеров, почему вы используете этот алгоритм и какие предположения делаются при использовании этого алгоритма. Так что этот блог будет руководством по пересмотру для всех вас. Двигаясь вперед, я сначала познакомлю вас с предположениями, сделанными при использовании конкретного алгоритма, а также с их преимуществами и недостатками.
ЛИНЕЙНАЯ РЕГРЕССИЯ
Линейная регрессия — это алгоритм машинного обучения, основанный на обучении с учителем. Он выполняет задачу регрессии. Регрессия моделирует целевое значение прогноза на основе независимых переменных. Он в основном используется для выяснения взаимосвязи между переменными и прогнозирования.
Допущения линейной регрессии:
- Должна быть линейная зависимость.
- Данные имеют гауссово распределение.
- Мультиколлинеарности не должно быть или быть мало.
- Гомоскедастичность: дисперсия остатка должна быть одинаковой для любого значения X.
Преимущества линейной регрессии:
- Работает очень хорошо, когда существует линейная связь между независимыми и зависимыми переменными.
- Если иногда это приводит к переобучению, переобучение можно легко уменьшить с помощью регуляризации L1 (LASSO) или L2 (RIDGE).
Недостатки линейной регрессии:
- Его предположение о независимости данных.
- Предположение о линейной отделимости.
- Чувствителен к выбросам.
ЛОГИСТИЧЕСКАЯ РЕГРЕССИЯ
Логистическая регрессия — это статистическая модель, которая в своей базовой форме использует логистическую функцию для моделирования бинарной зависимой переменной, хотя существует множество более сложных расширений. В регрессионном анализе логистическая регрессия (или логит-регрессия) оценивает параметры логистической модели (форма бинарной регрессии). Мы можем использовать это для бинарной классификации и мультиклассовой классификации.
Допущения логистической регрессии:
- Предполагается, что мультиколлинеарность между независимыми переменными минимальна или отсутствует.
- Обычно для правильного прогнозирования требуется большой размер выборки.
- Предполагается, что наблюдения независимы друг от друга.
Преимущества логистической регрессии:
- Легко интерпретировать, внедрять и обучать. Не требует слишком больших вычислительных мощностей.
- Не делает никаких предположений о распределении классов.
- Быстро классифицирует неизвестные записи.
- Может легко разместить новые точки данных.
- Очень эффективен, когда функции линейно разделимы.
Недостатки логистической регрессии:
- Пытается предсказать точные вероятностные результаты, что приводит к переоснащению в больших размерностях.
- Поскольку он имеет линейную поверхность решений, он не может решать нелинейные задачи.
- Трудно получить сложные отношения, отличные от линейных отношений.
- Требует очень мало или вообще не требует мультиколлинеарности.
- Требуется большой набор данных и достаточное количество обучающих примеров для всех категорий, чтобы делать правильные прогнозы.
ДЕРЕВО РЕШЕНИЙ
Дерево решений представляет собой древовидную структуру, похожую на блок-схему, где каждый внутренний узел обозначает проверку атрибута, каждая ветвь представляет результат проверки, а каждый конечный узел содержит метку класса. Его можно использовать для решения как задач регрессии, так и задач классификации. Так что помните об этом ключевом моменте в деревьях решений, мы определяем чистый разлив на основе энтропии и коэффициента Джини, а для выбора функций в DT мы принимаем во внимание получение информации, что является важным вопросом интервью.
Допущения деревьев решений:
- Первоначально все обучающие данные считаются корневыми.
- Записи распределяются рекурсивно на основе значения атрибута.
Преимущества деревьев решений:
- По сравнению с другими алгоритмами подготовка данных требует меньше времени.
- Не требует нормализации данных.
- Отсутствующие значения в некоторой степени не сильно влияют на его производительность.
- Очень интуитивно понятен, так как может быть объяснен как условия if-else.
Недостатки деревьев решений:
- Требуется много времени для обучения модели.
- Небольшое изменение данных может привести к значительным изменениям в структуре дерева решений.
- Сравнительно дорогое обучение.
- Не подходит для задач регрессии.
Примечание:
1. Деревья решений имеют худшую временную сложность
2. Говоря о времени, энтропия тратит больше времени на определение разделения, если у нас есть 100–200 признаков, мы должны использовать примесь Джини, иначе наоборот.
СЛУЧАЙНЫЙ ЛЕС (СБОРКА)
Случайные леса или случайные леса решений — это метод ансамблевого обучения для классификации, регрессии и других задач, который работает путем построения множества деревьев решений во время обучения. По сути, это метод бэггинга (параллельные модели).
Предположения случайного леса:
- Предположение об отсутствии формальных распределений. Будучи непараметрической моделью, она может обрабатывать искаженные и мультимодальные данные.
Преимущества случайного леса:
- Устойчив к выбросам.
- Хорошо работает для нелинейных данных.
- Низкий риск переобучения.
- Эффективно работает с большими наборами данных.
Недостатки случайного леса:
- Медленное обучение.
- Предвзятость при работе с категориальными переменными.
K БЛИЖАЙШИЙ СОСЕД (KNN)
Алгоритм K ближайших соседей относится к категории контролируемого обучения и используется для классификации (чаще всего) и регрессии. Это универсальный алгоритм, который также используется для вменения пропущенных значений и повторной выборки наборов данных.
Предположения KNN:
- Данные находятся в пространстве признаков, что означает, что данные в пространстве признаков могут быть измерены с помощью показателей расстояния, таких как Манхэттен, Евклидов и т. д.
- Каждая из точек обучающих данных состоит из набора векторов и метки класса, связанной с каждым вектором.
- Желательно иметь 'K' в качестве нечетного числа в случае классификации 2-го класса.
Преимущества KNN:
- Легко понять, реализовать и объяснить.
- Является непараметрическим алгоритмом, поэтому не имеет строгих допущений.
- Никаких этапов обучения не требуется. Он использует обучающие данные во время выполнения, чтобы делать прогнозы, что делает его быстрее, чем все те алгоритмы, которые необходимо обучить.
- Поскольку обучение на данных поезда не требуется, точки данных можно легко добавить.
Недостатки KNN:
- Неэффективно и медленно, когда набор данных большой. Что касается стоимости расчета, то расстояние между новой точкой и пунктами поезда велико.
- Плохо работает с многомерными данными, потому что становится сложнее найти расстояние в более высоких измерениях.
- Чувствителен к выбросам, так как выбросы легко влияют на него.
- Не может работать, когда данные отсутствуют. Таким образом, данные необходимо вводить вручную, чтобы заставить их работать.
- Требуется масштабирование/нормализация функций.
НАИВНЫЙ БАЙЕС
Наивный байесовский алгоритм классификации подходит для бинарной и мультиклассовой классификации. Наивный байесовский метод хорошо работает в случаях категориальных входных переменных по сравнению с числовыми переменными. Это полезно для прогнозирования и прогнозирования данных на основе исторических результатов.
Наивные байесовские предположения:
- Самым большим и единственным предположением является предположение об условной независимости.
Преимущества наивного байесовского метода:
- Дает высокую производительность, когда выполняется предположение об условной независимости.
- Простота реализации, потому что нужно рассчитать только вероятности.
- Хорошо работает с многомерными данными, такими как текст.
- Быстро для прогнозов в реальном времени.
Недостатки наивного байесовского метода:
- Если условная независимость не выполняется, то он работает плохо.
- Имеет проблему числовой стабильности иличисленного недополнения из-за умножения нескольких маленьких цифр.
МАШИНЫ ОПОРНЫХ ВЕКТОРОВ (SVM)
SVM – это контролируемый алгоритм машинного обучения, который можно использовать для решения задач классификации или регрессии. Он использует метод, называемый трюком ядра, для преобразования ваших данных, а затем на основе этих преобразований находит оптимальную границу между возможными выходными данными.
Предположения SVM:
- Предполагается, что данные независимы и одинаково распределены.
Преимущества SVM:
- Очень хорошо работает с многомерными данными.
- Эффективная память.
- Эффективно в тех случаях, когда количество измерений больше, чем количество выборок.
Недостатки SVM:
- Не подходит для больших наборов данных.
- Не работает, когда в наборе данных есть шум, т. е. целевые классы перекрываются.
- Медленно тренироваться.
- Нет вероятностного объяснения классификации.
XGBOOST (Экстремальное усиление градиента)
XGBoost — это масштабируемая и высокоточная реализация повышения градиента, которая расширяет пределы вычислительной мощности для алгоритмов форсированного дерева и в основном предназначена для повышения производительности модели машинного обучения и скорости вычислений.
Предположения XGBoost:
- У него может быть предположение, что закодированное целочисленное значение для каждой переменной имеет порядковое отношение.
Преимущества XGBoost:
- Может работать параллельно.
- Может обрабатывать пропущенные значения.
- Нет необходимости масштабировать или нормализовать данные.
- Быстро интерпретировать.
- Отличная скорость выполнения.
Недостатки XGBoost:
- Может легко подходить, если параметры не настроены должным образом.
- Трудно настроить.
Статья только для предположений Нажмите здесь
Мои социальные ссылки: LinkedIn, Research Gate, GitHub, Tableau