Машинное обучение в Data Science: собеседования

5 сложных вопросов и тем для изучения

Обзор

Вопросы о машинном обучении часто являются самой сложной частью собеседований по науке о данных, и не зря. В этом посте будет выделено несколько примеров проблем, общие комментарии по машинному обучению и темы для изучения в теории и приложениях. Обсуждаемые проблемы представлены на сайте https://datascienceprep.com/, который включает вопросы интервью с ведущими технологическими компаниями.

5 сложных проблем

Скажем, мы используем модель гауссовой смеси (GMM) для обнаружения аномалий в мошеннических транзакциях, чтобы классифицировать входящие транзакции по K классам. Формульно опишите настройку модели и способы оценки апостериорной вероятности и логарифмической вероятности. Как мы можем определить, следует ли считать новую транзакцию мошеннической?
Предположим, вы запускаете модель линейного дискриминантного анализа (LDA) для некоторых данных с K классами. Математически опишите, как бы вы проецировали центроиды на некоторое L ‹K-1-мерное подпространство.
Опишите идею и математическую формулировку сглаживания ядра. Как вы вычисляете оценку регрессии ядра?
Скажем, мы запускаем вероятностную линейную регрессию, которая хорошо моделирует базовые отношения между некоторыми y и x. Теперь предположим, что ко всем входам добавлен некоторый шум ε, который не зависит от обучающих данных. Что такое новая целевая функция? Как это вычислить?
Какая функция потерь используется в кластеризации k-средних для k кластеров и n точек выборки? Вычислите формулу обновления, используя 1) пакетный градиентный спуск, 2) стохастический градиентный спуск для среднего значения кластера для кластера k с использованием скорости обучения ε.

Общие комментарии

Машинное обучение не применимо для всех ролей в области науки о данных, поскольку наука о данных - это обширная область, но для соответствующих ролей это важная область исследования, имеющая как глубину, так и широту. Однако, независимо от роли, я думаю, что для любого специалиста по данным или начинающего специалиста по данным полезно изучать машинное обучение по трем основным причинам:

Это пересечение математики, информатики и статистики, каждая из которых представляет собой обширную область исследований и является строительным материалом для прочных знаний на протяжении всей жизни.
Машинное обучение предлагает идеальное сочетание теории и применения - есть бесконечное множество вещей, которые стоит интересовать, а также то, как эти вещи работают и используются на практике.
Подобно тому, как программное обеспечение нарушило бизнес-ландшафт во всем мире, машинное обучение уже нарушило и, вероятно, продолжит помогать существующим предприятиям значительно улучшиться, а также приведет к удивительному множеству будущих предприятий.

Изучение машинного обучения

Есть два основных направления, связанных с машинным обучением: теория и приложения. Теория влечет за собой все математические основы, лежащие в основе моделей, а также то, почему и как они работают так, как они работают, в то время как применение влечет за собой все практические варианты использования, посредством которых масштабная технология может использовать такие модели. Оба одинаково важно изучать и хорошо разбираться в них.

Теоретически в вашем распоряжении множество учебников и других онлайн-ресурсов. Важно понимать математику, лежащую в основе различных алгоритмов и фреймворков, чтобы видеть закономерности, лежащие в основе настройки и работы моделей. Это приведет к лучшему пониманию приложений, а также к пониманию того, как думать о различных адаптациях к различным моделям. Кроме того, знание всех технических деталей определенно помогает при теоретической стороне вопросов на собеседовании по машинному обучению.

Что касается приложений, существует бесконечное количество практических проектов, которые нужно изучить, если предположить, что вы можете получить достаточно данных, представляющих интерес (Kaggle и Open AWS предоставляют множество наборов данных!) - и, если это невозможно, также стоит просто узнать о том, сколько компаний используют машины обучение в значительной степени (например, прочитать о Netflix с помощью рекомендательных систем). Это укрепит ваше теоретическое понимание и даст представление о том, как некоторые ведущие мировые компании используют машинное обучение для создания больших объемов ценности в масштабе.

Темы для изучения

Приведенный ниже список ни в коем случае не является исчерпывающим, но в нем есть размышления о том, что было бы неплохо рассмотреть по темам с высоты птичьего полета:

Общее понимание моделей: компромисс смещения и дисперсии, оценка соответствия модели, выборка, перекрестная проверка и т. Д.
Линейные модели: регрессия (простая и множественная), выбор модели, методы усадки
Классификация: линейные методы (LDA, логистическая регрессия и т. Д.) И нелинейные (SVM, деревья решений и т. Д.)
Нейронные сети: обратное распространение, CNN, RNN, LSTM и т. Д.
Обучение без учителя: кластеризация (K-средних), PCA, факторный анализ и т. Д.

Изучая каждую из них, не забудьте погрузиться в прикладную сторону вещей - есть много действительно интересных компаний, использующих различные методы, упомянутые выше, для основных частей своего бизнеса. Например: многие предприятия используют обнаружение мошенничества - какие модели можно там запустить и использовать? А как насчет рекомендательных систем? Показываете рекламу? Анализ ценности жизни клиента?

Примечание: есть много других областей (обучение с подкреплением, компьютерное зрение, темы теории игр и т. Д.), Которые не включены в приведенный выше список для краткости.

Спасибо за прочтение!

Если вы хотите продолжить изучение машинного обучения во время собеседований по науке о данных, ознакомьтесь с этим информационным бюллетенем, который рассылает вам практические задачи.