5.5 Советы по началу карьеры в области науки о данных

Люди часто задают мне вопросы о начале карьеры в области науки о данных или о советах, какие технические навыки им следует приобрести. Когда мне задают этот вопрос, я пытаюсь поговорить с человеком, чтобы узнать, каковы его цели и стремления, поскольку я не могу дать универсальных советов, вот пять советов, которые, как я бы сказал, в целом полезны для всех, кто начинает. карьера в области науки о данных или анализа данных.

Совет 1. Наука о данных - это большая область: вы не можете знать все обо всем:

Когда вы начинаете заниматься наукой о данных, широта области может быть ошеломляющей. Кажется, что вам нужно быть экспертом в системах больших данных, реляционных базах данных, информатике, линейной алгебре, статистике, машинном обучении, визуализации данных, инженерии данных, SQL, Docker, Kubernetes и многом другом. Не говоря уже о предметной экспертизе. Одно из больших заблуждений, которое я вижу, - это представление о том, что нужно быть экспертом во всех этих областях, чтобы получить свою первую работу.

Первое, что я говорю многим начинающим специалистам по данным, это то, что самое важное, что может сделать специалист по данным, - это извлекать ценность из данных. Сделайте это своей мантрой и позвольте ей направлять вас в развитии ваших навыков. Если ваша компания активно пользуется инструментом X, изучите инструмент X. Но не думайте, что вы должны быть экспертом в инструментах X, Y и Z, чтобы называть себя специалистом по данным. У вас нет, и, на мой взгляд, лучше иметь прочную основу в нескольких инструментах и ​​методах, чем поверхностное понимание многих.

Есть несколько исключений. Я действительно считаю, что любой, кто хочет сделать карьеру в области науки о данных, должен хорошо разбираться в SQL, нескольких базовых алгоритмах машинного обучения и одном из языков сценариев, обычно используемых в науке о данных, таких как Python или R. На самом деле, как я уже сказал. раньше наука о данных - это получение ценности от данных, и что более важно, чем все это, - это способность понимать бизнес-проблему и применять методы науки о данных для ее решения.

Совет 2: стремитесь к эффективности

Навыки и инструменты, на которых вы должны сосредоточиться, - это те, которые позволят вам решать бизнес-задачи как можно быстрее и эффективнее. Возьмем, к примеру, автоматизированное машинное обучение. Если вы не знакомы с AutoML, я рекомендую вам взглянуть на TPOT, библиотеку AutoML с открытым исходным кодом. После того, как вы извлекли свои функции, TPOT использует генетическое программирование, чтобы найти лучший конвейер машинного обучения, и даже генерирует код Python для этого конвейера.

Здесь важно то, что TPOT и аналогичные коммерческие предложения упрощают и упрощают создание моделей машинного обучения. Для начинающих специалистов по данным это означает, что, если вы не заинтересованы в разработке алгоритмов, вам, вероятно, не стоит тратить слишком много времени, поскольку в обозримом будущем она, скорее всего, будет автоматизирована. Я подозреваю, что многие специалисты по данным понимают это и, возможно, немного боятся этой реальности. Хотя TPOT и другие автоматизированные решения не всегда дают вам лучшую модель, они подходят очень близко, и возникает вопрос, стоит ли потратить время после улучшения производительности модели на 0,02%.

Прием данных, очистка и ETL в целом отнимают у большинства специалистов по обработке данных большую часть времени. В течение долгого времени я был большим поклонником проекта Apache Drill, который позволяет запрашивать данные с самоописанием с помощью SQL. Поскольку существует модуль python, к которому можно запрашивать Drill и беспрепятственно импортировать данные в фрейм данных pandas, внезапно становится тривиальным (и экономичным по времени) запрашивать произвольные данные и помещать их в векторизованную структуру данных. Более того, вы можете объединить это с библиотеками автоматического суммирования, такими как pandas-profiling, вы можете перейти от необработанных данных к исследовательским сводкам примерно за 2–3 строки кода. Совместите это с вышеупомянутыми автоматизированными инструментами машинного обучения, и вы сможете создавать модели значительно быстрее, чем если бы вы делали все это вручную.

Совет 3. Данные никогда не бывают чистыми: разберитесь с ними

Я был свидетелем того, как многие новоиспеченные специалисты по данным начинали свой проект только для того, чтобы с ужасом обнаруживать, что данные повреждены, неполны, труднодоступны или требуют значительных усилий для использования, намного больше, чем набор данных Kaggle или стандартные, используемые в данных. учебные курсы по науке.

Неочищенное состояние данных было и всегда будет одной из основных проблем науки о данных, поэтому мой совет начинающим специалистам по данным - научиться работать с несовершенными данными. Для меня я имею в виду то, что по мере развития ваших навыков сосредотачивайте некоторые усилия на инструментах и ​​методах, которые позволят вам работать со сложными наборами данных. Я большой поклонник Apache Drill, потому что он позволяет мне быстро получать доступ и запрашивать большие объемы сложных данных без написания кода. Конечно, существуют и другие инструменты, но по мере развития ваших навыков делайте это с целью найти наиболее эффективные способы доступа и управления всеми видами данных.

Совет 4. Наука о данных - это больше, чем машинное обучение

Часто, когда вы смотрите на учебные программы по науке о данных в университетах или учебных курсах для начинающих, вы видите, что в них большое внимание уделяется машинному обучению. Очевидно, что машинное обучение - ключевой компонент науки о данных, но наука о данных - это гораздо больше. На самом деле речь идет об определении правильного метода получения ценности из данных. Иногда это решение представляет собой довольно простую статистику, иногда - сложные модели машинного обучения. Дело в том, что вы, как специалист по данным, должны рекомендовать правильное решение для ваших заинтересованных сторон.

Моя личная история заключалась в том, что я работал на одного клиента, и оказалось, что одна из самых ценных аналитик, которые я создал для них, по сути, взяла два набора данных и объединила их. Я не могу обсуждать детали, и механика была сложной, но эта простая аналитика руководила политикой и не требовала машинного обучения.

Совет 5: не говорите мне своей ценности, докажите это!

Я разговаривал со многими людьми после завершения учебного курса или другой учебной программы по науке о данных, и их вопросы, как правило, вращаются вокруг того, как получить эту первую работу. Если у вас нет большого профессионального опыта, я предлагаю вам найти увлекательный проект, которым можно поделиться, и поделиться им! Используйте свои недавно приобретенные навыки в том, что вам действительно интересно. Я видел проекты по спортивной аналитике, ресторанным данным и т. Д. В любом случае, запишите свое путешествие на github и / или в блоге. На самом деле не имеет значения, в чем проблема, но работайте над ней и используйте ее, когда идете на собеседование.

Как работодатель, это показывает мне несколько вещей. Во-первых, вы способны решать не скриптовые задачи. Это важно, поскольку в реальных задачах нет сценария, которому нужно следовать. Это также показывает, что вы способны продумать проект от начала до конца, чтобы создать реальную ценность для заинтересованных сторон. Опять же, это действительно важно, поскольку именно этим и должны заниматься специалисты по данным. Наконец, вы можете продемонстрировать свои технические навыки значимым образом.

Дополнительный совет: будьте добры и помогайте другим

Одна из неприятных сторон профессии специалиста по обработке данных состоит в том, что в ней много высокомерных людей. Понимание машинного обучения не делает вас лучше кого-либо. Итак, мой последний совет: теперь, когда вы присоединились к клубу данных, вместо того, чтобы смотреть свысока на людей, которые не являются экспертами в данных, воспользуйтесь возможностью, чтобы помочь им и обучить их. Не с точки зрения превосходства, а с точки зрения обмена знаниями. Лично я наставляю столько людей, сколько позволяет мое время, и считаю себя послом шествия. Я считаю, что это хорошая практика для специалистов по обработке данных, поскольку многие из них не знакомы с нашей дисциплиной, и вы не хотите, чтобы у них сложилось впечатление, что специалисты по обработке данных - высокомерные придурки.

[1] http://epistasislab.github.io/tpot/

[2] https://drill.apache.org

[3] https://github.com/pandas-profiling/pandas-profiling