С чего начать? Наука о данных, если вы еще не знаете, настолько широка, насколько это вообще возможно, и мы только что начали курс. Он включает в себя несколько методологий и подходов для достижения желаемой модели, которая вращается вокруг данных. Не поймите меня неправильно, до этого курса программирование шло гладко, но высота этого холма уже заставила меня прыгнуть с корабля. Благодаря моим лекторам и их проведению курса у этого путешествия есть хороший конец.

Мероприятие представляло собой хакатон, на котором нам было поручено разработать модель с использованием машинного обучения на основе данных о поездах, которая будет прогнозировать отток клиентов компании с учетом таких характеристик, как возраст, баланс, география, пол, срок пребывания в должности, расчетная зарплата и многие другие. Затем это будет проверено с использованием тестовых данных, чтобы увидеть, насколько точны наши модели.

Используя Jupyter Notebook, я начал с импорта библиотек, которые мне понадобятся для этой модели. К ним относятся панды и numpy, которые дают нам доступ к более широкому спектру математических функций и структур данных, которые мы будем использовать в модели.

Я пошел дальше и импортировал данные поезда и тестовые данные, которые мы будем использовать для построения нашей модели с использованием ранее импортированной библиотеки pandas. После этого я попытался проверить наличие нулевых значений, которых не было.

Проанализировав данные, я заметил, что некоторые функции по-прежнему выражаются в строковых типах данных, и это не позволяет машине эффективно работать с данными. По этой причине я импортировал библиотеку sklearn, которая помогла бы нам преобразовать функции, являющиеся строками, в целые числа. Кроме того, я запустил фрагмент кода, чтобы увидеть корреляции между различными функциями по отношению к целевой переменной.

Из своих выводов я выбрал несколько функций, которые модель будет использовать для обучения, а также для проверки новых данных. После создания этого фреймворка пришло время адаптировать модель машинного обучения. Сначала я начал с модели логистической регрессии, которая дала мне точность, не соответствующую моей цели. В конце концов я использовал модель усилителя градиента, как показано в фрагменте кода ниже.

Впоследствии я создал словарь, содержащий нашу модель усилителя градиента и функцию, которую она будет вызывать из тестовых данных. После этого я экспортировал файл в каталог на рабочем столе с определенным именем.

Это путешествие действительно расширило мой горизонт возможностей, которые могут возникнуть в этой области. Было весело пробовать разные методы и приобретать знания в этом методе. Это определенно открыло для меня еще один возможный карьерный путь, когда я начинаю свой жизненный путь.