Интуиция, стоящая за метриками оценки классификации

Проблема

Представьте, что вы создаете модель обнаружения мошенничества для выявления мошеннических транзакций, совершенных с использованием кредитной карты. Вы просматриваете данные и обнаруживаете, что большинство транзакций не являются мошенническими (99%), и только 1% транзакций являются мошенническими. Вы просто отметили каждую транзакцию как немошенническую и получили точность 99 %, ВАУ!

Но, если вы пойдете к клиенту развертывать такую ​​модель, они назовут вас МОШЕННИКОМ😁.

Приведенный выше сценарий является примером проблемы несбалансированной классификации, и «точность» не является подходящей оценочной метрикой для таких случаев использования.

Решение — СПАСИТЕЛЬ!

Наша цель состоит в том, чтобы правильно идентифицировать все мошеннические транзакции, поэтому нам необходимо создать метрику, которая вычисляет соотношение точно предсказанных случаев мошенничества (истинно положительных) и фактических случаев мошенничества. Метрика покажет нам, насколько точно наша модель может отображать фактические случаи мошенничества.

В приведенном выше примере «фактические случаи мошенничества» также могут быть записаны как сумма точно предсказанного (истинного) мошенничества (положительного) — истинного положительного и ошибочно предсказанного (ложного) как отсутствия мошенничества (отрицательного) — ложноотрицательного.

Фактические случаи мошенничества = точно спрогнозированные как мошенничество (истинно положительные) + ошибочно спрогнозированные как отсутствие мошенничества (или ложноотрицательные)

Но достаточно ли отзыва для оценки нашей модели обнаружения мошенничества?

Высокая полнота гарантирует, что наша модель правильно предсказывает почти все случаи мошенничества, но что, если модель также предсказывает много немошенничества как мошенничество?

Всего предсказанное мошенничество = ошибочно предсказанное мошенничество (или ложное срабатывание) + правильно предсказанное мошенничество (или истинное срабатывание)

Большое количество ложных срабатываний будет означать частое обращение ко многим клиентам кредитных карт, чтобы проверить, была ли транзакция совершена ими или это было мошенничество. Представьте, что ваш банк часто звонит вам, чтобы проверить, была ли транзакция совершена вами или это было мошенничество, вам бы это не понравилось!

Итак, нам нужна еще одна метрика для учета этой ошибки — Точность!

Еще один СПАСИТЕЛЬ!

Точность покажет нам, насколько точны мы в прогнозировании случаев мошенничества. Это отношение правильно предсказанного мошенничества к общему количеству предсказанного мошенничества. 100-процентная точность будет означать, что все прогнозируемые случаи мошенничества являются реальными случаями мошенничества.

Таким образом, обе метрики — точность и полнота — весьма полезны. Если бы мы могли получить комбинацию двух показателей, это было бы здорово!

Слияние двух — F1 Score!

Оценка F1 — это сочетание точности и отзыва. Это гармоническое среднее двух показателей.

Высокий балл F1 будет означать, что и точность, и отзыв являются высокими, а низкий балл будет означать, что либо один из них низкий, либо оба низкие.

Идеальное решение для машинного обучения для обнаружения мошенничества должно иметь высокий балл F1!

Однако в реальном сценарии не всегда возможно достичь высоких значений как точности, так и полноты. Итак, нам нужно расставить приоритеты друг над другом!

Когда что выбирать?

Сценарий 1. Точность важнее отзыва!

Представьте, что вы работаете с розничным клиентом, и маркетинговая команда планирует раздать цифровые купоны на сумму 100 долларов США 1000 клиентам, которые не проявляли активности в течение последнего месяца. Маркетинговая команда хочет предоставить эти купоны тем покупателям, которые с наибольшей вероятностью воспользуются ими. Итак, они обращаются к вам, чтобы найти эти 1000 клиентов.

В этом сценарии мы хотим, чтобы наша модель точно предсказывала 1000 клиентов, которые будут использовать купоны, т. е. 1000 лучших клиентов, предсказанных нашей моделью, действительно должны использовать купон.

Точность здесь не важна, потому что мы не заботимся о том, чтобы найти всех клиентов, которые будут использовать купон, наша цель — найти 1000 клиентов.

Сценарий 2: Напоминание важнее точности!

Классический пример, когда отзыв важнее точности, — это медицина, особенно для выявления рака. В таких случаях высокая оценка отзыва предпочтительнее точности, потому что важнее правильно определить все положительные случаи рака, даже если некоторые из предсказанных случаев окажутся ложноположительными.

Ложноположительные результаты могут быть дополнительно исследованы, и для подтверждения диагноза могут быть выполнены дополнительные тесты, тогда как ложноотрицательные результаты могут привести к задержке лечения, что может снизить шансы на успешное лечение. Поэтому в таких случаях важно отдавать предпочтение отзыву, а не точности.

Точно так же в нашем случае использования для обнаружения мошенничества с кредитными картами мы бы предпочли отзыв, а не точность, поскольку мы не хотим, чтобы наша модель пропустила ни один случай мошенничества.

Сценарий 3: Оба критичны!

Сценарий использования, в котором и точность, и полнота должны быть высокими, — это фильтрация спама в электронной почте. Хороший спам-фильтр должен быть в состоянии точно идентифицировать как спам, так и законные электронные письма.

Если фильтр имеет высокую точность, но низкую полноту, он идентифицирует многие законные электронные письма как спам, что нежелательно. С другой стороны, если фильтр имеет высокую полноту, но низкую точность, он пропустит слишком много спам-писем, что также нежелательно.

Таким образом, хороший спам-фильтр должен иметь высокую точность и высокий отклик, чтобы гарантировать точную идентификацию как спама, так и законных электронных писем.

Краткое содержание

Мы рассмотрели некоторые важные показатели, связанные с проблемами классификации:

  • Истинные положительные результаты:точки данных, помеченные как положительные, которые на самом деле являются положительными.
  • Ошибочные срабатывания: точки данных, помеченные как положительные, на самом деле отрицательные.
  • Истинно отрицательные:точки данных, помеченные как отрицательные, которые на самом деле отрицательные.
  • Ложноотрицательные результаты: точки данных, помеченные как отрицательные, на самом деле являются положительными.

Показатели отзыва и точности

  • Отзыв: способность модели классификации идентифицировать все положительные экземпляры.
  • Точность:способность модели классификации точно возвращать положительные экземпляры.
  • Оценка F1: единый показатель, сочетающий полноту и точность с использованием среднего гармонического значения.

Счастливого обучения!

Если вы найдете мои блоги полезными, вы можете подписаться на меня, чтобы получать прямые уведомления всякий раз, когда я публикую историю.

Если вам нравится работать с Medium, поддержите меня и тысячи других авторов, подписавшись на членство. Это стоит всего 5 долларов США в месяц и очень помогает нам, писателям.