Что такое Боксплот?

Мы читали о квартильном распределении данных в статистике средней школы. Проще говоря, квартильное распределение — это не что иное, как ряд точек данных, организованных по порядку и разделенных на 4 равные части. Диаграмма с усами или широко известная как блочная диаграмма визуально представляет квартильное распределение набора данных.

Прямоугольная фигура на диаграмме — это межквартильный диапазон, т. е. Q3-Q1. Затем эти горизонтальные линии, прикрепленные к прямоугольнику, представляют собой допустимый диапазон данных, т. е. Q3+1,5IQR, Q1–1,5IQR. Все, что выходит за рамки этого, должно быть названо выбросом. Медиана в рамке также указывает на асимметрию данных.

Давайте возьмем пример, чтобы сделать концепцию более интуитивной. Предположим, вы учитель, который преподает статистику, и вы прошли классный тест, скажем, для 8 учеников (возможно, оставшиеся ученики класса пропустили лекцию в тот день из-за теста 😜 попробуйте пройти неожиданные тесты в следующий раз и далее), а баллы всех учеников были — 2,78,82,85,89,96,97,130.

Анализируя их оценки, вы почувствовали, что с ними что-то не так. Вы заметили, что, хотя среднее значение баллов составляло 82,375, а медиана — 87, дисперсия составила 1149,734, а это далеко не центральная тенденция. Теперь, если вы решили построить коробчатую диаграмму результатов, и она выглядела бы примерно так, как показано выше.

Теперь, глядя на диаграмму, вы понимаете, что не так с оценками. В наборе данных есть два выброса, которые приводят к очень высокой дисперсии. Это могут быть опечатки, поэтому вы можете устранить их при анализе данных.

Правило большого пальца для вычисления выбросов

Выбросы — это те точки данных в наборе, которые расположены аномально далеко от массы данных. Выбросы сильно влияют на основную тенденцию данных и делают результаты ненадежными, поэтому важно удалить выбросы перед анализом данных и выводом из них. Существует два способа оценки выбросов:

  1. Опыт работы с предметной областью.Аналитик, имеющий опыт работы с предметной областью, может интуитивно определить выбросы.
  2. Правило большого пальца — практическое правило расчета выбросов гласит, что любое значение, выходящее за указанные ниже пределы, будет выбросом —

Максимальный лимит: Q3 + 1,5*IQR

Минимальный лимит: Q1 -1,5*IQR

Как правило, при очистке набора данных оба метода используются вместе.

Это основное введение в боксплоты и их интерпретацию. В следующем блоге мы немного расширим эту идею и рассчитаем блок-график распределения Гаусса с помощью Python.