Изучение этой фундаментальной концепции на примерах в Python

Центральная предельная теорема является фундаментальной концепцией в статистике, которая утверждает, что при достаточно большом размере выборки распределение выборочных средних будет приближаться к нормальному распределению, независимо от формы основного распределения населения. Эта теорема имеет далеко идущие последствия в таких областях, как финансы, инженерия и естественные науки, и широко используется в статистическом анализе и проверке гипотез.

В этой статье мы рассмотрим центральную предельную теорему более подробно, включая ее происхождение и последствия, а также некоторые примеры ее использования в языке программирования Python.

Центральная предельная теорема основана на идее выборки. В статистике выборка — это подмножество населения, отобранное для изучения. Цель выборки состоит в том, чтобы сделать выводы о совокупности на основе характеристик выборки. Однако, поскольку выборка составляет лишь небольшую часть генеральной совокупности, она подвержена случайным колебаниям. Центральная предельная теорема утверждает, что по мере увеличения размера выборки распределение выборочных средних будет приближаться к нормальному распределению, независимо от формы основного распределения населения.

Нормальное распределение, также известное как колоколообразная кривая, представляет собой симметричное распределение с одним пиком. Он обычно используется для моделирования случайных явлений, таких как рост людей в популяции или результаты повторных экспериментов. Нормальное распределение определяется его средним значением и стандартным отклонением, которые определяют местоположение и разброс распределения.

Центральная предельная теорема была впервые предложена французским математиком Абрахамом де Муавром в 1733 году. Однако широкое признание теорема получила только после работы бельгийского математика и статистика Адольфа Кетле в середине 1800-х годов. Кетле использовал центральную предельную теорему, чтобы показать, что распределение многих физических и социальных характеристик, таких как рост и интеллект, приблизительно соответствует нормальному распределению.

Центральная предельная теорема имеет несколько важных следствий. Во-первых, это позволяет нам оценить среднее значение и стандартное отклонение совокупности от выборки, даже если мы не знаем точного распределения совокупности. Это связано с тем, что распределение выборочных средних будет приближаться к нормальному распределению по мере увеличения размера выборки.

Например, рассмотрим совокупность высот со средним значением 175 см и стандартным отклонением 10 см. Если мы возьмем случайную выборку из 10 ростов из этой совокупности, мы можем наблюдать среднее значение выборки 170 см. Однако, если мы возьмем случайную выборку из 100 ростов из одной и той же популяции, мы ожидаем, что среднее значение выборки будет ближе к среднему значению популяции, равному 175 см. Это связано с тем, что больший размер выборки позволяет нам лучше оценить среднее значение генеральной совокупности.

Во-вторых, центральная предельная теорема позволяет нам делать предсказания о вероятности определенных событий, происходящих в популяции. Например, если мы знаем среднее значение и стандартное отклонение совокупности, мы можем использовать нормальное распределение, чтобы предсказать вероятность наблюдения определенного результата в выборке. Это полезно в таких областях, как финансы, где инвесторы могут использовать нормальное распределение для прогнозирования вероятности определенных событий на фондовом рынке.

В-третьих, центральная предельная теорема широко используется при проверке гипотез, которая представляет собой статистическую процедуру, используемую для определения того, подтверждается ли гипотеза о совокупности данными. При проверке гипотез мы обычно начинаем с нулевой гипотезы, которая утверждает, что между двумя переменными нет связи. Затем мы собираем данные и используем центральную предельную теорему, чтобы определить вероятность наблюдения данных, если нулевая гипотеза верна. Если вероятность очень мала, мы можем отклонить нулевую гипотезу и сделать вывод, что между двумя переменными существует связь.

Есть несколько условий, которые должны быть соблюдены, чтобы центральная предельная теорема выполнялась. Во-первых, выборки должны быть взяты из населения случайным образом, без смещения. Во-вторых, выборки должны быть независимыми, что означает, что результат одной выборки не влияет на результат другой выборки. В-третьих, размер выборки должен быть достаточно большим. Как правило, размер выборки 30 или более считается достаточным для выполнения центральной предельной теоремы.

Несмотря на эти условия, центральная предельная теорема является мощным инструментом, который широко используется в статистическом анализе и проверке гипотез. Его способность предсказывать поведение выборочных средних и прогнозировать вероятность определенных событий, происходящих в совокупности, сделала его незаменимым инструментом во многих областях.

Теперь, когда мы лучше понимаем центральную предельную теорему, давайте рассмотрим несколько примеров ее использования в Python.

Для начала нам нужно импортировать модули random и statistics. Модуль random содержит функции для генерации случайных чисел, а модуль statistics содержит функции для расчета статистических показателей, таких как среднее значение и стандартное отклонение.

import random
import statistics

Далее сгенерируем популяцию из 100 случайных чисел, используя функцию random.gauss(), которая генерирует случайные числа из нормального распределения с заданным средним значением и стандартным отклонением. Мы установим среднее значение равным 0, а стандартное отклонение равным 1.

pop = [random.gauss(0, 1) for _ in range(100)]

Теперь, когда у нас есть популяция, давайте возьмем случайную выборку из 10 чисел из этой популяции и вычислим среднее значение выборки с помощью функции statistics.mean().

sample = random.sample(pop, 10)
sample_mean = statistics.mean(sample)

Если мы повторим этот процесс несколько раз, мы заметим, что выборочные средние имеют тенденцию группироваться вокруг среднего значения генеральной совокупности, равного 0. Это пример центральной предельной теоремы в действии.

Мы также можем использовать центральную предельную теорему, чтобы предсказывать вероятность определенных событий, происходящих в популяции. Например, предположим, что нас интересует вероятность наблюдения выборочного среднего значения больше 1 в нашей совокупности. Мы можем использовать функцию statistics.normal_distribution(), которая берет среднее значение и стандартное отклонение нормального распределения и возвращает вероятность наблюдения значения, меньшего или равного заданному числу.

mean = 0
stdev = 1

probability = 1 - statistics.normal_distribution(mean, stdev).cdf(1)

В этом случае вероятность наблюдения среднего значения выборки больше 1 составляет приблизительно 0,1587. Это означает, что если мы возьмем много случайных выборок размера 10 из нашей совокупности, около 15,87% этих выборок будут иметь среднее значение больше 1.

Наконец, давайте рассмотрим пример проверки гипотез с использованием центральной предельной теоремы. Предположим, мы хотим проверить гипотезу о том, что средний рост взрослых мужчин в США составляет 180 см. Мы можем использовать данные случайной выборки из 100 взрослых мужчин, чтобы проверить эту гипотезу.

Во-первых, нам нужно будет собрать данные и рассчитать выборочное среднее и стандартное отклонение, используя функции statistics.mean() и statistics.stdev().

heights = [178, 180, 183, 175, 176, 185, 179, 177, 182, 180, ...]
mean = statistics.mean(heights)
stdev = statistics.stdev(heights)

Далее предположим, что нулевая гипотеза верна, что означает, что средний размер населения составляет 180 см. Затем мы можем использовать центральную предельную теорему, чтобы вычислить вероятность наблюдения выборочного среднего значения 176,8 см, если нулевая гипотеза верна. Мы можем снова использовать функцию statistics.normal_distribution(), чтобы сделать это.

null_mean = 180
probability = statistics.normal_distribution(null_mean, stdev).cdf(mean)

В этом случае вероятность наблюдения выборочного среднего значения 176,8 см, если нулевая гипотеза верна, составляет примерно 0,0498. Это означает, что существует только 4,98% шанс наблюдать среднее значение выборки, если нулевая гипотеза верна. Поскольку эта вероятность очень мала, мы можем отвергнуть нулевую гипотезу и сделать вывод, что средний рост взрослых мужчин в США не равен 180 см.

В заключение, центральная предельная теорема является мощным инструментом, который широко используется в статистическом анализе и проверке гипотез. Его способность предсказывать поведение выборочных средних и прогнозировать вероятность определенных событий, происходящих в совокупности, сделала его незаменимым инструментом во многих областях. Благодаря примерам в этой статье вы должны лучше понять центральную предельную теорему и уметь применять ее в своих собственных программах на Python.

Вы идентифицируете себя как латиноамериканца и работаете в области искусственного интеллекта или знаете кого-то из латиноамериканца и работает в области искусственного интеллекта?

Не забудьте нажать 👏 ниже, чтобы помочь поддержать наше сообщество — это очень много значит!

Спасибо :)