Вы упускаете торговые возможности:
- Бесплатные приложения для трейдинга
- 8 000+ сигналов для копирования
- Экономические новости для анализа финансовых рынков
Регистрация
Вход
Вы принимаете политику сайта и условия использования
Если у вас нет учетной записи, зарегистрируйтесь
Непрерывные случайные величины
Непрерывные случайные величины
Всем привет! Сегодня мы собираемся углубиться в тему непрерывных случайных величин. Непрерывная случайная величина — это просто переменная, которая может принимать значения во всем диапазоне, что позволяет проводить точные измерения. Давайте рассмотрим несколько примеров, иллюстрирующих эту концепцию.
Представьте, что вы выбрали случайную собаку в местном приюте для животных и измерили длину ее хвоста. Вы можете получить измерения с любой желаемой степенью точности. Точно так же рассмотрите возможность получения точных показаний температуры на Южном полюсе в случайный момент или измерения продолжительности случайно выбранного звонка в службу поддержки. Эти примеры демонстрируют возможность измерения переменных с любым уровнем точности.
Напротив, дискретная случайная величина может принимать значения только из прерывистого набора. Например, бросая игральную кость 20 раз и подсчитывая количество шестерок, вы получите целые числа, такие как 0, 1, 2, 3, 4 и так далее. Однако дроби или десятичные дроби, такие как половина, две трети или три с четвертью, не являются возможными результатами.
Описание вероятностей для непрерывных случайных величин сложнее, чем для дискретных. При бесконечном числе возможных исходов вероятность получения определенного индивидуального результата практически равна нулю. Например, если мы указываем, что звонок в службу поддержки длится 150 секунд, фактическая длина может быть 150,1, 150,05 или любое бесчисленное множество других значений. Следовательно, вероятность того, что вызов будет длиться ровно 150 секунд, практически равна нулю.
Тем не менее, некоторые длины вызовов могут показаться более вероятными, чем другие. Мы ожидаем, что звонок продолжительностью 150 секунд будет гораздо более вероятным, чем звонок продолжительностью три часа. Чтобы рассмотреть вероятности для непрерывных случайных величин, мы сосредоточимся на диапазонах значений, а не на конкретных результатах. Например, мы рассматриваем вероятность того, что вызов приходится на промежуток между 140 и 160 секундами, что часто дает ненулевые вероятности.
Один из способов визуализировать непрерывную случайную величину — использовать кривую плотности. Затем вероятности по диапазонам представляются в виде областей под кривой плотности. Давайте рассмотрим график, на котором изображена случайная величина X, которая находится в диапазоне от 0 до 4 с уменьшающейся вероятностью. Заштрихованная область на графике представляет собой вероятность того, что X попадет между 1 и 2 в данном испытании. Из рисунка видно, что вероятность попадания X между 1 и 2 меньше, чем вероятность его попадания между 0 и 1. Это несоответствие возникает из-за того, что площадь под кривой от 0 до 1 больше, чем от 1 до 2. Точно так же вероятность попадания X между 1 и 2 выше, чем между 2 и 3. Мы можем оценить вероятность попадания X между 1 и 2, аппроксимируя площадь заштрихованной области, что дает результат примерно в 3 десятых или 30%.
Кривая плотности обычно называется функцией плотности вероятности (PDF). Подлинный PDF-файл обладает двумя важными свойствами. Во-первых, оно всегда должно быть положительным, чтобы соответствовать положительному характеру вероятностей. Во-вторых, общая площадь под графиком легитимной PDF всегда должна быть равна единице, что означает, что мы получаем некоторое значение X при проведении вероятностного эксперимента.
Хотя понятие PDF и кривой плотности может быть интуитивно понятным, фактические расчеты, связанные с ними, могут быть сложными. На практике мы часто работаем с кумулятивными функциями распределения (CDF) случайных величин, чтобы избежать необходимости в сложных вычислениях. CDF обеспечивает вероятность того, что случайная величина примет значение, не превышающее заданное X в данном испытании. По сути, он накапливает вероятности. Например, если X увеличивается, соответствующее значение CDF также увеличивается по мере накопления большей вероятности.
Используя CDF, мы можем вычислить вероятность попадания случайной величины в определенный диапазон. Эта вероятность определяется путем вычитания значений CDF нижней и верхней границ диапазона. Давайте рассмотрим график PDF и CDF одной и той же случайной величины, обозначенной как X. Заштрихованная область на графике представляет накопленную вероятность того, что X меньше или равно двум, обозначается как F (2), CDF при двух . Обратите внимание, что по мере увеличения X CDF, F(X), также всегда увеличивается, потому что накапливается больше вероятности.
Чтобы вычислить вероятность попадания X между двумя значениями, скажем, a и b, мы вычитаем значение CDF в точке b из значения CDF в точке a. На графике это соответствует вычитанию площади слева от X, равной 2, из площади слева от X, равной 1. Математически это выражается как F(b) - F(a). Визуальное представление делает это очевидным.
Самый простой тип непрерывной случайной величины — это случайная величина с равномерным распределением. При равномерном распределении вероятности равны для интервалов одинаковой ширины. По сути, это означает, что каждое значение X в определенном диапазоне равновероятно. Другой способ увидеть это состоит в том, что PDF равномерно распределенной случайной величины является постоянной функцией.
Рассмотрим пример. Предположим, у нас есть непрерывная случайная величина, значения которой могут находиться в диапазоне от 1 до 7 с равномерным распределением. PDF представляет собой постоянную функцию от 1 до 7 с общей площадью 1. Поскольку ширина интервала равна 6, высота графика равна 1/6. Имея эту информацию, мы можем рассчитать вероятности для любого диапазона X. Например, вероятность того, что X попадет между 2 и 7, определяется шириной интервала, которая равна 7 минус 2, деленной на высоту графика, который составляет 1/6. Таким образом, вероятность равна (1/6) * (7 - 2) = 5/6.
Если вам нужно более подробное объяснение единообразных дистрибутивов, у меня есть специальное видео на эту тему, которое вы можете найти по ссылке, указанной выше.
Нормальное распределение
Нормальное распределение
Сегодня мы обсудим нормальное распределение вероятностей и эмпирическое правило. При работе с непрерывной случайной величиной ее кривая плотности часто принимает форму колоколообразной кривой. Эта колоколообразная кривая указывает на то, что большая часть вероятности сосредоточена вблизи центра или среднего значения распределения. Однако теоретически возможны результаты настолько большие или маленькие, насколько вы можете себе представить.
Нормальные распределения обычно встречаются в сценариях реальной жизни. Например, если мы измеряем рост случайно выбранных новорожденных, наблюдаем за скоростью автомобилей на открытом шоссе или изучаем баллы случайно выбранных учащихся в стандартизированных тестах, все эти случайные величины, вероятно, подчиняются приблизительно нормальному распределению. Нормальные распределения демонстрируют симметрию относительно среднего значения, а это означает, что вероятность получения результатов ниже среднего такая же, как и вероятность получения результатов выше среднего. Итак, при рассмотрении длины новорожденных мы с одинаковой вероятностью встретим младенцев выше или ниже среднего.
Характеристики нормального распределения полностью описываются его средним значением и дисперсией (или стандартным отклонением). Среднее значение представляет собой центр распределения, а стандартное отклонение представляет собой расстояние от среднего значения до точек перегиба кривой. Эти точки перегиба отмечают переход от холмообразной формы к долинообразной форме кривой.
Давайте возьмем пример с баллами SAT за 2017 год. Баллы SAT были примерно нормально распределены со средним значением 1060 и стандартным отклонением 195. Нарисовав график этого распределения, мы находим среднее значение на уровне 1060 и отмечаем точки перегиба единицей. стандартное отклонение от среднего значения в обоих направлениях. Мы также можем отметить дополнительные точки, соответствующие одному стандартному отклонению выше и ниже среднего.
При интерпретации кривых плотности области под ними представляют вероятности. Из графика видно, что вероятность случайного выбора балла между 865 и 1060 значительно выше, чем выбор балла между 670 и 865. Чтобы количественно оценить эти вероятности, мы можем использовать эмпирическое правило в качестве эмпирического правила для оценки нормального вероятности.
Согласно эмпирическому правилу, в любом нормальном распределении примерно 68 % вероятности находится в пределах одного стандартного отклонения от среднего, 95 % — в пределах двух стандартных отклонений и 99,7 % — в пределах трех стандартных отклонений. Эти пропорции соответствуют площадям под кривой в соответствующих регионах.
Применяя эмпирическое правило к нашему распределению результатов SAT со средним значением 1060 и стандартным отклонением 195, мы обнаруживаем, что вероятность случайного выбора оценки между 865 и 1255 составляет 68 %, а вероятность выбора оценки между 670 – 95 %. и 1450, и 99,7% шанс выбрать результат между 475 и 1645.
Используя геометрию и эмпирическое правило, мы также можем рассчитать вероятности для других сценариев. Например, вероятность получения результата более чем на одно стандартное отклонение от среднего равна единице минус вероятность получения результата в пределах одного стандартного отклонения от среднего. Точно так же мы можем рассчитать вероятность получения значения более чем на два стандартных отклонения ниже среднего, найдя дополнение площади в пределах двух стандартных отклонений от среднего.
Таким образом, нормальное распределение вероятностей соответствует колоколообразной кривой, а эмпирическое правило обеспечивает полезную аппроксимацию для оценки вероятностей в определенных областях нормального распределения.
Стандартное нормальное распределение
Стандартное нормальное распределение
Привет всем, сегодня мы погрузимся в стандартное нормальное распределение. По сути, это нормальное распределение или колоколообразная кривая со средним значением, равным нулю, и стандартным отклонением, равным единице, как показано здесь.
Мы имеем дело с непрерывной случайной величиной, которая может принимать любое значение от отрицательной бесконечности до положительной бесконечности. Однако большая часть вероятности сосредоточена около нуля. Пик кривой находится в центре среднего значения, равного нулю, а точки перегиба приходятся на плюс и минус единицу, где график переходит от формы холма к форме долины.
Для обозначения случайных величин, которые следуют стандартному нормальному распределению, мы часто используем букву «z». Стандартное нормальное распределение особенно полезно, потому что любая случайная величина с нормальным распределением (со средним значением мю и сигмой стандартного отклонения) может быть преобразована в стандартное нормальное распределение. Это преобразование достигается путем вычитания среднего значения и деления на стандартное отклонение: z = (x - мю) / сигма.
Теперь поговорим о z-показателях. Z-оценка представляет собой количество стандартных отклонений, на которое значение x выше или ниже среднего. Иногда z-показатели также называют стандартными показателями. В стандартном нормальном распределении мы не сосредотачиваемся на вероятностях отдельных значений, поскольку их бесконечно много. Вместо этого мы рассматриваем вероятности попадания z в определенные диапазоны.
При рассмотрении вероятностей в стандартном нормальном распределении мы исследуем области под графиком на наличие желаемого диапазона. Например, давайте посмотрим на вероятность того, что z находится в диапазоне от -1 до 0,5. Мы хотим найти заштрихованную область под графиком между этими двумя значениями. Помните, что общая площадь под графиком всегда равна единице, поскольку она представляет собой общую вероятность.
Чтобы описать вероятности для непрерывных случайных величин, таких как стандартная норма, мы обычно используем кумулятивные функции распределения (CDF). CDF обеспечивает вероятность того, что случайная величина меньше или равна определенному значению. В стандартном нормальном распределении мы используем обозначение Phi(z) для CDF.
Для расчета вероятностей рекомендуется использовать такие технологии, как калькуляторы или программное обеспечение. Например, калькулятор TI имеет функцию «normalcdf», Excel может выполнять вычисления, а в R команда «pnorm» используется для вычисления CDF для стандартного нормального распределения.
Рассмотрим пример. Если мы хотим найти вероятность z-показателя меньше или равного 0,5, мы можем использовать CDF и вычислить Phi(0,5), что дает приблизительно 0,691. Следовательно, вероятность получения z-показателя меньше или равного 0,5 составляет около 69,1%.
В общем, если мы хотим вычислить вероятность того, что z-показатель попадет в определенный диапазон (от a до b), мы вычитаем вероятность того, что z меньше или равно a, из вероятности того, что z меньше или равно б. Символически это можно записать как Фи(б) - Фи(а).
Наконец, важно помнить, что вероятность любого отдельного z-показателя бесконечно мала. Вероятность того, что z меньше или равно определенному значению (с), равна вероятности того, что z меньше этого значения (с). При этом вероятность того, что z больше с, равна единице минус вероятность того, что z меньше или равно с, поскольку эти события дополняют друг друга.
Для иллюстрации давайте определим вероятность получения z-показателя выше -1,5. Используя факт два выше, мы можем вычислить 1 минус вероятность того, что z меньше или равно -1,5, что составляет примерно 93,3%. Как и ожидалось, эта вероятность значительно превышает 50%, учитывая, что отрицательный z-показатель помещает нас в крайнее левое положение на кривой нормального распределения, указывая на то, что значительная часть области находится справа от этого z-показателя.
Таким образом, стандартное нормальное распределение, характеризуемое нулевым средним значением и стандартным отклонением, равным единице, является фундаментальным понятием в статистике. Используя z-показатели, которые измеряют количество стандартных отклонений значения от среднего, мы можем определить вероятности, связанные с конкретными диапазонами в распределении. Кумулятивная функция распределения (CDF), часто обозначаемая как Phi(z), используется для расчета этих вероятностей. Такие технологии, как калькуляторы или статистическое программное обеспечение, обычно используются для вычисления значений CDF. Помните, что стандартное нормальное распределение позволяет нам стандартизировать и сравнивать значения любого нормального распределения, преобразовывая их в z-показатели.
Вычисление нормальных вероятностей с использованием R
Вычисление нормальных вероятностей с использованием R
Всем привет! Сегодня мы погружаемся в мир вычисления вероятностей в нормальных распределениях с помощью RStudio. При работе с нормально распределенными случайными величинами, которые являются непрерывными, нет смысла обсуждать вероятность получения конкретного отдельного значения. Вместо этого мы полагаемся на кумулятивную функцию распределения (CDF). Эта функция принимает значение x и возвращает вероятность получения числа, меньшего или равного этому значению x, случайным образом в нормальном распределении.
Чтобы лучше понять эту концепцию, давайте взглянем на визуальное представление. На графике я отметил значение x, а заштрихованная область представляет кумулятивную вероятность до этого значения x с использованием обычного CDF. Когда мы ссылаемся на стандартное нормальное распределение со средним значением 0 и стандартным отклонением 1, мы часто обозначаем случайную величину как Z и используем заглавную букву Phi (Φ) для представления CDF.
Теперь есть случаи, когда мы хотим вычислить вероятность того, что переменная в пределах нормального распределения попадает в определенный диапазон, а не просто меньше одного числа. Мы можем добиться этого, вычислив вероятность того, что оно меньше или равно верхнему числу, и вычтя вероятность того, что оно меньше или равно нижнему числу. Это можно визуализировать, вычитая заштрихованную область в правом нижнем углу из затененной области в левом нижнем углу.
Давайте проверим наши знания, выполнив некоторые вычисления с использованием различных нормальных распределений и вероятностей. Для этого мы переключимся на RStudio. В R мы можем использовать функцию «Pnorm», которая является кумулятивной функцией распределения для нормального распределения.
Во-первых, давайте рассмотрим распределение N (5, 9). Мы хотим найти вероятность того, что X меньше или равно 10. Используя «Pnorm» со значением x 10, средним значением 5 и стандартным отклонением 3, мы получаем результат приблизительно 0,9522.
Далее, давайте определим вероятность получения значения x больше 10. Поскольку получение значения x больше 10 является дополнением получения значения x меньше или равного 10, мы можем вычислить его, вычитая вероятность последнее из 1. Вычитая «Pnorm (10, 5, 3)» из 1, мы находим вероятность примерно равной 0,048.
Теперь давайте переключим наше внимание на нормальное распределение со средним значением 100 и дисперсией 20. Нас интересует вероятность того, что X находится между 92 и 95. Мы начинаем с вычисления вероятности того, что X меньше или равно 95. используя «Pnorm (95, 100, sqrt (20))». Затем мы вычитаем вероятность того, что X меньше или равно 92, используя «Pnorm (92, 100, sqrt (20))». Результат приблизительно равен 0,095.
Наконец, давайте поработаем со стандартным нормальным распределением и найдем вероятность того, что Z находится в диапазоне от -1,2 до 0,1. Мы можем напрямую вычесть «Pnorm (-1,2)» из «Pnorm (0,1)», чтобы получить результат приблизительно 0,428.
В заключение, используя силу нормального распределения и кумулятивной функции распределения, мы можем вычислить вероятности, связанные с различными диапазонами значений. RStudio предоставляет нам необходимые инструменты, такие как функция «Pnorm», для эффективного выполнения этих вычислений.
Обратные нормальные вычисления
Обратные нормальные вычисления
Всем привет! Сегодня мы погрузимся в увлекательный мир обратных нормальных вычислений. Давайте начнем с обновления нашего понимания того, как мы вычисляем вероятности в стандартном нормальном распределении, используя кумулятивную функцию распределения (CDF), обозначаемую как Φ(z). CDF принимает z-показатель в качестве входных данных и возвращает вероятность того, что случайно выбранный z-показатель будет меньше или равен этому значению.
Чтобы проиллюстрировать эту концепцию, рассмотрим график, на котором изображена Φ(0,5). Чтобы вычислить Φ(0,5), мы рисуем стандартную нормальную колоколообразную кривую и располагаем z = 0,5 немного правее среднего значения. Затем мы заштриховываем всю область слева от этой z-оценки. Φ(0,5) представляет площадь заштрихованной области. Помните, что общая вероятность под кривой нормального распределения всегда равна 1, поэтому мы можем интерпретировать заштрихованную площадь как процент от общей площади.
Теперь давайте исследуем обратную нормальному CDF, обозначаемую как Φ^(-1) или «фи-обратная». Этот процесс отменяет предыдущее вычисление. Вместо подачи ему z-оценки и получения вероятности, мы вводим вероятность и возвращаем соответствующую z-оценку. Например, Φ^(-1)(0,5) равно 0, потому что Φ(0) равно 0,5. Половина вероятности лежит слева от z = 0 в стандартном нормальном распределении. Точно так же Φ^(-1)(0,6915) равно 0,5, потому что Φ(0,5) равно 0,6915, а Φ^(-1)(0,1587) равно -1, потому что Φ(-1) равно 0,1587. По сути, мы меняем местами входы и выходы этих двух функций.
Чтобы дополнительно проиллюстрировать эту концепцию, давайте рассмотрим пример. Предположим, мы хотим найти z-показатель, который охватывает 90-й процентиль в стандартном нормальном распределении. Этот z-показатель представляет собой результат, превышающий 90% результатов, если мы неоднократно используем это распределение. Чтобы определить это, мы используем Φ^(-1) и вычисляем Φ^(-1)(0,90), что дает приблизительно 1,28. Таким образом, 1,28 — это z-показатель, соответствующий 90-му процентилю стандартного нормального распределения.
Теперь, вооружившись z-оценкой для заданной вероятности или процентиля, мы можем легко определить соответствующее значение в любом нормальном распределении. Рассмотрим пример, в котором баллы по стандартизированному тесту обычно распределяются со средним значением 1060 и стандартным отклонением 195. Чтобы определить балл, необходимый для превышения 95% баллов, мы сначала находим 95-й процентиль. Используя Φ^(-1)(0,95) или qnorm(0,95) в R, мы получаем приблизительно 1,64 в качестве z-показателя. Интерпретируя этот результат, учащийся должен набрать 1,64 стандартных отклонения выше среднего, чтобы иметь 95% шанс превзойти случайно выбранный результат.
Чтобы рассчитать фактическую оценку, мы используем формулу x = μ + zσ, где x представляет собой требуемую оценку, μ — среднее значение (1060), z — z-оценку (1,64) и σ — стандартное отклонение (195). . Подставив эти значения, мы находим, что учащийся должен набрать примерно 1379,8. Таким образом, набрав около 1380 баллов, учащийся окажется на 95-м процентиле и даст 95% шанс превзойти случайно выбранный результат теста.
Важно отметить, что значения, полученные из нормального и обратного нормального распределения, часто являются приблизительными, поскольку они могут быть иррациональными. Хотя и можно выполнять обратные нормальные вычисления с помощью таблиц, для этих вычислений более распространено и удобно использовать технологию. Например, в R команда для обратной нормали — qnorm. Чтобы найти обратную вероятность, мы вводим qnorm, за которым следует желаемая вероятность. Например, чтобы вычислить обратное значение 0,6915, мы используем qnorm(0,6915) и получаем примерно 0,5. Точно так же для обратного значения 0,1587 мы используем qnorm (0,1587) и получаем приблизительно -1.
Использование технологии для этих расчетов предпочтительнее в 21 веке, поскольку она дает точные результаты и экономит время по сравнению с использованием ручных таблиц. Используя такие инструменты, как R, мы можем легко выполнять обратные нормальные вычисления, предоставляя вероятность и получая соответствующий z-показатель.
Таким образом, обратные нормальные вычисления позволяют нам определить z-оценку, соответствующую заданной вероятности или процентилю в нормальном распределении. Мы можем использовать обратную нормальную функцию, такую как Φ^(-1) или qnorm в R, чтобы получить эти значения. Затем эта информация помогает нам принимать обоснованные решения и выполнять различные статистические анализы.
Обратные нормальные вычисления с использованием R
Обратные нормальные вычисления с использованием R
Сегодня мы будем использовать R для выполнения некоторых обратных нормальных вычислений. Нам нужно решить три задачи.
Задача 1: найти 98-й процентиль стандартного нормального распределения. Другими словами, мы хотим определить z-показатель, который находится выше 98% вероятности в стандартном нормальном распределении. В R мы можем использовать команду qnorm. Поскольку мы имеем дело со стандартным нормальным распределением (среднее значение = 0, стандартное отклонение = 1), мы можем напрямую ввести процентиль в качестве аргумента. Поэтому мы вычисляем qnorm(0,98) и получаем z-показатель примерно 2,05.
Задача 2: найти значение x, которое охватывает 40% площади при нормальном распределении со средним значением 12 и дисперсией 3. Мы можем начать с визуализации кривой нормального распределения с заданными параметрами. Мы хотим найти значение x, которое соответствует площади 40% слева от него. Используя qnorm, мы вводим желаемую площадь в виде десятичной дроби, что равно 0,40. Однако, поскольку это нестандартное нормальное распределение, нам также необходимо указать среднее значение и стандартное отклонение. Поэтому мы вычисляем qnorm(0,40, mean = 12, sd = sqrt(3)) и получаем значение x примерно равное 11,56.
Задача 3. Рассмотрим годовое потребление апельсинов на душу населения в Соединенных Штатах, которое примерно нормально распределено со средним значением 9,1 фунта и стандартным отклонением 2,7 фунта. Если американец ест меньше, чем 85% его сверстников, мы хотим определить, сколько он потребляет. Здесь нас интересует область справа от данного процентиля (85%). Поскольку qnorm предоставляет значения с площадями слева, нам нужно вычесть процентиль из 1, чтобы получить площадь справа, которая равна 0,15. Мы вычисляем qnorm(0,15, среднее значение = 9,1, sd = 2,7), чтобы найти соответствующее значение потребления. В результате получается около 6,30 фунтов апельсинов в год.
Используя функцию qnorm в R, мы можем эффективно выполнять эти обратные нормальные вычисления и получать желаемые результаты для различных статистических задач.
Использование функции qnorm в R позволяет нам эффективно выполнять обратные нормальные вычисления, предоставляя нам необходимые z-показатели или значения, которые соответствуют определенным процентилям или областям нормального распределения.
В задаче 1 мы хотели найти 98-й процентиль стандартного нормального распределения. Используя qnorm (0,98), мы получили z-показатель примерно 2,05. Это означает, что значение, соответствующее 98-му процентилю стандартного нормального распределения, на 2,05 стандартного отклонения выше среднего.
В задаче 2 мы стремились найти значение x, которое охватывает 40% площади при нормальном распределении со средним значением 12 и дисперсией 3. После определения среднего значения и стандартного отклонения в функции qnorm как qnorm (0,40, среднее = 12, sd = sqrt(3)), мы получили значение x примерно 11,56. Это указывает на то, что значение x, которое соответствует захвату 40% площади слева от него при заданном нормальном распределении, приблизительно равно 11,56.
В задаче 3 мы рассматривали годовое потребление апельсинов на душу населения в Соединенных Штатах, которое соответствует нормальному распределению со средним значением 9,1 фунта и стандартным отклонением 2,7 фунта. Мы хотели определить объем потребления для человека, который ест меньше, чем 85% его сверстников. Вычислив qnorm (0,15, среднее = 9,1, sd = 2,7), мы обнаружили, что уровень потребления должен составлять около 6,30 фунтов в год, чтобы человек потреблял менее 85% своих сверстников.
В целом, функция qnorm в R упрощает процесс выполнения обратных нормальных вычислений, предоставляя нам необходимые z-показатели или значения на основе определенных процентилей или областей. Это позволяет нам анализировать и принимать обоснованные решения на основе характеристик нормального распределения.
Распределения выборки
Распределения выборки
Всем привет, сегодня мы обсудим концепцию выборочного распределения статистики. В статистическом выводе наша цель состоит в том, чтобы использовать выборочную статистику для оценки параметров совокупности. Однако выборочная статистика имеет тенденцию варьироваться от одной выборки к другой, а это означает, что если мы будем многократно брать выборки, мы получим разные значения для одной и той же статистики.
Проиллюстрируем это примером. Представьте, что у нас есть мешок с пронумерованными фишками, и статистик станции случайным образом вытягивает 5 фишек, получая числа 24, 11, 10, 14 и 16. Среднее значение выборки, обозначенное как x-bar, равно 15. Теперь , если мы повторим этот процесс несколько раз, мы, вероятно, каждый раз будем получать разные значения для x-bar. Например, в последующих выборках мы можем получить 17,8, 18,8 или 21,6 в качестве выборочного среднего. Таким образом, столбец выборочной статистики является результатом случайного процесса и может рассматриваться как случайная величина. Он имеет собственное распределение вероятностей, которое мы называем выборочным распределением статистики.
Теперь давайте проработаем конкретный пример. Предположим, у нас есть сумка с тремя красными фишками и шестью синими фишками. Если мы вынимаем три фишки случайным образом с заменой, мы хотим найти выборочное распределение x, которое представляет количество вытянутых красных фишек. Существует четыре возможных значения для x: 0, 1, 2 или 3. Чтобы определить вероятности, связанные с каждым значением, мы рассматриваем каждую отдельную ничью как испытание Бернулли, где красный считается успехом, а синий — неудачей. Поскольку мы проводим три одинаковых розыгрыша, каждый с вероятностью в одну треть, мы имеем биномиальное распределение с n = 3 и p = 1/3. Рассчитав вероятности по формуле биномиального распределения, мы находим, что вероятности для x = 0, 1, 2 и 3 равны 0,296, 0,444, 0,296 и 0,064 соответственно. Эти вероятности определяют выборочное распределение x.
Среднее является наиболее часто используемой статистикой для статистического вывода, поэтому вы часто будете встречать фразу «выборочное распределение выборочного среднего». Он представляет собой распределение вероятностей всех возможных значений, которые может принимать среднее значение выборки при взятии выборок одинакового размера из одной и той же совокупности. Например, давайте снова рассмотрим пример с мешком, но на этот раз фишки пронумерованы от 1 до 35. Мы хотим описать выборочное распределение среднего значения выборки, обозначенного как x-bar, когда мы берем выборки размером n = 5. без замены. Повторяя процесс выборки тысячу раз и каждый раз вычисляя выборочное среднее, мы получаем список из тысячи чисел в диапазоне от 15 до 165. Большинство этих выборочных средних попадет в средний диапазон, и, построив гистограмму, мы наблюдаем что распределение выборки приблизительно соответствует форме колоколообразной кривой. Этот образец кривой колокола не является совпадением, как мы будем исследовать в будущем обсуждении.
Выборочное распределение выборочного среднего имеет предсказуемый центр и разброс, что позволяет делать различные статистические выводы. В частности, если мы возьмем выборки размера n из большой совокупности со средним значением мю и стандартным отклонением сигма, среднее значение выборки (x-столбец) будет равно среднему значению совокупности (мю). Кроме того, стандартное отклонение выборочных средних будет равно стандартному отклонению генеральной совокупности (сигма), деленному на квадратный корень из n. Эти отношения предполагают, что выборочное среднее дает оценку среднего значения генеральной совокупности и менее изменчиво, чем отдельные наблюдения в пределах генеральной совокупности.
Чтобы проиллюстрировать это, давайте рассмотрим пример, в котором средний балл по стандартизированному тесту равен 1060, а стандартное отклонение равно 195. Предположим, мы случайным образом выбираем 100 учащихся из совокупности. В этом случае мы предполагаем, что совокупность достаточно велика, чтобы приемлема выборка без замены. Выборочное распределение выборочного среднего, обозначенное как x-bar, будет иметь центр 1060 и стандартное отклонение 19,5.
Чтобы уточнить, если бы мы собрали выборку из 100 студентов и подсчитали их средние результаты тестов, повторив этот процесс несколько раз, мы бы обнаружили, что в среднем среднее значение выборки составило бы 1060. Разброс средних значений выборки, как показано, при стандартном отклонении 19,5 будет значительно меньше, чем стандартное отклонение индивидуальных баллов в популяции.
Понимание свойств выборочного распределения, таких как его центр и разброс, позволяет нам делать значимые статистические выводы. Используя выборочное распределение среднего значения выборки, мы можем оценить параметры совокупности и сделать выводы о совокупности на основе наблюдаемой выборочной статистики.
В целом выборочное распределение статистических данных играет решающую роль в статистическом выводе, обеспечивая понимание изменчивости выборочных статистических данных и их связи с параметрами совокупности.
Что такое центральная предельная теорема?
Что такое центральная предельная теорема?
Сегодня мы обсуждаем Центральную предельную теорему (ЦПТ), которая считается одной из самых важных теорем в статистике. CLT описывает форму выборочного распределения выборочного среднего (x-bar) и требует четкого понимания выборочного распределения.
Чтобы понять CLT, рекомендуется ознакомиться с выборочными распределениями. Вы можете посмотреть видео о примерах дистрибутивов, ссылку на которое я дал выше для вашего удобства.
Теперь давайте углубимся в CLT. Предположим, мы берем простые случайные выборки размера «n» из совокупности со средним значением (μ) и стандартным отклонением (σ). Мы можем мало что знать о форме совокупности, но если n достаточно велико (обычно около 30), выборочное распределение выборочного среднего будет приближаться к нормальному распределению. Если сама популяция распределена нормально, то выборочное распределение x-bar будет точно нормальным, независимо от 'n'. Кроме того, среднее значение столбца x всегда будет μ, а стандартное отклонение столбца x будет равно σ, деленному на квадратный корень из «n».
По сути, Центральная предельная теорема утверждает, что независимо от выборки населения, когда размер выборки достаточно велик, распределение столбцов x будет приблизительно нормальным со средним значением μ и стандартным отклонением σ, деленным на квадратный корень. из «н». Мысленно представьте, что из генеральной совокупности берутся многочисленные выборки одинакового размера, вычисляя среднее значение выборки для каждой выборки. Хотя средние значения отдельных выборок могут незначительно различаться, их среднее значение будет равно среднему значению генеральной совокупности, а разброс этих средних значений выборки вокруг среднего значения будет примерно колоколообразным со стандартным отклонением, связанным со стандартным отклонением генеральной совокупности, но меньшим.
Чтобы проиллюстрировать эту концепцию, давайте рассмотрим пример. У нас есть линия технической поддержки, где продолжительность звонков соответствует нормальному распределению со средним значением (μ) в 2 минуты и стандартным отклонением (σ) в 3 минуты. Предположим, мы хотим найти вероятность того, что случайно выбранная выборка из 40 звонков имеет среднюю продолжительность менее 2,5 минут. Хотя мы не знаем точного распределения длительности отдельных вызовов, мы можем использовать центральную предельную теорему, поскольку мы исследуем выборочное среднее из 40 вызовов. Среднее значение выборки (столбец x) будет приблизительно нормально распределено со средним значением 2 и стандартным отклонением 3, деленным на квадратный корень из 40 (σ/sqrt(n)).
Чтобы рассчитать вероятность, мы определяем z-показатель для столбца x = 2,5 в распределении со средним значением 2 и стандартным отклонением 3/sqrt(40). Вычисляя z-оценку как (2,5 - 2) / (3 / sqrt (40)), мы находим значение 1,05. Затем мы можем использовать нормальную кумулятивную функцию распределения (CDF), чтобы найти вероятность того, что z-показатель меньше 1,05, что дает приблизительно 85,3%. Это означает, что вероятность получения среднего значения выборки менее 2,5 минут при выборке 40 вызовов составляет 85,3%.
В другой демонстрации давайте представим генератор случайных чисел, который с равной вероятностью выдает случайные целые числа от 1 до 12. Этот сценарий аналогичен случайному выбору кого-либо и определению месяца его рождения. Если мы возьмем простые случайные выборки размера 2 из этого генератора, запустим его несколько раз и вычислим среднее значение выборки, мы увидим гистограмму примерно пирамидальной формы. Результаты, как правило, группируются около 6,5, что указывает на более высокую вероятность получения среднего значения выборки около 6,5 по сравнению со значениями, близкими к 1 или 12.
При увеличении объема выборки до 10 наблюдаем гистограмму, которая начинает напоминать колоколообразную форму распределения, а разброс выборочных средних уменьшается. Большинство средних значений выборки теперь находятся между 4 и 9.
Если мы еще больше увеличим размер выборки до 100 и повторим процесс, гистограмма станет еще более колоколообразной, причем большинство выборочных средних сконцентрировано между 6 и 7. Стандартное отклонение выборочных средних продолжает уменьшаться.
Наконец, когда мы берем выборки размером 1000, гистограмма следует почти идеальной кривой нормального распределения. Средние значения выборки плотно сгруппированы вокруг среднего значения генеральной совокупности, причем большинство из них находится в диапазоне от 6,25 до 6,75. Стандартное отклонение выборочных средних продолжает уменьшаться по мере увеличения размера выборки.
Подводя итог, можно сказать, что по мере увеличения размера выборки (n) среднее значение выборки (столбик x) становится более надежной оценкой среднего значения генеральной совокупности (μ). Изменчивость среднего значения выборки уменьшается, что приводит к более узкому и более колоколообразному распределению выборки.
Теперь давайте рассмотрим пример с диспенсером для дистиллированной воды. Диспенсер заполняет галлоны воды, и количество, которое он выдает, подчиняется нормальному распределению со средним значением 1,03 галлона и стандартным отклонением 0,02 галлона. Мы хотим определить вероятность того, что один выданный «галлон» на самом деле меньше 1 галлона.
Чтобы найти эту вероятность, мы вычисляем z-показатель для x = 1 в нормальном распределении со средним значением 1,03 и стандартным отклонением 0,02. Z-оценка рассчитывается как (1 - 1,03) / 0,02, в результате чего получается -1,5. Используя нормальную кумулятивную функцию распределения (CDF), мы находим, что вероятность получения значения менее 1 галлона составляет примерно 6,68%.
Теперь давайте рассмотрим вероятность того, что в среднем 10 галлонов меньше, чем 1 галлон на галлон. Согласно центральной предельной теореме, когда размер выборки (n) достаточно велик, выборочное распределение среднего значения выборки становится нормальным, независимо от распределения генеральной совокупности. В этом случае выборочное распределение x-bar имеет среднее значение 1,03 (такое же, как среднее значение генеральной совокупности) и стандартное отклонение 0,02/sqrt(10).
Чтобы найти вероятность получения среднего значения пробы менее 1 галлона, мы вычисляем z-показатель как (1 - 1,03) / (0,02/sqrt(10)), что равно -4,74. Используя нормальную кумулятивную функцию распределения (CDF), мы находим, что вероятность получения среднего значения образца менее 1 галлона составляет примерно 0,0001%.
В заключение, хотя маловероятно (около 7%) недолив одного галлона, было бы крайне необычно, чтобы среднее значение 10 галлонов составляло менее 1 галлона на галлон.
Наконец, что касается размера выборки, Центральная предельная теорема предполагает, что выборочное распределение x-bar приближается к нормальному распределению для больших размеров выборки. Однако то, что представляет собой «большой» размер выборки, является субъективным и зависит от асимметрии распределения населения и наличия выбросов. В общем, при выборке из довольно симметричного распределения без экстремальных выбросов, меньшего размера выборки может быть достаточно для применения центральной предельной теоремы.
Вычисление вероятностей с помощью центральной предельной теоремы: примеры
Вычисление вероятностей с помощью центральной предельной теоремы: примеры
Всем привет, на сегодняшнем занятии мы будем работать над некоторыми задачами, связанными с вычислением вероятностей с использованием центральной предельной теоремы. Нам нужно решить две проблемы. Давайте начнем!
Задача 1. Вес пакетов с конфетами определенной марки подчиняется нормальному распределению со средним значением 45 грамм и стандартным отклонением 1,5 грамма. Нам нужно найти вероятность того, что в случайно выбранном пакете окажется менее 44 граммов конфет.
Чтобы решить эту проблему, мы будем использовать нормальное распределение и рассчитаем z-оценку. Z-показатель получается путем вычитания среднего значения (45) из значения (44) и деления его на стандартное отклонение (1,5). Это дает нам z-показатель -0,67.
Затем мы используем нормальную кумулятивную функцию распределения (CDF), чтобы найти вероятность получения значения меньше -0,67 в стандартном нормальном распределении. Вероятность оказывается примерно равной 0,252, что означает вероятность 25,2% того, что случайно выбранный пакет содержит менее 44 граммов конфет.
Задача 2. Рассмотрим вероятность того, что пять случайно выбранных пакетов имеют средний вес менее 44 граммов конфет. Для этой задачи нам нужно применить центральную предельную теорему.
Согласно центральной предельной теореме, когда размер выборки достаточно велик (обычно 30 и более), выборочное распределение выборочного среднего становится приблизительно нормальным, независимо от распределения населения. В этом случае среднее значение выборочного распределения (x-столбик) будет таким же, как среднее значение генеральной совокупности (45), а стандартное отклонение будет равно стандартному отклонению генеральной совокупности (1,5), деленному на квадратный корень размера выборки ( √5).
Чтобы найти вероятность, мы вычисляем z-показатель, вычитая среднее значение (45) из желаемого значения (44) и разделив его на стандартное отклонение (√(1,5^2/5)). Это дает нам z-показатель -1,49.
Используя нормальный CDF, мы находим, что вероятность получения среднего значения образца менее 44 граммов составляет примерно 0,068, или 6,8%. Следовательно, вероятность того, что пять случайно выбранных пакетов будут иметь средний вес менее 44 граммов конфет, составляет около 6,8%.
Наконец, мы рассматриваем вероятность того, что 25 случайно выбранных пакетов имеют средний вес менее 44 граммов конфет. Поскольку размер выборки больше (25), мы все еще можем применить центральную предельную теорему.
Используя ту же процедуру, что и раньше, мы рассчитываем z-показатель для среднего значения выборки в 44 грамма со стандартным отклонением 1,5/√25. Это дает нам z-показатель -3,33.
Применяя нормальную CDF, мы находим, что вероятность получения выборки средней массой менее 44 граммов составляет примерно 0,004, или 0,4%. Следовательно, вероятность того, что 25 случайно выбранных пакетов будут иметь средний вес менее 44 граммов конфет, составляет всего 0,4%.
В заключение следует отметить, что Центральная предельная теорема обеспечивает надежную аппроксимацию этих вероятностей даже при относительно небольшом размере выборки, равном 7. Вычисленные вероятности удивительно близки к точным значениям, полученным из исходного распределения вероятностей.
Введение в доверительные интервалы
Введение в доверительные интервалы
Всем привет, сегодня мы углубимся в тему доверительных интервалов. Когда мы обсуждаем это, очень важно помнить о различиях между параметром и статистикой. Давайте быстро рассмотрим эту концепцию.
Параметр — это число, описывающее совокупность, например, средняя начальная зарплата всех специалистов по данным в США. С другой стороны, статистика — это число, описывающее выборку, например, среднюю начальную зарплату 10 случайно выбранных специалистов по данным в США.
Как правило, у нас нет прямого доступа для наблюдения за параметрами. Часто бывает непрактично собирать информацию от всего населения, поэтому мы полагаемся на выборочные данные, которые обеспечивают статистику. Статистический вывод — это процесс рассуждения от статистики к параметру.
Одной из наиболее фундаментальных и значимых форм статистического вывода является доверительный интервал. Чтобы сделать все это более конкретным, давайте рассмотрим пример. Предположим, мы случайным образом выбираем 10 специалистов по данным в Соединенных Штатах и обнаруживаем, что их средняя начальная зарплата составляет 97 000 долларов. Это значение представляет собой статистику, поскольку относится только к специалистам по данным в нашей выборке. Однако мы хотим сделать вывод о средней стартовой зарплате всех специалистов по данным в Соединенных Штатах, что является параметром, который мы хотим оценить.
Чтобы оценить параметр μ с помощью статистической x-полосы (среднее значение выборки), мы можем предположить, что средняя начальная зарплата всех специалистов по данным в Соединенных Штатах составляет 97 000 долларов. Однако важно признать, что эта оценка вряд ли будет точной. Параметр μ вряд ли будет точно равен 97 000 долларов; она может быть немного выше или ниже, или даже значительно выше.
Учитывая, что наша оценка не является точной, уместно предоставить интервальную оценку, как правило, в форме x-bar плюс или минус некоторая погрешность. Критический вопрос заключается в том, как мы определяем эту погрешность. Мы должны иметь в виду, что даже при большой погрешности всегда есть вероятность ошибиться.
Например, рассмотрим сценарий, в котором нам удалось выбрать выборку из 10 низкооплачиваемых специалистов по данным, в то время как фактический параметр (истинная начальная зарплата специалистов по данным в США) составляет 150 000 долларов. Среднее значение в нашей выборке остается $97 000. Таким образом, лучшее, на что мы можем надеяться, — это построить доверительный интервал, который с высокой вероятностью зафиксирует истинный параметр. Это означает, что интервал должен включать истинный параметр в значительном проценте случаев.
Обычно в качестве стандарта используется уровень достоверности 95 %, хотя в зависимости от приложения могут быть выбраны другие уровни, такие как 90 % или 99 %. В любом случае для обозначения уровня достоверности используется заглавная буква C. Чтобы выразить это формально как утверждение о вероятности, мы стремимся найти предел погрешности (e), такой, чтобы вероятность того, что столбец x и μ находятся в пределах e от друг друга С.
Давайте сделаем наш пример более конкретным. Предположим, что известно, что начальная зарплата специалистов по данным подчиняется нормальному распределению со стандартным отклонением населения в 8000 долларов. Мы хотим найти предел погрешности (е), который позволит нам оценить μ, среднюю начальную зарплату всех специалистов по данным в Соединенных Штатах, с достоверностью 95%.
Для этого воспользуемся свойствами стандартного нормального распределения. Если мы возьмем случайную переменную x, которая следует нормальному распределению, среднее значение выборки (x-столбец) также будет нормально распределено. Среднее значение выборочного среднего распределения совпадает со средним значением распределения совокупности (μ), но стандартное отклонение уменьшается. В нашем примере стандартное отклонение выборочного среднего равно σ/√n, где σ — стандартное отклонение генеральной совокупности, а n — размер выборки.
Имея эту информацию, мы можем переписать наше вероятностное утверждение следующим образом: вероятность того, что полоса x лежит между µ - e и µ + e, равна C. Теперь мы можем представить это в терминах z-показателей, которые измеряют число стандартных отклонений от среднего. Стандартизируя наш интервал, мы можем использовать стандартное нормальное распределение (Z-распределение) для определения соответствующих значений.
Для данного уровня достоверности C нам нужно найти z-показатель (z-звезду), чтобы площадь между -z-звездой и z-звездой под стандартной нормальной кривой была равна C. Общие значения для C включают 0,95, что соответствует z-звезде 1,960. Получив z-звезду, мы можем рассчитать погрешность, умножив ее на σ/√n.
Возвращаясь к нашему примеру, где у нас есть размер выборки n = 10, среднее значение выборки 97 000 долларов и стандартное отклонение генеральной совокупности 8 000 долларов, мы можем построить 95% доверительный интервал для μ. Подставляя эти значения в общую форму доверительного интервала, мы находим, что интервальная оценка для μ составляет 97 000 ± 1 958 долларов.
Таким образом, мы ожидаем, что средняя начальная зарплата всех специалистов по данным в Соединенных Штатах будет находиться в диапазоне от 92 042 до 101 958 долларов США с оценочной достоверностью 95%. Это означает, что если бы мы повторили этот процесс выборки и построили доверительные интервалы, используя данные выборки несколько раз, мы бы ожидали, что наши интервалы будут отражать истинный параметр (μ) примерно в 95% случаев.