プログラミングチュートリアル - ページ 14

 

正規分布


正規分布

今日は正規確率分布と経験則について説明します。連続確率変数を扱う場合、その密度曲線は釣鐘曲線の形状をとることがよくあります。この釣鐘型の曲線は、確率の大部分が分布の中心または平均付近に集中していることを示しています。ただし、理論的には、想像できるほど大きな結果も小さな結果も発生する可能性があります。

正規分布は、現実のシナリオでよく見られます。たとえば、ランダムに選ばれた新生児の身長を測定したり、一般の高速道路での車両の速度を観察したり、ランダムに選ばれた生徒の標準テストの得点を調べたりする場合、これらの確率変数はすべてほぼ正規分布に従う可能性があります。正規分布は平均を中心に対称性を示します。これは、平均よりも小さい結果が得られる確率は、平均よりも大きい結果が得られる確率と同じであることを意味します。したがって、新生児の身長を考慮すると、平均よりも高いか低い乳児に遭遇する可能性が等しくなります。

正規分布の特性は、その平均と分散 (または標準偏差) によって完全に説明されます。平均は分布の中心を表し、標準偏差は平均から曲線の変曲点までの距離を表します。これらの変曲点は、曲線の丘のような形状から谷のような形状への移行を示します。

2017 年の SAT スコアに関する例を見てみましょう。SAT のスコアは、平均 1060、標準偏差 195 でほぼ正規分布していました。この分布のグラフを描くと、平均が 1060 に位置し、変曲点に 1 のマークが付けられます。両方向の平均からの標準偏差。平均値の上下 1 標準偏差に対応する追加のポイントをマークすることもできます。

密度曲線を解釈する場合、密度曲線の下の領域は確率を表します。グラフから、865 ~ 1060 のスコアをランダムに選択する確率は、670 ~ 865 のスコアを選択するよりも大幅に高いことがわかります。これらの確率を定量化するには、正規分布を推定するための経験則として経験則を使用できます。確率。

経験則によれば、正規分布では、確率の約 68% が平均の 1 標準偏差以内にあり、95% が 2 標準偏差以内にあり、99.7% が 3 標準偏差以内にあります。これらの比率は、それぞれの領域内の曲線の下の面積に対応します。

経験則を平均 1060、標準偏差 195 の SAT スコア分布に適用すると、865 ~ 1255 の間のスコアがランダムに選択される確率は 68%、670 の間のスコアが選択される確率は 95% であることがわかります。および 1450、99.7% の確率で 475 ~ 1645 のスコアが選択されます。

幾何学と経験則を使用して、他のシナリオの確率を計算することもできます。たとえば、平均値から 1 標準偏差を超える結果が得られる確率は、1 から平均値の 1 標準偏差以内の結果が得られる確率を引いたものに等しくなります。同様に、平均の 2 標準偏差以内の領域の補数を見つけることによって、平均より 2 標準偏差を超えて低い値が得られる確率を計算できます。

要約すると、正規確率分布は釣鐘型の曲線に従い、経験則は正規分布の特定の領域内の確率を推定するための有用な近似値を提供します。

The Normal Distribution
The Normal Distribution
  • 2020.05.18
  • www.youtube.com
Introducing normally-distributed random variables! We learn what they look like and how they behave, then begin computing probabilities using the empirical r...
 

標準正規分布


標準正規分布

皆さん、今日は標準正規分布について説明します。これは本質的に、ここに示すように、平均が 0、標準偏差が 1 の正規分布または釣鐘曲線です。

ここでは、負の無限大と正の無限大の間の任意の値を取ることができる連続確率変数を扱っています。ただし、確率の大部分はゼロ付近に集中します。曲線のピークは平均 (ゼロ) を中心とし、変曲点はプラスとマイナス 1 の位置に発生し、グラフは丘の形から谷の形に変わります。

標準正規分布に従う確率変数を指す場合、文字「z」をよく使用します。標準正規分布は、正規分布 (平均μと標準偏差シグマを持つ) を持つ任意の確率変数を標準正規分布に変換できるため、特に便利です。この変換は、平均を減算し、標準偏差で割ることによって実現されます: z = (x - mu) / sigma。

さて、Z スコアについて話しましょう。 Z スコアは、値 x が平均を上回るか下回るかの標準偏差の数を表します。 Z スコアは標準スコアと呼ばれることもあります。標準正規分布では、個々の値が無限に存在するため、個々の値の確率には焦点を当てません。代わりに、z が特定の範囲内に収まる確率を考慮します。

標準正規分布の確率を考慮する場合、必要な範囲のグラフの下の領域を調べます。たとえば、z が -1 から 0.5 の間にある確率を見てみましょう。これら 2 つの値の間のグラフの下の影付きの領域を見つけたいと考えています。グラフの下の合計面積は確率の合計を表すため、常に 1 であることに注意してください。

標準正規のような連続確率変数の確率を記述するには、一般的に累積分布関数 (CDF) を使用します。 CDF は、確率変数が特定の値以下である確率を提供します。標準正規分布では、CDF に Phi(z) という表記を使用します。

確率を計算するには、電卓やソフトウェアなどのテクノロジーを使用することをお勧めします。たとえば、TI の計算機には「normalcdf」関数があり、Excel で計算を実行できます。R では、コマンド「pnorm」を使用して標準正規分布の CDF を計算します。

例を考えてみましょう。 Z スコアが 0.5 以下の確率を見つけたい場合は、CDF を使用して Phi(0.5) を計算すると、約 0.691 が得られます。したがって、0.5 以下の Z スコアを取得する確率は約 69.1% です。

一般に、z スコアが特定の範囲 (a ~ b) 内に収まる確率を計算したい場合は、z が a 以下である確率から z が a 以下である確率を引きます。 b.象徴的に、これは Phi(b) - Phi(a) と書くことができます。

最後に、個々の Z スコアの確率は無限小であることを覚えておくことが重要です。 z が特定の値 (c) 以下である確率は、z がその値 (c) 未満である確率と同じです。さらに、これらのイベントは相補的であるため、z が c より大きい確率は、1 から z が c 以下である確率を引いたものに等しくなります。

説明のために、-1.5 を超える Z スコアが得られる確率を決定してみましょう。上記の事実 2 を使用すると、1 から z が -1.5 以下である確率 (約 93.3%) を引いた値を計算できます。予想どおり、負の Z スコアが釣り鐘曲線の左端に位置し、エリアの大部分がその Z スコアの右側にあることを示すことを考慮すると、この確率は 50% よりかなり大きくなります。

要約すると、平均が 0、標準偏差が 1 であることを特徴とする標準正規分布は、統計学の基本概念です。平均からの値の標準偏差の数を測定する Z スコアを利用することで、分布内の特定の範囲に関連する確率を決定できます。累積分布関数 (CDF) は、Phi(z) と呼ばれることが多く、これらの確率を計算するために使用されます。 CDF 値の計算には、計算機や統計ソフトウェアなどのテクノロジーが一般的に使用されます。標準正規分布を使用すると、任意の正規分布の値を Z スコアに変換することで標準化して比較できることに注意してください。

The Standard Normal Distribution
The Standard Normal Distribution
  • 2020.07.27
  • www.youtube.com
The standard normal distribution: what it is, why it matters, and how to use it. Your life is about to get better! If this vid helps you, please help me a ti...
 

R を使用した正規確率の計算


R を使用した正規確率の計算

こんにちは、みんな!今日は、RStudio を使用して正規分布における確率を計算する世界に飛び込みます。連続である正規分布確率変数を扱う場合、特定の個別値が得られる確率について議論することは意味がありません。代わりに、累積分布関数 (CDF) に依存します。この関数は x 値を受け取り、正規分布においてランダムな確率でその x 値以下の数値を取得する確率を返します。

この概念をよりよく理解するために、視覚的な表現を見てみましょう。グラフでは、x 値をマークしました。影付きの領域は、通常の CDF を使用したその x 値までの累積確率を表します。平均が 0、標準偏差が 1 の標準正規分布を参照する場合、多くの場合、確率変数を Z として表し、CDF を表すために大文字のファイ (Φ) を使用します。

さて、正規分布内の変数が、単一の数値未満ではなく、特定の範囲内に収まる確率を計算したい場合があります。これは、上の数値以下である確率を計算し、下の数値以下である確率を減算することで実現できます。これは、左下の影付き領域から右下の影付き領域を減算することで視覚化できます。

さまざまな正規分布と確率を使用していくつかの計算を実行して、知識をテストしてみましょう。このために、RStudio に切り替えます。 Rでは、正規分布の累積分布関数である「Pnorm」関数を利用できます。

まず、N(5, 9) 分布を考えてみましょう。 X が 10 以下である確率を求めます。X 値 10、平均 5、標準偏差 3 の「Pnorm」を使用すると、約 0.9522 の結果が得られます。

次に、10 より大きい x 値を取得する確率を決定しましょう。10 より大きい x 値を取得することは、10 以下の x 値を取得することの補数であるため、次の確率を減算することで計算できます。 1 から「Pnorm(10, 5, 3)」を引くと、確率は約 0.048 であることがわかります。

ここで、平均 100、分散 20 の正規分布に焦点を移しましょう。X が 92 ~ 95 の間にある確率に興味があります。X が 95 以下である確率を計算することから始めます。 「Pnorm(95, 100, sqrt(20))」を使用します。次に、「Pnorm(92, 100, sqrt(20))」を使用して、X が 92 以下である確率を減算します。結果は約 0.095 です。

最後に、標準正規分布を使用して、Z が -1.2 ~ 0.1 の間にある確率を求めてみましょう。 「Pnorm(0.1)」から「Pnorm(-1.2)」を直接減算すると、約 0.428 の結果が得られます。

結論として、正規分布と累積分布関数のパワーを活用することで、さまざまな値の範囲に関連付けられた確率を計算できます。 RStudio は、これらの計算を効率的に実行するために「Pnorm」関数などの必要なツールを提供します。

Computing Normal Probabilities Using R
Computing Normal Probabilities Using R
  • 2020.05.28
  • www.youtube.com
A quick introduction to the normal cdf function and its implementation in R, complete with several complete examples. Easy! If this vid helps you, please hel...
 

逆正規計算


逆正規計算

こんにちは、みんな!今日は、逆正規計算の魅力的な世界を詳しく掘り下げていきます。まずは、Φ(z) で表される累積分布関数 (CDF) を使用して標準正規分布の確率を計算する方法について理解を深めましょう。 CDF は、Z スコアを入力として受け取り、ランダムに選択された Z スコアがその値以下になる確率を返します。

この概念を説明するために、Φ(0.5) が描かれたグラフを考えてみましょう。 Φ(0.5) を計算するには、標準の正規釣鐘曲線を描き、平均値のわずかに右側に z = 0.5 を配置します。次に、その Z スコアの左側の領域全体をシェーディングします。 Φ(0.5)は斜線領域の面積を表します。釣鐘曲線の下の合計確率は常に 1 であることに注意してください。そのため、影付きの領域を合計領域のパーセンテージとして解釈できます。

ここで、Φ^(-1) または「ファイ逆数」として示される、通常の CDF の逆数を調べてみましょう。このプロセスでは、前の計算を逆に実行します。 Z スコアを入力して確率を取得する代わりに、確率を入力して対応する Z スコアを返します。たとえば、Φ(0) が 0.5 であるため、Φ^(-1)(0.5) は 0 になります。確率の半分は、標準正規分布の z = 0 の左側にあります。同様に、Φ(0.5) は 0.6915 であるため、Φ^(-1)(0.6915) は 0.5 であり、Φ(-1) は 0.1587 であるため、Φ^(-1)(0.1587) は -1 です。基本的に、これら 2 つの関数の入力と出力を逆にします。

この概念をさらに詳しく説明するために、例を考えてみましょう。標準正規分布の 90 パーセンタイルを捕捉する Z スコアを見つけたいとします。この Z スコアは、この分布から繰り返し抽出した場合の結果の 90% を超える結果を表します。これを決定するには、Φ^(-1) を使用して Φ^(-1)(0.90) を計算します。これにより、約 1.28 が得られます。したがって、1.28 は、標準正規分布の 90 パーセンタイルに対応する Z スコアです。

これで、特定の確率またはパーセンタイルの Z スコアが得られるので、正規分布内の対応する値を簡単に決定できます。標準化テストのスコアが平均 1060、標準偏差 195 で正規分布している例を考えてみましょう。スコアの 95% を超えるために必要なスコアを決定するには、まず 95 パーセンタイルを見つけます。 R で Φ^(-1)(0.95) または qnorm(0.95) を使用すると、z スコアとして約 1.64 が得られます。この結果を解釈すると、95% の確率でランダムに選択されたスコアを上回る成績を収めるためには、学生は平均より 1.64 標準偏差高いスコアを獲得する必要があります。

実際のスコアを計算するには、式 x = μ + zσ を使用します。ここで、x は必要なスコアを表し、μ は平均 (1060)、z は z スコア (1.64)、σ は標準偏差 (195) を表します。 。これらの値を代入すると、生徒には約 1379.8 点のスコアが必要であることがわかります。したがって、約 1380 点を獲得すると、その生徒は 95 パーセンタイルに位置し、テストでランダムに選択されたスコアを超える可能性が 95% になります。

正規分布および逆正規分布から得られる値は非合理的な場合があるため、多くの場合近似値であることに注意することが重要です。テーブルを使用して逆正規計算を実行することもできますが、これらの計算にはテクノロジを使用する方が一般的で便利です。たとえば、R では、逆法線のコマンドは qnorm です。確率の逆数を求めるには、qnorm に続いて目的の確率を入力します。たとえば、0.6915 の逆数を計算するには、qnorm(0.6915) を使用し、約 0.5 を取得します。同様に、0.1587 の逆数については、qnorm(0.1587) を使用すると、約 -1 が得られます。

これらの計算にテクノロジーを使用することは、手動の表を使用する場合と比較して正確な結果が得られ、時間を節約できるため、21 世紀では望ましい方法となります。 R のようなツールを活用すると、確率を提供し、対応する Z スコアを受け取ることで、逆正規計算を簡単に実行できます。

要約すると、逆正規計算を使用すると、正規分布内の特定の確率またはパーセンタイルに対応する Z スコアを決定できます。これらの値を取得するには、Φ^(-1) や R の qnorm などの逆正規関数を使用できます。この情報は、情報に基づいた意思決定を行い、さまざまな統計分析を実行するのに役立ちます。

Inverse Normal Calculations
Inverse Normal Calculations
  • 2020.07.30
  • www.youtube.com
Let's learn about the inverse normal cdf! Lots of examples and pictures, as usual.
 

R を使用した逆正規計算


R を使用した逆正規計算

今日は、R を使用して正規逆計算を実行します。解決すべき問題が 3 つあります。

問題 1: 標準正規分布の 98 パーセンタイルを求めます。言い換えれば、標準正規分布の確率の 98% を超える Z スコアを決定したいと考えます。 R では、qnorm コマンドを使用できます。標準正規分布 (平均 = 0、標準偏差 = 1) を扱っているため、引数としてパーセンタイルを直接入力できます。したがって、qnorm(0.98) を計算し、約 2.05 の Z スコアを取得します。

問題 2: 平均 12、分散 3 の正規分布の下で面積の 40% を占める x の値を見つけます。与えられたパラメーターを使用して釣鐘曲線を視覚化することから始めることができます。その左側の 40% の領域に対応する x 値を見つけたいと考えています。 qnorm を使用して、目的の面積を 0.40 という小数として入力します。ただし、これは非標準正規分布であるため、平均と標準偏差も指定する必要があります。したがって、qnorm(0.40, means = 12, sd = sqrt(3)) を計算し、11.56 にほぼ等しい x の値を取得します。

問題 3: 米国の 1 人当たりのオレンジの年間消費量を考えてみましょう。これは、平均 9.1 ポンド、標準偏差 2.7 ポンドでほぼ正規分布しています。アメリカ人が同世代の人々の 85% 未満しか食べていない場合、私たちは彼らがどのくらいの量を摂取しているかを判断したいと考えています。ここでは、指定されたパーセンタイル (85%) の右側の領域に注目します。 qnorm は左側の面積を持つ値を提供するため、右側の面積 (0.15) を取得するには 1 からパーセンタイルを減算する必要があります。 qnorm(0.15、平均 = 9.1、sd = 2.7) を計算して、対応する消費値を見つけます。その結果、年間約 6.30 ポンドのオレンジが得られます。

R で qnorm 関数を使用すると、これらの逆正規計算を効率的に実行し、さまざまな統計問題に対して望ましい結果を得ることができます。

R で qnorm 関数を使用すると、逆正規計算を効率的に実行でき、正規分布下の特定のパーセンタイルまたは領域に対応する必要な Z スコアまたは値が得られます。

問題 1 では、標準正規分布の 98 パーセンタイルを見つけようとしました。 qnorm(0.98) を使用すると、約 2.05 の Z スコアが得られました。これは、標準正規分布の 98 パーセンタイルに対応する値が平均より標準偏差 2.05 大きいことを意味します。

問題 2 では、平均 12、分散 3 の正規分布の下で面積の 40% を占める x の値を見つけることを目的としました。qnorm 関数で平均と標準偏差を qnorm(0.40, means = 12, sd = sqrt(3))、約 11.56 の x 値が得られました。これは、指定された正規分布の左側の領域の 40% をキャプチャすることに対応する x の値が約 11.56 であることを示しています。

問題 3 では、米国の 1 人当たりのオレンジの年間消費量を考慮しました。これは、平均 9.1 ポンド、標準偏差 2.7 ポンドの正規分布に従います。私たちは、同世代の食事量の 85% 未満の個人の摂取量を決定したいと考えました。 qnorm(0.15、平均 = 9.1、sd = 2.7) を計算することにより、個人が同世代の 85% 未満を消費するには、消費レベルは年間約 6.30 ポンドである必要があることがわかりました。

全体として、R の qnorm 関数は、特定のパーセンタイルまたは領域に基づいて必要な Z スコアまたは値を提供することにより、逆正規計算を実行するプロセスを簡素化します。これにより、正規分布の特性に基づいて分析し、情報に基づいた意思決定を行うことができます。

Inverse Normal Calculations Using R
Inverse Normal Calculations Using R
  • 2020.08.02
  • www.youtube.com
It's easy to compute inverse normal values using R. Let's learn the qnorm() command! If this vid helps you, please help me a tiny bit by mashing that 'like' ...
 

標本分布


標本分布

皆さんこんにちは。今日は統計の標本分布の概念について説明します。統計的推論における私たちの目標は、標本統計量を使用して母集団パラメータを推定することです。ただし、サンプル統計量はサンプルごとに異なる傾向があるため、サンプルを繰り返し採取すると、同じ統計量に対して異なる値が得られることになります。

これを例で説明してみましょう。番号の付いたチップが入った袋があり、駅の統計担当者がランダムに 5 枚のチップを取り出し、24、11、10、14、16 という数字が得られたとします。x バーで示される標本平均は 15 と計算されます。 , このプロセスを複数回繰り返すと、毎回異なる x バーの値が得られる可能性があります。たとえば、後続のサンプルでは、サンプル平均として 17.8、18.8、または 21.6 が得られる可能性があります。したがって、標本統計量の x バーはランダム プロセスの結果であり、確率変数と考えることができます。これには独自の確率分布があり、これを統計の標本分布と呼びます。

それでは、具体的な例を見てみましょう。ここに赤のチップが 3 枚と青のチップが 6 枚入った袋があるとします。置き換えを行ってランダムに 3 枚のチップを引く場合、描かれた赤いチップの数を表す x の標本分布を求めたいと思います。 x には 0、1、2、または 3 の 4 つの値が考えられます。各値に関連付けられた確率を決定するために、個々の描画をベルヌーイ試行として扱います。赤は成功、青は失敗とみなされます。それぞれ 3 分の 1 の確率で 3 つの同一の抽選を行っているため、n = 3 および p = 1/3 の二項分布が得られます。二項分布式を使用して確率を計算すると、x = 0、1、2、および 3 の確率がそれぞれ 0.296、0.444、0.296、および 0.064 であることがわかります。これらの確率は、x の標本分布を定義します。

平均値は統計的推論に最もよく使用される統計量であるため、「標本平均の標本分布」というフレーズによく遭遇します。これは、同じ母集団から同じサイズのサンプルを抽出したときにサンプル平均が取り得るすべての値の確率分布を表します。たとえば、袋の例をもう一度考えてみましょう。今回はチップに 1 から 35 までの番号が付けられています。サイズ n = 5 のサンプルを取得したときの、x バーで示されるサンプル平均の標本分布を記述したいと考えています。交換なしで。サンプリング プロセスを 1,000 回繰り返し、そのたびにサンプル平均を計算することで、15 から 165 までの範囲の 1,000 個の数値のリストが得られます。これらのサンプル平均のほとんどは中間の範囲内に収まり、ヒストグラムを作成すると、次のことがわかります。標本分布はほぼ釣り鐘曲線に従っていることがわかります。今後の説明で詳しく説明するように、この釣鐘曲線パターンは偶然ではありません。

標本平均の標本分布には予測可能な中心と広がりがあり、これによりさまざまな統計的推論が可能になります。特に、平均がμ、標準偏差がシグマである大規模な母集団からサイズ n のサンプルを抽出した場合、サンプル平均の平均 (x バー) は母集団平均 (μ) と等しくなります。さらに、標本平均の標準偏差は、母集団の標準偏差 (シグマ) を n の平方根で割ったものに等しくなります。これらの関係は、標本平均が母集団平均の推定値を提供し、母集団内の個々の観測値よりも変動が少ないことを示唆しています。

これを説明するために、標準化テストの平均点が 1060 で標準偏差が 195 である例を考えてみましょう。母集団から 100 人の学生をランダムに選択するとします。この場合、母集団が十分大きいため、非復元抽出が許容されると仮定します。 x バーで示される標本平均の標本分布は、中心が 1060、標準偏差が 19.5 になります。

明確にするために、100 人の学生のサンプルを収集し、このプロセスを複数回繰り返してテストの平均点を計算すると、サンプルの平均値は平均して 1060 になることがわかります。標準偏差 19.5 によると、母集団内の個々のスコアの標準偏差よりもかなり小さくなります。

中心や広がりなど、サンプリング分布の特性を理解することで、有意義な統計的推論が可能になります。標本平均の標本分布を利用することで、母集団パラメータを推定し、観察された標本統計に基づいて母集団に関する結論を導き出すことができます。

全体として、統計の標本分布は、標本統計の変動性と母集団パラメータとの関係についての洞察を提供することにより、統計的推論において重要な役割を果たします。

Sampling Distributions
Sampling Distributions
  • 2020.08.01
  • www.youtube.com
All statistical inference is based on the idea of the sampling distribution of a statistic, the distribution of all possible values of that statistic in all ...
 

中心極限定理とは何ですか?


中心極限定理とは何ですか?

今日は、統計学で最も重要な定理の 1 つとして広く考えられている中心極限定理 (CLT) について説明します。 CLT は、標本平均の標本分布 (X バー) の形状を記述するものであり、標本分布をしっかりと理解する必要があります。

CLT を把握するには、標本分布についてよく理解しておくことをお勧めします。便宜上、上にリンクしたサンプリング分布に関するビデオをご覧ください。

では、CLTについて詳しく見ていきましょう。平均 (μ) と標準偏差 (σ) を持つ母集団からサイズ「n」の単純な無作為サンプルを抽出するとします。母集団の形状についてはあまりわかっていないかもしれませんが、「n」が十分に大きい場合(通常は約 30)、標本平均値の標本分布は正規分布に近似することになります。母集団自体が正規分布する場合、「n」に関係なく、x バーの標本分布は正確に正規分布になります。さらに、x バーの平均は常に μ であり、x バーの標準偏差は σ を「n」の平方根で割ったものになります。

本質的に、中心極限定理は、サンプリングされる母集団に関係なく、サンプル サイズが十分に大きい場合、x バーの分布は平均 μ と標準偏差 σ を平方根で割った正規分布になると述べています。 「ん」の。頭の中で、母集団から同じサイズのサンプルを多数抽出し、各サンプルのサンプル平均を計算することを想像してください。個々のサンプル平均はわずかに異なる場合がありますが、その平均は母集団の平均と等しく、平均を中心としたこれらのサンプル平均の広がりはほぼ釣鐘型になり、標準偏差は母集団の標準偏差に関連しますが、母集団の標準偏差よりも小さくなります。

この概念を説明するために、例を考えてみましょう。弊社の技術ヘルプラインでは、通話の長さが平均 (μ) 2 分、標準偏差 (σ) 3 分の正規分布に従っています。無作為に選択した 40 件の通話サンプルの平均時間が 2.5 分未満である確率を求めたいとします。個々の呼び出しの長さの正確な分布はわかりませんが、40 回の呼び出しのサンプル平均を調べているため、中心極限定理を利用できます。サンプル平均 (x バー) は、平均 2、標準偏差 3 を 40 の平方根で割った値 (σ/sqrt(n)) でほぼ正規分布します。

確率を計算するには、平均 2、標準偏差 3/sqrt(40) の分布における x-bar = 2.5 の Z スコアを決定します。 Z スコアを (2.5 - 2) / (3 / sqrt(40)) として計算すると、値 1.05 が得られます。次に、正規累積分布関数 (CDF) を使用して、Z スコアが 1.05 未満である確率を求めることができ、その確率は約 85.3% になります。これは、40 件のコールをサンプリングした場合、85.3% の確率で 2.5 分未満でサンプル平均が得られることを意味します。

別のデモンストレーションでは、1 から 12 までのランダムな整数を等しい確率で生成する乱数ジェネレーターを想像してみましょう。このシナリオは、誰かをランダムに選択して誕生月を決定することに似ています。このジェネレータからサイズ 2 の単純なランダム サンプルを取得し、それを複数回実行してサンプル平均を計算すると、ほぼピラミッド状の形状のヒストグラムが観察されます。結果は 6.5 付近に集中する傾向があり、1 または 12 に近い値と比較して、6.5 付近のサンプル平均を取得する確率が高いことを示しています。

サンプル サイズを 10 に増やすと、ヒストグラムが釣鐘型の分布に似始め、サンプル平均の広がりが減少することが観察されます。サンプル平均の大部分は 4 ~ 9 の間に収まるようになりました。

さらにサンプル サイズを 100 に増やしてこのプロセスを繰り返すと、ヒストグラムはさらに釣鐘型になり、ほとんどのサンプル平均値が 6 ~ 7 の間に集中します。サンプル平均値の標準偏差は減少し続けます。

最後に、サイズ 1000 のサンプルを取得すると、ヒストグラムはほぼ完全な正規分布曲線に従います。標本の平均値は母集団の平均値の周囲に密集しており、大部分は 6.25 ~ 6.75 の間に収まります。サンプル平均の標準偏差は、サンプルサイズが増加するにつれて縮小し続けます。

要約すると、サンプル サイズ (n) が増加するにつれて、サンプル平均 (x バー) は母集団平均 (μ) のより信頼できる推定量になります。標本平均値のばらつきが減少し、標本分布がより狭くなり、より釣鐘型になります。

ここで、蒸留水ディスペンサーを含む例を考えてみましょう。ディスペンサーは水 1 ガロンを満たし、分配量は平均 1.03 ガロン、標準偏差 0.02 ガロンの正規分布に従います。分配される 1 ガロンが実際には 1 ガロン未満である確率を決定したいと考えています。

この確率を見つけるには、平均 1.03、標準偏差 0.02 の正規分布における x = 1 の Z スコアを計算します。 Z スコアは (1 - 1.03) / 0.02 として計算され、結果は -1.5 になります。正規累積分布関数 (CDF) を使用すると、1 ガロン未満の値が得られる確率は約 6.68% であることがわかります。

ここで、10 ガロンの平均が 1 ガロンあたり 1 ガロン未満になる確率を考えてみましょう。中心極限定理によれば、標本サイズ (n) が十分に大きい場合、母集団の分布に関係なく、標本平均の標本分布は正規分布になります。この場合、x バーの標本分布の平均は 1.03 (母集団の平均と同じ)、標準偏差は 0.02/sqrt(10) になります。

1 ガロン未満のサンプル平均を取得する確率を見つけるには、Z スコアを (1 - 1.03) / (0.02/sqrt(10)) として計算します。これは -4.74 に等しくなります。正規累積分布関数 (CDF) を使用すると、1 ガロン未満のサンプル平均が得られる確率は約 0.0001% であることがわかります。

結論として、1 ガロンが充填不足になる可能性はやや低い (約 7%) ものの、10 ガロンの平均が 1 ガロンあたり 1 ガロン未満になることは非常にまれです。

最後に、サンプル サイズに関して、中心極限定理は、サンプル サイズが大きい場合、x バーのサンプル分布が正規分布に近似することを示唆しています。ただし、何が「大きな」サンプル サイズを構成するかは主観的なものであり、母集団分布の歪みや外れ値の存在によって異なります。一般に、極端な外れ値のないかなり対称的な分布からサンプリングする場合、中心極限定理を適用するにはサンプル サイズが小さくても十分である可能性があります。

What is the central limit theorem?
What is the central limit theorem?
  • 2020.08.04
  • www.youtube.com
This is it! The most important theorem is the whole wide universe! A large proportion of statistical inference made possible by this one result. If this vid ...
 

中心極限定理を使用した確率の計算: 例


中心極限定理を使用した確率の計算: 例

皆さん、こんにちは。今日のセッションでは、中心極限定理を使用した確率の計算に関連するいくつかの問題に取り組みます。解決しなければならない問題が 2 つあります。始めましょう!

問題 1: あるブランドのキャンディーの袋の重量は、平均 45 グラム、標準偏差 1.5 グラムの正規分布に従います。ランダムに選択された袋に含まれるキャンディーの量が 44 グラム未満である確率を見つける必要があります。

これを解決するには、正規分布を使用して Z スコアを計算します。 Z スコアは、値 (44) から平均 (45) を引き、それを標準偏差 (1.5) で割ることによって取得されます。これにより、Z スコアは -0.67 になります。

次に、正規累積分布関数 (CDF) を使用して、標準正規分布で -0.67 未満の値が得られる確率を求めます。確率は約 0.252 であることがわかります。これは、ランダムに選択された袋に 44 グラム未満のキャンディーが入っている確率が 25.2% であることを意味します。

問題 2: ランダムに選択された 5 つの袋の平均重量が 44 グラム未満のキャンディーである確率を考えます。この問題には、中心極限定理を適用する必要があります。

中心極限定理によれば、標本サイズが十分に大きい場合 (通常は 30 以上)、母集団の分布に関係なく、標本平均の標本分布はほぼ正規になります。この場合、標本分布の平均 (x バー) は母集団の平均 (45) と同じになり、標準偏差は母集団の標準偏差 (1.5) を標本サイズの平方根で割ったものになります ( √5)。

確率を求めるには、目的の値 (44) から平均 (45) を引き、それを標準偏差 (√(1.5^2/5)) で割ることによって Z スコアを計算します。これにより、Z スコアは -1.49 になります。

通常の CDF を使用すると、44 グラム未満のサンプル平均を取得する確率は約 0.068、つまり 6.8% であることがわかります。したがって、ランダムに選択された 5 つの袋の平均重量が 44 グラム未満のキャンディーが含まれる可能性は約 6.8% です。

最後に、ランダムに選択された 25 個の袋の平均重量が 44 グラム未満のキャンディーである確率を考慮します。サンプル サイズが大きい (25) ため、中心極限定理を適用できます。

前と同じ手順を使用して、標準偏差 1.5/√25 でサンプル平均 44 グラムの Z スコアを計算します。これにより、Z スコアは -3.33 になります。

通常の CDF を適用すると、44 グラム未満のサンプル平均が得られる確率は約 0.004、つまり 0.4% であることがわかります。したがって、ランダムに選択された 25 個の袋の平均重量が 44 グラム未満のキャンディーになる可能性は 0.4% のみです。

結論として、中心極限定理は、サンプル サイズが 7 と比較的小さい場合でも、これらの確率の信頼できる近似を提供します。計算された確率は、元の確率分布から得られた正確な値に非常に近くなります。

Calculating Probabilities Using the Central Limit Theorem: Examples
Calculating Probabilities Using the Central Limit Theorem: Examples
  • 2020.10.02
  • www.youtube.com
Let's compute! The Central Limit Theorem is incredibly useful when computing probabilities for sample means and sums. We do an example of each. If this vid h...
 

信頼区間の導入


信頼区間の導入

みなさん、こんにちは。今日は信頼区間の話題について掘り下げていきます。これについて議論する際には、パラメーターと統計量の違いを念頭に置くことが重要です。この概念を簡単に確認してみましょう。

パラメータは、米国のすべてのデータ サイエンティストの平均初任給など、母集団を表す数値です。一方、統計とは、米国で無作為に選ばれた 10 人のデータ サイエンティストの平均初任給など、サンプルを説明する数値です。

通常、パラメータを観察するために直接アクセスすることはできません。母集団全体から情報を収集することは多くの場合非現実的であるため、統計を提供するサンプル データに依存します。統計的推論は、統計からパラメータを推論するプロセスです。

統計的推論の最も基本的かつ重要な形式の 1 つは信頼区間です。これらすべてをより具体的にするために、例を考えてみましょう。米国の 10 人のデータ サイエンティストを無作為に抽出し、彼らの平均初任給が 97,000 ドルであることが判明したとします。この値は、サンプル内のデータ サイエンティストのみを参照しているため、統計を表します。ただし、米国のすべてのデータ サイエンティストの平均初任給について推論したいと考えています。これは、推定に関心のあるパラメータです。

統計の X バー (標本平均) を使用してパラメーター μ を推定する場合、米国のすべてのデータ サイエンティストの初任給の平均は 97,000 ドルであると最も推測されます。ただし、この推定が正確である可能性は非常に低いことを認識することが重要です。パラメータ μ が正確に 97,000 ドルになる可能性は低いです。わずかに高かったり低かったり、あるいは大幅に高かったりする可能性もあります。

私たちの推定値が正確ではないことを考慮すると、通常は x バーに誤差をプラスまたはマイナスした形式の区間推定値を提供することが適切です。重要な問題は、この誤差の範囲をどのように判断するかです。たとえ誤差が大きいとしても、間違う可能性は常にあるということを心に留めておく必要があります。

たとえば、実際のパラメーター (米国のデータ サイエンティストの実際の初任給) が 150,000 ドルであるのに、たまたま低賃金のデータ サイエンティスト 10 人のサンプルを選択したシナリオを考えてみましょう。サンプル平均は 97,000 ドルのままです。したがって、私たちが期待できる最善のことは、高い確率で真のパラメータを捕捉する可能性が高い信頼区間を構築することです。これは、間隔に実際のパラメータがかなりの割合で含まれる必要があることを意味します。

通常、95% の信頼レベルが標準として使用されますが、アプリケーションに応じて 90% や 99% などの他のレベルを選択することもできます。いずれの場合も、信頼水準に使用される表記は大文字の C です。これを確率ステートメントとして形式的に表現するには、x バーと μ の確率が e の範囲内に収まるような誤差の範囲 (e) を見つけることを目指します。お互いがCです。

例をさらに具体的にしてみましょう。データ サイエンティストの初任給が、母集団標準偏差が 8,000 ドルの正規分布に従うことがわかっているとします。米国のすべてのデータ サイエンティストの平均初任給であるμを 95% の信頼度で推定できる誤差の範囲 (e) を見つけたいと考えています。

これを達成するために、標準正規分布の特性を使用します。正規分布に従う確率変数 x をとった場合、標本平均 (x バー) も正規分布になります。標本平均分布の平均は母集団分布の平均 (μ) と同じですが、標準偏差は小さくなります。この例では、標本平均の標準偏差は σ/√n です。ここで、σ は母集団の標準偏差、n は標本サイズです。

この情報を使用して、確率ステートメントを次のように書き直すことができます。x バーが μ - e と μ + e の間にある確率は C に等しいです。ここで、数値を測定する Z スコアでこれを表すことができます。平均から離れた標準偏差。間隔を標準化することで、標準正規分布 (Z 分布) を利用して適切な値を決定できます。

特定の信頼レベル C について、標準正規曲線の下の -z スターと z スターの間の領域が C と等しくなるような Z スコア (z スター) を見つける必要があります。 C の一般的な値には 0.95、これは 1.960 の Z スターに相当します。 Z スターを取得したら、それに σ/√n を乗じて誤差の範囲を計算できます。

サンプルサイズが n = 10、サンプル平均が $97,000、母集団標準偏差が $8,000 の例に戻ると、μ の 95% 信頼区間を構築できます。これらの値を信頼区間の一般形式に代入すると、μ の区間推定値が $97,000 ± $1,958 であることがわかります。

要約すると、米国のすべてのデータ サイエンティストの平均初任給は 92,042 ドルから 101,958 ドルの間に収まると予想され、推定信頼度は 95% です。これは、このサンプリング プロセスを繰り返し、サンプル データを複数回使用して信頼区間を構築した場合、その区間が約 95% の確率で真のパラメータ (μ) を取得すると期待されることを意味します。

Introducing Confidence Intervals
Introducing Confidence Intervals
  • 2020.07.30
  • www.youtube.com
Let's talk about confidence intervals. Here we're attempting to estimate a population mean when the population standard deviation is known. Cool stuff! If th...
 

平均値の信頼区間 - 例


平均値の信頼区間 - 例

皆さんこんにちは。今日は母集団の標準偏差がわかっている場合の母集団平均の信頼区間の構築について説明します。さらに、家庭用体重計に関連する例を使用して、誤差範囲の大きさに影響を与える可能性のある要因を検討します。

体重計を使用する場合、測定値は体重を量られる人の真の体重の周りに通常分布すると仮定するのが合理的です。ただし、これらの測定値は完全に正確であるとは期待されておらず、わずかに高くまたは低く変動する可能性があります。この例では、スケールの母集団標準偏差 (1.2 ポンド) に関する情報にアクセスできると仮定します。

私たちの主な関心は、計量される人の真の体重の信頼区間 (μ と表記します) を構築することにあります。これを達成するには、体重計で人の体重を繰り返し測定し、これらの体重のサンプル平均を計算し、μ = x-bar ± z-star * σ / √n という式を使用します。ここで、x バーはサンプル平均を表し、n はサンプル サイズ、σ は母集団標準偏差、z スターは目的の信頼水準 (C) に対応する臨界 Z 値です。

この例をより具体的にするために、統計学者の体重を体重計で 5 回測定し、平均体重が 153.2 ポンドであるとします。これはサンプル平均として機能します。ここで、体重計の標準偏差を 1.2 ポンドと仮定して、統計家の真の体重の 90% 信頼区間を構築したいと思います。これらの値を式に代入すると、間隔の推定値は 153.2 ± 0.88 ポンドであることがわかります。

90% の信頼水準を選択したため、この区間はケースの約 90% で統計家の真の重みを取得すると期待できます。

ここで、誤差範囲の構造を詳しく見てみましょう。誤差範囲は、z-star * σ / √n の式に従います。ここには、臨界値 z-star (信頼水準に関連)、母集団標準偏差 σ (母集団内の広がりを反映) という 3 つの重要な要素があります。 、およびサンプルサイズ n。

これら 3 つのコンポーネントのいずれかを変更することで、誤差範囲のサイズに予想通りの影響を与えることができます。信頼水準を高くすると、対応する Z スター値が大きくなるため、誤差の範囲も増加します。同様に、母集団の標準偏差 σ を大きくすると、データのばらつきが大きくなり、サンプル平均の信頼性が低下するため、誤差の範囲が大きくなります。一方、サンプルサイズ n を大きくすると、サンプル平均が母集団平均のより正確な予測子になるため、誤差の範囲が減少します。

これらの効果を説明するために、標準偏差 1.2 ポンド、サンプル サイズ 5 の 90% 信頼区間の例をもう一度見てみましょう。信頼水準を 95% に上げると、Z スター値は 1.960 になり、マージンが大きくなります。誤差は1.05ポンド。 90% の信頼水準に戻しても、標準偏差を 1.5 ポンドに増やすと、誤差の範囲は 1.1 ポンドに拡大します。最後に、標準偏差を 1.2 ポンドに保ち、サンプル サイズを 2 倍の 10 にすると、誤差の範囲は 0.62 ポンドに減少し、信頼区間が狭くなることがわかります。

信頼水準とサンプルサイズの変更は実際的な調整ですが、標準偏差の変更は母集団の固有の変動を反映するため、通常は制御できないことに注意することが重要です。

結論として、信頼区間は、対象となる母集団パラメータの妥当な値の範囲を提供します。誤差の範囲は、信頼水準、母集団の標準偏差、サンプル サイズの影響を受け、推定値の精度と信頼性を理解するのに役立ちます。信頼レベルを上げると間隔が広がり、真のパラメータを捕捉する際のより高い信頼レベルが提供されます。母集団の標準偏差が大きくなると、データのばらつきが大きくなるため、間隔が広くなります。逆に、サンプル サイズを増やすと、より多くの情報が提供され、推定の精度が向上するため、間隔が狭くなります。

先ほど説明した例では、信頼水準の調整とサンプル サイズの変更という 2 つの現実的な変更を行うことができます。これらの変更により、確実性のレベルと推定に使用されるデータの量を制御できるようになります。ただし、スケールの標準偏差は制御できないため、変更するのは現実的ではありません。

誤差範囲と信頼区間に影響を与える要因を理解することは、統計結果を解釈する上で非常に重要です。これにより、情報に基づいた意思決定を行い、推定の精度と信頼性に基づいて有意義な結論を導き出すことができます。

Confidence Intervals for the Mean - Example
Confidence Intervals for the Mean - Example
  • 2020.07.31
  • www.youtube.com
Let's construct a confidence interval for a population mean! We'll also talk about the structure of the margin of error, and what goes into making it large o...