It's time to build some vocabulary for describing single-variable data sets, and to look at some example histograms and stem plots. Yay! If this vid helps yo...
How can we measure the center of a data set? What are the strengths and weaknesses of each measure? How can we understand each graphically? If this vid helps...
Computing percentiles and quantiles by hand is for suckers! If this vid helps you, please help me a tiny bit by mashing that 'like' button. For more #rstats ...
Let's measure the spread of data sets! Variance and standard deviation are hugely important in statistics; they're also easy to misunderstand. If this vid he...
男性の Z スコアを計算するには、(64.2 - 69.4) / 3.0 という式を使用します。結果の Z スコアは -1.73 で、男性の身長が男性の平均身長より 1.73 標準偏差低いことを示します。女性の場合、Z スコアは (69.4 - 64.2) / 2.7 となり、Z スコアは 1.93 になります。これは、女性の身長が女性の平均身長より 1.93 標準偏差高いことを意味します。 2 つの Z スコアの絶対値を比較すると、女性の身長は女性の平均身長と比較して異常であると結論付けることができます。
Z スコアだけでは「通常の」値と「異常な」値を明確に区別できないことに注意することが重要です。一般的な規則では、平均から 2 標準偏差を超えて離れた値は異常であると見なされ、3 標準偏差を超えて離れた値は非常に異常であると見なされます。ただし、これは単なる経験則であり、決定は最終的にはデータのコンテキストと特定の分布に依存します。
Let's understand z-scores! This is a simple way of describing position within a data set, most appropriate to symmetric (particularly bell-shaped) distributi...
The Five-Number Summary and the 1.5 x IQR Test for Outliers. If this vid helps you, please help me a tiny bit by mashing that 'like' button. For more statist...
What is a boxplot? How can you construct one? Why would you want to? If this vid helps you, please help me a tiny bit by mashing that 'like' button. For more...
スコアの箱ひげ図を作成するには、qplot コマンドを使用します。基本的な構文は同じです。x 軸と y 軸の変数を指定し、geom 引数を使用して箱ひげ図が必要であることを示します。この場合、スコアを X 軸にプロットします。
箱ひげ図をより視覚的に魅力的なものにするために、いくつかの改善を加えることができます。まず、y = "" を使用して、y 軸上の無意味な数値を削除できます。次に、垂直箱ひげ図が必要な場合は、スコアに y を使用し、x 軸のラベルを削除することで軸を切り替えることができます。 color 引数と fill 引数をそれぞれ使用して、ボックスの線と内部に色を追加することもできます。最後に、ラベルをカスタマイズし、ylab と main 引数を使用してグラフにタイトルを追加できます。
In this vid, we use the qplot() command in the {ggplot2} package to produce gorgeous boxplots in R. Note: since I recorded this vid, the qplot() command has ...
一方、古典的確率は、サンプル空間内のすべての結果の可能性が等しい場合に適用されます。イベント内の結果の数を数え、それをサンプル空間内の結果の総数で割ります。数学的には、イベント E のカーディナリティ (要素の数) をサンプル空間 S のカーディナリティで割ったものとして表されます。たとえば、公平なサイコロを振った場合、同じ確率で 6 つの結果が得られます。 5 を獲得するという単純なイベント E の場合、古典的な確率は 1/6 です。
別の例を考えてみましょう。公正なコインを 3 回投げると、同じ確率で HHH、HHT、HTH、HTT、THH、THT、TTH、TTT の 8 つの結果が得られます。 E をちょうど 2 つの表を取得するイベントとする。サンプル空間内では、イベント E には 3 つの結果 (HHH、HHT、および HTH) があります。したがって、イベント E の古典的な確率は 3/8 です。
We'll also learn about empirical vs. classical probability, as well as disjoint events. All the good stuff.If this vid helps you, please help me a tiny bit b...
A を禁煙の事象、B をシートベルトを着用しない事象とする。 A または B の確率 (A ∪ B) に興味があります。これを計算するには、A、B、および A ∩ B の個人確率が必要です。242 人のサンプルには喫煙しない人が 169 人いるため、喫煙しない確率は 242 人中 169 人です。シートベルトを着用しない確率は 242 のうち 114 です。ここで、喫煙もシートベルトも着用しない個人を表す A ∩ B の確率も必要です。表から、そのような個人が 81 人いることがわかります。
素ではないイベントの加算ルールを使用すると、次のように A または B の確率を計算できます。
P(A ∪ B) = P(A) + P(B) - P(A ∩ B)
値を代入すると、次のようになります。
P(A ∪ B) = 169/242 + 114/242 - 81/242
式を単純化すると、次のことがわかります。
P(A ∪ B) = 202/242
ここで、個々の確率を加算して、A または B の確率を直接計算してみましょう。この場合、テーブルの各セル内のイベントは相互に排他的であるため、素のイベントに対して加算ルールを使用できます。 A または B を表す 5 つのセルの確率を加算すると、次のようになります。
How can we compute P(A or B)? With the addition rule, of course! If this vid helps you, please help me a tiny bit by mashing that 'like' button. For more sta...
データを定性的に説明する
データを定性的に説明する
皆さん、こんにちは。今日は、観察結果を効果的に伝えるための語彙の構築に焦点を当てて、データセット形状の定性的記述について説明します。ヒストグラム、周波数ポリゴン、ステム プロットなどのさまざまなグラフィック表現を検討し、その特性について説明します。いくつかの例を見てみましょう。
まず、ヒストグラムを調べてみましょう。この場合、グラフは対称的な形状を示し、左半分が右半分に似ています。実際のデータが完全な対称性を示すことはほとんどありませんが、私たちは特定の値を特定するのではなく、全体的な形状を記述することに重点を置いています。対称分布の別のタイプは、データ値がビン全体に均等に分布する均一グラフです。これにより、水平方向に平らな形状が得られ、各ビンに値が入る可能性が等しいことを示します。
次に、対称ではないデータセットを調べてみましょう。ヒストグラムの代わりに、ステムプロットを検討してみましょう。このステム プロットの例では、非対称な形状を観察できます。分布が 92 付近にある中心の両側で同じではないことは明らかです。さらに、非対称の方向も識別できます。この場合、中心から離れて、より高い数値に向かって長い尾が存在します。これは右に歪んだ分布を示します。
一方、これは左に歪んだステム プロットです。データは値が大きい方に集中しているのに対し、値が小さい側では裾が長くなっていることがわかります。データセットを包括的に理解するには、非対称の方向を正確に記述することが重要です。
最後に、160 または 170 付近の単一の大きな外れ値により、最初は右に歪んでいるように見えるデータセットを考えてみましょう。ただし、この外れ値を無視すると、分布はかなり対称的な形状を示し、潜在的に釣鐘曲線に似ています。異常値は、エラー、例外的なケース、または個別の分析が必要な現象を表す可能性があるため、異常値を特定することが重要です。データの全体的な形状を説明するときは、外れ値を認識する必要がありますが、あまり考慮する必要はありません。
データセットの形状を説明する語彙を開発することで、データ内で観察される主要な特性とパターンを効果的に伝えることができます。データセットの形状を理解することは、そのプロパティの解釈に役立ち、有意義な洞察を引き出すことができます。
平均、中央値、最頻値を理解する
平均、中央値、最頻値を理解する
皆さん、こんにちは。今日は、中心傾向の尺度としての解釈に焦点を当てながら、平均値、中央値、最頻値の概念について説明します。各対策には独自の有用性があり、それらを理解することが重要です。それらの定義を簡単に見てみましょう。
平均は、データセットの数値平均を表します。これは、セット内のすべての値を合計し、その合計を値の数で割ることによって計算されます。平均値は通常、特にサンプルを扱う場合、X バーまたは X の上に線が引かれて表示されます。
中央値は、データを正確に半分に分割する値です。中央値を見つけるには、データを最小値から最大値の順に並べます。値の数が奇数の場合、中央値が中央の値になります。値の数が偶数の場合は、中央の 2 つの値を平均して中央値を見つけます。中央値は大文字の M で表されることがよくあります。
モードは単にデータセット内で最も一般的な値です。 2 つ以上の値が同じ頻度を持つ場合、分布は複数のモードを持つことができますが、すべてのデータが同じ頻度を持つ場合、その分布にはモードがないと言います。
例を考えてみましょう。 16 個の値を含むデータセットがあるとします。平均は、すべての値を合計し、16 で割ることによって計算されます。この場合、平均は 67.9375 です。値の数が偶数であるため、中央値は中央の 2 つの値の平均を取ることで求められ、結果は 65.5 になります。最も一般的な値であるモードは 65 です。
中心傾向の各尺度には、グラフによる解釈もあります。ヒストグラムでは、最頻値はヒストグラム上の最高点であり、最も頻度の高い値を表します。中央値は、ヒストグラムを半分に分割し、領域を均等に分割する値です。平均値は、ヒストグラムのバランスを保つことができる値です。
ヒストグラムの例を考えてみましょう。最頻値は、ヒストグラムが最も高い x 値を特定することによって決定できます。この場合、x 値は 3 よりわずかに大きくなります。中央値はヒストグラムの領域を半分に分割する値で、約 4.5 です。平均値は、ヒストグラムのバランスをとる値であり、5 よりわずかに小さくなります。
なぜ中心傾向を示す 3 つの尺度が必要なのでしょうか?それぞれの対策には長所と短所があります。平均値は統計分析でよく使用され、直感的です。ただし、外れ値の影響を大きく受けるので、偏った分布には適さない場合があります。
中央値は計算と理解が簡単で、外れ値の影響を受けません。ただし、データセット内のすべての情報が利用されるわけではないため、統計的推論において課題が生じる可能性があります。
最頻値は、カテゴリ変数であっても、中心傾向の普遍的な尺度です。ただし、最も一般的な値が必ずしも分布の中心を表すとは限らないため、中心の尺度としての信頼性は低くなります。
外れ値を含む、試験スコアの小さなデータセットを考えてみましょう。この場合、平均値 79 は典型的な生徒の成績を正確に表していません。中央値 94 は、より説明的な尺度です。外れ値を除去すると、中央値が変化しない一方で平均値が大幅に変化するため、違いがより明確になります。
平均値、中央値、最頻値の違いを理解することで、さまざまなシナリオにおける長所と限界を考慮しながら、データセットの中心的な傾向を効果的に解釈して伝えることができます。
R のパーセンタイルとクォンタイル
R のパーセンタイルとクォンタイル
今日は R のパーセンタイルとクォンタイルについて説明します。まず、それらの意味を確認しましょう。
パーセンタイルは、データセット内の値の相対位置を測定する方法です。一般に、データセットの p 番目のパーセンタイルは、データの p パーセントよりも大きい値です。たとえば、50 パーセンタイルは中央値、25 パーセンタイルは第 1 四分位、75 パーセンタイルは第 3 四分位です。これは、データの 75% を超える値を表します。
パーセンタイルの計算にはさまざまな方法があり、広く受け入れられているアプローチはありません。ただし、良いニュースは、すべての方法で非常に似た結果が得られることです。パーセンタイルを計算するには、効率的で正確な計算を提供する R などのテクノロジーを利用するのが最善です。
一方、分位数は本質的にパーセンタイルと同じです。ただし、「分位数」という用語は 10 進数値を指す場合によく使用され、「パーセンタイル」は整数値に関連付けられます。たとえば、15 パーセンタイルはあるものの、分位数は 0.15 である場合があります。分位数の利点は、必要なだけ小数点以下の桁数で値を表現できるため、精度が向上することです。
次に、R に切り替えて、「忠実」データセットを使用してパーセンタイルとクォンタイルを計算する方法を調べてみましょう。このデータセットには、米国のオールド フェイスフル間欠泉の噴火の長さと待機時間に関する情報が含まれており、分単位で測定されます。
R でパーセンタイルとクォンタイルを計算するには、「クォンタイル」関数を使用できます。 2 つの引数が必要です。まず、関心のある変数を指定します。この場合は「faithful$waiting」です。次に、目的の分位数を 10 進数で示します。たとえば、35 パーセンタイル (0.35 分位数) を計算するには、分位点の引数として 0.35 を書き込みます。コマンドを実行すると、結果が得られます (この場合は 65 など)。これは、すべての噴火の約 35% の待ち時間が 65 以下であることを意味します。
R では、分位数のベクトルを提供することで複数の分位数を同時に計算できます。たとえば、「c()」関数を使用すると、分位数 0.35、0.70、および 0.95 を指定できます。結果は、それぞれの分位値 65、81、および 89 を含むベクトルになります。
もう 1 つの便利なコマンドは、変数の概要を提供する「summary」です。変数「faithful$waiting」をコマンドに渡すことで、第 1 四分位 (25 パーセンタイル)、中央値 (50 パーセンタイル)、第 3 四分位 (75 パーセンタイル)、および最小値、最大値、平均値が取得されます。
では、逆の質問に答えてみましょう。データセット内に値があり、そのパーセンタイルを決定したい場合は、「ecdf」コマンドを使用できます。 「faithful$waiting」などの対象の変数を指定し、データセットから 79 などの特定の値を指定すると、コマンドはその値のパーセンタイルを返します。この例では、結果は 0.6617647 で、待ち時間 79 が約 66 パーセンタイルに相当することを示しています。
パーセンタイルとクォンタイルを理解すると、データセット内の値の相対的な位置を評価できるようになり、データの分布と特性についての貴重な洞察が得られます。
サンプル分散と標準偏差
サンプル分散と標準偏差
皆さん、今日は標本分散と標準偏差の概念を詳しく掘り下げていきます。これら 2 つの尺度は、データセット内の変動または広がりの範囲を理解するのに役立ちます。これらは、データセット内の値が平均からどの程度離れているかについての洞察を提供します。
公式を見てみましょう。数式では、「n」は合計サンプル サイズを表し、「X_i」はデータ セット内の値 (X_1、X_2、X_3 など)、および「X バー」(X の上に線が引かれている) を表します。はサンプル平均を表します。通常、これらの測定値を計算するには R などのテクノロジーが使用されますが、特にこれらの計算を手動で実行しなくなったため、基礎となる概念を理解することが重要です。
両方の測定値の重要な要素は「X_i マイナス X バー」という項で、サンプル平均からの各値 (X_i) の偏差を表します。言い換えれば、各値が平均とプラスまたはマイナスでどの程度異なるかを定量化します。理想的には、これらの偏差の平均を求める必要がありますが、正と負の偏差が互いに打ち消し合うため、単純な平均を取るとゼロになります。これに対処するために、平均を計算する前に、各偏差 (X_i から X バーを引いたもの) を 2 乗します。これにより、平均からの二乗偏差の平均を表す標本分散の式が得られます。
ただし、分散の公式では n ではなく (n-1) で除算していることに気づいたかもしれません。これにはいくつかの理由がありますが、簡単な理由は次のとおりです。サンプル平均 (X バー) を計算するとき、(n-1) 個の X_i 値のみが必要です。これは、X bar がすべての X_i の合計を n で割って計算されるためです。したがって、X バーを取得したら、任意の X_i 値を解くことができます。 (n-1) で除算することでこれが考慮され、n 個すべてではなく、(n-1) 個の個別の偏差の平均が確実に計算されます。このようにして、ばらつきの意味のある尺度として標本分散を取得します。
もう 1 つの問題は、分散が元のデータと同じスケールになく、抽象的になってしまうことです。これに対処するために、標本分散の平方根をとり、標本標準偏差の式を求めます。標準偏差はより多くの計算を必要とし、理論的に難しい場合がありますが、分散よりも解釈と視覚化が簡単です。分散と標準偏差は両方とも、さまざまな状況で使用されます。
値が 4 つだけのデータ セットの例を考えてみましょう。標本分散と標準偏差を計算するには、まず 4 つの値を合計して 4 で割ることにより標本平均を計算し、平均値 121 を取得します。分散公式を使用して、各値の偏差 (X_i から X bar を引いたもの) を 2 乗し、偏差の二乗を平均し、3 で割ります (値の数から 1 を引いた値)。これにより、分散は 220 になります。ただし、この値は即時に解釈できません。これに対処するために、分散の平方根をとり、標準偏差は 14.8 になります。この値は、データセット内の広がりの尺度としてより意味があります。
テクノロジーの観点から言えば、R の「var」や「sd」などのコマンドを使用して、それぞれ分散と標準偏差を計算できます。時間が節約され、正確な結果が得られるため、これらの計算にはテクノロジーを活用することを強くお勧めします。ほとんどの場合、分散と標準偏差を手動で計算する必要はなくなりました。
さらに、ほとんどの場合、データ値の約 3 分の 2 が平均値の 1 標準偏差以内に収まることに注意することが重要です。釣鐘型分布 (正規分布) の場合、データの約 68% は 1 標準偏差以内にあり、約 95% は 2 標準偏差以内にあり、ほぼすべて (99.7%) は平均の 3 標準偏差以内にあります。これは経験則または 68-95-99.7 ルールとして知られています。
これを説明するために、0 ~ 100 の整数からランダムに選択された 200 個の値のデータセットを考えてみましょう。このデータセットの平均は 49.9、標準偏差は 27.3 です。経験則を適用すると、平均より 1 標準偏差上下に移動すると、値の 68%、つまり 136 個の値が取得されることになります。分布が釣鐘型 (正規分布) に従う場合、さらに正確な推定を行うことができます。この場合、値の約 95% (200 個中 190 個) が平均値の 2 標準偏差以内に収まり、ほぼすべての値 (200 個中 199 個) が平均値の 3 標準偏差以内に収まります。
最後に、経験則を使用したもう 1 つの例を示します。標準化されたテストのスコアがほぼベル型分布に従うと仮定します。平均スコアは 1060、標準偏差は 195 です。経験則を適用すると、スコアの約 68% が 865 ~ 1255 の間に収まると推定できます (平均より 1 標準偏差上下)。スコアの約 95% は 670 ~ 1450 の間にあります (平均より 2 標準偏差上下)。最終的に、スコアの約 99.7% が 475 から 1645 の範囲内になります (平均より 3 標準偏差上下)。
分散と標準偏差を理解すると、データセット内の広がりとばらつきを把握するのに役立ちます。テクノロジーにより計算が容易になりますが、データを効果的に解釈して分析するには、基礎となる概念を理解することが重要です。これらの手段を利用することで、貴重な洞察を得ることができ、データの特性に基づいて情報に基づいた意思決定を行うことができます。
Zスコア
Zスコア
皆さん、こんにちは。今日のディスカッションでは、標準スコアとも呼ばれる Z スコアについて説明します。この方法を使用すると、データセット内の値の相対位置を測定できます。
Z スコアは、値が平均から逸脱する標準偏差の数を表します。たとえば、平均が 50、標準偏差が 8 のデータセットがある場合、値が 62 の Z スコアは 1.5 になります。これは、値 62 が平均より標準偏差 1.5 大きいことを意味します。
Z スコアは、対称分布、特に釣鐘型または正規分布に従うデータセット内の相対位置を評価する場合に特に役立ちます。ただし、偏ったデータや外れ値を含むデータセットを扱う場合、平均と標準偏差はデータの中心と広がりを正確に表さない可能性があります。したがって、そのような場合には Z スコアの有用性は減ります。
Z スコアを計算する式は、z = (x - μ) / σ です。ここで、x はデータセット内の値、μ は平均、σ は標準偏差です。平均は x バーで表され、標準偏差は s で表されることがありますが、式は同じです。
Z スコアは、異なるデータセット間の値の相対位置を比較する場合に特に役立ちます。これを説明する例を考えてみましょう。米国の成人男性の平均身長は 69.4 インチ、標準偏差は 3.0 インチです。一方、米国の成人女性の平均身長は 64.2 インチで、標準偏差は 2.7 インチです。ここで、身長 64.2 インチの男性と 69.4 インチの女性の相対的な希少性を比較できます。
男性の Z スコアを計算するには、(64.2 - 69.4) / 3.0 という式を使用します。結果の Z スコアは -1.73 で、男性の身長が男性の平均身長より 1.73 標準偏差低いことを示します。女性の場合、Z スコアは (69.4 - 64.2) / 2.7 となり、Z スコアは 1.93 になります。これは、女性の身長が女性の平均身長より 1.93 標準偏差高いことを意味します。 2 つの Z スコアの絶対値を比較すると、女性の身長は女性の平均身長と比較して異常であると結論付けることができます。
Z スコアだけでは「通常の」値と「異常な」値を明確に区別できないことに注意することが重要です。一般的な規則では、平均から 2 標準偏差を超えて離れた値は異常であると見なされ、3 標準偏差を超えて離れた値は非常に異常であると見なされます。ただし、これは単なる経験則であり、決定は最終的にはデータのコンテキストと特定の分布に依存します。
これを証明するために、身長 76 インチの男性の場合を考えてみましょう。同じ式と男性の平均値と標準偏差を使用して、Z スコア 2.2 を計算します。この値は絶対値で 2 より大きいため、慣例に従ってその男性の身長は異常であると見なされます。
経験則は、ほぼ釣鐘型の分布を扱う際のガイドラインとなります。値の約 68% が平均値の 1 標準偏差 (Z スコアが -1 ~ 1) 以内に収まり、約 95% が標準偏差 2 以内 (Z スコアが -2 ~ 2)、約 99.7% が標準偏差 3 以内に収まります。標準偏差 (-3 ~ 3 の Z スコア)。
結論として、Z スコアは、データセット内の値の相対位置を評価する便利な方法を提供します。これらは、異なるデータセット間で値を比較し、特定の値の希少性や異常性を判断する場合に特に役立ちます。ただし、Z スコアを解釈する際には、分布の形状、外れ値、データのコンテキストを考慮することが重要です。
簡単な例で終わりにしましょう。米国の成人女性の身長のデータセットがあり、それがほぼ釣鐘型の分布に従っていると仮定します。平均身長は 64.2 インチ、標準偏差は 2.7 インチです。
経験則を使用して、特定の割合の女性が該当する身長の範囲を推定できます。平均値の 1 標準偏差以内に、女性の身長の約 68% が見つかります。 64.2 から 2.7 を引くと 61.5 インチになり、2.7 を加えると 66.9 インチになります。したがって、女性の身長の約 68% が 61.5 ~ 66.9 インチの間に収まると推定できます。
2 標準偏差に拡張すると、女性の身長の約 95% がこの範囲内にあることがわかります。平均値から 2.7 を 2 回引くと 58.8 インチになり、2.7 を 2 回加えると 69.6 インチになります。したがって、女性の身長の約 95% は 58.8 ~ 69.6 インチの間にあると予想できます。
最後に、データの約 99.7% をカバーする 3 標準偏差以内で、平均から 2.7 を 3 回減算して 56.1 インチを取得し、2.7 を 3 回加算して 71.7 インチを取得します。したがって、女性の身長の約 99.7% が 56.1 ~ 71.7 インチの間に収まると推定できます。
Z スコアとその解釈を理解すると、データセット内の値の相対的な位置と希少性を評価できるようになり、統計、研究、データ分析などのさまざまな分野で貴重な洞察が得られます。
Z スコアは、データセットの平均と標準偏差を考慮して、相対位置の標準化された尺度を提供することに注意してください。これらは、分布を理解し、異なるデータセット間の値を比較するための強力なツールです。
5 つの数字の要約と外れ値の 1.5 x IQR テスト
5 つの数字の要約と外れ値の 1.5 x IQR テスト
こんにちは、みんな!今日は、5 つの数値サマリーと外れ値の 1.5 倍 IQR テストの概念を詳しく説明します。データセットの四分位を定義することから始めましょう。四分位数は、データセットを 4 つの等しい部分に分割する値です。第 1 四分位 (Q1) はデータの約 25% を上回っており、第 2 四分位 (Q2) はデータの約半分 (中央値とも呼ばれます) を上回っており、第 3 四分位 (Q3) はデータの約 75% を上回っています。データ。
データセットが均等に分割されていない場合、4 つの等しい部分への分割が正確ではない可能性があることに注意することが重要です。最初に中央値を決定することで、第 1 四分位数と第 3 四分位数を見つけることができます。 Q1 と Q3 を見つけるには、データセットを上半分と下半分に分割し、それら 2 つの半分の中央値を計算します。上半分の中央値は Q3 で、下半分の中央値は Q1 です。
これを説明するために例を見てみましょう。 17 個の値が最小値から最大値までリストされている次のデータセットを考えてみましょう。中央値、つまり Q2 は中央の値になります。この場合、9 番目の値になります (17 は値の奇数であるため)。したがって、中央値は 42 です。Q1 を見つけるには、中央値より小さい 8 つの値を考慮します。それらを並べ替えると、16、18、20、22 が見つかります。これは偶数の値であるため、中央の 2 つの値の平均をとり、18 が得られます。同様に、Q3 については、8 つの値がより大きいとみなします。中央値は 45、48、50、および 55 です。ここでも、中央の 2 つの値の平均を取ると、Q3 は 52 となります。
したがって、この例の場合、四分位は Q1 = 18、Q2 = 42、および Q3 = 52 です。データセットの 5 つの数値サマリーは、これらの四分位とデータセット内の最小値および最大値で構成されます。この場合、5 つの数字の要約は 5、18、42、52、および 93 です。5 は最小値を表し、93 は最大値を表します。
もう 1 つの有用な尺度は、データの中央半分の広がりを定量化する四分位範囲 (IQR) です。 Q3 と Q1 の差として計算されます。この例では、IQR は 52 - 18 = 34 です。IQR はデータセットの中央の 50% 内の値の範囲に焦点を当てており、極端な値による影響は少なくなります。
次に、別の例を考えてみましょう。以下にリストされている 22 人の学生の試験の得点があるとします。 5 つの数字の要約と IQR を使用してスコアの分布を説明したいと思います。まず、平均値は極端な値の影響を受ける可能性があるため、中心の尺度として平均値を使用することに注意する必要があります。この場合、平均は 75.3 ですが、少数の生徒の得点が非常に低いため、平均は生徒の典型的な成績を正確に表していない可能性があります。同様に、最小値と最大値の差 (それぞれ 2 と 100) である範囲は、極端な値であるため誤解を招く可能性があります。
より正確な説明を得るために、5 つの数字の要約を計算します。スコアを並べ替えると、最小値は 2、最大値は 100 であることがわかります。中央値 (Q2) は中央の値で、この場合は 80 です。データセットの下半分は、以下より小さい 8 つの値で構成されます。中央値。76 と 83 が 2 つの中間値です。平均を取ると、Q1 は 79 であることがわかります。同様に、データセットの上半分の中央値は 83 となり、結果として Q3 は 83 になります。
したがって、このデータセットの 5 つの数字の要約は、2、79、80、83、および 100 になります。この要約から、スコアの中間半分が 79 と 83 の間にあることがわかり、スコアがその周囲に密集していることがわかります。中央値。
データセット内の外れ値を特定するには、1.5 倍の IQR テストを使用します。前に計算したように、IQR は 83 - 79 = 4 です。IQR に 1.5 を掛けると 6 になります。Q1 から 6 を減算し、Q3 に 6 を加算して、値が外れ値とみなされない範囲を確立します。この場合、73 未満または 89 を超える値は、このルールに従って外れ値として扱われます。
このテストをデータセットに適用すると、2 と 100 が外れ値とみなされる必要があることがわかります。教授としては、試験曲線を決定する際に、これらの極端なスコアを無視するか、それほど重視しないことをお勧めします。
5 つの数値サマリー、IQR、および 1.5 倍 IQR テストを利用することで、スコアの分布をより深く理解し、全体的な分析に影響を与える可能性のある外れ値を特定できます。
箱ひげ図
箱ひげ図
今日は、箱ひげ図とも呼ばれる箱ひげ図について説明します。箱ひげ図は、5 つの数値サマリーに基づいた単一変数データセットのグラフィック表現です。それらをより深く理解するために、例を見てみましょう。
5 つの数値の要約と箱ひげ図を作成したいデータセットがあるとします。データセットは次のとおりです: 34、42、48、51.5、および 58。まず、数値を昇順に並べて、最小値 (34) と最大値 (58) を見つけます。値の数が奇数であるため、中央値は中央の値であり、この場合は 48 です。
次に、データセットを下半分と上半分の 2 つに分割します。下半分の中央値は 42、上半分の中央値は 51.5 です。これらの値は、それぞれ第 1 四分位 (Q1) および第 3 四分位 (Q3) として知られています。
5 つの数字の要約を使用して、箱ひげ図を作成できます。箱ひげ図は、Q1 と Q3 の間の範囲を表す箱で構成されます。ボックスの底部は Q1 に対応し、ボックスの上部は Q3 に対応し、ボックス内の水平線は中央値を表します。箱ひげ図の「腕」は箱から最小値と最大値 (それぞれ 34 と 58) まで伸びます。
箱ひげ図の目的は、データの分布を視覚化することです。ボックスはデータセットの中央の 50% を表し、アームは残りの値を囲みます。この例では、極値がないため、箱ひげ図には外れ値は表示されません。
5 つの数値の要約を決定し、1.5 倍の IQR テストを使用して外れ値をテストし、箱ひげ図を作成する別の例を考えてみましょう。データセットは次のとおりです: 62、64、75、81.5、および 110。
Q3 から Q1 を引いて四分位範囲 (IQR) を計算すると、17.5 であることがわかります。 1.5 倍の IQR テストを実行するには、IQR に 1.5 を掛けます。 Q1 から IQR の 1.5 倍を引くと (64 - 1.5 * 17.5)、37.5 が得られます。 IQR の 1.5 倍を Q3 に加算すると (81.5 + 1.5 * 17.5)、107.75 になります。 37.5 未満または 107.75 を超える値は外れ値と見なされます。
この場合、値 110 は上限を超えており、外れ値として分類されます。箱ひげ図を作成する際、外れ値ではない最も極端な値までのみ箱ひげ図のアームを描画します。外れ値の 110 は別の点で示され、上腕は 90 までしか伸びません。これは、外れ値ではない範囲内の最高値を表します。
箱ひげ図は、1 つのカテゴリ変数と 1 つの量的変数をプロットするなど、グループ間のデータを比較する場合に特に便利です。このタイプのプロットは、しばしば横並び箱ひげ図と呼ばれ、異なるグループを視覚的に明確に比較できます。例として、setosa、versicolor、virginica の 3 種の花びらの幅を比較する有名なアイリス データセットを検討します。箱ひげ図を調べると、setosa 種は一般に他の 2 種に比べて花びらが狭いことが観察できます。さらに、各グループ内の花びらの幅の広がりの違いも識別できます。
要約すると、箱ひげ図は 5 つの数値の概要を簡潔に視覚化し、異なるグループ間の比較を容易にします。データセットの最小値、第 1 四分位値 (Q1)、中央値、第 3 四分位値 (Q3)、および最大値が表示されます。ボックスはデータの中央の 50% を表し、ボックスの底部が Q1 で、ボックスの上部が Q3 です。ボックス内の線は中央値を表します。
箱ひげ図には、1.5 倍の IQR テストによって決定された範囲外の値である外れ値を表示する機能もあります。外れ値を決定するには、IQR (Q3 - Q1) を計算し、1.5 を掛けます。次に、Q1 から IQR の 1.5 倍を減算し、Q3 に IQR の 1.5 倍を加算します。下限を下回る値、または上限を上回る値は外れ値とみなされます。
外れ値を含む箱ひげ図を作成する場合、プロットの腕は外れ値ではない最も極端な値までのみ拡張されます。外れ値は、箱ひげ図の腕の外側の個々の点として示されます。これにより、箱ひげ図が外れ値以外のデータの分布を正確に表し、誤解を招く解釈が回避されます。
箱ひげ図は、異なるグループまたはカテゴリ間でデータを比較する場合に特に役立ちます。複数の箱ひげ図を並べてプロットすると、分布を比較し、分析対象の変数の違いを理解しやすくなります。
たとえば、アヤメ データセットを使用すると、並べた箱ひげ図を作成して、setosa、versicolor、virginica 種の花びらの幅を比較できます。これにより、種間の花びらの幅の違いや、各グループ内の値の広がりを視覚的に観察することができます。
要約すると、箱ひげ図は 5 つの数字の概要を視覚的に示し、データの分布を理解し、さまざまなグループを比較しやすくします。これらは、データセット内の中心的な傾向、広がり、異常値の存在に関する洞察を提供し、データ分析と視覚化のための貴重なツールとなります。
R の箱ひげ図
R の箱ひげ図
こんにちは、みんな!今日は、qplot コマンドを使用して、R で美しい箱ひげ図を作成する方法を学びます。 R で箱ひげ図を作成する方法は複数ありますが、最も視覚的に魅力的な方法は、多くの場合、tidyverse パッケージ ファミリの一部である ggplot2 パッケージから得られます。それでは、詳しく見ていきましょう!
これらの機能をこれまでに使用したことがない場合は、install.packages コマンドを使用してマシンに Tidyverse パッケージをインストールする必要があります。このステップをまだ行っていない場合は、すぐに実行できます。インストールしたら、各セッションの開始時に library(tidyverse) コマンドを使用してパッケージをメモリにロードし、その機能にアクセスする必要があります。
このチュートリアルでは、ggplot2 パッケージの qplot コマンドの使用に焦点を当てます。それでは、箱ひげ図を作成する 2 つの例から始めましょう。
まず、手動でデータを入力してみましょう。長さ 21 の「scores」と呼ばれるベクトルを作成します。これは、サイズ 21 のクラスの数学試験における生徒の得点を表すことができます。
スコアの箱ひげ図を作成するには、qplot コマンドを使用します。基本的な構文は同じです。x 軸と y 軸の変数を指定し、geom 引数を使用して箱ひげ図が必要であることを示します。この場合、スコアを X 軸にプロットします。
箱ひげ図をより視覚的に魅力的なものにするために、いくつかの改善を加えることができます。まず、y = "" を使用して、y 軸上の無意味な数値を削除できます。次に、垂直箱ひげ図が必要な場合は、スコアに y を使用し、x 軸のラベルを削除することで軸を切り替えることができます。 color 引数と fill 引数をそれぞれ使用して、ボックスの線と内部に色を追加することもできます。最後に、ラベルをカスタマイズし、ylab と main 引数を使用してグラフにタイトルを追加できます。
次に、chickweights と呼ばれる組み込みデータセットを使用した 2 番目の例に移りましょう。このデータセットには、さまざまな雛の体重と与えられた餌という 2 つの変数を含む 71 件の観測値が含まれています。横に並べた箱ひげ図を作成して、さまざまな飼料タイプにわたる雛の体重の分布を比較します。
前の例と同様に、qplot コマンドを使用し、data = Chickweights を使用してデータセットを指定します。次に、Y 軸に重み、X 軸にフィードを持つ垂直箱ひげ図が必要であることを示します。箱ひげ図をフィードの種類によって区別するには、fill 引数を使用して、それをフィード変数にマップします。
繰り返しになりますが、フォント スタイル、ラベル サイズ、ポイント サイズなど、カスタマイズに利用できるオプションは他にもたくさんあります。オンラインで検索するとさらに詳しく調べることができます。
ほんの少し変更を加えるだけで、R で本格的な箱ひげ図を作成できます。これらの例は、データ視覚化のための ggplot2 パッケージの能力と柔軟性を示しています。
確率の実験、結果、イベント、およびサンプル スペース
確率の実験、結果、イベント、およびサンプル スペース
こんにちは、みんな!今回は確率の基礎について掘り下げていきます。サンプル空間、結果、イベントなどのトピックを検討します。確率実験はランダム実験とも呼ばれ、結果を確実に予測できない実験です。ただし、試行を繰り返すと、特定の傾向が明らかになる場合があります。いくつかの例を見てみましょう。
最後の 2 つの例では、アクション (2 つのサイコロを振る) は同じですが、記録されるデータがわずかに異なることに注意してください。したがって、これらを別の確率実験として考慮します。さて、いくつかの語彙について説明しましょう。
確率実験における特定の試行の結果は、結果と呼ばれます。確率実験で考えられるすべての結果の集合は、サンプル空間 (大文字の S で示される) と呼ばれます。サンプル空間のサブセットはイベントと呼ばれます。
これを説明するために、例を考えてみましょう。 2 枚のコインを投げて結果を記録するとします。サンプル空間は、表-表、表-裏、裏-表、裏-裏の 4 つの結果で構成されます。イベント E を「両方のフリップが同じ」と定義すると、そのイベント内には表と表、裏と裏という 2 つの結果が生じます。このイベントはサンプル空間のサブセットです。
一般に、イベントは確率実験中に発生する可能性のある何かを表しますが、それが発生する方法は複数ある場合があります。前の例では、「両方のフリップが同じ」というイベントは 2 つの異なる方法で発生する可能性があります。
イベントが 1 つの方法でのみ発生する場合、つまり単一の結果で構成される場合、それを単純イベントと呼びます。イベント E の補数は、E' として、または E の上にバーで示されることもあり、E にないサンプル空間内のすべての結果のセットです。E が発生すると、E' は発生せず、その逆も同様です。
たとえば、スピナーを使用して 1 から 9 までの整数をランダムに選択するとします。 Eを「結果が素数になる」という事象とする。サンプル空間は 1 から 9 までの整数で、E は 10 未満の素数のセットです: {2, 3, 5, 7}。 E の補数 (E') は E が発生しないイベントであり、素数ではない 10 未満の数で構成されます: {1, 4, 6, 8, 9}。
共通の結果がない場合、2 つのイベントは素であると言えます。これは、確率実験の 1 回の試行で両方が同時に発生することはできないことを意味します。たとえば、4 枚のコインを投げて結果を記録することを考えてみましょう。 E を「最初の 2 つのフリップが表である」イベント、F を「少なくとも 3 つの裏がある」イベントとします。これら 2 つのイベントは次のように表すことができます。
E: {HHHH、HHHH...} F: {TTTT、TTTTTH、TTTHT、TTTTTH...}
セット E と F の間で共有される結果がないことに注意してください。したがって、これらのイベントは素になっています。
事象の確率を記述するにはさまざまな方法があり、一般的な 2 つのアプローチは、経験的確率 (または統計的確率) と古典的確率 (または理論的確率) です。
経験的確率は観察に基づいています。確率実験を複数回実行し、イベントが発生した回数を数え、それを合計試行回数で割ります。これは、イベントが過去に発生した回数の割合に対応します。たとえば、コインを 100 回投げて表が 53 回出た場合、コインが表になる経験的確率は 53/100、つまり 53% になります。
一方、古典的確率は、サンプル空間内のすべての結果の可能性が等しい場合に適用されます。イベント内の結果の数を数え、それをサンプル空間内の結果の総数で割ります。数学的には、イベント E のカーディナリティ (要素の数) をサンプル空間 S のカーディナリティで割ったものとして表されます。たとえば、公平なサイコロを振った場合、同じ確率で 6 つの結果が得られます。 5 を獲得するという単純なイベント E の場合、古典的な確率は 1/6 です。
別の例を考えてみましょう。公正なコインを 3 回投げると、同じ確率で HHH、HHT、HTH、HTT、THH、THT、TTH、TTT の 8 つの結果が得られます。 E をちょうど 2 つの表を取得するイベントとする。サンプル空間内では、イベント E には 3 つの結果 (HHH、HHT、および HTH) があります。したがって、イベント E の古典的な確率は 3/8 です。
ここで、大規模大学の統計入門の授業の度数分布を使用して確率の問題を調べてみましょう。分布は、各クラス レベルの生徒数 (1 年生 67 名、2 年生 72 名など) を示しています。このクラスからランダムに人を選んだ場合、その人が 2 年生である確率はどれくらいですか?これは古典的な確率の問題です。
指定された頻度分布には、合計 222 の結果 (クラスの生徒) があり、そのうち 72 の結果が 2 年生に対応します。したがって、2 年生がランダムに選択される確率は 72/222、つまり約 32.4% になります。
ここで、同じ度数分布を使用した少し異なる質問に焦点を移してみましょう。次にコースに登録する人がジュニアまたはシニアになる確率はどれくらいですか?今回は、将来の登録については確実性がないため、経験的確率に興味があります。
すでに登録している学生に関するデータを調べます。その中には3年生が29名、4年生が54名います。経験的確率を計算するには、イベントに適合する生徒数 (ジュニアまたはシニア) を登録生徒の総数で割ります。したがって、確率は (29 + 54) / 222、約 37.7% となります。
経験的な確率を扱っているか、古典的な確率を扱っているかにかかわらず、特定の事実が当てはまることに注意することが重要です。あらゆる事象の確率は 0 と 1 の間にあります。確率 0 の事象は不可能ですが、確率 1 の事象は確実です。サンプル空間が S で示される場合、S が発生する確率は常に 1 です。
互いに素なイベント E と F (共通の結果がない) がある場合、それらのうちの少なくとも 1 つが発生する確率は、それぞれの確率の合計になります。ただし、E と F は相互に排他的であるため、両方が同時に発生する確率は 0 です。
さらに、補完的なイベント (考えられるすべての結果をカバーするイベント) がある場合、それらの確率の合計は常に 1 になります。イベント E が発生した場合、その補完イベント (E') が発生しない確率は 1 から E が発生する確率を引いたものになります。
日常言語では、直感や個人的な経験に基づいて確率を非公式に使用することがよくあります。これは主観的確率として知られています。ただし、統計学では、厳密な計算のために経験的および古典的な確率に依存します。主観的な確率は数学的精度に欠けており、統計分析の焦点ではありません。
確率の加算規則
確率の加算規則
皆さんこんにちは。今日は確率の加算ルールについて説明します。このルールにより、イベントの結合の確率を計算できます。ルールの簡略化されたバージョンから始めましょう。
素の 2 つのイベント A と B があるとします。これは共通の結果が存在しないことを意味します。この場合、どちらかのイベントが発生する確率は、単純に個々の確率の合計になります。これは次のように記述できます。
P(A ∪ B) = P(A) + P(B)
ここで、A ∪ B は、A または B にあるすべての結果のセットを表し、本質的には「A または B」を意味します。共通の結果がないため、別々のイベントが両方発生することはできないことを覚えておくことが重要です。場合によっては、これらのイベントは相互排他的であると呼ばれます。
このバージョンの追加ルールを説明するために、例を考えてみましょう。公平なサイコロを 2 回振り、最初の目の目が 6 であることをイベント A、出目の合計が 3 であることをイベント B と定義するとします。最初の出目が 6 の場合、合計が 3 になることはないため、これらのイベントは相互に排他的です。ここで、A または B (最初のロールが 6 であるか、合計が 3 である) の確率を計算するには、これらのイベントの個別の確率が必要です。
考えられる結果は 6 つあり、そのうち 1 つだけが 6 であるため、最初のロールが 6 になる確率は 1/6 です。 2 つのサイコロの出目で合計 36 の可能な結果があり、2 つの結果の合計が 3 (1+2 および 2+1) になることを考慮すると、出目の合計が 3 になる確率は 2/36 です。これらの確率を加算すると、合計確率は 2/9 になります。
ラーソンとファーバーの教科書「初等統計学」からの別の例に移りましょう。住宅所有者を対象とした調査では、ハウスクリーニングの間隔について尋ねられました。結果は円グラフにまとめられ、さまざまな時間間隔が示されます。私たちは、ランダムに選択された住宅所有者が掃除の間隔を 2 週間以上空ける確率を求めたいと考えています。
この場合、円グラフの青または黄色のセグメントから住宅所有者が選択される確率に興味があります。これらのセグメントは相互に排他的であるため (3 週間ごとと 4 週間以上ごとに家を掃除することはできません)、これらのイベントの確率を加算できます。 3 週間ごとに家を掃除する確率は 10%、4 週間以上掃除する確率は 22% です。これらの確率を加算すると、合計確率は 32% になります。
ここで、2 つのイベント A と B が素ではない、より一般的なケースを考えてみましょう。このシナリオでは、加算ルールが少し複雑になります。 A または B の確率は次の式で求められます。
P(A ∪ B) = P(A) + P(B) - P(A ∩ B)
ここで、A ∩ B は、A と B の両方にある結果を表します。A ∩ B の確率を減算することが重要です。A と B が重複する場合、A ∩ B の結果は 2 回カウントされるためです (A で 1 回、B で 1 回)。 )。
このバージョンの加算ルールを説明するために、喫煙習慣とシートベルトの着用に関する調査の例を使用してみましょう。この調査では 242 人の回答者に自分の習慣について質問し、その結果を表にまとめました。無作為に選択した回答者が喫煙もシートベルトも着用しない確率を求めたいと考えています。
A を禁煙の事象、B をシートベルトを着用しない事象とする。 A または B の確率 (A ∪ B) に興味があります。これを計算するには、A、B、および A ∩ B の個人確率が必要です。242 人のサンプルには喫煙しない人が 169 人いるため、喫煙しない確率は 242 人中 169 人です。シートベルトを着用しない確率は 242 のうち 114 です。ここで、喫煙もシートベルトも着用しない個人を表す A ∩ B の確率も必要です。表から、そのような個人が 81 人いることがわかります。
素ではないイベントの加算ルールを使用すると、次のように A または B の確率を計算できます。
P(A ∪ B) = P(A) + P(B) - P(A ∩ B)
値を代入すると、次のようになります。
P(A ∪ B) = 169/242 + 114/242 - 81/242
式を単純化すると、次のことがわかります。
P(A ∪ B) = 202/242
ここで、個々の確率を加算して、A または B の確率を直接計算してみましょう。この場合、テーブルの各セル内のイベントは相互に排他的であるため、素のイベントに対して加算ルールを使用できます。 A または B を表す 5 つのセルの確率を加算すると、次のようになります。
P(A ∪ B) = 88/242 + 81/242 + 9/242 + ... (残りの確率)
加算を実行すると、再び 202/242 の確率に到達します。
したがって、両方の方法で A または B が得られる確率は同じ 202/242 になります。