この線形関係を分析するには、賢明な方法で散布図上に線を引くことができます。この線は、最良適合線または回帰線として知られています。ここで、線形回帰の数学的側面を詳しく見てみましょう。重要なアイデアには残差の概念が含まれます。データ上に線を配置し、特定の X 値を選択します。次に、データセット内の実際の Y 値とライン上の予測された Y 値の差を計算します。この差は残差と呼ばれ、実際の高さと予想される高さの間の偏差を表します。データセット内の各点の残差を計算し、二乗して合計することにより、最小化できる量が得られます。
微積分を使用すると、この量を最小化し、最小二乗回帰直線の方程式を導き出すことができます。この線は点 (X バー、Y バー) を通過していることがわかります。ここで、X バーは X 値のサンプル平均であり、Y バーは Y 値のサンプル平均です。最小二乗回帰直線の傾きは r × (sy / SX) で求められます。ここで、r は相関係数、sy は Y 値の標準偏差、SX は X 値の標準偏差です。要約すると、最小二乗回帰直線の方程式がスライドの下部に示されています。
Drawing a line of best fit over a scatterplot. So easy and fun! If this vid helps you, please help me a tiny bit by mashing that 'like' button. For more stat...
散布図を作成するには、基本構文「qplot」を使用します。まず、横軸の x 値「virginica$sepal_length」を指定します。ここで、「virginica」はデータセット、「sepal_length」は列名です。次に、縦軸の y 値を「virginica$sepal_width」として指定します。次に、データをどのように表示するかを定義する必要があります。散布図の場合は、「geom = 'point'」を使用します。 「point」のスペルが正しいことを確認してください。これにより、基本的な散布図が生成されます。
軸ラベルを調整し、色やポイント サイズの変更などのカスタマイズ オプションを検討して、プロットを改善しましょう。 X 軸のラベルを変更するには、「xlab = 'がく片の長さ'」を使用します。同様に、「ylab = 'がく片幅'」を設定して、y 軸のラベルを変更します。ポイントの色を変更するには、「color = 'darkred'」を追加します。 R は洗練されているため、色を指定する構文は少し特殊であることに注意してください。
A quickstart guide to making scatterplots in R using the qplot() command. So easy! So much fun! If this vid helps you, please help me a tiny bit by mashing t...
この例は、私の以前のビデオで見覚えがあるかもしれません。 5 つの値を持つ小さなデータセットがあり、最適な直線を描画しました: Ŷ = 0.19X + 1.34。ここで、新しい入力値 x = 6 について考えてみましょう。回帰式を使用すると、対応する y 値を予測できます。この場合、予測は 2.54 です。この予測値は、(6, 2.54) の青い点として直線上にプロットできます。
データセット内の y 値に対応する x 値がある場合に、予測を行うことがあります。たとえば、x = 3 には点 (3, 1) があります。この場合、どのような種類のエラーについて話しているのでしょうか?これを残差と呼びます。データ ポイントの残差は、そのポイントでの実際の y 値と回帰直線によって予測された y 値の差です。 x = 3 では、実際の y 値は 1、予測された y 値は 1.97 となり、残差は -0.97 になります。これは、点 (3, 1) が回帰直線の約 0.97 単位下にあることを意味します。
回帰直線を使用して予測を行う場合、データセットの範囲を考慮することが重要です。データセットの範囲内または妥当な範囲内にある x 値についてのみ予測を行う必要があります。典型的な例は、年齢と体重です。グラフに示されているように、約 12 歳未満の人々には線形関係があります。この範囲内では、線形関係を使用して、年齢に基づいてかなり正確な体重予測を行うことができます。これは内挿と呼ばれ、データセットの範囲内の値を予測します。
Also discussed: residuals, interpolation and extrapolation. All the good stuff! If this vid helps you, please help me a tiny bit by mashing that 'like' butto...
Let's learn about the lm() and predict() functions in R, which let us create and use linear models for data. If this vid helps you, please help me a tiny bit...
皆さん、こんにちは。今日のビデオでは、qplot コマンドを使用して R の残差プロットを調べます。このチュートリアルでは主に基本的な R 関数を使用します。また、R でタスクを実行する標準的な方法である broom パッケージに関する別のビデオも作成中です。準備ができたら、そのビデオへのリンクを提供します。
It's easy to make beautiful residual plots in R with ggplot. Let's go!If this vid helps you, please help me a tiny bit by mashing that 'like' button. For mor...
さて、レバレッジに焦点を移しましょう。異常な x 値を持つ観測値はモデルの適合に影響を与える可能性が大きく、そのような観測値は高い影響力を持つと言われます。同じ 3 つのプロットをてこ比の観点から調べると、右端の 2 つのプロットにはてこ比の高い観測値が含まれていることがわかります。これらの外れ値には、大部分のデータから大幅に離れた x 値があります。逆に、最初のプロットは、x 値がデータセット内の他の値とよく一致しているため、てこ比が低い外れ値を特徴としています。
これらの概念はすべて数値化できますが、このビデオでは詳細には触れません。ただし、これをさらに詳しく調べたい場合は、正しい方向を示したいと思います。不一致は多くの場合、スチューデント化残差を使用して測定されます。スチューデント化残差は、モデルの予測からの y 方向の観測値の偏差を定量化する標準化された残差です。レバレッジは、予想される平均 x 値からの x 値の距離を測定するハット値を使用して評価できます。最後に、影響力はクック距離を使用して定量化されることがよくあります。
How should we think about unusual values in two-variable data sets? How is an unusual x-value different from an unusual y-value? In this vid, we'll learn all...
単一の説明変数を使用した最小二乗回帰モデルでは、決定係数がサンプルの相関係数 (R) の 2 乗に等しいことに注意することが重要です。言い換えれば、R 二乗 (大きな R 二乗) は小さな R 二乗に等しいということです。
高次元モデルの場合も同様です。 R 二乗は、観測された y 値と近似された y 値の間の相関の二乗に等しくなります。これは単一変数の場合にも当てはまりますが、通常はそのように考えることはありません。
R 二乗はしばしば誤解され、誤解されていることを言及する価値があります。そこで、その意味と制限を明確にしましょう。 R 二乗は、x の変動によって説明できる y の変動の割合を測定します。定義上、y 値の変動が大きいデータセットではこの値は低くなります。したがって、R 二乗が 0.93 である例で示されているように、R 二乗が 1 に近いモデルは必ずしも良好であるとは限りませんが、線形モデルはデータへの適合が不十分です。
R 二乗は回帰直線に関する変動のみを測定し、モデルの有用性や妥当性を直接示すものではないことに注意してください。線形モデルを適切に評価するには、予測値と比較したデータの変動性についての洞察を提供する残差標準誤差 (残差の標準偏差) などの複数のツールと要因を考慮します。さらに、線形近似には t 統計を使用し、高次元モデルではすべての回帰係数がゼロであるという帰無仮説を検定するには f 統計を使用して、回帰の有意水準を調べることができます。
Let's get to know R^2, the coefficient of determination, which measures the spread of observations about a regression line or other statistical model.If this...
In absolute terms, just how far are your results from their expected values?If this vid helps you, please help me a tiny bit by mashing that 'like' button. F...
観察されたカイ 2 乗統計量以上の値が得られる確率を求めるには、コマンド p chi-squared で表される R の累積分布関数を使用します。結果を 1 から引くと、p 値が得られます。この例では、p 値は約 0.31 であり、データが帰無仮説に対する強力な証拠を提供していないことを示しています。
p 値が大きいと帰無仮説が証明されないことに注意することが重要です。それは単にそれに対する証拠が欠如していることを示唆しているだけです。最後に、カイ二乗適合度検定を使用するのが適切な場合を考慮する必要があります。まず、これはカテゴリ変数に適用されます。量的変数がある場合は、ビン化することでそれらをカテゴリ変数に変換できます。さらに、データは単純なランダム サンプリングを通じて取得する必要があり、予想されるセル数は通常少なくとも 5 である必要があります。多くのビンがほぼ空の場合は、特定の状況におけるフィッシャーの正確確率検定などの代替方法の方が適切な場合があります。
Let's use the chi-squared distribution to test goodness of fit for categorical data. Yessss! If this vid helps you, please help me a tiny bit by mashing that...
線形回帰の概要
線形回帰の概要
こんにちは、みんな!今日は線形回帰について詳しく説明します。私たちは散布図を調べ、変数間の線形関係が観察される状況について議論してきました。言い換えれば、X 変数が増加すると、Y 変数は一定の割合で増加または減少する傾向があります。この現象は、グラフの左側に示されているように関係が緊密である場合と、右側に示されているように関係がより分散している場合について議論できます。
この線形関係を分析するには、賢明な方法で散布図上に線を引くことができます。この線は、最良適合線または回帰線として知られています。ここで、線形回帰の数学的側面を詳しく見てみましょう。重要なアイデアには残差の概念が含まれます。データ上に線を配置し、特定の X 値を選択します。次に、データセット内の実際の Y 値とライン上の予測された Y 値の差を計算します。この差は残差と呼ばれ、実際の高さと予想される高さの間の偏差を表します。データセット内の各点の残差を計算し、二乗して合計することにより、最小化できる量が得られます。
微積分を使用すると、この量を最小化し、最小二乗回帰直線の方程式を導き出すことができます。この線は点 (X バー、Y バー) を通過していることがわかります。ここで、X バーは X 値のサンプル平均であり、Y バーは Y 値のサンプル平均です。最小二乗回帰直線の傾きは r × (sy / SX) で求められます。ここで、r は相関係数、sy は Y 値の標準偏差、SX は X 値の標準偏差です。要約すると、最小二乗回帰直線の方程式がスライドの下部に示されています。
これらの値を手動で計算するのは面倒な場合があります。プロセスを簡素化するには、テクノロジーまたはソフトウェアを使用することを強くお勧めします。前のスライドに示した散布図に対応するデータを考えてみましょう。平均と標準偏差を計算すると、X バーが 5.4、Y バーが 2.4 などであることがわかります。相関係数は約 0.34 で、中程度から弱い正の相関があることを示しています。これらの値を代入すると、最小二乗回帰直線の方程式、0.19x + 1.34 が得られます。
これらの計算を手動で実行するのは面倒な場合があることを強調しなければなりません。テクノロジーを活用することは、はるかに効率的なアプローチです。このデータの最小二乗回帰直線がどのようになるかを示す例を次に示します。データポイントに適度に適合しているようです。
R の散布図と回帰直線
R の散布図と回帰直線
こんにちは、みんな!このクイック スタート ガイドでは、RStudio の ggplot2 パッケージを使用して美しいグラフィックを作成する方法を説明します。この説明は、統計学の 1 レベルの初心者に適しています。より強力で洗練された方法が利用可能ですが、ここでは最も直感的で簡単なアプローチに焦点を当てます。アヤメ データセットのサブセット、特にバージニカの花に対応する 50 行を操作します。私たちの目標は、がく片の長さとがく片の幅の散布図を作成することです。
始める前に、tidyverse パッケージまたはそのファミリーのパッケージを必ずロードしてください。まだインストールしていない場合は、「install.packages('tidyverse')」コマンドを使用してください。インストール中にエラーが発生した場合は、オンラインで解決策を検索することをお勧めします。パッケージがロードされたら、次に進む準備が整います。
散布図を作成するには、基本構文「qplot」を使用します。まず、横軸の x 値「virginica$sepal_length」を指定します。ここで、「virginica」はデータセット、「sepal_length」は列名です。次に、縦軸の y 値を「virginica$sepal_width」として指定します。次に、データをどのように表示するかを定義する必要があります。散布図の場合は、「geom = 'point'」を使用します。 「point」のスペルが正しいことを確認してください。これにより、基本的な散布図が生成されます。
軸ラベルを調整し、色やポイント サイズの変更などのカスタマイズ オプションを検討して、プロットを改善しましょう。 X 軸のラベルを変更するには、「xlab = 'がく片の長さ'」を使用します。同様に、「ylab = 'がく片幅'」を設定して、y 軸のラベルを変更します。ポイントの色を変更するには、「color = 'darkred'」を追加します。 R は洗練されているため、色を指定する構文は少し特殊であることに注意してください。
ラベルとポイントの色が調整されたので、さらに実験してみましょう。たとえば、「size = ...」を使用してポイント サイズを変更できます。さらに、プロットにメイン タイトルを追加できます。 「?qplot」を使用するか、オンラインで検索して、「qplot」の機能をさらに詳しく調べることをお勧めします。
さらに一歩進めて、回帰直線を追加してみましょう。 ggplot2 と Tidyverse の利点の 1 つは、既存のコマンドを拡張するだけでプロットにレイヤーを追加できることです。先ほど作成した「qplot」コマンドから始めて、「geom_smooth()」を追加します。これにより、近似された直線が生成されます。ここでは線形回帰に興味があるため、「method = 'lm'」を指定して線形モデルを使用します。特に統計の入門クラスでは、この引数を含めることをお勧めします。
回帰直線の色を変更したい場合は、「geom_smooth()」コマンド内に「color = 'darkgray'」を含めることができます。これにより、異なる色が表示されます。
最後に、「se = FALSE」を削除するとどうなるかという問題に取り組んでみましょう。この引数がないと、R はエラー リボンを表示します。大まかに言えば、このリボンは信頼区間を表します。これら 50 個の観測値がサンプリングされたデータセット内のすべてのプロットをグラフ化すると、回帰直線がこの誤差リボン内に収まり、不確実性の大まかな尺度が得られることが期待されます。
回帰直線を使用した予測の作成
回帰直線を使用した予測の作成
こんにちは、みんな!今日は回帰直線についてさらに詳しく見ていきます。これらを予測に使用する方法を検討し、予測エラーについて説明し、予測に使用することが不適切な場合について理解します。始めましょう!
この例は、私の以前のビデオで見覚えがあるかもしれません。 5 つの値を持つ小さなデータセットがあり、最適な直線を描画しました: Ŷ = 0.19X + 1.34。ここで、新しい入力値 x = 6 について考えてみましょう。回帰式を使用すると、対応する y 値を予測できます。この場合、予測は 2.54 です。この予測値は、(6, 2.54) の青い点として直線上にプロットできます。
データセット内の y 値に対応する x 値がある場合に、予測を行うことがあります。たとえば、x = 3 には点 (3, 1) があります。この場合、どのような種類のエラーについて話しているのでしょうか?これを残差と呼びます。データ ポイントの残差は、そのポイントでの実際の y 値と回帰直線によって予測された y 値の差です。 x = 3 では、実際の y 値は 1、予測された y 値は 1.97 となり、残差は -0.97 になります。これは、点 (3, 1) が回帰直線の約 0.97 単位下にあることを意味します。
回帰直線を使用して予測を行う場合、データセットの範囲を考慮することが重要です。データセットの範囲内または妥当な範囲内にある x 値についてのみ予測を行う必要があります。典型的な例は、年齢と体重です。グラフに示されているように、約 12 歳未満の人々には線形関係があります。この範囲内では、線形関係を使用して、年齢に基づいてかなり正確な体重予測を行うことができます。これは内挿と呼ばれ、データセットの範囲内の値を予測します。
ただし、この線形関係を使用して、40 歳の個人など、その範囲外の予測を行うのは誤りです。線形関係を適用して体重を予測した場合、結果は 340 ポンドを超えることになりますが、これは明らかに非現実的です。これは外挿と呼ばれるもので、避けるべきです。
要約すると、回帰直線を使用する場合は、予測誤差と制限を理解することが不可欠です。残差は、実際の値と予測値の間の差異を定量化するのに役立ちます。データセットの範囲内、またはその合理的な範囲内でのみ予測を行う必要があります。データセットの範囲外の値を予測する外挿では、不正確で信頼性の低い結果が生じる可能性があります。
lm() コマンドを使用した R での回帰と予測
lm() コマンドを使用した R での回帰と予測
こんにちは、みんな!今日は、組み込みデータセット「cars」を使用して R で回帰直線を計算します。まず、データセットを見て、「view」コマンドと「?」コマンドを使用してそれに関する情報を収集しましょう。 「cars」データセットは、1920 年代の車の速度と停止距離を表す 50 のエントリで構成されています。これは新しいデータではありませんが、線形関係を調べることができます。
データを視覚化するには、「tidyverse」ライブラリの「ggplot2」パッケージを使用します。必ず「library(tidyverse)」コマンドを使用してパッケージをロードしてください。 「tidyverse」パッケージをまだインストールしていない場合は、「install.packages('tidyverse')」コマンドを使用してインストールできます。
次に、「qplot」コマンドを使用してデータの散布図を作成します。 X 軸 (説明変数) に速度、Y 軸 (応答変数) に距離をプロットします。 「cars」データセットを使用しており、散布図が必要であることを示すには、「geom='point'」を使用します。プロットはほぼ線形の関係を示しており、線形回帰を実行することが合理的であることを示唆しています。
プロットに回帰直線を追加するには、「geom_smooth(method = 'lm', se = FALSE)」を使用します。これは、標準誤差バーのない線形回帰スムーザーを指定します。
さて、回帰直線の方程式を求めてみましょう。線形モデルを表す「lm」コマンドを使用します。構文は「y ~ x」パターンに従い、応答変数 (距離) が説明変数 (速度) に関連付けられます。結果を「model」という変数に代入します。 「summary(model)」と入力すると、係数、残差、多重 R 二乗や調整済み R 二乗などの統計的尺度を含む回帰直線に関する追加情報を取得できます。
「モデル」オブジェクトから特定の情報にアクセスしたい場合は、それをデータ フレームとして扱い、「$」を使用して必要な列を抽出できます。たとえば、「model$residuals」は 50 個の残差のベクトルを与えます。
「cars$residuals」と「cars$predicted」をそれぞれ使用して、残差と近似値を新しい列として元の「cars」データセットに追加することもできます。
最後に、「predict」関数を使用して、データセットに存在しない速度の予測を取得しましょう。最初の引数として「モデル」を指定し、(説明変数と一致する) 「速度」という名前の列を持つデータ フレームを作成します。 「data.frame」関数を使用して、希望の速度値を入力します。たとえば、12.5、15.5、17 などの速度の停止距離を予測できます。予測値が表示されます。
R の残差プロット
R の残差プロット
皆さん、こんにちは。今日のビデオでは、qplot コマンドを使用して R の残差プロットを調べます。このチュートリアルでは主に基本的な R 関数を使用します。また、R でタスクを実行する標準的な方法である broom パッケージに関する別のビデオも作成中です。準備ができたら、そのビデオへのリンクを提供します。
このチュートリアルでは、R の組み込み大気質データセットの変数「風」と「気温」に焦点を当てます。このデータセットには、1973 年 5 月から 9 月までのニューヨークの毎日の大気質測定値が含まれています。
まず、tidyverse パッケージをロードしましょう。 qplot 関数のみを使用しますが、一貫性を保つためにパッケージ全体をロードしましょう。
モデリングに入る前に、データを視覚化することが重要です。 「wind」を説明変数 (air_quality$wind) として、「temp」を応答変数 (air_quality$temp) として設定して、qplot を作成してみましょう。変数が 2 つあるため、R はデフォルトで散布図になります。
プロットを調べると、特に強いわけではありませんが、2 つの変数間の線形関係が観察できます。この関係を定量化するために、cor 関数を使用して相関係数を計算してみましょう。結果の相関係数は -0.458 となり、負の相関があることを示します。
線形関係が確立されたので、プロットに回帰直線を追加できます。線形モデルを示すように、method = "lm" を指定した geom_smooth 関数を含めることによって、qplot コマンドを変更します。わかりやすくするために、エラー リボンを除外しましょう。
回帰直線を追加すると、線形モデルの構築に進み、回帰直線の方程式を取得できます。関数 lm を使用して、線形モデルを「model」という変数に代入してみましょう。応答変数として「temp」、説明変数として「風」を指定します。データ フレームの名前を明示的に指定することが重要です。
モデルについてさらに洞察を得るには、summary 関数を使用してモデルの概要を取得します。この概要には、切片 (90.1349) や傾きの係数 (-1.23) などのさまざまな情報が表示されます。傾き係数の解釈では、風が単位増加するごとに、気温は約 1.23 単位低下します。ヘルプ ファイルを確認すると、時速マイルでの風や華氏での温度など、使用されている単位に関する情報が表示されます。
モデルから切片と風の係数を返す係数関数を使用して係数に直接アクセスできます。さらに、関数 Fitted.values を使用して近似値を取得し、各風の値の予測気温のベクトルを提供します。これを新しい列「予測」として大気質データ フレームに追加できます。
同様に、残差関数を使用して残差を取得すると、観測値と予測値の差が得られます。残差を別の列「残差」としてデータ フレームに追加すると、探索が完了します。データ フレームを再度視覚化して、新しい列の存在を確認できます。
近似値と残差の関係を評価するには、残差プロットを作成します。 qplot コマンドでは、近似値を x 軸変数 (fitted.values(model)) として設定し、残差を y 軸変数 (residuals(model)) として設定します。 qplot 引数で指定されたとおりに散布図が生成されます。
残差プロットの目的は、残差のパターンまたは傾向を特定することです。分散が一定である有効な線形モデルでは、プロットは認識できるパターンのない雲のようになります。 geom_smooth および method = "lm" を使用して回帰直線を追加すると、これを検証するのに役立ちます。また、標準誤差範囲を削除するために se = FALSE を設定します。
残差プロットを調べると、認識できるパターンや傾向がないことがわかり、モデルが線形関係を適切に捉えていることがわかります。 y = 0 で表される回帰直線は、この観察を裏付けています。
これで、qplot コマンドを使用して R で残差プロットを作成するチュートリアルは終了です。残差を視覚化して分析することで、線形モデルの適合性と適切性を評価できます。 R では同じ結果を得るには複数の方法があり、さまざまな構文や関数を調べることで言語の理解が深まることに注意してください。
異常値: レバレッジ、不一致、影響力
異常値: レバレッジ、不一致、影響力
こんにちは、みんな!今日は、線形回帰のコンテキストにおけるレバレッジ、不一致、影響力の概念を詳しく掘り下げていきます。単一の説明変数を使用したシナリオに焦点を当てますが、ここで説明した内容はすべて高次元にも直接適用されることに注意してください。
2 つの変数を含むデータセットでは、個々の観測値が X 値、Y 値、またはその両方で異常な特性を示す可能性があります。 「外れ値」という用語を使用する場合、データの一般的な傾向と比較して y 方向に大きく逸脱する観測値を特に指します。これらの外れ値は、不一致が大きい点です。
ただし、日常用語では、「外れ値」という用語をもっと大雑把に使用することがよくあります。この概念を説明するために、それぞれが 1 つの異常な観測値を含む線形傾向を示す 3 つのデータ セットを考えてみましょう。最初の 2 つのグラフでは、点が回帰直線から遠く離れた位置にあり、大きな不一致を示していることがわかります。 3 番目のケースでは、異常な値がデータ全体の傾向とかなりよく一致しているため、不一致のみに基づいて外れ値とはみなされません。
さて、レバレッジに焦点を移しましょう。異常な x 値を持つ観測値はモデルの適合に影響を与える可能性が大きく、そのような観測値は高い影響力を持つと言われます。同じ 3 つのプロットをてこ比の観点から調べると、右端の 2 つのプロットにはてこ比の高い観測値が含まれていることがわかります。これらの外れ値には、大部分のデータから大幅に離れた x 値があります。逆に、最初のプロットは、x 値がデータセット内の他の値とよく一致しているため、てこ比が低い外れ値を特徴としています。
モデルの適合度を大幅に変える観察は、大きな影響力を持つと考えられます。前のプロットの最初の 2 つの外れ値に戻り、影響というレンズを通してそれらを調べてみましょう。最初のグラフでは、影響度の低い外れ値が観察されます。この値をデータセットから削除すると、回帰直線は大幅に変化しません。注目すべきは、傾きが比較的変化していないことです。逆に、一番右のプロットでは、影響力の高い外れ値が見られます。データセットからそれを削除すると、回帰直線は大幅に変化します。通常、影響力のある観測値は、高い不一致と高い影響力の両方を示します。
これらの概念はすべて数値化できますが、このビデオでは詳細には触れません。ただし、これをさらに詳しく調べたい場合は、正しい方向を示したいと思います。不一致は多くの場合、スチューデント化残差を使用して測定されます。スチューデント化残差は、モデルの予測からの y 方向の観測値の偏差を定量化する標準化された残差です。レバレッジは、予想される平均 x 値からの x 値の距離を測定するハット値を使用して評価できます。最後に、影響力はクック距離を使用して定量化されることがよくあります。
幸いなことに、R には便利な方法が用意されているため、これらのメジャーを手動で計算する必要はありません。この点ではほうきパッケージが特に便利なので、できるだけ早くそれに関するビデオを作成する予定です。
R^2: 決定係数
R^2: 決定係数
今日のテーマは決定係数であるR二乗です。回帰直線または統計モデルの周りの観測値の広がりを測定します。これは、特に高次元の場合、説明変数の変化に起因する応答変数 (y) の分散の割合を表します。
線形モデルの場合、R 二乗は常に 0 と 1 の間に収まります。値が 1 に近いほど、データ ポイントが回帰直線の周りに密に集まっていることを示し、値が 0 に近いほど、広がりが大きいことを示します。
この概念をより明確にするために、3 つのデータセットを視覚化してみましょう。各セットの y 値の分散は 1 であり、それぞれのケースに対して回帰直線を描きました。 R 二乗が 0.2、0.5、0.8 と増加するにつれて、回帰直線の周囲のデータの広がりがますます狭くなることが観察されます。
それでは、より正確な定義を見てみましょう。 R 二乗は、近似された y 値の分散を観測された y 値の分散で割ったものとして計算されます。代数的には、これは、1 から残差の分散を引いた値を、観測された y 値の分散で割ったものとして表すことができます。技術的な意味では、次のように書くことができます。
R 二乗 = (残差の分散) / (観測された y 値の分散)
さらに単純化するために、この代数式を R-squared = 1 - (RSS / TSS) と略すことがよくあります。ここで、RSS は残差二乗和を表し、TSS は総二乗和を示します。
単一の説明変数を使用した最小二乗回帰モデルでは、決定係数がサンプルの相関係数 (R) の 2 乗に等しいことに注意することが重要です。言い換えれば、R 二乗 (大きな R 二乗) は小さな R 二乗に等しいということです。
高次元モデルの場合も同様です。 R 二乗は、観測された y 値と近似された y 値の間の相関の二乗に等しくなります。これは単一変数の場合にも当てはまりますが、通常はそのように考えることはありません。
R 二乗はしばしば誤解され、誤解されていることを言及する価値があります。そこで、その意味と制限を明確にしましょう。 R 二乗は、x の変動によって説明できる y の変動の割合を測定します。定義上、y 値の変動が大きいデータセットではこの値は低くなります。したがって、R 二乗が 0.93 である例で示されているように、R 二乗が 1 に近いモデルは必ずしも良好であるとは限りませんが、線形モデルはデータへの適合が不十分です。
同様に、R 二乗値が低いモデルが必ずしも悪いわけではありません。たとえば、R 二乗が 0.16 のモデルはデータに非常によく適合する可能性がありますが、データ自体には本質的に多くの自然変動とノイズが含まれています。
R 二乗は回帰直線に関する変動のみを測定し、モデルの有用性や妥当性を直接示すものではないことに注意してください。線形モデルを適切に評価するには、予測値と比較したデータの変動性についての洞察を提供する残差標準誤差 (残差の標準偏差) などの複数のツールと要因を考慮します。さらに、線形近似には t 統計を使用し、高次元モデルではすべての回帰係数がゼロであるという帰無仮説を検定するには f 統計を使用して、回帰の有意水準を調べることができます。
モデルを評価するときは、R 二乗のみに依存するのではなく、他の指標や分析と組み合わせて考慮することが重要です。
R でのカイ 2 乗計算
R でのカイ 2 乗計算
今日は、R でカイ二乗計算をいくつか実行します。カイ二乗検定は、適合度検定や分散を伴う仮説検定など、さまざまな目的の推論統計でよく使用されます。カイ二乗は、右に偏った連続確率変数です。その期待値は「r」で示され、その分散は 2r です。ほとんどのアプリケーションでは、r は正の整数ですが、整数以外の場合もあります。
r の値が増加すると、カイ二乗分布の確率密度関数 (PDF) が右にシフトし、中心極限定理により釣鐘曲線に似始めます。パラメーター r は、カイ二乗分布の自由度として知られています。
R には、カイ二乗分布を計算するための 4 つの基本関数があります。
rchisq(r, n): この関数は、自由度 r のカイ二乗分布から n 個の乱数値を生成します。たとえば、rchisq(5, 16) は、5 自由度のカイ 2 乗から 16 個のランダム値を生成します。
pchisq(x, r): これは、自由度 r のカイ二乗分布の累積分布関数 (CDF) です。この関数は、その分布内で x 以下の値をランダムに取得する確率を返します。たとえば、pchisq(8, 5) は、自由度 5 のカイ 2 乗で 8 以下の値を取得する確率 (約 0.844) を与えます。
qchisq(p, r): これは、自由度 r のカイ二乗分布の逆 CDF です。 x 以下の値を取得する確率が p に等しい x 値を返します。たとえば、qchisq(0.5, 12) は、自由度 12 のカイ 2 乗の中央値 (約 0.5) を与えます。
dchisq(x, r): この関数は、x における r 自由度のカイ二乗分布の確率密度関数 (PDF) の値を与えます。 PDF は理論的には重要ですが、数値計算ではあまり使用されません。
ここで、これらの関数を使用していくつかのサンプル問題を解決してみましょう。
問題 1: 15 自由度のカイ二乗で 12 ~ 18 の x 値をランダムに取得する確率を計算します。
確率は約 0.4163 です。
問題 2: 自由度 20 のカイ 2 乗からのランダムな描画が x より大きい確率が 80% であるとすると、x の値を求めます。
x の値は約 14.57844 です。
問題 3: 4 自由度のカイ二乗分布から 1 万回の描画をシミュレートし、結果のヒストグラムを生成します。
x <- rchisq ( 4 , 10000 )
library ( ggplot2 )
qplot ( x , geom = "histogram" , col = I ( "black" ) )
これにより、シミュレートされた値のヒストグラムが生成されます。
これが、R でのカイ 2 乗計算を理解して適用するのに役立つことを願っています。
カイ二乗分布を理解する
カイ二乗分布を理解する
今日は、データ サイエンスを学ぶ過程で統計的推論を学習する際に遭遇する基本的な概念であるカイ二乗分布について説明します。カイ二乗分布は、一連の独立した数値観測値が期待値からどの程度乖離しているかを測定する場合に発生します。
これをより正式に説明するには、観測値から期待値を引き、それを標準偏差で割ることにより、各観測値の Z スコアを計算します。これらの各 Z スコアを二乗して合計すると、カイ二乗確率変数が得られます。この変数は、期待値からの観測値の全体的な偏差を定量化します。
たとえば、すべての観測値が期待値と完全に一致する場合、カイ二乗統計量はゼロになります。結果が期待値からさらに離れると、カイ二乗値が増加します。 Z スコアを二乗することで、低い偏差と高い偏差が互いに打ち消し合わないことが保証されます。
自由度 r のカイ二乗分布は、この確率変数の標本分布を表します。自由度 (r) は、独立した観測値または Z スコアの数に対応します。確率変数は分布と同じ名前を共有しますが、通常はコンテキストによってそれらが区別されることに注意してください。
各 Z スコアは連続確率変数であるため、それらの二乗和はカイ二乗分布に従います。カイ二乗分布の確率密度関数は、非負のカイ二乗値の場合にのみ正になります。個々の Z スコアが非常に高い値になる可能性はますます低くなっているため、分布は右に偏っています。
5 自由度のカイ二乗分布の典型的なグラフは、この強い右方向の歪みを示しています。そのサポート (可能な結果のセット) は厳密に正の値で構成されます。覚えておくべき 2 つの重要な事実は、自由度 r のカイ二乗分布の期待値は r に等しいということと、R が少なくとも 2 であると仮定すると、分布のピークは R から 2 を引いたところで発生するということです (それ以外の場合はゼロです)。 )。
自由度の数が増加すると、中心極限定理に従ってカイ二乗分布は正規分布に近づきます。この近似は、R が 50 に等しいカイ二乗分布を示すスケッチで観察できますが、それでもわずかに右への歪みが見られます。
最初のスライドから明らかなように、カイ二乗分布は推測統計で頻繁に使用されます。一般的なアプリケーションには、正規分布を仮定した分散の有意性検定、カテゴリ変数の適合度検定、独立性のカイ二乗検定などがあります。
カイ二乗分布の確率を計算するには、累積分布関数 (CDF) を使用できます。 F(x) として示される CDF は、指定されたカイ二乗分布で x 以下の値を取得する確率を提供します。これは視覚的に表現するとよりよく理解できます。影付きの領域は確率を表します。
R では、pchisq() コマンドを使用して、対象の値と自由度の数を指定してカイ二乗計算を実行できます。たとえば、自由度 5 のカイ二乗分布で 8 以下の値を取得する確率を計算するには、pchisq(8, 5) を使用し、結果は約 0.843 になります。
R のカイ二乗分布に関する詳細や計算に興味がある場合は、これらのトピックを取り上げた特定のビデオを用意しています。さらに詳しい説明については、お気軽にチェックしてください。
適合度テスト
適合度テスト
皆さん、今日はカイ二乗分布を使用した適合度検定について説明します。大規模大学の統計クラスの大学生の学年などのカテゴリ変数があり、それが特定の分布 (新入生 50%、二年生 30%、三年生 10%、四年生 10%) に従っていると伝えられるとします。この分布がサンプルデータに適合するかどうかをテストするにはどうすればよいでしょうか?
まず、帰無仮説と対立仮説を設定しましょう。帰無仮説は、統計クラスの全生徒の母集団が主張された分布 (1 年生 50%、2 年生 30% など) に従っていることを示しますが、対立仮説は異なる分布を仮定します。これらの仮説間をテストするために、サンプル データで観測された数を帰無仮説の下で期待される数と比較します。
観測されたカウントを「o」、予想されるカウントを「e」と表します。 (o - e)^2 / e の合計であるカイ二乗と呼ばれる検定統計量を計算します。帰無仮説が真の場合、この検定統計量は、自由度 k - 1 のカイ二乗分布に従います。ここで、k はカテゴリの数です。
この例では 4 つのカテゴリがあるため、3 つの自由度を持つカイ二乗分布を使用します。検定統計量が大きいほど、サンプル データと帰無仮説との互換性が低く、適合度が低いことを示します。
有意性検定を実行してカイ二乗を計算するには、帰無仮説に基づいて期待される数を計算する必要があります。サンプルサイズが 65 の場合、パーセンテージに 65 を乗算して、予想カウント 32.5、19.5、6.5、および 6.5 を取得します。
次に、各セルの観測数から期待数を引き、結果を二乗し、期待数で割って、すべてのカテゴリでこれらの値を合計することにより、カイ二乗検定統計量を計算します。この場合、検定統計量は 3.58 です。
観察されたカイ 2 乗統計量以上の値が得られる確率を求めるには、コマンド p chi-squared で表される R の累積分布関数を使用します。結果を 1 から引くと、p 値が得られます。この例では、p 値は約 0.31 であり、データが帰無仮説に対する強力な証拠を提供していないことを示しています。
p 値が大きいと帰無仮説が証明されないことに注意することが重要です。それは単にそれに対する証拠が欠如していることを示唆しているだけです。最後に、カイ二乗適合度検定を使用するのが適切な場合を考慮する必要があります。まず、これはカテゴリ変数に適用されます。量的変数がある場合は、ビン化することでそれらをカテゴリ変数に変換できます。さらに、データは単純なランダム サンプリングを通じて取得する必要があり、予想されるセル数は通常少なくとも 5 である必要があります。多くのビンがほぼ空の場合は、特定の状況におけるフィッシャーの正確確率検定などの代替方法の方が適切な場合があります。
前述の考慮事項とは別に、カイ二乗適合度検定を使用するかどうかを決定する際に留意すべき点がさらにいくつかあります。これらには次のものが含まれます。
独立性: 各カテゴリ内の観測値は互いに独立している必要があります。この仮定はテストの妥当性にとって重要です。観察結果が独立していない場合は、別の統計検定の方が適している可能性があります。
サンプル サイズ: 固定されたルールはありませんが、サンプル サイズが大きいほど、より信頼性の高い結果が得られる傾向があります。サンプルが大きい場合、予想される分布からのわずかな偏差であっても、統計的に有意な結果が得られる可能性があります。ただし、サンプル サイズが非常に大きい場合は、予想される分布からのわずかな逸脱であっても重大な結果が得られる場合があるため、実際的な重要性も考慮することが重要です。
パラメータの推定: 場合によっては、各カテゴリの予想される数は正確にはわかっていませんが、データから推定されます。仮説検定に使用したのと同じデータからパラメーターを推定すると、偏った結果が得られる可能性があります。このような状況では、調整または代替方法を検討する必要があります。
複数の水準を持つカテゴリ変数: これまで説明したカイ二乗適合度検定は、指定された分布に対する単一のカテゴリ変数の適合を検定する場合に適しています。ただし、複数のカテゴリ変数があり、それらの同時分布を調べたい場合は、独立性のカイ二乗検定や対数線形モデルなどの他の検定の方が適している可能性があります。
カイ二乗適合度検定は、観測データが予想される分布に従っているかどうかを調べるのに便利なツールであることは注目に値します。ただし、不一致の背後にある理由に関する情報は提供されず、どの特定のカテゴリが相違に最も寄与しているかは特定されません。
他の統計テストと同様に、結果の解釈には、コンテキスト、背景知識、および分析の特定の目的を考慮する必要があります。テストの制限と前提を理解し、テストの結果だけに依存するのではなく、テストを包括的な分析の一部として使用することが重要です。
要約すると、カイ二乗適合度検定は、観察されたデータとカテゴリ変数の予想分布との間の適合性を評価するための貴重な方法です。観察された数と期待された数を比較し、検定統計量を計算し、p 値を決定することにより、データと帰無仮説との適合性を評価できます。ただし、特定の状況におけるテストの妥当性と関連性を確保するには、仮定、サンプルサイズ、その他の要因を考慮することが重要です。