いくつかの例を見てみましょう。 R で利用できる「mtcars」データセットは、きちんとしたデータセットです。各行は 1 台の車を表し、各列は車の特定の特性を表します。理想的には、きちんとしたデータセットには、各変数の意味を説明し、測定単位に関する情報を提供するデータ辞書が付属している必要があります。データ辞書には、記録の詳細など、データセットに関するメタデータも含まれる場合があります。
Tidy data is just the best. Let's learn all about it!If this vid helps you, please help me a tiny bit by mashing that 'like' button. For more #rstats joy, cr...
Some essential ideas in statistical research. We discuss randomization, control, blinding, placebos, and more. If this vid helps you, please help me a tiny b...
Let's talk about sampling techniques! What is a random sample, and why are they desirable? What is sampling bias, and what are some of the ways it can creep ...
これを説明するために、例を考えてみましょう。 1,200 人の有権者を対象とした調査で、候補者 A が候補者 B を 8 パーセントポイントリードしていることが判明したとします。この 8 ポイントの差を統計、つまり候補者 A がどのくらいの差で勝つと予想されるかの推定値として見ることができます。一方、選挙の実際の結果、つまり候補者間の真の支持率の差がパラメータを表します。
場合によっては、統計量とパラメータが完全に一致することがあります。ただし、多くの場合、それらはある程度異なります。たとえば、選挙の実際の結果は、候補者 A が 7.8 パーセント ポイントの差で勝利したことを示す可能性があります。このような偏差はランダムな偶然によって発生する可能性がありますが、統計の品質を評価する際に問題を引き起こす可能性があります。
これはバイアスの概念につながります。 P ハットとして表される統計は、平均して、P として示される対応するパラメーターと等しい場合、不偏であるとみなされます。言い換えれば、優れた統計は、体系的にパラメーターを過大評価または過小評価すべきではありません。ここで「偏見」という用語を専門的な意味で使用しており、偏見や差別とは無関係であることに注意することが重要です。
Often, a statistic doesn't exactly match up with the parameter it's supposed to be estimating. How can we tell whether it's a good statistic or not? If this ...
Let's learn to construct frequency distributions! We compute class widths, count frequencies, then determine relative and cumulative frequencies. All the goo...
Let's plot some data! Histograms, frequency polygons, and ogives are three of the most fundamental sorts of single-variable plots available to us. If this vi...
Let's get started with R and RStudio! This vid shows some of the most basic functions that you'll need in order to start working with data in this environmen...
次に、プロットに焦点を当てましょう。ヒストグラムを作成するには、次のように「x」引数を使用して x 軸上の変数を指定します。「qplot(x = wait, data =faithful, geom = 'histogram')」。これにより、base R の hist コマンドによって生成されたヒストグラムよりも見栄えの良いヒストグラムが生成されます。
Let's learn about qplot(), the easiest way to produce beautiful graphics in R. This video is suitable for introductory statistics students - those with codin...
Stem plots are an easy way to visualize small-ish data sets.If this vid helps you, please help me a tiny bit by mashing that 'like' button. For more #rstats ...
Stem-and-leaf plots are easy with R! If this vid helps you, please help me a tiny bit by mashing that 'like' button. For more #rstats joy, crush that 'subscr...
きちんとしたデータ
きちんとしたデータ
皆さん、今日はデータ サイエンス アプリケーションで特に便利で一般的な形式である整ったデータについて説明します。スプレッドシートに情報を記録するにはさまざまな方法がありますが、整理整頓されたデータは 3 つの単純な原則に従って構成され、有用性が確保されます。
まず、整然としたデータの各行は、1 つの観測値のみを表します。これは、各行が単一の実験ユニットのすべての測定値と詳細を取得することを意味します。
次に、各列は 1 つの変数のみを表します。変数はすべての実験ユニットにわたって測定された属性であり、各列は特定の特性または側面に焦点を当てています。
最後に、スプレッドシート全体が 1 種類の観測値のみで構成されている必要があります。これにより、スプレッドシート内のすべてのデータが同じ種類の実験または研究に関連することが保証されます。
データを整理することの重要な利点の 1 つは、拡張が容易であることです。医療試験の新しい被験者など、新しい観察結果やデータ ポイントを取得した場合は、スプレッドシートの下部に新しい行を追加するだけで済みます。同様に、追加の変数を含める場合は、既存の列の右側に新しい列を追加できます。
いくつかの例を見てみましょう。 R で利用できる「mtcars」データセットは、きちんとしたデータセットです。各行は 1 台の車を表し、各列は車の特定の特性を表します。理想的には、きちんとしたデータセットには、各変数の意味を説明し、測定単位に関する情報を提供するデータ辞書が付属している必要があります。データ辞書には、記録の詳細など、データセットに関するメタデータも含まれる場合があります。
一方、「ggplot2」パッケージに含まれる「diamonds」データセットは、整然としたデータのもう 1 つの例です。各行は 1 つのラウンドカット ダイヤモンドに対応し、各列はダイヤモンドの特性を表します。
ただし、すべてのデータセットが整然としているわけではありません。たとえば、「tidyverse」パッケージ内の「建設」データセットは、ユニット数と地域という 2 つの変数が複数の列にまたがっているため、整理整頓されていません。
実際のスプレッドシートには特定の目的に応じた独自の規則があることが多いため、データが整頓されていないことが必ずしも悪いわけではないことに注意することが重要です。ただし、データ サイエンスや多数の観測値間の変数間の関係を調査する場合、多くの場合、視覚化やモデリングには整理されたデータの方が便利です。
最後に、整理されていないデータの一般的な形式である分割表について触れたいと思います。分割表には、カテゴリ変数のさまざまな組み合わせの数が表示されます。これらは便利ですが、変数ごとに個別の列とそれぞれの数を含む整然としたデータに変換すると、データがより管理しやすくなり、分析が容易になります。
要約すると、整ったデータは、スプレッドシート全体で、行ごとに 1 つの観測値、列ごとに 1 つの変数、および 1 つの種類の観測値という原則に従います。これらの原則に従うことで、整ったデータは、データ サイエンス アプリケーションでのデータの探索、視覚化、モデリングを容易にする構造化され組織化された形式を提供します。
実験と観察研究
実験と観察研究
皆さん、こんにちは。今日は統計学の 2 つの基本的な調査研究である実験と観察研究について説明します。それらの違いを理解することが重要です。それぞれのタイプとその主な特徴を見てみましょう。
実験: 実験では、サンプルのさまざまな部分にさまざまな処理が適用され、その結果生じる変化が観察されます。主な目的は、原因と結果を特定することです。治療グループ間に異なる結果がある場合、私たちはそれらの違いを特定の治療に帰することを目指しています。実験研究には、変数に積極的に影響を与えて操作することが含まれます。
観察研究: 一方、観察研究では、研究者は反応にいかなる影響も与えようとせずに、対象となる母集団の特徴を測定します。最も一般的なタイプの観察研究は標本調査であり、研究者は情報を観察して記録することによってデータを収集します。焦点は、観察されたデータ内の関係とパターンを理解することにあります。
実験と観察研究を区別するために、いくつかの例を見てみましょう。
医師のグループが、新しいコレステロール低下薬を高血圧患者に投与してその効果を研究しています。医師たちは治療法を適用し、その結果を分析しているので、これは実験です。
霊長類学者が自然の生息地で10頭のチンパンジーを観察し、彼らの社会的行動を詳細に記録した。霊長類学者は行動に影響を与えることなく、行動を観察し記録しているだけであるため、これは観察研究です。
ある家具職人が 500 人の男性と 500 人の女性に連絡し、各個人に次の選挙での希望候補者について尋ねます。これも観察研究の例です。世論調査者は、参加者やその回答を操作することなくデータを収集しています。
観察研究は、前の例のように、分析目的で男性と女性に別々に接触して比較することができます。ただし、治療法は適用されていないため、観察研究のままです。
特定の特性が優れた実験を定義します。ランダム化され、制御され、複製可能である必要があります。
実験では、1 つのグループを対照として、2 つ以上の治療グループ間で比較が行われることがよくあります。対照群は、特定の介入を受けている群と比較するためのベースラインを提供します。
たとえ測定可能な効果がなかったとしても被験者が治療に反応するプラセボ効果に対処するために、実験者は対照群にプラセボを含めます。プラセボとは、砂糖の錠剤や教育研究のための無関係な授業など、実際には効果がないことが知られている治療法です。
ランダム化と対照に加えて、被験者を治療グループに割り当てるには、可能な限り二重盲検であることが有利です。これは、被験者もデータ収集者も、誰がどの治療グループに属しているかを認識していないことを意味します。二重盲検法によりバイアスが排除され、公平な観察と測定が保証されます。
考慮すべき重要な実験計画が 3 つあります。
これらの設計タイプを理解することは、研究者が実験を効果的に計画し、データから有意義な結論を引き出すのに役立ちます。適切な実験計画を実装することで、研究者は発見の妥当性と信頼性を高めることができます。
要約すると、実験と観察研究は、統計学における 2 つの基本的な種類の研究です。実験では、さまざまな治療法を適用し、その効果を観察して原因と結果を判断します。一方、観察研究は、反応に積極的に影響を与えることなく、特性の観察と測定に焦点を当てます。
優れた実験には、ランダム化、制御、再現性が組み込まれている必要があります。無作為化により治療グループへの被験者の公平な割り当てが保証され、制御により交絡変数が最小限に抑えられ、反復により結果の検証が可能になります。さらに、対照群を含めることとプラセボ効果を考慮することは、実験計画の重要な側面です。
完全ランダム化計画、ランダム化ブロック計画、マッチドペア計画などのさまざまな実験計画により、特定の研究課題に対処し、さまざまな研究シナリオに対応する柔軟性が得られます。
実験と観察研究の違いを理解し、適切な実験計画を採用することで、研究者は厳密な研究を実施し、有意義な結論を導き出し、それぞれの分野の知識の進歩に貢献することができます。
研究研究を計画するときは、研究課題、変数の性質、利用可能なリソースを慎重に考慮して、実験であれ観察研究であれ、最適なアプローチを決定することを忘れないでください。
統計的サンプリングの概要
統計的サンプリングの概要
みなさん、良い一日を!今日、私たちは統計的サンプリングの魅力的な世界を深く掘り下げます。理想的なシナリオでは、調査研究の実施には、国勢調査と同様に、対象となる母集団全体からデータを収集することが含まれます。ただし、実際には、これは非現実的または不可能であることがよくあります。次の調査上の質問について考えてみましょう: ニューヨークのハトの平均寿命はどれくらいですか?新しい薬は45歳以上の患者のLDLコレステロールを下げるのに効果的ですか?有権者の何パーセントが大統領の業績を支持していますか?いずれの場合も、人口全体からデータを収集することは現実的ではありません。したがって、より管理しやすいアプローチであるサンプリングに目を向けます。
サンプリングには、母集団全体を代表して結論を引き出すために母集団からサブセットまたはサンプルを選択することが含まれます。ただし、すべてのサンプリング方法が同様に信頼できるわけではありません。サンプリングに対する間違ったアプローチをいくつか説明しましょう。まず、研究者が知っている個人からの個人的な証言で構成される事例証拠は、懐疑的に受け止められるべきです。たとえば、「この薬は家族全員に効果がありました」または「今日は大統領を支持する 3 人と話しました」などの発言のみに依存すると、偏った結果につながる可能性があります。同様に、近くの公園で行われる政治世論調査や教授の学生を使った心理学研究など、簡単にアクセスできる情報源からデータが収集される便利なサンプリングでは、参加者の非ランダム選択によるバイアスが生じる可能性があります。
調査結果の妥当性を確認するには、ランダムなサンプルを使用することが重要です。無作為サンプルでは、ランダムなプロセスによって母集団からどの個人が含まれるかが決定され、各メンバーが選択される確率は等しくなります。無作為標本の目的は、標本から得られた統計量が母集団パラメータを体系的に過大評価または過小評価する場合に発生する標本バイアスを回避することです。ランダムな選択プロセスにより個々のサンプルが母集団とは異なる可能性があるため、ランダムなサンプルから得られた統計には依然としてばらつきがあることに注意することが重要です。ただし、平均すると、統計は母集団パラメータと同じになります。
いくつかの種類のランダムサンプリングを見てみましょう。最も単純で直感的なアプローチは、同じサイズのすべてのサンプルが等しい確率で選択される単純ランダム サンプル (SRS) です。これは通常、母集団メンバーのリストを取得し、それらに番号を割り当て、乱数発生器を使用して必要な数の個人を選択することによって実現されます。層別サンプルでは、年齢、性別、人種などの重要な特徴に基づいて、母集団がグループまたは層に分類されます。次に、各グループから単純な無作為サンプルが抽出され、母集団内の異なるサブグループを個別に分析できるようになります。クラスターサンプルでは、母集団は自然に発生するグループまたは類似のグループまたはクラスターに分割されます。クラスターのランダムなサンプルが選択され、選択されたクラスターのすべてのメンバーがサンプルに含まれます。多段階サンプリングでは、クラスターを選択し、各クラスター内でランダムにサンプルを取得し、必要に応じてこのプロセスを繰り返すことで、これらの手法を組み合わせます。
ここで、これらの概念をいくつかの例に適用し、使用されるサンプリング方法を特定してみましょう。最初の例では、世論調査員が 400 人の男性と 400 人の女性にランダムに連絡を取り、次の選挙で希望する候補者について尋ねます。これは層化サンプリングの一例であり、各グループ内で単純な無作為サンプルを採取しながら男性と女性の両方に関する情報を収集します。 2 番目の例では、研究者が 50 の高校をランダムに選択し、それらの学校内のすべての生徒に数学の技能試験を実施します。これはクラスター サンプルを表しており、学校レベルで無作為化が行われ、選択された学校内で国勢調査が実施されます。
3 番目の例では、自動車ディーラーが顧客リストを使用して以前に自動車を購入した 200 名をランダムに選択し、満足度調査のために各顧客に連絡します。これは、200 人の顧客からなる各グループが等しい確率で選択されるため、単純なランダム サンプルの典型的な例です。最後に、医療グループは米国の 35 の病院を無作為に選択し、各病院から無作為に 50 人の患者のサンプルを採取して、治療費を調査します。このシナリオでは、複数段階のサンプルを示します。最初にクラスター (病院) がランダムに選択され、続いて選択された各病院内で単純なランダム サンプルが選択されます。
結論を導く前に、体系的サンプルとして知られる別のサンプリング方法について触れておく価値があります。無作為抽出の形式ではありませんが、特定の状況下では代替として使用できます。系統的サンプルでは、母集団のメンバーが事前に決定されたパターンを使用して選択されます。たとえば、食料品店は、顧客満足度を測定するために、店を出る 20 人ごとに調査を行うことができます。系統的サンプルは、母集団が均質である場合、つまりその中に関連するパターンが存在しない場合には、無作為サンプルと同じくらい効果的です。ただし、サンプリング パターンが母集団内の既存のパターンと一致しないように注意する必要があります。これによりバイアスが生じる可能性があります。
要約すると、統計的サンプリングは、母集団全体からデータを収集することが非現実的または不可能な場合に不可欠なツールです。単純なランダム サンプル、階層化サンプル、クラスター サンプル、多段階サンプルなどのランダム サンプリング方法は、サンプリングのバイアスを軽減し、代表的で偏りのない結果が得られる可能性を高めるのに役立ちます。無作為標本にはばらつきが生じますが、そこから導き出される統計は、平均して母集団パラメータと一致します。信頼性が高く正確な調査研究を実施するには、さまざまなサンプリング方法の長所と限界を理解することが重要です。
統計における偏りとばらつき
統計における偏りとばらつき
こんにちは、みんな!今日は、統計におけるバイアスと変動性の概念について詳しく説明します。統計的推論の最も重要な目標は、サンプル データに基づいて母集団に関する結論を導き出すことです。これを達成するために、私たちは多くの場合、サンプルの数値的記述である統計を使用して、母集団の数値的記述である対応するパラメーターを推定します。
これを説明するために、例を考えてみましょう。 1,200 人の有権者を対象とした調査で、候補者 A が候補者 B を 8 パーセントポイントリードしていることが判明したとします。この 8 ポイントの差を統計、つまり候補者 A がどのくらいの差で勝つと予想されるかの推定値として見ることができます。一方、選挙の実際の結果、つまり候補者間の真の支持率の差がパラメータを表します。
場合によっては、統計量とパラメータが完全に一致することがあります。ただし、多くの場合、それらはある程度異なります。たとえば、選挙の実際の結果は、候補者 A が 7.8 パーセント ポイントの差で勝利したことを示す可能性があります。このような偏差はランダムな偶然によって発生する可能性がありますが、統計の品質を評価する際に問題を引き起こす可能性があります。
これはバイアスの概念につながります。 P ハットとして表される統計は、平均して、P として示される対応するパラメーターと等しい場合、不偏であるとみなされます。言い換えれば、優れた統計は、体系的にパラメーターを過大評価または過小評価すべきではありません。ここで「偏見」という用語を専門的な意味で使用しており、偏見や差別とは無関係であることに注意することが重要です。
いくつかの一般的なバイアスの原因が調査に影響を与える可能性があります。標本バイアスは、母集団のすべてのメンバーが無作為標本で選択される機会が等しいわけではない場合に発生します。たとえば、電話世論調査で携帯電話が除外されている場合、結果が高齢者に偏り、人口全体の見解と異なる可能性があります。無回答バイアスは、調査への参加を拒否した人と参加した人が異なる場合に発生し、収集されたデータに潜在的なバイアスが生じることになります。
非対称な質問や偏った言葉遣いは、回答者に特定の方法で回答するよう影響を与え、結果に偏りをもたらす可能性があります。社会的望ましさのバイアスは、回答者が社会的に受け入れられる、または肯定的に見られる回答を提供する傾向がある場合に発生します。たとえば、個人が自分の歯科衛生習慣について尋ねられた場合、社会的望ましさのバイアスにより、歯磨きの回数を過大評価する可能性があります。
実験研究では、制御の欠如や盲検化などの要因からバイアスが生じる可能性があります。実験グループが適用される治療法を超えて異なる場合、結果にバイアスが生じる可能性があります。ランダム化は、均一性を確保し、偏りを減らすために非常に重要です。
不偏統計はパラメータを正確に推定することを目的としていますが、変動性は、異なるランダムサンプル間で統計が異なる傾向を説明します。不偏抽出法を使用した場合でも、偶然のみにより、各ランダム サンプルから異なる統計が得られる可能性があります。変動性はバイアスの一種ではないことに注意することが重要です。世論調査が選挙結果を正確に予測しなかったからといって、必ずしも世論調査に欠陥があったことを意味するわけではありません。
バイアスと変動性の違いを視覚化するために、雄牛の目にダーツを投げることを想像してください。変動性とバイアスが低いということは、ダーツがターゲットに一貫して命中し、ターゲットの周りにしっかりと集まっていることを意味します。変動性が高くてもバイアスが低いと、ダーツは依然として的の周りに集中したまま散在することになります。逆に、変動性が高くバイアスが高いと、ダーツが広範囲に分散し、一貫して的を外してしまいます。ただし、最悪のシナリオであっても、研究が一度的中する可能性はあり、高いバイアスとばらつきにもかかわらず、時折正しい結果が得られる可能性があることを示しています。
統計の品質を評価し、研究結果を正確に解釈するには、バイアスと変動性を理解することが不可欠です。
度数分布の構築
度数分布の構築
こんにちは、みんな!今日は、定量的データを要約して分析するための度数分布の構築について詳しく説明します。一連の数値観測値を取得する場合、データの形状、中心、広がりを理解することが不可欠です。これを達成するには、単にデータを見つめるだけでは十分ではありません。それを有意義な方法で要約する必要があり、そこで度数分布が登場します。
度数分布では、データをいくつかのクラスまたは間隔に分割し、各クラスに分類される観測値の数を決定します。値の範囲が 11 から 25 である例を考えてみましょう。度数分布を作成するには、この範囲を 5 つのクラスに分割し、各クラスの観測値の数を数えます。
区間表記に使用される表記では、左側のハード括弧 [ は各区間に左端点が含まれることを示し、右側のソフト括弧 ) は右端点が含まれないことを示します。これは、14、17、20、23 などの境界値が常に 1 つ上のクラスに入るということです。さらに、クラス幅はすべて等しく、この場合はそれぞれ 3 単位です。
頻度分布を調べることで、データについてある程度の洞察を得ることができます。データの中心は 18 付近にあるようで、頻度が高い 17 ~ 20 クラスに該当します。残りのデータは、この中央のスパイクの周りで相対的な対称性を示しています。
ここで、度数分布を作成するプロセスを段階的に見てみましょう。まず、使用するクラスの数を決定する必要があります。厳密なルールはありませんが、通常は 5 ~ 20 のクラスから始めるのが適切です。使用するクラスが少なすぎると、分布の詳細が十分に捕捉されず、データを理解する能力が妨げられます。一方、使用するクラスが多すぎると、クラスあたりのカウントが少なくなり、データの形状を識別することが困難になります。
クラス数を決定したら、クラス幅の計算に進みます。これを行うには、最大値から最小値を減算してデータの範囲を計算します。次に、範囲をクラスの数で割ります。すべての観測値がいずれかのクラスに確実に収まるようにクラス幅を切り上げることが重要です。切り捨てにより、一部のデータ ポイントが分布から除外される可能性があります。
次に、各クラスの下限を見つけます。最初のクラスの下限として最小値から開始します。次に、クラス幅を追加して 2 番目のクラスの下限を取得し、以下同様に続きます。各クラスの上限は、次のクラスの下限のすぐ下にあります。
最後に、データセットを調べて、各クラスに分類される観測値の数を数えます。たとえば、特定のデータセットに対して 8 つのクラスを使用して頻度分布を構築するシナリオを考えてみましょう。データの範囲を計算すると、115.5 - 52.0 = 63.5 となります。この範囲を 8 で割ると、クラス幅 7.9 が得られ、これを 8.0 に切り上げます。最小値 52 から開始して 8.0 を加算して、各クラスの下限 (52、60、68 など) を取得します。
データセットを調べて、各クラスに該当する観測値をカウントすることで、頻度を取得します。クラスは重複してはならず、クラスの幅は同じままである必要があることに注意することが重要です。これにより、各観測値が単一のクラスに確実に割り当てられます。
度数分布についての理解を深めるために、クラスの中点、相対度数、累積度数の列を追加して表を拡張できます。クラス中間点は、各間隔内の平均値を表します。各クラスの下限と上限の平均を取ることでそれらを計算します。たとえば、52 から 60 までのクラスの中間点は (52 + 60) / 2 = 56 で、60 から 68 までのクラスの中間点は (60 + 68) / 2 = 64 となります。
相対頻度は、データセットの合計サイズに対する各クラス内の観測値の割合についての洞察を提供します。相対頻度を計算するには、各クラスの頻度をデータセットの合計サイズで割ります。たとえば、頻度 11 をデータ セット サイズ 50 で割ると、相対頻度は 0.22 になります。同様に、8 を 50 で割ると、相対頻度は 0.16 になります。
累積頻度は、各間隔とその前のすべての間隔の頻度を合計することによって取得されます。最初の間隔の累積頻度 (52 から 60) は、その頻度 (11) と同じままです。次の間隔の累積頻度を見つけるには、その頻度 (8) を前の間隔の累積頻度に加算します。たとえば、2 番目の間隔 (60 から 68) の累積頻度は 11 + 8 = 19 です。間隔ごとにこのプロセスを継続し、頻度と以前の累積頻度を合計して、後続の間隔の累積頻度を取得します。
すべての頻度の合計がデータセットの合計サイズ (この場合は 50) に等しくなる必要があることに注意することが重要です。相対度数の合計は常に 1 になる必要があり、データ セット全体を示します。最後に、累積度数の列の最後の値がデータ セットのサイズと一致する必要があります。
度数分布表をクラス中間点、相対度数、累積度数の列で拡張すると、データ分布をより包括的に理解できるようになります。これにより、データの中心的な傾向、割合、累積割合を、より組織的かつ洞察に富んだ方法で観察できるようになります。
要約すると、度数分布の構築には、データをクラスに分割し、クラス幅を決定し、下限を計算し、各クラスの観測値をカウントし、結果の度数を分析することが含まれます。クラスの中間点、相対度数、累積度数などの追加情報を追加してテーブルを拡張すると、データ セットの特性についての理解をさらに深めることができます。
ヒストグラム、頻度ポリゴン、およびオージーブ
ヒストグラム、頻度ポリゴン、およびオージーブ
皆さん、今日はグラフ化データの世界に飛び込みます。ここでは、単一変数の分布を視覚的に表現したヒストグラム、頻度多角形、オージブについて調べていきます。これらのさまざまなタイプのディスプレイを検討する際に、前のビデオで作成した拡張周波数分布を例として使用します。記憶をリフレッシュするために、約 52 ~ 116 の範囲の 50 個の値で構成されるデータセットから始めました。データセットを同じ幅の 8 つのクラスに分割し、頻度分布を構築するために各クラスの値の数を決定しました。
単一変数データセットの最も重要で一般的に使用される視覚的表現である頻度ヒストグラムから始めましょう。ヒストグラムでは、横軸にデータ値、縦軸に度数をプロットします。具体的には、横軸に 56、64、72 などのクラスの中間点にラベルを付けます。各中間点の上に、そのクラスの周波数に対応する高さのバーを描きます。たとえば、最初のいくつかのクラスの度数が 11、8、9 などの場合、バーはそれぞれの高さになります。
ヒストグラムは面積を使用して頻度を表すことに注意することが重要です。領域が大きいほど、データ量が多くなります。プロットを見ると、より多くのデータが含まれる領域に自然に目が集まり、データセットの形状、中心、広がりを直感的に理解できるようになります。たとえば、このヒストグラムでは、データが 112 ではなく 56 付近に集まっている可能性が高いことがわかります。さらに、ヒストグラムを描画するときは、棒グラフとは異なり、隣接するクラス間にギャップを残さないことに注意してください。ここで、通常、カテゴリ変数を表すバーの間にギャップが存在します。
ヒストグラムは、水平軸に中間点ではなくクラスの終点がラベル付けされて描画されることがありますが、これはまったく問題ありません。どのラベル付けアプローチが使用されているかに関係なく、グラフは同じ情報を伝えます。別のオプションは、ヒストグラム上に頻度ではなく相対頻度をプロットすることです。これにより、同様の形状が得られます。唯一の違いは、相対周波数値に対応するために横軸のスケールが変更されていることです。
ヒストグラムに似たもう 1 つの視覚的表示方法は、周波数ポリゴンです。ここでも、横軸にデータ値をプロットし、縦軸に周波数を表します。ただし、バーを描画する代わりに、クラスごとに点をプロットします。これらの点は、横軸の中点と縦軸のそれぞれの周波数に対応します。次に、これらの点を線で結びます。多角形が完全に見えるようにするために、最初の中点の下に追加の点を追加し、最後の中点の上にもう 1 つの点を追加し、それぞれ 1 クラス幅だけ拡張します。
最後に、累積度数を表示するオージーブを使用してデータを表すことができます。オージーブを構築するときは、上位クラスの境界を横軸にプロットし、累積頻度を縦軸にプロットします。最初の下位クラスの境界に対応する横軸上の点から始めます。 ogive の目的は、任意の x 値について、分布内でその値を下回るデータ ポイントの数を示すことです。
これにより、ヒストグラム、頻度ポリゴン、およびオージーを使用したデータのグラフ化の概念が明確になったと思います。これらの視覚的な表示は、単一変数データセットの分布に関する貴重な洞察を提供します。
初めての RStudio セッション
初めての RStudio セッション
皆さん、こんにちは。今日のセッションでは、初めてスタジオをオープンすることに興奮しています。私たちの主な焦点は、基本的な機能を探索し、この環境で快適に作業できるようになることにあります。初めてスタジオを開いたとき、3 つの異なるペインに気づくでしょうが、このビデオでは主に左端のペインのコンソール タブに焦点を当てます。ただし、他のペインについては、進行中に簡単に説明し、より詳細な説明は今後のビデオで取り上げます。
まず、R の関数電卓として機能するコンソール タブを調べてみましょう。加算、減算、乗算、除算などの基本的な算術演算を実行できます。たとえば、8 プラス 12 を計算すると、答えは 20 になります。答えは角かっこなしで表示されることに注意してください。これについては、このビデオで後ほど説明します。さらに、R ではコマンド ラインにスペースを入力すると無視されるため、読みやすくするためにスペースを追加できます。
R には、平方根関数などの幅広い組み込み関数が用意されています。たとえば、9 の平方根は 3 です。同様に、三角関数演算や絶対値計算などを実行できます。通常、関数名は直感的にわかりますが、わからない場合は、Google で簡単に検索すると正しい構文を見つけることができます。
RStudio の便利な機能の 1 つは、上矢印キーを使用して以前のコマンドを呼び出す機能です。これにより、以前のコマンドを取得し、必要に応じて編集することができます。たとえば、9 ではなく 10 の平方根を計算したい場合は、上矢印キーを押して 9 を削除し、10 を入力すると、約 3.162278 が得られます。
デフォルトでは、R は小数点以下 6 桁の精度を表示します。ただし、必要に応じて設定メニューでこの設定を調整できます。
それでは、変数の定義に進みましょう。 R では、左矢印 ( <- ) または等号 ( = ) である代入演算子を使用して変数に値を代入できます。割り当てには左矢印を使用することをお勧めします。たとえば、「x」という名前の変数を定義し、それを 3 に設定してみましょう。割り当て後、右上ペインの環境タブに、割り当てを思い出させるために「x = 3」と表示されます。コンソールに変数名「x」を入力して Enter キーを押すと、R はその値 (この場合は 3) を出力します。
数値と同様に、変数を使用して算術演算を実行できます。たとえば、3 プラス x を計算すると、結果は 6 になります。R は演算の順序を尊重するため、1 プラス 2 倍 x のような式は 9 ではなく 7 と評価されます。
変数をベクトルとして割り当てると、R はさらに強力になります。ベクトルを作成するには、連結関数 (c) を使用し、その後に括弧と含めたい値を続けます。たとえば、ベクトル「y」を値 1、5、6、9 に割り当ててみましょう。ベクトルを定義した後、「y」と入力して Enter キーを押すと、その値 1、5、6、9 が表示されます。各要素に 2 を加算する (y + 2)、平方根 (sqrt(y)) などの数学関数を適用するなど、ベクトルに対して算術演算を実行できます。
算術演算に加えて、ベクトルを要約することもできます。たとえば、ベクトルの中央値 (median(y)) または合計 (sum(y)) を計算できます。 R には、ベクトルを操作するための多数の関数が用意されています。特定の関数がわからない場合は、Google で簡単に検索すると、必要な情報が得られます。RStudio には、先に進む前に言及しておきたい 2 つの追加機能があります。一つ目は、
コンソールの上部にある「履歴」タブ。それをクリックすると、最新のコマンドのリストにアクセスできます。履歴をスクロールして以前のコマンドを確認して再利用できるため、時間を節約できます。 RStudio を終了して後で戻った場合でも、コマンド履歴は引き続き利用できます。
履歴からコマンドを再利用するには、コマンドをダブルクリックするだけでコンソールに表示されます。その後、必要な編集を行ってコマンドを再評価できます。この機能を使用すると、以前のコマンドを簡単に再確認して変更できます。
2 番目に強調したい機能は、変数に複数の文字で構成される名前を付ける機能です。たとえば、「numbers」という名前の変数を作成し、値 1、2、3、4、5、および 6 を割り当てたいとします。これを行うには、「numbers <- c(1, 2, 3)」と入力します。 、4、5、6)」をコンソールに表示します。代入が完了すると、「数値」の平方根 (sqrt(numbers)) の計算など、変数に対してさまざまな演算を実行できます。
次に、データ セットの読み込みに進み、読み込まれたデータに対して実行できるアクションのいくつかを調べてみましょう。 RStudio の右下のペインには、ファイル ブラウザがあります。データ セットの場所に移動し、データ セットを選択します。たとえば、「body」データセットを選択してみましょう。 [データセットのインポート] ボタンをクリックしてデータセットを RStudio にインポートします。
インポート プロセス中に、データ セットのスプレッドシート形式のプレビューが表示されます。右上のペインの環境タブに、「body_data」という新しいオブジェクトが表示されます。このオブジェクトは、300 個の観測値と 15 個の変数を含むデータ フレームを表します。基本的に、これは 300 行と 15 列からなるテーブルです。列を並べ替えたり、水平にスクロールしてさらに多くの列を表示したり、Excel ファイルと同様に扱うことにより、データ セットを操作できます。
データ フレーム内の特定の変数を操作するには、ドル記号 ($) 表記を使用して変数を指定する必要があります。たとえば、「age」変数に興味がある場合は、コンソールに「body_data$age」と入力できます。入力を開始すると、RStudio によって使用可能な変数のリストが表示されます。 Enter キーを押すと、データ セット内のすべての年齢のリストが表示順に表示されます。
「body_data$age」などの特定の変数を分離したら、他の変数と同じようにその変数に対して操作を実行できます。たとえば、コンソールに「mean(body_data$age)」と入力すると、データセット内のすべての個人の平均年齢を計算できます。この場合、平均年齢は47.0歳と求められる。
平均に加えて、適切な関数を使用して、標準偏差、中央値、合計、最小値、最大値などの他の統計を調べることができます。今後のビデオではこれらのデータ操作テクニックをさらに詳しく掘り下げ、統計分析における R の力を探っていきます。
これで、スタジオの開き方、基本機能、変数とデータセットの操作の概要は終わりです。 RStudio のより高度な機能とテクニックを探求する今後のビデオにご期待ください。
R のヒストグラムと頻度ポリゴン
R のヒストグラムと頻度ポリゴン
皆さん、こんにちは。今日のビデオでは、qplot コマンドを使用して、R で視覚的に魅力的なヒストグラムと周波数ポリゴンを作成します。 R でグラフィックスを作成するにはさまざまな方法がありますが、個人的には ggplot2 パッケージが最も見栄えの良い表示を生成すると信じています。まず、ggplot2 で qplot コマンドを使用します。
デモンストレーションでは、R に組み込まれている「忠実」データセットを使用します。このデータセットは、米国イエローストーン国立公園のオールド フェイスフル間欠泉からの数分単位の噴火時間と噴火間の待機時間の 272 件の観測値で構成されています。 。
「待機中」変数のヒストグラムと頻度ポリゴンをプロットするには、まず ggplot2 パッケージをインストールする必要があります。まだインストールしていない場合は、「install.packages('ggplot2')」と入力してインストールできます。インストールしたら、「library(ggplot2)」と入力して新しいセッションを開始するたびにパッケージをロードする必要があります。
次に、プロットに焦点を当てましょう。ヒストグラムを作成するには、次のように「x」引数を使用して x 軸上の変数を指定します。「qplot(x = wait, data =faithful, geom = 'histogram')」。これにより、base R の hist コマンドによって生成されたヒストグラムよりも見栄えの良いヒストグラムが生成されます。
ただし、改善できる点がいくつかあります。まず、グラフにラベルとメイン タイトルを追加します。 x 軸ラベルには「xlab」、y 軸ラベルには「ylab」、メイン タイトルには「main」という引数を使用できます。例: "qplot(x = 待機中、データ = 忠実、geom = 'ヒストグラム'、xlab = '待機時間'、ylab = '周波数'、main = 'オールド フェイスフル')"。
次に、バーの外観について説明します。デフォルトでは、バーは一緒に走っているように見える場合があります。それらを区別するには、「color = 'darkblue'」などの「color」引数を使用して境界線の色を追加します。さらに、「fill = 'lightblue'」のように、「fill」引数を使用してバーの塗りつぶしの色を変更できます。
ここで、ヒストグラムの代わりに周波数ポリゴンを作成したい場合は、「geom」引数を「geom = 'freqpoly'」に変更できます。これにより、X 軸に同じ変数を使用して周波数多角形がプロットされます。この場合は「fill」引数は適用できないため、忘れずに削除してください。
「bins」引数を使用してヒストグラム内のビンの数を調整することもできます。デフォルトでは、R は 30 個のビンを使用しますが、これを「bins = 20」などの別の値に変更して、ビンの数を増やしたり減らしたりすることができます。
最後に、データを指定する別の方法について触れたいと思います。 「$」表記を使用する代わりに、「qplot(x = wait, data =faithful, geom = 'histogram')」のように、「data」引数を使用してデータセットを直接指定できます。これは、複数の変数を操作する場合に便利です。
これで、qplot コマンドを使用して R でヒストグラムと頻度ポリゴンを作成するチュートリアルは終了です。さまざまな設定を自由に探索して試して、視覚的に魅力的で有益なグラフィックを作成してください。
茎葉図
茎葉図
皆さん、こんにちは。今日のディスカッションでは、幹葉プロットの概念について説明します。幹葉プロットは、単一変数の分布を視覚化するためのシンプルで有益な方法を提供します。視覚化中に損失なくすべての情報を保持するため、小規模なデータ セットに特に効果的です。それらをより深く理解するために、いくつかの例を見てみましょう。
一般的なステム プロットは垂直バーで構成され、バーの右側の各桁がデータ ポイントを表します。これらの数字は各観測値の最後の有効数字を表し、バーの左側の値は上位の桁を表します。たとえば、指定された分布では、初期値は 27、29、および 32 です。
上部のキーに注目してください。小数点はスラッシュの 1 桁右です。幹葉プロットには小数が直接組み込まれません。代わりに、キーは位の値を示します。このようにして、27、2.7、または 0.27 を区別できます。
ここで、次のデータセットの幹葉プロットを作成してみましょう。ここで、10の位が葉、小数点左2桁が幹となります。したがって、最初のいくつかのエントリは 34.3、34.9 となり、次の語幹 35/1 に進みます (小数点はスラッシュと揃います)。
完全なプロットは次のとおりです: 34.3 34/9 など。
対応する葉がない場合でも、最初と最後の間のすべての茎が含まれることに注意することが重要です。これにより、データの形状を公平な方法で観察できるようになります。たとえば、値 39.0 と 39.1 は 37.5 のすぐ隣ではなく、間にスペースが生じます。
ただし、茎葉プロットを構築する場合、2 つの潜在的な問題が発生する可能性があります。まず、上記の例のように、データに含まれる有効数字が多すぎる場合、最後の桁を葉として使用すると、幹の数が 400 を超えることになります。これを回避するには、データを四捨五入することをお勧めします。この場合、百の位に四捨五入すると、適切な数のステムが得られます。
2 番目の問題は、別の例に示すように、ステムあたりのデータ ポイントが多すぎる場合に発生します。これに対処するには、葉には 1000 の位を使用し、茎には 10 の位と 100 の位を使用することが適切と思われます。ただし、これにより生じるステムは 3 つだけになります (2.1、2.2、および 2.3)。技術的には正確ですが、このプロットは望ましい分布形状を表すことができません。
この問題を解決するには、ステムを分割します。各語幹を複製し、前半を 0 ~ 4 の最後の数字 (葉) に割り当て、後半を 5 ~ 9 の数字に割り当てると、より適切な表現が得られます。たとえば、ステム 2.1 は 2.10 ~ 2.14 (前半) と 2.15 ~ 2.18 (後半) に分割されます。これにより、以前の問題が解決され、データのより有益なビューが提供されます。
この追加の詳細は、右に傾いて見えた前の表示とは対照的に、分割されたステムが対称的な分布を強調表示しているこの例に見られるように、明らかになる可能性があります。茎葉プロットは、すべての重要な情報を維持しながら、データ分布に関する貴重な洞察を提供します。
R の茎葉プロット
R の茎葉プロット
こんにちは、みんな!今日は、茎と葉のプロットの魅力的な世界を探索します。ステムリーフプロットはステムプロットとも呼ばれ、単一変数のデータを視覚的に表現したものです。データの形状、中心、広がりについての洞察が得られるため、小規模なデータセットに特に適しています。理解を深めるために、2 つの例を取り上げます。
まず、組み込みの「忠実な」データセットを詳しく見てみましょう。このデータ セットは、米国の有名なオールド フェイスフル間欠泉の噴火の長さと待ち時間に関する 272 件の観測値で構成されています。すべての測定値は秒単位で記録されます。 R では、ステム プロットを作成する基本コマンドは便宜的に「stem」という名前が付けられています。 「忠実な」データセットから分析したい変数の名前を指定する必要があります。待機時間変数から始めましょう。
ステム プロットの上部にあるキーを確認します。小数点はスラッシュの 1 桁右に位置します。ステム プロットを見ると、データ セット内の最初の 2 つの値 (43 と 45) を特定できます。特に、R は値の範囲に対応するために自動的にステムを分割します。たとえば、40 代は、最初のステムでは 40 ~ 44 の範囲に分割され、2 番目のステムでは 45 ~ 49 の範囲に分割されます。
ステムの自動分割をオーバーライドしたい場合は、「scale」引数を利用できます。この引数を使用すると、倍率を指定してステム プロットの高さを調整できます。この場合、ステムの分割を防ぐために、「scale = 0.5」を設定することでステムの高さを半分にすることができます。視覚的な魅力を高めることはできないかもしれませんが、「スケール」引数の使用についての貴重な実例として役立ちます。
さて、2 番目の例に移りましょう。私たちは、調査研究の参加者による視覚刺激に対する反応時間 (ミリ秒単位) の 20 件の観察からなるデータセットを持っています。前と同様に、基本的なステム プロットから始めます。この場合、小数点はスラッシュの右側 2 桁になります。たとえば、「3/1」は「310」を表します。
このプロットでは多少の丸めが発生することに注意してください。データセットの最小値は実際には 309 であり、情報がわずかに失われます。前の例と同様に、「scale」コマンドを使用してデフォルト設定を変更できます。スケーリング係数を調整して実験してみましょう。たとえば、「スケール = 0.5」を設定すると、元のステム プロットと比較して、データ セットの形状についての直観がさらに低下する可能性があります。ただし、ステム プロットの長さを 2 倍にすると、データの分布をより深く理解できるようになります。
この変更されたプロットでは、ステムが 1 桁から 2 桁に移行していることがわかります。たとえば、データ セットで表される最初のいくつかの値を読み取ると、307 と 309 が観察されます。さらに、次にリストされている語幹は「31」ではなく「32」です。これは、「30」と「31」で始まるデータが 1 つのステムに結合されるために発生します。その結果、情報が失われる可能性があります。それでも葉は順番に増えていきます。
ステム内の値のスキップを回避し、すべてのデータを漏れなく取得するには、スケーリング係数をさらに調整する必要があります。この場合、ステム プロットを元のバージョンより 5 倍長くすることができます。これにより、ステムをスキップせずにすべてのデータを含み、目的の表現に合わせたステム プロットを実現できます。
この最終的な表示には完全なデータ セットが含まれていますが、長すぎるため、最適な選択ではない可能性があります。データセットの形状、パターン、および根底にある傾向を認識することは困難になります。代替案を考慮すると、明確で有益なステム プロットに最適なオプションは、ステム分割をオーバーライドしないオプションか、最初に作成した元のステム プロットのいずれかです。
これらのオプションのいずれかを選択することで、データの本質を捉えることと、簡潔で視覚的に解釈可能な表現を維持することとの間でバランスが取れます。幹葉プロットの目的は、データの分布に対する直観と洞察を提供し、中心的な傾向、変動、外れ値を特定できるようにすることであることを覚えておくことが重要です。
結論として、茎葉プロットは小規模なデータセットを分析するための貴重なツールです。これらは、データの形状、中心、広がりを把握するための簡単で視覚的な手段を提供します。スケーリング係数とステム分割を実験することで、特定の要件を満たすようにプロットを調整できます。ただし、完全なデータセットを取得することと、データの分析と解釈を容易にする明確な表現を維持することとの間のバランスをとることが重要です。
2 つの例を通じて幹葉プロットを調査し、その使用法とカスタマイズについて貴重な洞察を得ることができました。この知識を活用すれば、茎葉プロットを他のデータセットに適用して、その隠されたストーリーを解明し、データ分析に基づいて情報に基づいた意思決定を行うことができます。