プログラミングチュートリアル - ページ 13

 

階乗、順列、組み合わせ


階乗、順列、組み合わせ

皆さん、今日は階乗、順列、組み合わせなどの数え方の概念を見ていきます。それはすべて、基本的なカウント原理に帰着します。つまり、1 つのイベントが M 通りに発生し、2 番目のイベントが N 通りに発生する場合、連続する 2 つのイベントは合計 M 回 N 通りに発生する可能性があるということです。重要なのは、最初のイベントの結果は、2 番目のイベントで可能な結果の数に影響を与えないことです。

例から始めましょう。メニューに 6 種類のサラダと 8 種類のスープが含まれているとします。スープとサラダの組み合わせは何通りありますか?まずサラダを選択します。これにより 6 つの可能性が得られます。これらの選択肢ごとに、8 つの可能なスープがあります。したがって、最終的には 8 つのグループが 6 つ存在し、合計 48 通りの組み合わせが可能になります。

この考え方は、より長い一連のイベントにも適用されます。たとえば、メニューにサラダ 6 品、スープ 8 品、メインディッシュ 15 品、デザート 3 品が含まれている場合、6 x 8 x 15 x 3 となり、可能な食事は 2,160 通りになります。

場合によっては、物、人、物を配置できる方法の数を数えなければなりません。たとえば、4 人のグループが並ぶ方法は何通りありますか?基本的なカウント原理を再度使用することができます。列の最初の人には 4 つの異なる選択肢があり、2 人目には 3 つの選択肢があり、3 人目には 2 つの選択肢があり、4 人目には 1 つの選択肢があります。これらの数を掛け合わせると、4 × 3 × 2 × 1 があり、4 人を一列に配置できる方法は 24 通りになります。この計算は非常に一般的であるため、階乗という特別な名前を付けています。

一般に、N! で示される数値 N の階乗は、最初の N 個の正の整数の積です。たとえば、3!は 1 倍 2 倍 3、5 です!は、1 x 2 x 3 x 4 x 5 などです。階乗は急速に増加し、指数関数的増加よりもさらに速くなります。たとえば、10!すでに300万を超えています。

もう少し複雑な例を考えてみましょう。 12 頭の馬がレースに参加すると仮定します。そして、それらがどのように勝ち、順位を決め、ショーを見せることができるか、つまり最初の 3 つの順位をどのように得ることができるのかを知りたいと考えます。基本的な計数原理をもう一度適用できます。優勝者は 12 名、2 位は 11 名、3 位は 10 名が可能です。これらの数値を掛けると、12 × 11 × 10 があり、可能な組み合わせは 1,320 通りになることがわかります。

これを一般化するために、N 個のアイテムがあり、最初の K 個のアイテムの配置数をカウントしたいとします。基本的な数え方の原則を使用すると、最初の項目には N 個の選択肢があり、2 番目の項目には N - 1 個の選択肢があり、合計 K 個の用語が得られるまで続きます。最後の項は N - K + 1 になります。これを NPK と呼びます。これは、N 階乗を (N - K) 階乗で割ったものに等しくなります。

順序に関係なく K 個のオブジェクトのグループを選択できる方法の数を数えたい場合、別の状況が発生します。これを組み合わせといいます。たとえば、レースに出走する 12 頭の馬のうち 3 頭が薬物検査のためにランダムに選ばれる場合、馬を選択する方法は何通りありますか?この場合、順序は関係ありません。 NCk という表記を使用します。これは、順序を考慮せずに、合計 N 個の物から K 個の物を選択できる方法の数を表します。これを計算するには、N selected K = NPK /(K 階乗) という式を使用します。与えられた例では、12 を計算して 3 を選択する必要があります。これを行うには、少しの代数操作を適用できます。 12 selected 3 は、12 permute 3 を 3 階乗で割ったものとして書き換えることができます。さらに単純化すると、12 になります。 / (12 - 3)! ※3!。計算を実行すると、12 が 3 を選択すると 220 に等しいことがわかります。したがって、ランダム薬物検査のために 12 頭の中から 3 頭の馬を選択する方法は 220 通りあります。

一般に、N 選択 K は、N 階乗を (N - K) 階乗×K 階乗で割ったものとして表すことができます。この式を使用すると、さまざまなシナリオの組み合わせの数を計算できます。

順列や組み合わせを扱う場合、順序が重要かどうかが重要な問題となります。順序が重要である場合、それは順列の問題です。順序が問題ではない場合、それは組み合わせの問題です。

いくつかの例を見てみましょう。 20 人の生徒のクラスから 4 人で委員会を組織したいとします。この場合、選択の順序は重要ではないため、20 4 を選択することを計算する必要があります。この式を使用すると、20 4 を選択することは 20 に等しいことがわかります。 / (20 - 4)! * 4!、これは 48,845 に簡略化されます。したがって、20 人の生徒のクラスから 4 人の委員会を構成する方法は 48,845 通りあります。

次に、別のシナリオを考えてみましょう。 4 人からなる委員会に会長、副会長、書記、会計を含める必要がある場合、選出順序が重要になります。ここでは、20 permute 4、つまり 20 を計算する必要があります。 / (20 - 4)!。計算を実行すると、116,280 通りの配置が可能なことがわかります。

少し状況が異なりますが、20 人の生徒から 4 人の委員会を組織し、1 人を委員長に指名する必要があるとします。これは 2 つのステップを含むハイブリッド問題です。まず、社長を選出します。これは 20 通りの方法で行うことができます。次に、順番は関係なく、残りの 3 人の委員を選出します。これは、3 を選択 19 に相当します。したがって、可能性の合計は 20 回 (3 を選択 19) になります。これを計算すると、考えられる結果は 19,382 通りあることがわかります。

要約すると、順列と組み合わせには、イベントが発生する方法やオブジェクトが配置される方法の数を数えることが含まれます。順序が重要かどうかを理解することは、問題を解決するための適切な方法を決定する上で非常に重要です。基本的な計数原理を適用し、順列と組み合わせの公式を利用することで、さまざまなシナリオでの可能性を効果的に計数できます。

Factorials, Permutations, and Combinations
Factorials, Permutations, and Combinations
  • 2020.07.04
  • www.youtube.com
Let's learn to count. Factorials, permutations, and combinations all rely on the terribly important Fundamental Counting Principle. Make it your friend! If t...
 

条件付き確率と乗算規則


条件付き確率と乗算規則

皆さん、今日は条件付き確率と乗算ルールの概念を詳しく掘り下げていきます。まずは例を使って条件付き確率の考え方を説明しましょう。

ある研究では、研究者は1,250人の成人に連絡し、それぞれに犬と猫のどちらが好きかを尋ねました。まず、このサンプルから犬を好む回答者をランダムに選択する確率を計算してみましょう。回答者 1,250 人のうち、犬を好む人は 589 人でした。したがって、犬を好む人をランダムに選択する確率は 589/1,250 で、これは 0.471 または 47.1% に相当します。

次に、55 歳以上の回答者が猫よりも犬を好む確率を計算してみましょう。表の「55+」というラベルの付いた列に注目します。このコラムでは、合計 325 人のうち、犬を好む大人が 143 人います。したがって、その列から犬を好む人をランダムに選択する確率は 143/325、つまり約 0.44 または 44% になります。

2 つの確率が同じではないことに注意してください。これは条件付き確率の概念を強調しています。条件付き確率は、イベント A が発生したことがすでにわかっているときにイベント B が発生する確率として定義されます。この例では、イベント B (犬を好む) の確率だけでなく、A を前提とした B の確率 (回答者が 55 歳以上であることを考慮して犬を好む) も計算しました。

条件付き確率を含む別の例を考えてみましょう。トランプのデッキがあり、そこから 2 枚のカードが置き換えられることなく引き出されます。最初に引いたカードがキングの場合、2 番目に引いたカードもキングである確率を求めます。ここでは 2 つのイベントがあります。A は最初に引いたカードがキングであるイベント、B は 2 番目のカードがキングであるイベントです。

最初のイベントが発生した場合 (キングを引いた場合)、残りのカードは 51 枚になり、そのうち 3 枚がキングです。したがって、2 番目のキングを引く確率は 3/51、つまり約 0.059、つまり 5.9% になります。この確率は、最初のカードがキングである確率 (4/52 または 0.077) とは異なることに注意することが重要です。

条件付き確率は、2 つのイベント A と B が両方とも発生する確率を計算する場合に特に便利です。ここで乗算のルールが登場します。イベント A と B が両方とも連続して発生する確率は、次の式で求められます: P(A および B) = P(A) × P(B|A)。最初のイベントがすでに発生していると仮定して、最初のイベントが発生する確率に 2 番目のイベントが発生する確率を乗算したものとして解釈します。

たとえば、補充なしで標準デッキから 2 人のキングを引く確率を計算してみましょう。最初のカードがキングである確率は 4/52 で、最初のカードがキングであるとすると、2 番目のカードがキングである確率は 3/51 です。これらの確率を掛け合わせると、両方のカードがキングである確率は約 0.0045 または 0.45% であることがわかります。

ここで、顧客がレストランでお酒と前菜を注文するシナリオを考えてみましょう。顧客がアルコールを注文する確率 (イベント A) は 40%、前菜を注文する確率 (イベント B) は 30%、アルコールと前菜の両方を注文する確率 (イベント A と B) は次のとおりであることがわかりました。 20%。

顧客が前菜を注文した場合にアルコールを注文する条件付き確率 (P(A|B)) を計算するには、乗算ルールを使用できます。指定された値を代入すると、P(A および B) = 20%、P(B) = 30% となります。乗算ルールの式を整理すると、P(A|B) を解くことができます。

P(A|B) = P(A および B) / P(B)

指定された値を代入すると、P(A|B) = 20% / 30% = 2/3、つまり約 0.667 となります。したがって、前菜を注文した場合、顧客がアルコールを注文する確率は 3 分の 2 です。

同様に、顧客がアルコールを注文したとして、前菜を注文する確率 (P(B|A)) を計算してみましょう。再度、乗算ルールを使用すると、次のようになります。

P(B|A) = P(A および B) / P(A)

指定された値を代入すると、P(B|A) = 20% / 40% = 1/2 または 0.5 となります。したがって、顧客がアルコールを注文した場合、前菜を注文する確率は 2 分の 1 です。

これら 2 つの条件付き確率は異なり、アルコールの注文と前菜の注文のイベントが依存していることを示していることに注意することが重要です。 P(A|B) が P(A) に等しくなく、P(B|A) が P(B) に等しくないという事実は、1 つのイベントが発生したかどうかを知ることで、他のイベントが発生する可能性に関する情報が得られることを示唆しています。

ここで、リストされたイベントのペアが独立しているかどうかを判断するために、いくつかの例を考えてみましょう。

  1. 両親が両方とも糖尿病である場合、糖尿病になる: これらの出来事は依存性があります。両親が両方とも糖尿病である場合、個人が糖尿病になる可能性が高くなります。しかし、その人が糖尿病を発症するかどうかは確実ではなく、家族歴がなくても糖尿病を発症する可能性はあります。

  2. 標準的なサイコロの最初のロールで 5 が出ること、および 2 番目のロールで 4 が出ること: これらのイベントは独立しています。最初のロールの結果は、2 番目のロールの結果に関する情報を提供しません。公平なサイコロで 5 が出る確率と 4 が出る確率は、各イベントで 1/6 です。

  3. タバコの喫煙と肺がんの発症:これらの出来事は依存性があります。タバコを吸うと肺がんを発症する可能性が高くなります。しかし、それは確実ではなく、喫煙しない人でも肺がんを発症する可能性があります。

  4. 標準デッキから交換なしで 2 枚のカードが引かれ、両方のカードがエースである場合: これらのイベントは依存します。 2 枚目のカードがエースとして引ける確率は、最初に引いたカードがエースかどうかによって決まります。両方のカードがエースである確率は、最初のカードがエースである確率よりも低くなります。

  5. 標準的なデッキから 2 枚のカードが引き替えられ、両方のカードがエースになります。これらのイベントは独立しています。最初のカードを引いた後にカードを交換すると、最初のカードから得られた影響や情報が失われます。エースを引く確率はどちらのカードでも同じです。

一般に、一方のイベントが発生した場合にもう一方のイベントが発生する確率が、そのイベントが独立して発生する確率と等しい場合、2 つのイベントは独立していると見なされます。確率が異なる場合、イベントは依存します。

最後に、マネージャーがレストランでの注文の正確さを研究するシナリオを分析してみましょう。マネージャーは、さまざまな食事と時間帯の 960 件の注文を調べて、確率を判断します。

質問 1: このデータセットからランダムに選択された注文が正しく約定される確率は、次のように計算できます。合計 960 件の注文のうち、正しく約定された注文は 842 件あります。したがって、確率は 842/960 で、これは約 0.877 または 87.7% に相当します。

質問 2: ランダムに選択されたディナーの注文が正しく満たされる確率を見つけるために、条件付き確率を考慮します。ディナーの注文では、合計 280 件のディナーの注文のうち、正しく完了した注文は 249 件あります。したがって、確率は 249/280、つまり約 0.889、つまり 88.9% になります。

質問 3: 正しい注文をランダムに選択することがディナーの注文をランダムに選択することと独立しているかどうかを判断するために、条件付き確率 P(A|B) と確率 P(A) を比較します。この場合、P(A|B) は 0.889 (前の質問で計算)、P(A) は 0.877 (最初の質問から) です。 2 つの確率は等しくないため、正しい注文をランダムに選択することは、ディナーの注文をランダムに選択することと無関係ではないと結論付けることができます。

この例では、指定されたデータセットに基づいて確率を計算する古典的な確率を考慮していることに注意することが重要です。これらの変数の将来の観測値が独立しているかどうかという問題はより複雑であり、カイ二乗検定などの統計分析が必要です。イベントの独立性を経験的に判断するには、ランダム変動の存在を評価し、より大きなサンプル サイズを分析する必要があります。

Conditional Probability and the Multiplication Rule
Conditional Probability and the Multiplication Rule
  • 2020.09.20
  • www.youtube.com
How does information about the probability of one event change the probability of another event? Let's get into it! If this vid helps you, please help me a t...
 

確率変数の概要


確率変数の概要

皆さん、こんにちは。今日は確率変数の概念を詳しく掘り下げていきます。確率変数は、何らかの確率的プロセスにわたって定義される変数であり、プロセスの結果は数値で表されます。理解を深めるために、いくつかの例を見てみましょう。

2 つのサイコロを振ってその合計を求めるシナリオを考えてみましょう。サイコロの合計は確率変数と考えることができます。別の例としては、コインを 50 回投げて、表の数を数えます。この実験で得られた頭の数も確率変数です。同様に、シカゴ市でランダムに選択された人の正確な身長の測定や、オールド フェイスフル間欠泉の噴出の長さの測定も、確率変数の例です。

確率実験のすべての結果が確率変数であるわけではないことに注意することが重要です。たとえば、犬保護施設でランダムに選ばれた子犬の性別や、ランダムに選ばれた米国上院議員の目の色は、確率変数のカテゴリーに当てはまらない結果です。これらは数値的ではなく、確率変数を定義しないため、カテゴリデータです。

確率変数には、離散型と連続型の 2 つの基本的なタイプがあります。連続確率変数は、噴火の正確な長さやランダムに選択された人の正確な身長など、特定の範囲内の値を取得します。これらの値には、必要な精度レベルまで分数や小数を含めることができます。一方、離散確率変数には、1、2、3、4、5 など、個別にリストできる値があります。

確率変数に考えられる結果の数が有限である場合、これらすべての結果を対応する確率とともにリストする表を作成できます。この表を離散確率分布と呼びます。コインを 3 回投げて表の数を数える例を考えてみましょう。考えられる結果は 0、1、2、または 3 の表であり、各結果に確率を割り当てます。たとえば、表が出ない確率は 8 分の 1 であり、それに応じて確率が増減します。

離散確率分布の構築は、データを使用して行うこともできます。米国の成人 100 人の無作為サンプルを調査し、1 週間に外食を何回食べたかを尋ねると、0 から 5 の範囲で回答が得られます。各カテゴリに該当する個人を選択する確率は、次の分割によって計算できます。そのカテゴリに属する人の数をサンプル サイズの合計 (100) で割ったものです。これにより、確率変数 (外食回数) の考えられるすべての結果とそれぞれの確率を示す確率分布が得られます。

離散確率分布を視覚的に表現するには、確率ヒストグラムを描画します。前の例を続けると、x 軸にカテゴリ 0、1、2、3、4、5 を、対応する確率をバーの高さとして持つヒストグラムを作成できます。たとえば、先週の外食がゼロである確率が 0.49 の場合、カテゴリ x=0 に対して 0.49 の高さにバーを描画します。この確率ヒストグラムの形状は、同じデータの頻度分布ヒストグラムの形状と同一になります。

要約すると、確率変数は確率実験の結果を表す数値です。それらは離散的または連続的のいずれかになります。離散確率変数には考えられる結果の数が有限であり、その確率は離散確率分布を使用して表すことができます。確率ヒストグラムは、離散確率分布を視覚的に表現し、さまざまな結果の可能性を理解するのに役立ちます。

An Introduction to Random Variables
An Introduction to Random Variables
  • 2020.04.30
  • www.youtube.com
What is a random variable? What are the different types? How can we quantify and visualize them? If this vid helps you, please help me a tiny bit by mashing ...
 

R の確率ヒストグラム


R の確率ヒストグラム

こんにちは、みんな!今日は、qplot コマンドを使用して R で美しい確率ヒストグラムを構築するプロセスを見ていきます。いくつかの例を見てみましょう。

最初の例では、X という離散確率変数があり、1 から 6 までの値とそれぞれの確率をとります。まず、データを入力して R でヒストグラムを生成しましょう。

まず、1 から 6 までの値を取ることができる変数 X を定義します。これを行うには、省略されたコロン演算子 1:6 を使用できます。ここで、変数 X には値 1、2、3、4、5、および 6 が含まれています。

次に、対応する確率を格納するベクトルを作成します。この場合、値 1、2、3、4、5、および 6 の確率は、それぞれ 0.15、0.1、0.1、0.4、0.2、および 0.05 になります。確率の順序は、対応する値の順序と一致する必要があることに注意することが重要です。

データが正しく入力されたことを確認するために、すべての確率の合計を計算することで簡単なチェックを実行できます。正当な離散確率分布がある場合、合計は常に 1 になるはずです。この場合、合計は実際に 1 となり、データが正しく入力されたことを示します。

それでは、確率ヒストグラムを生成してみましょう。 qplot 関数を使用し、x 軸に変数 X を指定します。また、高さの引数として指定した確率を使用して値に重みを付ける方法を R に知らせる必要もあります。最後に、プロットのタイプ (この場合はヒストグラム) を指定します。

ヒストグラムを生成すると、バーが互いに接触していないことがわかります。確率ヒストグラムでは、隣接する値には接触するバーがあり、それらの関係を示している必要があります。これを修正するには、ビンの数を、持っている値の数と同じになるように指定します。この場合、値が 6 つあるため、ビンの数を 6 に設定します。

ヒストグラムが形になり始めています。ただし、視覚的な魅力を高めるために、バー間に区別を追加できます。これは、バーの境界色を指定することで実現します。この例では、色は黒を使用します。

2 番目の例に移り、確率ヒストグラムを作成するプロセスを続けます。今回は、Y というランダム変数があり、値 15、16、18、19、20 を取ることができます。また、これらの値に対応する確率もあります。ただし、17 は例外であり、確率は 0 です。あり得る結果ではありません。

前と同じ手順に従い、データを入力し、関数 qplot を使用してヒストグラムを生成します。ただし、今回は Y が 17 に等しい空のバケットがあることに気付き、これは確率が 0 であることを示しています。この情報を正確に取得するには、Y が 17 に等しい空のビンを考慮して 6 つのビンを使用する必要があります。

バーの境界色と内側の色を追加することで、ヒストグラムの美しさをさらに高めることができます。たとえば、境界色を濃い青に設定し、塗りつぶしの色を通常の青に設定できます。さらに、y 軸ラベルをカスタマイズして確率を表すことを示し、これは抽象データセットであるため、x 軸ラベルを単に「値」に変更することができます。

これらの調整により、確率ヒストグラムはよりプロフェッショナルに見えます。もちろん、引き続き色とラベルを微調整して、望ましい視覚的プレゼンテーションを実現することができます。これは、R でエレガントな確率ヒストグラムを構築する方法です。

Probability Histograms in R
Probability Histograms in R
  • 2020.09.11
  • www.youtube.com
Constructing attractive probability histograms is easy in R. In this vid, we use the qplot() command in the ggplot2 package.If this vid helps you, please hel...
 

離散確率変数の操作


離散確率変数の操作

こんにちは、みんな!今日は、離散確率変数と離散確率分布の概念について説明します。ランダム変数は、その値がランダムなプロセスによって決定される変数です。離散確率変数の場合、考えられる結果をリストすることができ、結果として離散確率分布が得られます。

この概念を説明する例を考えてみましょう。 16 部屋ある家があると想像してください。部屋をランダムに選択して、その部屋にある窓の数を数えます。ウィンドウの数は 0、1、2、3、または 4 で、それぞれの対応する確率は 3/16、5/16 などになります。これは、考えられるすべての結果とそれに関連する確率で構成される離散確率分布を表します。

離散確率変数と離散確率分布には 2 つの重要な特性があります。まず、すべての確率の合計が 1 に等しくなければなりません。これにより、起こり得るすべての結果が確率に含まれるため、常に何かが起こることが保証されます。この例では、すべての確率を合計すると、16/16 または 1 が得られます。

第 2 に、離散確率分布を扱う場合、確率を加算できます。たとえば、X が 3 または 4 である確率を知りたい場合、X が 3 である確率と X が 4 である確率を計算し、それらを加算します。この場合、確率は 3/16 + 1/16 = 4/16 = 1/4 となります。

いくつかの問題例を見てみましょう。 5 つの可能な結果 (5、10、25、50、および 200) を持つ確率変数 Y を含む別の離散確率分布を考えてみましょう。これらの結果のうち 4 つの確率が与えられており、5 番目の結果の確率を見つける必要があります。

すべての確率の合計は 1 に等しくなる必要があるため、欠落している確率を推定できます。既知の確率の合計 (0.04 + 0.12 + 0.18 + 0.45) を 1 から引くと、Y が 200 である確率は 0.21 であることがわかります。

ここで、同じ離散確率分布を使用していくつかの計算を実行してみましょう。まず、Y が 10 以下である確率を求めます。これには、Y が 5 に等しい確率と Y が 10 に等しい確率を合計する必要があり、結果は 0.04 + 0.12 = 0.16 となります。

次に、Y が奇数である確率に興味があります。この場合、Y は 5 と Y は 25 という 2 つの結果が得られます。それらの確率を加算すると、0.04 + 0.18 = 0.22 が得られます。

最後に、Y が 5 より大きい確率を決定しましょう。 Y が 10、25、50、200 に等しい確率を直接合計する代わりに、ショートカットを使用できます。補数イベント、つまり Y が 5 以下である確率を考慮します。Y が 5 (0.04) 以下である確率を 1 から引くと、1 - 0.04 = 0.96 が得られます。

これらの例は、確率を計算し、離散確率分布のコンテキストで相補的なイベントを利用する方法を示しています。

Working with Discrete Random Variables
Working with Discrete Random Variables
  • 2020.04.30
  • www.youtube.com
Let's solve some problems using discrete probability distributions!
 

確率変数: 平均、分散、標準偏差


確率変数: 平均、分散、標準偏差

こんにちは、みんな!今日は、確率変数と、その中心傾向と広がりの尺度、つまり平均、分散、標準偏差について説明します。数値データの場合と同様の方法で、確率変数の中心と広がりを記述することができます。

離散確率分布の例を考えてみましょう。前週に外食した夕食の回数について人々にランダムに尋ねる調査を実施したと想像してください。分布を見ると、回答者の約 49% が外食をしていなく、約 22% が外食を 1 回行っていることがわかります。この分布は確率ヒストグラムを使用して視覚化できます。ヒストグラムを観察すると、この確率変数の中心と広がりについて直感的に議論できます。

より具体的に言うと、ヒストグラムに基づいて調査結果を解釈してみましょう。確率変数の期待値または平均は、確率変数の各値に対応する確率を乗算し、結果を合計することによって決定されます。この加重平均は確率変数の中心を表します。前の離散確率分布を参照して、各値 (0、1、2 など) にそれぞれの確率 (0.49、0.22 など) を乗算し、その積を合計することによって期待値を計算します。この場合、期待値は 1.12 になります。

期待値は多くの場合 μ で表され、データ分析における母集団の平均に似ています。確率変数の中心を測定します。確率ヒストグラムを見ると、期待値はヒストグラムが支点上でバランスをとるバランス点を表します。

ここで、分散と標準偏差を使用して測定される離散確率変数の広がりについて説明します。分散は、確率変数の各値から平均を引き、結果を二乗し、対応する確率を乗算し、すべての加重分散を合計することによって計算されます。これにより、各値が平均からどれだけ離れているかが捕捉されます。ただし、差を二乗したので、結果として得られる分散の単位は元のデータと同じになりません。同じスケールで測定するには、分散の平方根をとり、標準偏差を求めます。

実際には、分散と標準偏差を手動で計算するのは面倒な場合があります。統計ソフトウェアや計算機などのテクノロジーを使用することをお勧めします。たとえば、R プログラミングでは、値とそれに対応する確率を入力し、組み込み関数を使用して期待値、分散、標準偏差を計算できます。

テクノロジーを活用することで、計算を効率的に実行でき、積や平方を含む手動計算を回避できます。分散は計算や理論的考察に貴重な洞察を提供しますが、標準偏差は元の確率変数と同じ単位を共有するため、解釈に便利です。

要約すると、確率変数を扱うときは、その中心 (平均) と広がり (分散と標準偏差) を理解することが重要です。これらの尺度により、確率変数の特性を効率的に定量化し、解釈することができます。

Random Variables: Mean, Variance, and Standard Deviation
Random Variables: Mean, Variance, and Standard Deviation
  • 2020.05.02
  • www.youtube.com
If this vid helps you, please help me a tiny bit by mashing that 'like' button. For more #rstats joy, crush that 'subscribe' button!
 

ベルヌーイ試行と二項分布


ベルヌーイ試行と二項分布

皆さんこんにちは。今日はベルヌーイ試行と二項分布について説明します。ベルヌーイ試行は、成功と失敗の 2 つの結果を伴う単純な確率実験です。これらのトライアルは、小文字の「p」で示される成功の確率によって定義されます。この概念を説明するためにいくつかの例を考えてみましょう。

たとえば、コインを投げて表が成功とみなした場合、成功の確率 (p) は 1/2 になります。標準的な 52 枚のカード デッキからカードを引き、エースを成功とみなした場合、成功の確率 (p) は 4/52 または 1/13 になります。アメリカの有権者の 40% が大統領を承認した場合、無作為に有権者を選ぶと成功する確率 (p) は 0.4 になります。

この文脈では「成功」と「失敗」という用語は専門用語であり、政治的主張や個人的な意見を意味するものではないことに注意することが重要です。成功を 1、失敗を 0 としてエンコードすることで、ベルヌーイ試行を離散確率変数として表すことができます。これにより、x が 0 または 1 の値を取る単純な確率分布を作成できます。1 を取得する確率は p に等しいのに対し、これらの結果は相補的であるため、0 が得られる確率は 1 - p に等しくなります。

この確率変数 (x) の期待値は、x のすべての可能な値について、x に対応する確率 (p(x)) を乗算して合計することで計算できます。期待値は p に等しく、これは 1 回の試行での成功の確率を表します。同様に、x のすべての可能な値について、(x - 期待値)^2 と p(x) を乗算して合計することで分散を計算できます。分散は p(1 - p) に等しくなります。分散の平方根を取ると、確率変数の広がりを測定する標準偏差が得られます。

多くの場合、ベルヌーイ試行は繰り返し実行され、n 個の同一の独立した試行の合計成功数が得られます。これにより、0 から n までの値を取ることができる離散確率変数が得られます。二項分布は通常 B(n, p) と表され、成功確率が p である n 個の同一の独立したベルヌーイ試行がある場合のこの確率変数の確率分布を表します。

たとえば、公正なコインが 3 回投げられ、x を表の数として定義すると、二項分布として B(3, 0.5) が得られます。すべての考えられる結果とそれに対応する確率を考慮することで、x の各値の確率を直接計算できます。 n が大きくなると、これらの確率を手動で計算するのは現実的ではなくなり、より一般的な式が必要になります。

n 回の試行で正確に k 個が成功する確率 (k の範囲は 0 から n) は、n pick k 回 p^k 回 (1 - p)^(n - k) という式で与えられます。この式は、n 回の試行で正確に k 回の成功を達成する方法の数とそれぞれの確率を説明します。これにより、二項分布で確率を効率的に計算できます。

バスケットボール選手の平均フリースロー成功率が 78% である例を考えてみましょう。彼女がフリースローを 10 回撃った場合、二項分布を使用して、彼女が正確に 8 回、少なくとも 8 回のショットを成功させる確率を計算できます。値を式に代入すると、それに応じて確率を計算できます。

二項分布の確率変数は、複数のベルヌーイ試行の合計です。この確率変数の平均は n 倍 p で与えられ、分散は n 倍 p 倍 (1 - p) で与えられます。標準偏差は、np 倍 (1 - p) の平方根です。

バスケットボール選手が成功確率 0.78 で 10 回シュートを打った場合、期待値 (平均) は 10 * 0.78 = 7.8 となり、標準偏差は (10 * 0.78 * (1 - 0.78) の平方根になります。 )) ≈ 1.3。

二項分布を視覚化するには、確率ヒストグラムを作成します。バスケットボール選手が成功確率 0.78 で 10 発のショットを撃った場合を例に、x (成功したショットの数) の各値を 0 から 10 までのバーで表すヒストグラムを作成します。各バーの高さは達成確率に対応します。 10 回の試行における特定のショット数。たとえば、正確に 8 発のショットを打つ確率は約 0.3 になります。

二項分布は、一定の成功確率で独立した試行を繰り返す状況を分析するための有用なフレームワークを提供します。期待値、分散、確率計算などの二項分布の特性を理解することで、統計、財務、品質管理などのさまざまな分野で、情報に基づいた意思決定や予測を行うことができます。

二項分布は、独立した試行や各試行の成功確率が固定されているなど、特定の条件を前提としていることに注意してください。二項分布を現実世界のシナリオに適用する場合は、これらの仮定を慎重に考慮する必要があります。

結論として、ベルヌーイ試行と二項分布は、2 つの結果と複数の独立した試行による確率実験の基本的な理解を提供します。これらの概念に関連付けられた公式とプロパティを利用することで、さまざまなシナリオでさまざまなレベルの成功を達成する確率を分析および予測できます。

Bernoulli Trials and The Binomial Distribution
Bernoulli Trials and The Binomial Distribution
  • 2020.08.03
  • www.youtube.com
Your life will get so much better once you understand the binomial distribution. If this vid helps you, please help me a tiny bit by mashing that 'like' butt...
 

R での二項計算


R での二項計算

皆さん、こんにちは。今日は R を使用して二項分布を含む計算を実行します。 R には、二項分布を操作するために知っておくことが重要な 4 つの基本関数があります。

まず、rbinom() 関数は二項分布からランダムな値を生成します。生成する乱数値の数、サンプル サイズ、および個々の試行での成功確率の 3 つの引数を取ります。たとえば、rbinom(10, 2, 0.5) は、サンプル サイズ 2、成功確率 0.5 の二項分布から 10 個のランダム値を生成します。

次に、 dbinom() 関数は、二項分布で指定された数の成功が得られる確率を返します。成功の数、サンプル サイズ、成功の確率という 3 つの引数を取ります。成功の数をベクトルとして指定して、さまざまな成功の数の確率を一度に計算できます。たとえば、 dbinom(0:4, 4, 0.5) は、サンプル サイズ 4、成功確率 0.5 の二項分布で 0、1、2、3、または 4 回の成功を得る確率を計算します。

次に、pbinom() 関数は累積確率関数です。二項分布で最大で指定された数の成功が得られる確率を返します。 dbinom() と同様に、値のベクトルを指定して累積確率を計算できます。たとえば、pbinom(0:4, 4, 0.5) は、サンプル サイズ 4、成功確率 0.5 の二項分布で最大 0、1、2、3、または 4 回の成功を得る確率を返します。

最後に、qbinom() 関数は逆確率計算器です。累積確率が指定された確率以上になるような成功の最小値を返します。言い換えれば、二項分布の分位数を計算します。たとえば、 qbinom(c(0.25, 0.5, 0.75), 10, 0.5) は、サンプルサイズ 10、成功確率 0.5 の二項分布の 25、50、および 75 パーセンタイルを求めます。

次に、これらの関数をいくつかの問題に適用してみましょう。

問題 1: 公平なサイコロを 10 回振って 6 の数を数えるという実験を 50 回実行するシミュレーションをしてみましょう。サンプルサイズ 10、成功確率 1/6 で rbinom() 関数を使用できます (6 の目を出す確率は 1/6 であるため)。

results <- rbinom ( 50 , 10 , 1 / 6 ) table ( results )

問題 2: 最近の調査によると、アメリカ人の 72% は猫よりも犬を好みます。 8 人のアメリカ人がランダムに選ばれた場合、ちょうど 6 人が犬を好み、6 人未満が犬を好む確率はどれくらいですか? dbinom() 関数と pbinom() 関数を使用できます。

# Probability of exactly 6 preferring dogs
prob_six <- dbinom ( 6 , 8 , 0.72 ) # Probability of fewer than 6 preferring dogs
prob_less_than_six <- pbinom ( 5 , 8 , 0.72 )
prob_six
prob_less_than_six

問題 3: 重み付けされたコインは表が出る確率が 42% です。 5 回のトスで予想される表の数は何ですか?また、5 回のトスにおける表の数を表す確率変数の確率ヒストグラムを作成します。

予想される頭の数を計算するには、サンプル サイズと成功確率の積である二項分布の期待値の公式を使用できます。この場合、サンプル サイズは 5 で、成功 (表を得る) 確率は 0.42 です。

# Expected number of heads
expected_heads <- 5 * 0.42 expected_heads

重み付きコインの 5 回のトスで予想される表の数は 2.1 です。

確率ヒストグラムを構築するには、R の ggplot2 パッケージを使用します。まず、パッケージをインストールしてロードしましょう。

install.packages ( "ggplot2" ) # Run this line if ggplot2 is not installed
library ( ggplot2 )

次に、dbinom() 関数を使用して、5 回のトスにおける表の数の離散確率分布を生成します。考えられる表の数 (0 ~ 5) ごとに確率を計算します。

x <- 0 : 5 # Possible number of heads
p <- dbinom ( x , 5 , 0.42 ) # Probabilities

これで、ggplot2 を使用して確率ヒストグラムを作成できます。

# Create probability histogram
df <- data.frame ( x = x , p = p )
ggplot ( df , aes ( x = as.factor ( x ) , y = p ) ) + geom_bar ( stat = "identity" , fill = "lightblue" ) + xlab ( "Number of Heads" ) + ylab ( "Probability" ) + ggtitle ( "Probability Histogram for Number of Heads in 5 Tosses" )

このコードは、x 軸に頭の数、y 軸に対応する確率を示すヒストグラムを生成します。

Binomial Calculations in R
Binomial Calculations in R
  • 2020.09.12
  • www.youtube.com
In this vid, we learn how to do binomial calculation in R using the commands rbinom(), dbinom, pbinom(), and qbinom(). If this vid helps you, please help me ...
 

一様分布


一様分布

皆さん、こんにちは。今日は連続確率変数を詳しく掘り下げ、特に一様分布を持つ確率変数を調べます。

連続確率変数とは何かを思い出すことから始めましょう。これは、離散的な値のセットとは対照的に、範囲全体内の値を取ることができる変数です。たとえば、誰かをランダムに選択し、その正確な身長を測定すると、この確率変数が取り得る値は無限に多くなります。したがって、特定の値が得られる確率は限りなく小さく、特定の値の確率を議論することは非現実的です。これに対処するために、特定の値の範囲内にある確率変数に関連付けられた確率に焦点を当てます。

たとえば、ある人の身長が正確に 58.6 インチである確率 (これはほぼゼロです) を尋ねる代わりに、その人の身長が 55 インチから 65 インチの間に収まる確率を問い合わせることができます。このアプローチにより、意味のある確率を扱うことができます。もう 1 つの例は、ランダムに選択された曲が正確に 3 分ではなく、3 分未満または 3 分を超える確率を考慮することです。

連続確率変数の最も単純なタイプの 1 つは一様分布です。均一に分散された確率変数では、確率はその領域全体に均一に分散されます。 Excel の rand() 関数でこの概念を目にしたことがあるかもしれません。この関数は、小数点以下の桁数を指定して 0 から 1 までの乱数を生成します。この場合、すべての値の確率は等しいです。これを区間 [0, 1] 上の均一分布と呼びます。

一様分布の確率を計算するには、目的の間隔の幅を範囲全体の合計幅で割ります。たとえば、結果が 0.2 未満になる確率は、0.2 を 1 (幅の合計) で割った結果、0.2 になります。同様に、対象の区間の幅が 0.6 単位であるため、結果が 4 以上になる確率は 0.6 です。個々の結果の確率が限りなく小さいことを考慮すると、連続確率変数を扱う場合、不等式の厳密さ (たとえば、「<」対「<=」) は無関係であることに注意してください。

一様確率分布の概念を他の区間にも拡張できます。たとえば、区間 [1, 7] を考慮すると、確率変数が 1 から 7 までの任意の値を等しい確率で取り得る連続確率分布が得られます。このディストリビューション内のいくつかの例を調べてみましょう。

  • 確率変数が 5 未満である確率は 4/6 または 2/3 で、1 から 5 までの区間の幅 (4) を区間の合計幅 (6) で割ることによって計算されます。
  • 確率変数が 1.5 以下である確率は、0.5/6 または 1/12 です。ここでは、1 ~ 1.5 (0.5) の間隔の幅を間隔の合計幅 (6) で割ります。
  • 確率変数が 6.12 より大きい確率は 11/70、つまり 0.157 で、6.12 から 7 までの区間の幅を区間の合計幅 (70/5) で割ることによって得られます。

個々の確率は無限小であるため、連続確率変数の確率ヒストグラムを離散確率変数の場合と同じ方法で描画することはできません。代わりに、確率を高さではなく面積として表す密度プロットを使用します。一様分布の密度プロットでは、すべての確率が等しく、水平線になります。確率が正しく合計されるように、密度プロットの下の合計面積は常に 1 である必要があります。

説明のために、区間 [-5, 5] 上の均一分布を考えてみましょう。この場合、ドメインの幅は 10 (5 - (-5)) です。密度曲線を作成するには、長方形の高さを 1 を幅で割った値、つまり 1/10 になる必要があります。これにより、密度曲線の下の合計面積が 1 になることが保証されます。

ここで、この分布において確率変数が 3.5 より大きい確率を計算してみましょう。密度曲線を再描画し、X > 3.5 に対応する領域をシェーディングできます。その場合、確率はその影付き領域の面積に等しくなります。

長方形の面積を計算する公式 (底辺×高さ) を適用して、幅 (5 - 3.5 = 1.5) と高さ (1/10) を掛けます。これにより、面積は 1.5/10、つまり 15% になります。

要約すると、一様分布 U(-5, 5) では、X が 3.5 より大きい確率は 15% です。

The Uniform Distribution
The Uniform Distribution
  • 2020.05.13
  • www.youtube.com
Your first continuous random variable! The uniform distribution is a fantastic way to learn the basics.
 

連続確率変数


連続確率変数

こんにちは、みんな!今日は、連続確率変数のトピックを詳しく掘り下げていきます。連続確率変数は、正確な測定を可能にする、全範囲にわたる値を取ることができる単なる変数です。この概念を説明するために、いくつかの例を見てみましょう。

地元の動物保護施設でランダムに犬を選び、その尻尾の長さを測定するところを想像してみてください。希望どおりの精度で測定値を取得できます。同様に、南極でランダムな瞬間に正確な温度を測定したり、ランダムに選択された顧客サービスの通話の長さを測定したりすることを検討してください。これらの例は、変数をあらゆるレベルの精度で測定できることを示しています。

対照的に、離散確率変数は、非連続セットからの値のみを想定できます。たとえば、サイコロを 20 回振って 6 の数を数えると、0、1、2、3、4 などの整数が得られます。ただし、2 分の 1、3 分の 2、または 3 と 4 分の 1 などの分数や小数は、可能な結果ではありません。

連続確率変数の確率の記述は、離散確率変数の確率の記述よりも複雑です。無限に多くの結果が考えられるため、特定の個別の結果が得られる可能性は本質的にゼロです。たとえば、カスタマー サービスの通話が 150 秒続くと述べた場合、実際の長さは 150.1、150.05、またはその他の無数の値になる可能性があります。したがって、通話がちょうど 150 秒続く確率は本質的にゼロです。

それにもかかわらず、特定の通話の長さは他の通話の長さよりも可能性が高いように思われる場合があります。 150 秒続く通話の方が、3 時間続く通話よりもはるかに高いと予想されます。連続確率変数の確率に対処するために、特定の結果ではなく値の範囲に焦点を当てます。たとえば、通話が 140 ~ 160 秒の間に収まる確率を考慮しますが、これにより、ゼロ以外の確率が得られることがよくあります。

連続確率変数を視覚化する 1 つの方法は、密度曲線を使用することです。範囲にわたる確率は、密度曲線の下の面積として表されます。 0 から 4 の範囲で確率が減少する確率変数 X を表すグラフを調べてみましょう。グラフ内の影付きの領域は、特定の試行で X が 1 と 2 の間に収まる確率を表します。この図から、X が 1 と 2 の間にある確率は、0 と 1 の間にある確率よりも小さいことがわかります。この不一致は、1 から 2 に比べて 0 から 1 の曲線の下の領域が大きいために発生します。同様に、X が 1 と 2 の間にある確率は、2 と 3 の間にある確率よりも 1 と 2 の間にある確率の方が高くなります。影付き領域の面積を近似することで、X が 1 と 2 の間にある確率を推定できます。これにより、約 30 分の 3 の結果が得られます。 30%。

密度曲線は、一般に確率密度関数 (PDF) と呼ばれます。正規の PDF には 2 つの重要な特性があります。まず、確率のポジティブな性質に合わせて、常にポジティブである必要があります。次に、正規の PDF のグラフの下の合計面積は常に 1 である必要があり、これは確率実験を行うときに X の値が得られることを意味します。

PDF と密度曲線の概念は直感的かもしれませんが、これらを含む実際の計算は困難な場合があります。実際には、大規模な計算の必要性を回避するために、確率変数の累積分布関数 (CDF) を使用することがよくあります。 CDF は、特定の試行において確率変数が指定された X 以下の値をとる確率を提供します。基本的に、確率を累積します。たとえば、X が増加すると、より多くの確率が蓄積されるため、対応する CDF 値も増加します。

CDF を使用すると、確率変数が特定の範囲内に収まる確率を計算できます。この確率は、範囲の下限と上限の CDF 値を減算することによって決定されます。 X で示される、同じ確率変数の PDF と CDF のグラフを調べてみましょう。グラフ内の影付きの領域は、X が 2 以下である累積確率を表し、F(2) で示されます。CDF は 2 です。 。 X が増加すると、より多くの確率が蓄積されるため、CDF F(X) も常に増加することに注意してください。

X が 2 つの値、たとえば a と b の間に入る確率を計算するには、a の CDF 値から b の CDF 値を減算します。グラフでは、これは、X = 1 の左側の領域から X = 2 の左側の領域を減算することに対応します。数学的に、これは F(b) - F(a) として表されます。視覚的な表現がそれを明らかにします。

最も単純なタイプの連続確率変数は、一様分布を持つ変数です。一様分布では、間隔が等しい幅の場合、確率は等しくなります。本質的に、これは、特定の範囲内の X のすべての値の可能性が等しいことを意味します。これを別の見方で見ると、一様分布確率変数の PDF は定数関数であると言えます。

例を考えてみましょう。値が一様分布で 1 ~ 7 の範囲に収まる連続確率変数があるとします。 PDF は 1 ~ 7 の定数関数で、総面積は 1 です。区間の幅が 6 であるため、グラフの高さは 1/6 になります。この情報を使用して、X の任意の範囲の確率を計算できます。たとえば、X が 2 から 7 の間にある確率は、間隔の幅 (7 から 2 を引いた値) をグラフの高さで割った値で求められます。は1/6です。したがって、確率は (1/6) * (7 - 2) = 5/6 となります。

均一な分布についてより包括的な説明が必要な場合は、上記のリンクにあるこのトピックに関する専用のビデオをご覧ください。

Continuous Random Variables
Continuous Random Variables
  • 2020.09.26
  • www.youtube.com
Continuous random variables are cool. No, really! In this vid, we cover pdfs (probability density functions) and cdfs (cumulative distribution functions) and...