编程教程 - 页 13

 

概率实验、结果、事件和样本空间


概率实验、结果、事件和样本空间

大家好!今天,我们将深入研究概率的基础知识。我们将探讨样本空间、结果、事件等主题。概率实验,也称为随机实验,是无法准确预测结果的试验。然而,反复试验可能会揭示某些趋势。让我们看几个例子。

  1. 抛一枚硬币并记录它是正面还是反面。
  2. 使用随机拨号器联系 10 位选民并询问他们打算投票给谁。
  3. 掷两个骰子并记录数字之和。
  4. 掷两个骰子并数数 6 出现的次数。

请注意,在最后两个示例中,尽管操作相同(掷两个骰子),但记录的数据略有不同。因此,我们将它们视为单独的概率实验。现在,我们来讨论一些词汇。

概率实验中特定试验的结果称为结果。概率实验中所有可能结果的集合称为样本空间(用大写S表示)。样本空间的子集称为事件。

为了说明这一点,让我们考虑一个例子。假设我们抛两枚硬币并记录结果。样本空间由四种结果组成:正面-正面、正面-反面、反面-反面和反面-反面。如果我们将事件 E 定义为“两次翻转都相同”,那么该事件中就会有两个结果:正面-正面和反面-反面。该事件是样本空间的子集。

一般来说,事件代表概率实验期间可能发生的事情,但它发生的方式可能有多种。在前面的示例中,事件“两次翻转相同”可以以两种不同的方式发生。

如果一个事件只能以一种方式发生,即它由单一结果组成,我们称其为简单事件。事件 E 的补集,表示为 E' 或有时在 E 上加横线,是样本空间中不在 E 中的所有结果的集合。当 E 发生时,E' 不会发生,反之亦然。

例如,假设我们使用旋转器随机选择 1 到 9 之间的一个整数。令 E 为事件“结果是素数”。样本空间是1到9的整数,E是小于10的素数集合:{2,3,5,7}。 E 的补码(E')是 E 不发生的事件,由小于 10 的非素数组成:{1, 4, 6, 8, 9}。

如果两个事件没有共同的结果,则它们是不相交的,这意味着它们不能在概率实验的一次试验中同时发生。例如,考虑抛四枚硬币并记录结果。令 E 为事件“前两次抛掷都是正面”,并令 F 为事件“至少有 3 个反面”。这两个事件可以表示如下:

E:{哈哈哈,哈哈哈...} F:{TTTT,TTTTTH,TTTTHT,TTTTTH ...}

请注意,E 组和 F 组之间没有共享结果。因此,这些事件是不相交的。

描述事件的概率有不同的方法,两种常见的方法是经验概率(或统计概率)和经典概率(或理论概率)。

经验概率基于观察。我们多次运行概率实验,计算事件发生的次数,然后除以试验总数。它对应于过去发生该事件的次数的比例。例如,如果我们抛一枚硬币 100 次,出现 53 次正面朝上的概率,则硬币正面朝上的经验概率为 53/100 或 53%。

另一方面,当样本空间中的所有结果都具有相同的可能性时,就适用经典概率。我们计算事件中的结果数量,并将其除以样本空间中的结果总数。在数学上,它表示为事件 E 的基数(元素数量)除以样本空间 S 的基数。例如,如果我们掷骰子,则有 6 个同样可能的结果,如果我们感兴趣得到5的简单事件E,经典概率是1/6。

让我们考虑另一个例子。如果我们掷一枚均匀的硬币三次,则有八种同样可能的结果:HHH、HHT、HTH、HTT、THH、THT、TTH、TTT。令 E 为恰好获得两个正面的事件。在样本空间内,事件 E 存在三种结果(HHH、HHT 和 HTH)。因此,事件 E 的经典概率为 3/8。

现在,让我们利用一所大型大学统计学入门课程的频率分布来探讨概率问题。该分布显示了每个班级级别的学生人数:一年级 67 人,二年级 72 人,依此类推。如果我们从这个班级中随机选择一个人,他是大二学生的概率是多少?这是一道经典的概率题。

在给定的频率分布中,共有 222 个结果(班级中的学生),其中 72 个结果对应于二年级学生。因此,随机选择大二学生的概率为 72/222,大约为 32.4%。

现在,让我们使用相同的频率分布将焦点转移到一个稍微不同的问题。下一个注册该课程的人是大三学生或大四学生的概率有多大?这次,我们对经验概率感兴趣,因为我们对未来的注册没有确定性。

我们会查看有关已注册学生的数据。其中,大三29人,大四54人。为了计算经验概率,我们将适合该活动(大三或大四)的学生人数除以注册学生总数。因此,概率为 (29 + 54) / 222,约为 37.7%。

值得注意的是,无论我们处理的是经验概率还是经典概率,某些事实都是正确的。任何事件的概率都在0和1之间。概率为0的事件是不可能的,而概率为1的事件是确定的。如果样本空间记为S,则S发生的概率始终为1。

如果我们有不相交的事件 E 和 F(没有共同的结果),则至少其中一个发生的概率是它们各自概率的总和。然而,E 和 F 同时发生的概率为 0,因为它们是互斥的。

此外,如果我们有互补事件(涵盖所有可能结果的事件),则它们的概率之和始终为 1。如果事件 E 发生,则其补集 (E') 不发生的概率为 1 减去 E 发生的概率。

在日常语言中,我们经常根据直觉和个人经验非正式地使用概率。这称为主观概率。然而,在统计学中,我们依靠经验概率和经典概率来进行严格的计算。主观概率缺乏数学精度,不是统计分析的重点。

Probability Experiments, Outcomes, Events, and Samples Spaces
Probability Experiments, Outcomes, Events, and Samples Spaces
  • 2020.07.25
  • www.youtube.com
We'll also learn about empirical vs. classical probability, as well as disjoint events. All the good stuff.If this vid helps you, please help me a tiny bit b...
 

概率的加法规则


概率的加法规则

大家好,今天我们来讨论概率的加法规则。这条规则允许我们计算事件并集的概率。让我们从规则的简化版本开始。

假设我们有两个不相交的事件 A 和 B,这意味着它们没有共同的结果。在这种情况下,任一事件发生的概率只是它们各自概率的总和。这可以写成:

P(A ∪ B) = P(A) + P(B)

这里,A∪B表示A或B中所有结果的集合,本质上意味着“A或B”。重要的是要记住,不相交的事件不可能同时发生,因为它们没有共同的结果。有时这些事件被称为互斥的。

为了说明这个版本的加法规则,让我们考虑一个例子。假设我们掷两次公平骰子,我们将事件 A 定义为第一次掷骰结果为 6,将事件 B 定义为两次掷骰结果的总和为 3。这些事件是互斥的,因为如果第一卷是 6,则总和不能是 3。现在,为了计算 A 或 B 的概率(第一次掷骰结果为 6 或总和为 3),我们需要这些事件的单独概率。

第一次掷出 6 的概率是 1/6,因为有 6 种可能的结果,而其中只有一个是 6。考虑到两次掷骰子总共有 36 种可能的结果,并且两个结果的总和为 3(1+2 和 2+1),因此掷骰子的总和为 3 的概率为 2/36。将这些概率相加,我们得到的总概率为 2/9。

让我们来看另一个例子,取自拉尔森和法伯的教科书《基础统计学》。在对房主的一项调查中,他们被问及房屋清洁之间的时间间隔。结果总结在饼图中,显示不同的时间间隔。我们想要找出随机选择的房主两次清洁间隔时间超过两周的概率。

在本例中,我们感兴趣的是从饼图的蓝色或黄色部分选择房主的概率。由于这些部分是相互排斥的(你不能每三周和四个星期或更长时间打扫一次房子),我们可以添加这些事件的概率。每三周打扫一次房子的概率是 10%,四个星期或更长时间打扫一次的概率是 22%。将这些概率相加得出的总概率为 32%。

现在,让我们考虑一个更一般的情况,其中两个事件 A 和 B 不是不相交的。在这种情况下,加法规则变得稍微复杂一些。 A 或 B 的概率由下式给出:

P(A ∪ B) = P(A) + P(B) - P(A ∩ B)

这里,A ∩ B 表示 A 和 B 中都存在的结果。减去 A ∩ B 的概率很重要,因为当 A 和 B 重叠时,A ∩ B 中的结果会被计数两次(一次在 A 中,一次在 B 中) )。

为了说明这个版本的加法规则,让我们使用一个关于吸烟习惯和安全带使用的调查的例子。该调查询问了 242 名受访者的习惯,并用表格总结了结果。我们想要找到随机选择的受访者不吸烟或不系安全带的概率。

设A为不吸烟事件,B为未系安全带事件。我们感兴趣的是 A 或 B (A ∪ B) 的概率。为了计算这一点,我们需要 A、B 和 A ∩ B 的个体概率。不吸烟的概率是 242 人中的 169 人,因为在 242 个人的样本中,有 169 人不吸烟。不系安全带的概率是 242 中的 114。现在,我们还需要 A ∩ B 的概率,它代表既不吸烟又不系安全带的个体。从表中我们可以看到这样的人有81人。

使用不相交事件的加法规则,我们可以计算 A 或 B 的概率如下:

P(A ∪ B) = P(A) + P(B) - P(A ∩ B)

代入这些值,我们得到:

P(A∪B) = 169/242 + 114/242 - 81/242

简化表达式,我们发现:

P(A∪B) = 202/242

现在,我们通过将各个概率相加来直接计算 A 或 B 的概率。在这种情况下,我们可以对不相交事件使用加法规则,因为表中每个单元格中的事件是互斥的。将代表 A 或 B 的五个单元格的概率相加,我们得到:

P(A ∪ B) = 88/242 + 81/242 + 9/242 + ...(剩余概率)

执行加法后,我们再次得到概率 202/242。

因此,两种方法产生 A 或 B 的概率相同,即 202/242。

The Addition Rule for Probabilities
The Addition Rule for Probabilities
  • 2021.02.17
  • www.youtube.com
How can we compute P(A or B)? With the addition rule, of course! If this vid helps you, please help me a tiny bit by mashing that 'like' button. For more sta...
 

阶乘、排列和组合


阶乘、排列和组合

大家好,今天我们将探讨计数的概念,包括阶乘、排列和组合。这一切都归结为基本的计数原理,即如果一个事件可以以 M 种方式发生,而第二个事件可以以 N 种方式发生,那么这两个事件依次可以以总共 M 次 N 方式发生。重要的是,第一个事件的结果不会影响第二个事件可能的结果数量。

让我们从一个例子开始。假设菜单包括 6 份沙拉和 8 份汤。汤和沙拉有多少种可能的组合?首先,我们选择一份沙拉,这给了我们 6 种可能性。对于每一个选择,都有 8 种可能的汤。因此,我们最终得到 6 组,每组 8 个,总共有 48 种可能的组合。

这个想法可以延伸到更长的事件序列。例如,如果菜单包括 6 份沙拉、8 份汤、15 份主菜和 3 份甜点,则有 6 × 8 × 15 × 3,相当于 2,160 份可能的餐食。

有时,我们需要计算物体、人或事物的排列方式的数量。例如,4人一组可以有多少种不同的排队方式?我们可以再次使用基本的计数原理。排队的第一个人有 4 个不同的选择,第二个人有 3 个选择,第三个人有 2 个选择,第四个人有 1 个选择。将这些数字相乘,我们发现有 4 乘以 3 乘以 2 乘以 1,等于 4 个人可以排成 24 种方式。这种计算非常常见,因此我们给它起了一个特殊的名称:阶乘。

一般来说,数字 N 的阶乘(表示为 N!)是前 N 个正整数的乘积。例如,3!是 1 乘以 2 乘以 3、5!是 1 乘以 2 乘以 3 乘以 4 乘以 5,依此类推。阶乘增长很快,甚至比指数增长还要快。例如,10!已经超过300万了。

让我们考虑一个稍微复杂的例子。假设有 12 匹马参加比赛,我们想知道它们能以多少种不同的方式获胜、名次和表现,即前三个位置。我们可以再次应用基本的计数原理。有 12 名可能的获胜者、11 名可能的第二名获得者和 10 名可能的第三名获得者。将这些数字相乘,我们发现有 12 乘以 11 乘以 10,得出 1,320 种可能的组合。

为了概括这一点,假设我们有 N 个项目,并且我们想要计算前 K 个项目的排列数量。使用基本计数原理,第一项有 N 个选择,第二项有 N - 1 个选择,依此类推,直到总共有 K 个项。最后一项将为 N - K + 1。我们将其表示为 NPK,它等于 N 阶乘除以 (N - K) 阶乘。

当我们想要计算选择 K 个对象组的方式数量而不考虑它们的顺序时,就会出现另一种情况。这称为组合。例如,如果在一场比赛中随机选择十二匹马中的三匹进行药物测试,那么可以选择多少种马匹?在这种情况下,顺序并不重要。我们使用符号 NCk,它表示在不考虑顺序的情况下从总共 N 个事物中选择 K 个事物的方式数。为了计算这一点,我们使用公式 N 选择 K = NPK /(K 阶乘)。在给定的示例中,我们需要计算 12 选择 3。为此,我们可以应用一些代数运算。我们可以将 12 选择 3 重写为 12 置换 3 除以 3 阶乘。进一步简化,我们有 12 个! /(12 - 3)! * 3!.经过计算,我们发现12选3等于220。因此,有220种方法可以从12匹马中选择3匹进行随机药物测试。

一般来说,我们可以将 N 选择 K 表示为 N 阶乘除以 (N - K) 阶乘乘以 K 阶乘。这个公式允许我们计算各种场景的组合数量。

在处理排列和组合时,要问的关键问题是顺序是否重要。如果顺序很重要,那就是排列问题。如果顺序无关紧要,那就是组合问题。

让我们探讨几个例子。假设我们想在一个由 20 名学生组成的班级中组建一个由四人组成的委员会。在这种情况下,选择的顺序并不重要,因此我们需要计算 20 选择 4。使用公式,我们发现 20 选择 4 等于 20! /(20 - 4)! * 4!,简化为 48,845。因此,从二十名学生组成一个四人委员会的方法有 48,845 种。

现在,让我们考虑另一种情况。如果四人委员会必须包括主席、副主席、秘书和财务主管,那么选择的顺序很重要。这里,我们需要计算20排列4,就是20! / (20 - 4)!.经过计算,我们发现有 116,280 种可能的排列方式。

稍微不同的情况,我们假设一个班有二十名学生组成一个四人委员会,并且必须指定一个人为主席。这是一个涉及两个步骤的混合问题。首先,我们选择总统,这可以通过 20 种不同的方式来完成。然后,我们选择委员会的其余三名成员,顺序并不重要。这对应于19选3。因此,可能性的总数是20次(19选3)。经过计算,我们发现有 19,382 种可能的结果。

总之,排列和组合涉及计算事件发生的方式或对象排列的方式数量。了解顺序是否重要对于确定解决问题的适当方法至关重要。通过应用基本计数原理,利用排列组合公式,我们可以有效地统计各种场景下的可能性。

Factorials, Permutations, and Combinations
Factorials, Permutations, and Combinations
  • 2020.07.04
  • www.youtube.com
Let's learn to count. Factorials, permutations, and combinations all rely on the terribly important Fundamental Counting Principle. Make it your friend! If t...
 

条件概率和乘法规则


条件概率和乘法规则

大家好,今天我们要深入研究条件概率的概念和乘法规则。让我们首先用一个例子来说明条件概率的想法。

在一项研究中,一名研究人员联系了 1,250 名成年人,询问他们是否喜欢狗还是猫。首先,让我们计算从该样本中随机选择一个喜欢狗的受访者的概率。在 1,250 名受访者中,有 589 人喜欢狗。因此,随机选择一个喜欢狗的人的概率是 589/1,250,等于 0.471 或 47.1%。

接下来,我们来计算 55 岁以上的受访者更喜欢狗而不是猫的概率。我们重点关注表中标有“55+”的列。在该专栏中,共有 325 名成年人中有 143 名喜欢狗。因此,从该列中随机选择喜欢狗的人的概率为 143/325,大约为 0.44 或 44%。

请注意,这两个概率并不相同。这突出了条件概率的概念,条件概率被定义为当我们已经知道事件 A 发生时事件 B 发生的概率。在我们的示例中,我们不仅计算了事件 B(偏爱狗)的概率,还计算了事件 B 给定 A 的概率(考虑到受访者年龄超过 55 岁,偏爱狗)。

让我们考虑另一个涉及条件概率的例子。我们有一副牌,从其中抽出两张牌,没有放回。如果抽到的第一张牌是国王,我们想要找到抽到的第二张牌也是国王的概率。这里,我们有两个事件:A是第一张牌是K的事件,B是第二张牌是K的事件。

如果第一个事件发生(我们抽到一张国王),我们现在剩下 51 张牌,其中三张是国王。因此,抽到第二张王的概率是 3/51,大约是 0.059 或 5.9%。值得注意的是,这个概率与第一张牌是 K 的概率不同,后者为 4/52 或 0.077。

当我们想要计算两个事件 A 和 B 同时发生的概率时,条件概率特别有用。这就是乘法规则发挥作用的地方。事件 A 和 B 依次发生的概率由以下公式给出:P(A 和 B) = P(A) × P(B|A)。假设第一个事件已经发生,我们将其解释为第一个事件发生的概率乘以第二个事件发生的概率。

例如,让我们计算一下从标准牌组中抽出两张 K 而无需放回的概率。第一张牌是国王的概率是 4/52,假设第一张牌是国王,第二张牌是国王的概率是 3/51。将这些概率相乘,我们发现两张牌都是 K 的概率约为 0.0045 或 0.45%。

现在,让我们考虑一下客户在餐厅点酒水和开胃菜的场景。我们观察到,顾客点酒水(事件 A)的概率为 40%,点开胃菜(事件 B)的概率为 30%,同时点酒水和开胃菜(事件 A 和 B)的概率为20%。

为了计算给定顾客点了开胃菜的点酒水的条件概率 (P(A|B)),我们可以使用乘法规则。代入给定值,我们有 P(A 和 B) = 20%,P(B) = 30%。通过重新排列乘法规则公式,我们可以求解 P(A|B):

P(A|B) = P(A 和 B) / P(B)

代入给定值,我们得到 P(A|B) = 20% / 30% = 2/3 或大约 0.667。因此,如果顾客点了开胃菜,那么他们点酒的概率是三分之二。

同样,假设顾客点了酒,我们来计算点开胃菜的概率 (P(B|A))。再次,使用乘法规则,我们有:

P(B|A) = P(A 和 B) / P(A)

代入给定值,我们有 P(B|A) = 20% / 40% = 1/2 或 0.5。因此,考虑到顾客点了酒,他们点开胃菜的概率是二分之一。

需要注意的是,这两个条件概率是不同的,这表明点酒和点开胃菜的事件是相关的。 P(A|B) 不等于 P(A) 并且 P(B|A) 不等于 P(B) 的事实表明,了解一个事件是否发生可以提供有关另一事件发生的可能性的信息。

现在,让我们考虑几个例子来确定列出的事件对是否独立:

  1. 如果您的父母都患有糖尿病,则患上糖尿病:这些事件是相关的。如果父母双方都患有糖尿病,则个人患糖尿病的可能性会增加。然而,并不确定个人是否会患上糖尿病,并且在没有家族病史的情况下仍有可能患上糖尿病。

  2. 标准骰子第一卷得到 5 点,第二卷得到 4 点:这些事件是独立的。第一次掷骰的结果不提供有关第二次掷骰结果的任何信息。对于每个事件,在公平骰子上掷出 5 和掷出 4 的概率均为 1/6。

  3. 吸烟和患肺癌:这些事件是相关的。吸烟会增加患肺癌的可能性。然而,这并不确定,不吸烟的人仍然可能患上肺癌。

  4. 从标准牌组中抽出的两张牌无需放回,并且两张牌都是 A:这些事件是相关的。抽出第二张牌为 A 的概率取决于抽出的第一张牌是否为 A。两张牌都是 A 的概率低于第一张牌是 A 的概率。

  5. 从标准牌组中抽出两张有替换牌的牌,并且两张牌都是 A:这些事件是独立的。第一次抽奖后更换卡片会消除从第一张卡片获得的任何影响或信息。两张牌抽到 A 的概率保持相同。

一般来说,如果一个事件在另一事件发生的情况下发生的概率等于该事件独立发生的概率,则认为两个事件是独立的。当概率不同时,事件是相关的。

最后,我们来分析一个场景,经理在餐厅研究订单的准确性。经理检查 960 个不同餐点和一天中不同时间的订单以确定概率。

问题 1:从该数据集中随机选择的订单被正确填写的概率可以计算如下:总共 960 个订单中有 842 个订单被正确填写。因此,概率为 842/960,大约等于 0.877 或 87.7%。

问题 2:为了找出随机选择的晚餐订单被正确填写的概率,我们考虑条件概率。在晚餐订单中,总共280份晚餐订单中,有249份正确填写。因此,概率为 249/280,大约为 0.889 或 88.9%。

问题 3:为了确定随机选择正确的订单是否与随机选择晚餐订单无关,我们将条件概率 P(A|B) 与概率 P(A) 进行比较。在本例中,P(A|B) 为 0.889(根据上一问题计算得出),P(A) 为 0.877(根据第一个问题得出)。由于两个概率不相等,我们可以得出结论,随机选择正确的订单与随机选择晚餐订单并不独立。

值得注意的是,在这个例子中,我们考虑了经典概率,它涉及根据给定的数据集计算概率。这些变量的未来观察是否独立的问题更加复杂,需要统计分析,例如卡方检验。根据经验确定事件的独立性涉及评估随机变异的存在并分析更大的样本量。

Conditional Probability and the Multiplication Rule
Conditional Probability and the Multiplication Rule
  • 2020.09.20
  • www.youtube.com
How does information about the probability of one event change the probability of another event? Let's get into it! If this vid helps you, please help me a t...
 

随机变量简介


随机变量简介

大家好,今天我们来深入研究随机变量的概念。随机变量是在某些概率过程中定义的变量,其中过程的结果由数值表示。让我们探讨几个例子以获得更好的理解。

考虑掷两个骰子并求其总和的情况。骰子的总和可以被视为随机变量。另一个例子是抛硬币 50 次并数出正面的数量。本实验中获得的头数也是一个随机变量。同样,测量芝加哥市随机选择的人的准确高度或测量老忠实间歇泉喷发的长度都是随机变量的例子。

值得注意的是,并非概率实验的所有结果都是随机变量。例如,在狗收容所随机选择的小狗的性别或随机选择的美国参议员的眼睛颜色都是不属于随机变量类别的结果。这些是分类数据,因为它们不是数值数据,也不定义随机变量。

随机变量有两种基本类型:离散变量和连续变量。连续随机变量的值在特定范围内,例如火山喷发的确切长度或随机选择的人的确切身高。这些值可以包括任何所需精度级别的分数和小数。另一方面,离散随机变量的值可以单独列出,例如 1、2、3、4 或 5。

当随机变量具有有限数量的可能结果时,我们可以构建一个表格,列出所有这些结果及其相应的概率。该表称为离散概率分布。让我们考虑一个例子,抛硬币三次并计算获得的正面的数量。可能的结果是 0、1、2 或 3 个正面朝上,我们为每个结果分配概率。例如,有八分之一的机会没有得到正面,并且概率相应地减少或增加。

也可以使用数据来构建离散概率分布。假设我们随机调查了 100 名美国成年人,并询问他们一周内出去吃晚餐的次数,回答范围从 0 到 5。我们可以通过除以计算选择属于每个类别的个体的概率该类别的人数除以总样本量(即 100)。这会产生一个概率分布,显示随机变量(外出就餐的次数)的所有可能结果及其各自的概率。

为了直观地表示离散概率分布,我们可以绘制概率直方图。继续前面的示例,我们可以创建一个直方图,其中 x 轴为类别 0、1、2、3、4 和 5,相应的概率为条形的高度。例如,如果上周外出就餐次数为 0 次的概率为 0.49,则我们在高度为 0.49 处为类别 x=0 绘制一个条形。该概率直方图的形状与相同数据的频率分布直方图的形状相同。

总之,随机变量是代表概率实验结果的数值。它们可以是离散的或连续的。离散随机变量具有有限数量的可能结果,并且它们的概率可以使用离散概率分布来表示。概率直方图对于直观地描述离散概率分布和理解不同结果的可能性很有用。

An Introduction to Random Variables
An Introduction to Random Variables
  • 2020.04.30
  • www.youtube.com
What is a random variable? What are the different types? How can we quantify and visualize them? If this vid helps you, please help me a tiny bit by mashing ...
 

R 中的概率直方图


R 中的概率直方图

大家好!今天,我们将探索使用 qplot 命令在 R 中构建漂亮的概率直方图的过程。让我们来看几个例子。

在我们的第一个示例中,我们有一个名为 X 的离散随机变量,它可以取 1 到 6 之间的值以及它们各自的概率。首先,我们输入数据并在 R 中生成直方图。

我们首先定义变量 X,它可以取 1 到 6 之间的值。我们可以使用缩写冒号运算符 1:6 来完成此操作。现在,我们的变量 X 包含值 1、2、3、4、5 和 6。

接下来,我们创建一个向量来存储相应的概率。在本例中,值 1、2、3、4、5 和 6 的概率分别为 0.15、0.1、0.1、0.4、0.2 和 0.05。需要注意的是,概率的顺序必须与相应值的顺序相匹配。

为了确保我们输入的数据正确,我们可以通过计算所有概率的总和来执行快速检查。如果我们有合法的离散概率分布,则总和应始终为 1。此时,和确实为1,说明数据输入正确。

现在,让我们生成概率直方图。我们将使用 qplot 函数并指定变量 X 作为 x 轴。我们还需要让 R 知道如何使用概率(我们作为高度参数提供)对值进行加权。最后,我们指定绘图的类型,在本例中是直方图。

生成直方图后,我们注意到条形图没有相互接触。在概率直方图中,相邻值应该有接触的条形,表示它们的关系。为了解决这个问题,我们可以指定 bin 的数量与我们拥有的值的数量相同。在本例中,我们有六个值,因此我们将 bin 数量设置为 6。

现在直方图开始形成。然而,为了增强其视觉吸引力,我们可以在条形之间添加一些区别。我们通过指定条形的边界颜色来实现这一点。在本例中,我们使用黑色。

继续第二个示例,我们继续创建概率直方图的过程。这次,我们有一个称为 Y 的随机变量,它可以取值 15、16、18、19 和 20。我们也有这些值的相应概率,但 17 除外,它的概率为 0,因为它是不是一个可能的结果。

我们遵循与之前相同的步骤,输入数据并使用 qplot 函数生成直方图。然而,这次我们注意到 Y 等于 17 处有一个空桶,表明概率为零。为了准确捕获此信息,我们希望使用 6 个 bin,并允许 Y 等于 17 时有一个空 bin。

我们可以通过添加条形的边界颜色和内部颜色来进一步增强直方图的美观性。例如,我们可以将边界颜色设置为深蓝色,将填充颜色设置为普通蓝色。此外,我们可以自定义 y 轴标签以指示它代表概率,并将 x 轴标签更改为简单的“值”,因为这是一个抽象数据集。

通过这些调整,我们的概率直方图显得更加专业。当然,我们可以继续对颜色和标签进行微调,以达到想要的视觉呈现效果。这就是我们在 R 中构建优雅的概率直方图的方法。

Probability Histograms in R
Probability Histograms in R
  • 2020.09.11
  • www.youtube.com
Constructing attractive probability histograms is easy in R. In this vid, we use the qplot() command in the ggplot2 package.If this vid helps you, please hel...
 

使用离散随机变量


使用离散随机变量

大家好!今天,我们将探讨离散随机变量和离散概率分布的概念。随机变量是其值由随机过程确定的变量。对于离散随机变量,可以列出可能的结果,从而得到离散概率分布。

让我们考虑一个例子来说明这个概念。想象一下,我们有一栋有 16 个房间的房子,我们随机选择一个房间来计算它拥有的窗户数量。窗口的数量可以是 0、1、2、3 或 4,每个窗口对应的概率为 3/16、5/16 等。这表示离散概率分布,由所有可能的结果及其相关概率组成。

离散随机变量和离散概率分布有两个重要的性质。首先,所有概率的总和必须等于 1。这确保了某些事情总会发生,因为概率涵盖了所有可能的结果。在我们的示例中,如果将所有概率相加,我们将得到 16/16 或 1。

其次,在处理离散概率分布时,可以添加概率。例如,如果我们想求X为3或4的概率,我们可以计算X为3的概率和X为4的概率,然后将它们相加。在这种情况下,概率为 3/16 + 1/16 = 4/16 = 1/4。

让我们继续解决几个示例问题。考虑另一个离散概率分布,涉及随机变量 Y,有五个可能的结果:5、10、25、50 和 200。我们给出了其中四个结果的概率,我们需要找到第五个结果的概率。

由于所有概率之和必须等于 1,因此我们可以推导出缺失概率。用 1 减去已知概率 (0.04 + 0.12 + 0.18 + 0.45) 的总和,我们发现 Y 为 200 的概率为 0.21。

现在,让我们使用相同的离散概率分布执行一些计算。首先,我们想要找到 Y 小于或等于 10 的概率。这涉及将 Y 等于 5 和 Y 等于 10 的概率相加,结果为 0.04 + 0.12 = 0.16。

接下来,我们感兴趣的是 Y 为奇数的概率。在这种情况下,我们有两个结果:Y 等于 5 和 Y 等于 25。通过将它们的概率相加,我们得到 0.04 + 0.18 = 0.22。

最后,让我们确定 Y 大于 5 的概率。我们可以使用一种捷径,而不是直接将 Y 等于 10、25、50 和 200 的概率相加。我们考虑补事件:Y 不大于 5 的概率。用 1 减去 Y 小于或等于 5 (0.04) 的概率,我们得到 1 - 0.04 = 0.96。

这些示例演示了如何在离散概率分布的背景下计算概率并利用互补事件。

Working with Discrete Random Variables
Working with Discrete Random Variables
  • 2020.04.30
  • www.youtube.com
Let's solve some problems using discrete probability distributions!
 

随机变量:均值、方差和标准差


随机变量:均值、方差和标准差

大家好!今天,我们将讨论随机变量及其集中趋势和散布的度量,即均值、方差和标准差。我们可以用与处理数值数据类似的方式来描述随机变量的中心和分布。

让我们考虑一个离散概率分布的例子。想象一下,我们进行了一项调查,随机询问人们上周外出就餐的次数。分布显示,大约 49% 的受访者没有外出就餐,大约 22% 的受访者曾经外出就餐过,等等。我们可以使用概率直方图来可视化该分布。观察直方图,可以直观地讨论这个随机变量的中心和散布。

更具体地说,让我们根据直方图来解释我们的发现。随机变量的期望值或平均值是通过将随机变量的每个值乘以其相应的概率并将结果相加来确定的。该加权平均值代表随机变量的中心。参考之前的离散概率分布,我们通过将每个值(0、1、2 等)乘以其各自的概率(0.49、0.22 等)并对乘积求和来计算期望值。在本例中,预期值为 1.12。

期望值通常表示为μ,类似于数据分析中的总体平均值。它测量随机变量的中心。查看概率直方图,期望值表示直方图在支点上平衡的平衡点。

现在,我们讨论离散随机变量的分布,它是使用方差和标准差来测量的。方差的计算方法是从随机变量的每个值中减去平均值,对结果进行平方,乘以相应的概率,并对所有加权方差求和。这捕获了每个值偏离平均值的程度。但是,由于我们对差异进行了平方,因此得到的方差不会与原始数据具有相同的单位。为了在同一尺度上进行测量,我们取方差的平方根,得到标准差。

在实践中,手动计算方差和标准差可能很麻烦。建议使用技术,例如统计软件或计算器。例如,在R编程中,我们可以输入值及其对应的概率,然后使用内置函数计算期望值、方差和标准差。

通过利用技术,我们可以有效地进行计算,并避免涉及乘积和平方的手动计算。方差为计算和理论考虑提供了宝贵的见解,而标准差更便于解释,因为它与原始随机变量共享相同的单位。

总之,在处理随机变量时,了解它们的中心(均值)和散布(方差和标准差)至关重要。这些措施使我们能够有效地量化和解释随机变量的特征。

Random Variables: Mean, Variance, and Standard Deviation
Random Variables: Mean, Variance, and Standard Deviation
  • 2020.05.02
  • www.youtube.com
If this vid helps you, please help me a tiny bit by mashing that 'like' button. For more #rstats joy, crush that 'subscribe' button!
 

R 中的二项式计算


R 中的二项式计算

大家好,今天我们将使用R进行涉及二项式分布的计算。在 R 中,有四个基本函数对于处理二项式分布非常重要。

首先,rbinom() 函数从二项式分布生成随机值。它需要三个参数:生成的随机值的数量、样本大小以及单个试验的成功概率。例如,rbinom(10, 2, 0.5) 从二项分布生成 10 个随机值,样本大小为 2,成功概率为 0.5。

其次,dbinom() 函数返回在二项式分布中获得指定成功次数的概率。它需要三个参数:成功次数、样本大小和成功概率。您可以将成功次数指定为向量,以一次性计算不同成功次数的概率。例如,dbinom(0:4, 4, 0.5) 计算在样本大小为 4、成功概率为 0.5 的二项分布中获得 0、1、2、3 或 4 次成功的概率。

接下来,pbinom() 函数是累积概率函数。它返回在二项式分布中最多获得指定数量成功的概率。与 dbinom() 类似,您可以提供值向量来计算累积概率。例如,pbinom(0:4, 4, 0.5) 返回在样本量为 4、成功概率为 0.5 的二项分布中最多获得 0、1、2、3 或 4 次成功的概率。

最后,qbinom() 函数是一个逆概率计算器。它返回累积概率等于或大于指定概率的最小成功值。换句话说,它计算二项式分布中的分位数。例如,qbinom(c(0.25, 0.5, 0.75), 10, 0.5) 给出二项式分布中的第 25、50 和 75 个百分位数,样本大小为 10,成功概率为 0.5。

现在让我们将这些函数应用到一些问题上。

问题 1:让我们模拟 50 次实验,将公平骰子掷 10 次并计算 6 的数量。我们可以使用 rbinom() 函数,样本大小为 10,成功概率为 1/6(因为掷出 6 的几率为 1/6)。

results <- rbinom ( 50 , 10 , 1 / 6 ) table ( results )

问题2:根据最近的一项调查,72%的美国人更喜欢狗而不是猫。如果随机选择 8 个美国人,其中恰好有 6 个美国人喜欢狗,而少于 6 个美国人喜欢狗的概率是多少?我们可以使用 dbinom() 和 pbinom() 函数。

# Probability of exactly 6 preferring dogs prob_six <- dbinom ( 6 , 8 , 0.72 ) # Probability of fewer than 6 preferring dogs prob_less_than_six <- pbinom ( 5 , 8 , 0.72 ) prob_six prob_less_than_six

问题 3:加权的硬币正面朝上的几率为 42%。 5 次抛掷中正面朝上的预期数量是多少?另外,为表示 5 次抛掷中正面朝上的数量的随机变量构建概率直方图。

为了计算预期的正面数量,我们可以使用二项式分布的预期值公式,即样本量与成功概率的乘积。在本例中,样本大小为 5,成功(获得正面)的概率为 0.42。

# Expected number of heads
expected_heads <- 5 * 0.42 expected_heads

抛掷 5 次加权硬币的预期正面数量为 2.1。

为了构建概率直方图,我们将使用 R 中的 ggplot2 包。首先,让我们安装并加载该包。

install.packages ( "ggplot2" ) # Run this line if ggplot2 is not installed library ( ggplot2 )

接下来,我们将使用 dbinom() 函数生成 5 次抛掷中正面朝上的数量的离散概率分布。我们将计算每种可能的正面朝上数(0 到 5)的概率。

x <- 0 : 5 # Possible number of heads
p <- dbinom ( x , 5 , 0.42 ) # Probabilities

现在,我们可以使用 ggplot2 创建概率直方图。

# Create probability histogram
df <- data.frame ( x = x , p = p )
ggplot ( df , aes ( x = as.factor ( x ) , y = p ) ) + geom_bar ( stat = "identity" , fill = "lightblue" ) + xlab ( "Number of Heads" ) + ylab ( "Probability" ) + ggtitle ( "Probability Histogram for Number of Heads in 5 Tosses" )

此代码将生成一个直方图,其中 x 轴为正面数量,y 轴为相应概率。

Binomial Calculations in R
Binomial Calculations in R
  • 2020.09.12
  • www.youtube.com
In this vid, we learn how to do binomial calculation in R using the commands rbinom(), dbinom, pbinom(), and qbinom(). If this vid helps you, please help me ...
 

伯努利试验和二项式分布


伯努利试验和二项式分布

大家好,今天我们将讨论伯努利试验和二项式分布。伯努利试验是一个简单的概率实验,有两种结果:成功和失败。这些试验由成功概率定义,用小写“p”表示。让我们考虑一些例子来说明这个概念。

例如,抛硬币并认为正面为成功的成功概率 (p) 等于 1/2。从标准的 52 张牌中抽取一张牌并将 A 视为成功,成功的概率 (p) 等于 4/52 或 1/13。如果 40% 的美国选民支持他们的总统,那么随机挑选一名选民的成功概率 (p) 等于 0.4。

值得注意的是,术语“成功”和“失败”是本文中的技术术语,并不暗示任何政治声明或个人观点。我们可以将伯努利试验表示为离散随机变量,将成功编码为 1,将失败编码为 0。这使我们能够创建一个简单的概率分布,其中 x 取值为 0 或 1。获得 1 的概率等于 p,而获得 0 的概率等于 1 - p,因为这些结果是互补的。

我们可以通过将 x 乘以所有可能的 x 值的相应概率 (p(x)) 来计算该随机变量 (x) 的期望值。期望值等于p,代表单次试验成功的概率。类似地,我们可以通过对 x 的所有可能值求和 (x - 期望值)^2 乘以 p(x) 来计算方差。方差等于 p(1 - p)。方差的平方根给出了标准差,它衡量了随机变量的分布。

在许多情况下,伯努利试验会重复进行,从而导致 n 次相同且独立的试验总共成功。这导致离散随机变量的值可以从 0 到 n。二项分布通常表示为 B(n, p),表示当我们有 n 个相同且独立的伯努利试验且成功概率为 p 时该随机变量的概率分布。

例如,如果将一枚公平的硬币翻转 3 次,并且我们将 x 定义为正面的数量,则 B(3, 0.5) 就是二项式分布。我们可以通过考虑所有可能的结果及其相应的概率来直接计算 x 的每个值的概率。随着 n 变大,手动计算这些概率变得不切实际,我们需要一个更通用的公式。

在 n 次试验中恰好 k 次成功的概率(其中 k 的范围为 0 到 n)由公式 n select k × p^k × (1 - p)^(n - k) 给出。该公式说明了在 n 次试验中准确实现 k 次成功的方法数量以及各自的概率。它使我们能够有效地计算二项式分布的概率。

让我们考虑一个篮球运动员平均罚球成功率为 78% 的例子。如果她罚球 10 次,我们可以使用二项分布来计算她恰好罚球 8 次和至少罚球 8 次的概率。通过将这些值代入公式,我们可以相应地计算概率。

具有二项式分布的随机变量是多次伯努利试验的总和。该随机变量的平均值由 n 乘以 p 给出,方差由 n 乘以 p 乘以 (1 - p) 给出。标准差是 np 乘以 (1 - p) 的平方根。

如果篮球运动员投篮十次,成功概率为 0.78,则期望值(平均值)为 10 * 0.78 = 7.8,标准差为 (10 * 0.78 * (1 - 0.78) 的平方根)) ≈ 1.3。

为了可视化二项式分布,我们可以构建概率直方图。以篮球运动员投篮 10 次、成功概率为 0.78 为例,我们创建一个直方图,其中的条形代表从 0 到 10 的每个 x 值(成功投篮次数)。每个条形的高度对应于成功概率十次尝试中的具体投篮次数。例如,恰好射中 8 次的概率约为 0.3。

二项式分布提供了一个有用的框架,用于分析涉及具有固定成功概率的重复独立试验的情况。通过了解二项式分布的属性,例如期望值、方差和概率计算,我们可以在统计、金融和质量控制等各个领域做出明智的决策和预测。

请记住,二项式分布假定某些条件,例如独立试验和每次试验的成功成功概率。将二项式分布应用于现实场景时,应仔细考虑这些假设。

总之,伯努利试验和二项式分布提供了对具有两个结果和多个独立试验的概率实验的基本理解。通过利用与这些概念相关的公式和属性,我们可以分析和预测在各种情况下取得不同程度成功的概率。

Bernoulli Trials and The Binomial Distribution
Bernoulli Trials and The Binomial Distribution
  • 2020.08.03
  • www.youtube.com
Your life will get so much better once you understand the binomial distribution. If this vid helps you, please help me a tiny bit by mashing that 'like' butt...