编程教程 - 页 15

 

平均值的置信区间 - 示例


平均值的置信区间 - 示例

大家好,今天我们将讨论在已知总体标准差的情况下构建总体均值的置信区间。此外,我们将使用与家用浴室秤相关的示例来探讨可能影响误差幅度大小的因素。

使用浴室秤时,可以合理地假设读数将围绕被称重者的真实体重呈正态分布。然而,这些读数预计不会完全准确,可能会稍高或略低。在此示例中,假设我们可以访问有关量表总体标准差的信息,即 1.2 磅。

我们的主要兴趣在于为被称重者的真实体重构建一个置信区间,我们将其表示为 μ。为了实现这一点,我们将在秤上反复称量一个人的体重,计算这些称量的样本平均值,并使用公式 μ = x-bar ± z-star * σ / √n。此处,x-bar 表示样本均值,n 是样本大小,σ 是总体标准差,z-star 是与所需置信水平 (C) 对应的临界 z 值。

为了让我们的例子更具体,假设我们在体重秤上给一位统计学家称重五次,得到的平均体重为 153.2 磅。这是我们的样本均值。现在,我们要为统计学家的真实体重构建 90% 的置信区间,假设量表的标准差为 1.2 磅。通过将这些值代入公式,我们发现区间估计值为 153.2 ± 0.88 磅。

由于我们选择了 90% 的置信水平,因此我们可以预期该区间将在大约 90% 的情况下捕获统计学家的真实权重。

现在,让我们深入研究一下误差幅度的结构。误差幅度遵循公式 z-star * σ / √n,其中包含三个关键组成部分:临界值 z-star(与置信水平相关)、总体标准差 σ(反映总体中的散布) ,以及样本大小 n。

通过修改这三个组件中的任何一个,我们可以预见地影响误差幅度的大小。如果我们增加置信度,误差幅度也会增加,因为相应的 z 星值会更大。同样,增加总体标准差 σ 将导致更大的误差范围,因为数据中存在更多变异性,从而使样本均值不太可靠。另一方面,增加样本大小 n 将减少误差幅度,因为样本平均值成为总体平均值的更准确的预测因子。

为了说明这些影响,让我们重新审视 90% 置信区间示例,其中标准差为 1.2 磅,样本大小为 5。如果我们将置信水平提高到 95%,z 星值将变为 1.960,从而产生更大的裕度误差为 1.05 磅。如果我们恢复到 90% 的置信水平,但将标准差增加到 1.5 磅,则误差幅度会扩大到 1.1 磅。最后,如果我们将标准差保持在 1.2 磅,但将样本量加倍到 10,则误差幅度会减小到 0.62 磅,表明置信区间更窄。

值得注意的是,虽然改变置信水平和样本量是实际调整,但修改标准差通常超出我们的控制范围,因为它反映了总体的固有变异性。

总之,置信区间为感兴趣的总体参数提供了一系列合理的值。误差幅度受置信水平、总体标准差和样本量的影响,有助于我们了解估计的精度和可靠性。增加置信水平会扩大间隔,从而为捕获真实参数提供更高的置信水平。由于数据变异性增加,总体标准差越大,区间就越宽。相反,增加样本量会缩小区间,因为它提供了更多信息并提高了估计的准确性。

在我们讨论的示例中,可以进行两个实际更改:调整置信水平和更改样本大小。这些变化使我们能够控制确定性水平和用于估计的数据量。然而,量表的标准偏差不在我们的控制范围内,因此修改起来不太现实。

了解影响误差范围和置信区间的因素对于解释统计结果至关重要。它使我们能够根据我们估计的准确性和可靠性做出明智的决策并得出有意义的结论。

Confidence Intervals for the Mean - Example
Confidence Intervals for the Mean - Example
  • 2020.07.31
  • www.youtube.com
Let's construct a confidence interval for a population mean! We'll also talk about the structure of the margin of error, and what goes into making it large o...
 

置信区间和中心极限定理


置信区间和中心极限定理

大家好,今天我们将应用中心极限定理并构建总体均值的置信区间。总体均值 mu 的置信区间公式依赖于这样的假设:抽样总体遵循均值 mu 和方差 sigma 平方的完全正态分布。然而,在很多情况下,这种假设并不合理。例如,在确定电话银行的平均通话时长时,通话时长的分布不太可能是正态的。它更有可能具有偏态分布的直方图,而不是钟形曲线。

尽管如此,我们仍然可以利用中心极限定理构建总体平均值 mu 的置信区间。该定理指出,只要样本量 n 足够大(通常 n ≥ 30),样本均值的抽样分布将近似正态分布,无论总体分布的形状如何。为了形象化这一点,想象一下重复获取大小为 n 的样本,每次计算样本均值(x 条),并创建这些样本均值的直方图。根据中心极限定理,该直方图将呈现一条以总体均值为中心的钟形曲线,其分布通过总体方差除以样本大小来衡量。

值得注意的是,随着样本量 n 的增加,这种近似值会提高。让我们通过几个例子来说明这个概念。假设电话银行呼叫的标准差为 sigma = 1 分钟,并且我们获得大小为 81 的样本。样本均值 (x 条) 的分布将近似正态分布,均值等于总体均值且标准sigma 的偏差除以 n 的平方根(在本例中为 1 / √81 ≈ 0.11)。

有了这些信息,我们就可以计算置信区间,类似于已知总体分布呈正态分布时的情况。然而,我们必须记住,这些置信区间只是近似值。例如,如果我们有一个大小为 81 的样本,并找到 1.1 分钟的样本平均值,我们可以使用以下公式构建总体平均值的 95% 置信区间:

mu ≈ x bar ± z star * sigma / √n

通过代入值 (x bar = 1.1、sigma = 1.0、n = 81),并使用对应于 95% 置信度 (1.960) 的临界 z 值 (z star),我们发现总体平均值 (mu) 约为1.1 ± 0.22 分钟,置信度为 95%。

让我们考虑另一个例子。一家大公司在全国零售店雇用了数千名店员。在规模为 35 的样本中,每周平均工作小时数为 23。我们希望为该公司雇用的所有职员的平均工作小时数构建 90% 的置信区间,假设标准差 (sigma) 为5个小时。我们可以使用相同的公式:

mu ≈ x bar ± z star * sigma / √n

通过代入值 (x bar = 23、sigma = 5、n = 35),并使用对应于 90% 置信度 (1.645) 的临界 z 值 (z star),我们发现总体平均值 (mu) 约为23 ± 1.4 小时,置信度为 90%。

综上所述,即使总体分布不完全正态,我们仍然可以利用中心极限定理构造总体均值的近似置信区间。这些间隔提供了宝贵的见解,并帮助我们做出统计推断,了解与我们的估计相关的置信度。

Confidence Intervals and the Central Limit Theorem
Confidence Intervals and the Central Limit Theorem
  • 2020.08.11
  • www.youtube.com
The central limit theorem lets us build confidence intervals for the mean even when the shape of the population distribution isn't known. If this vid helps y...
 

置信区间和样本量


置信区间和样本量

大家好,今天我们将讨论置信区间和样本量。当我们有一个大小为“n”且样本平均值为“x bar”的简单随机样本时,我们可以使用以下公式为总体平均值“mu”构建水平“c”置信区间:

mu = x bar ± z star * sigma / √n

这里,“z star”表示对应于置信水平“c”的临界 z 分数,“sigma”是总体标准差。术语“z star * sigma / √n”被称为误差幅度,它是对我们的样本平均值可能偏离真实总体平均值“mu”的程度的估计。

构建置信区间背后的想法是,粗略地说,“mu”将在时间的百分比“c”内落入“x bar”的误差范围内。

现在,让我们考虑一个实际问题:如果我们希望误差幅度不大于指定的阈值“e”,我们需要多大的样本?在这种情况下,我们知道“e”,期望的误差幅度,“c”,置信水平,以及“sigma”,总体标准差(假设已知)。我们需要通过代数求解方程来找到所需的样本量“n”。

为了计算样本量,我们将方程两边乘以 √n,两边除以“e”,然后对两边进行平方,得到:

n = (z 星 * 西格玛 / e)^2

如果“n”的结果值不是整数(这种情况很常见,因为“z star”往往是无理数),我们将其四舍五入到最接近的整数。值得注意的是,增加样本量会降低误差幅度,而向下舍入“n”可能会增加误差幅度,使其超出所需的阈值“e”。

临界 z 分数“z 星”由指定的置信度“c”确定。该值可以使用技术或通过参考表格来计算。尽管通常不建议使用表格进行统计计算,但在常用置信水平的情况下,例如 95% 置信水平(对应于 az 分数 1.960),该表格很小且使用合理。

让我们考虑一个例子:假设我们想要使用标准差为 1.2 磅的秤,以 95% 的置信度确定统计学家的体重,精确到半磅。我们需要对统计学家进行多少次权衡?

通过将给定值代入样本量公式,我们发现所需的最小样本量为 23 次称重,我们将其四舍五入为 23。因此,我们需要对统计员称重 23 次才能知道他们的体重,精确到半磅: 95%的信心。

正如预期的那样,如果我们提高置信水平或降低误差幅度,所需的样本量也会增加。相反,如果我们增加误差幅度,所需的样本量就会减少。

再举个例子,假设一家制造商想要以 99% 的置信度确定某种类型铁钉的平均重量在 0.2 克以内,总体标准差为 0.5 克。通过应用样本量公式,我们发现至少需要 42 个指甲的样本量才能达到 99% 的置信水平,且误差幅度不低于 0.2 克。

了解置信区间及其与样本量的关系使我们能够有效地计划研究和实验,确保我们的估计在所需的置信度和精度水平内准确可靠。

Confidence Intervals and Sample Size
Confidence Intervals and Sample Size
  • 2020.08.03
  • www.youtube.com
Choosing the correct sample size to accommodate a required margin of error is easy! Let's see how to do it. If this vid helps you, please help me a tiny bit ...
 

使用 t 分布的置信区间


使用 t 分布的置信区间

大家好,在今天的课程中,我们将使用 t 分布构建置信区间。在我们之前的讨论中,我们使用公式 mu 等于 x bar 加上或减去 n 的平方根上的 z-star sigma 来近似总体平均值 mu 与样本平均值 x bar 并计算误差范围。然而,该公式假设我们知道总体标准差 sigma,但情况通常并非如此。

为了克服这个限制,我们可以使用样本标准差 s 来估计总体标准差 sigma。 t 分布的置信区间公式与前一个公式类似,但略有修改。我们使用基于所选置信水平的临界 t 值,而不是临界 z 分数。 t 分布描述了变量 t 的变异性,由 t 等于 x bar 减去 s 上的 mu 再除以 n 的平方根得出。 t 分布是对称的钟形分布,与标准正态分布类似,但对于较小的样本量,其分布稍大。

为了构建置信区间,我们需要找到 t 的截止值(表示为 t-star),使得 t 介于负 t-star 和正 t-star 之间的概率等于所选的置信水平。一旦确定了 t-star,我们就可以使用公式 mu 等于 x bar 加或减 t-star s 除以 n 的平方根来计算置信区间。

让我们来看一个例子。一组研究人员想要调查加拿大湖泊中的钠浓度。他们收集了 23 个样本,发现平均值为百万分之 24.7,样本标准差为百万分之 4.2。我们想要为湖中的平均钠浓度构建 95% 的置信区间。由于我们不知道总体标准差,因此我们将使用 t 分布。

代入这些值,我们得到 x bar 等于 24.7,s 等于 4.2,n 等于 23。为了找到临界 t 值,我们需要确定对应于在每侧留下 2.5% 面积的 t 星值t 分布。使用逆 t 计算,我们发现 t-star 约为 2.074。

现在我们可以构造置信区间:24.7 正负 2.074 乘以 4.2 除以 23 的平方根。简化这个表达式,我们得到的置信区间为 24.7 正负 1.8。

值得注意的是,临界 t 值 2.074 略大于相同置信水平下的临界 z 分数。这是因为我们正在估计总体标准差,引入了一些额外的不确定性,导致置信区间稍宽。

总之,在不知道总体标准差的情况下构建置信区间时,我们使用 t 分布并用样本标准差来估计总体标准差。该过程的其余部分类似于构建具有已知标准差的置信区间,但使用临界 t 值而不是临界 z 分数。

Confidence Intervals Using the t-Distribution
Confidence Intervals Using the t-Distribution
  • 2020.08.15
  • www.youtube.com
How do we construct confidence intervals when the population standard deviation is unknown? Easy! We use the t-distribution. If this vid helps you, please he...
 

假设检验简介


假设检验简介

大家好,在今天的会议中,我们将深入探讨假设检验,也称为显着性检验。为了更好地理解这个概念,我们将一起讨论一个例子。让我们开始。

假设一家巧克力制造商声称他们的巧克力棒平均重量为 350 克。然而,我怀疑他们的说法被夸大了,他们的巧克力棒的真实平均重量不到 350 克。为了调查这一点,我收集了 10 块巧克力棒的样本并记录了它们的重量。如果样本平均值低于 350 克,则将提供反驳该公司主张的证据。如果等于或大于350克,就不会挑战他们的断言。

假设我的样品平均重量为 347 克,低于 350 克。因此,这个结果支持了我的怀疑并对公司的说法提出了挑战。然而,该公司可能会辩称,我的样品可能是随机的,如果我要收集另一个样品,由于随机机会,它可能会产生正好 350 克甚至更高的重量。因此,我需要一种方法来在这两种可能性之间做出决定:公司撒谎还是结果是偶然的。

在这种情况下,我们最多能做的就是就该公司的索赔做出概率陈述。我们想要确定,如果该公司说的是真话,我们获得的样本均值与我们纯粹偶然观察到的样本均值一样低的概率。较低的概率表明更有力的证据反对该公司的主张。

为了进行数学计算,我们假设零假设,表示为 H0,它与该公司的声明相符。在本例中,原假设指出所有巧克力棒的总体平均值恰好为 350 克。另一方面,我们有备择假设,表示为 Ha,它代表我们想要建立的目标。在本例中,Ha 断言所有巧克力棒的平均重量小于 350 克(Ha:μ < 350)。

值得注意的是,H0 和 Ha 均指总体参数,而不是样本均值(x 条)。我们还没有提到 x-bar,因为我们将用它来在 H0 和 Ha 之间做出决定。

为了计算概率,我们需要考虑 x-bar 的采样分布。我们假设原假设为真,并设想获得大小为 10 的多个样本。x 条的分布是什么样的?虽然各个巧克力棒的重量可能有所不同,但平均重量(x 柱)将与总体平均值 (μ) 一致。

中心极限定理进一步帮助我们理解抽样分布。对于足够大的样本量(通常 n > 30),x-bar 的采样分布近似于均值 μ 和标准差 σ/√n 的正态分布。如果总体分布本身是正态的,则近似是准确的,并且 x 条的分布也恰好是正态的。

想象一下蓝色曲线代表单个巧克力棒,在零假设下平均重量为 350 克。有些条可能稍重或稍轻,有一些可能会有很大偏差。现在可视化绿色曲线,它代表 x 条的采样分布。平均而言,如果原假设成立,x-bar 将为 350 克,但会有一些细微的变化。然而,与单个条形图相比,x-bar 的变异性会更小,因为极端权重往往会在样本中相互平衡。

假设我们知道巧克力棒的标准偏差为 4 克。尽管这可能不是我们通常知道的值,但我们将在以后的视频中解决这个问题。利用 μ = 350 克的零假设和中心极限定理,我们获得了有关 x-bar 采样分布的所有必要信息。它将遵循正态分布,平均值为 350 克,标准差为 4 克,除以 10 的平方根(因为样本大小为 10),大约为 1.26 克。

为了计算纯粹通过随机机会获得小于或等于 347 克的样本平均值(x 条)的概率,我们可以计算 z 分数。 x 条小于或等于 347 克的概率等于相应 z 分数小于或等于 (347 - 350) / 1.26 的概率,简化为 -2.37。

使用统计软件或表格,我们发现标准正态分布小于或等于-2.37的概率约为0.0089。该概率称为 p 值。

现在,我们来讨论 p 值的解释。在这种情况下,p 值 0.0089 相对较小。 p 值表示如果原假设(μ = 350 克)为真,则获得 347 克或更少样本平均值的概率。 p 值较小表明,如果原假设为真,则不太可能观察到如此低的样本均值。

有两种可能性需要考虑:首先,零假设可能为真,并且我们偶然观察到一个罕见事件(样本平均值为 347 克或更少),该事件发生的概率约为 0.0089。其次,零假设可能是错误的(正如我们最初怀疑的那样),而备择假设(μ < 350 克)是正确的。

由于 p 值 0.0089 相当低,第一种可能性似乎不太可能。因此,我们拒绝原假设(H0:μ = 350 克)并支持备择假设(Ha:μ < 350 克)。由此我们得出结论,有强有力的证据表明该公司生产的巧克力棒的总体平均重量确实低于 350 克。

最后,我们介绍了进行假设检验的基本步骤。然而,还有一些我们尚未解决的问题,例如确定足够小的 p 值的阈值、考虑替代假设以及处理总体参数未知的情况。在以后的视频中,我们将探讨这些问题并提供有关假设检验的进一步见解。

Introduction to Hypothesis Testing
Introduction to Hypothesis Testing
  • 2020.10.29
  • www.youtube.com
Let's talk about hypothesis testing (also known as significance testing). How can we test a claim about a population using just sample data? What is a p-valu...
 

统计学意义


统计学意义

今天是个好日子!今天,我们将深入研究假设检验的概念并讨论统计显着性的概念。假设检验有多种形式,最常见的是总体均值的 z 检验和 t 检验。尽管如此,基本逻辑仍然是一样的。

首先,我们假设原假设为真。然后,假设零假设正确,我们收集数据样本并计算纯粹通过随机机会获得相似样本的概率。该概率称为检验的 p 值。 p 值越低表明反对原假设的证据越有力。

然而,在大多数情况下,简单地比较 p 值可能不足以做出明确的决定。因此,在进行假设检验之前建立预定的截止 p 值(称为显着性水平 alpha)通常很有帮助。通常,alpha 设置为 0.05,但它可能会有所不同。

当我们基于小于 alpha 的 p 值拒绝原假设时,我们认为结果具有统计显着性。换句话说,证据支持替代假设。现在,让我们探讨几个示例来说明这些概念。

示例 1:一家巧克力制造商声称其巧克力棒的平均重量为 350 克。然而,我们怀疑真实的平均体重较低。我们设置了显着性检验,提出了公司声明属实的原假设和平均重量小于 350 克的备择假设。我们预先决定使用 alpha 的显着性水平等于 0.05。

在收集了 10 个样本并计算了 347 克的样本平均值后,假设原假设为真,我们确定获得如此极端结果的概率。结果 p 值为 0.0089。由于该 p 值小于 0.05,因此我们拒绝原假设并得出结论:该公司巧克力棒的平均重量确实小于 350 克。

示例 2:医学研究人员进行了一项研究来测试新型减肥药物的有效性。他们选择 alpha 的显着性水平等于 0.01。零假设表明与安慰剂相比,平均体重减轻为零,而备择假设表明平均体重减轻为正。分析数据后,他们得到的 p 值为 0.045。由于 p 值大于所选的显着性水平 0.01,因此他们无法拒绝原假设。因此,没有足够的证据表明该治疗平均优于安慰剂。

值得注意的是,如果他们选择 alpha 显着性水平等于 0.05,则结论可能会有所不同。这凸显了显着性测试和 alpha 阈值的使用的潜在陷阱。盲目依赖假设检验进行决策可能是有风险的。始终报告 p 值以及基于显着性水平 alpha 做出的任何决策。此外,在解释 p 值时要小心并考虑各种因素,我将在下一个视频中讨论。

Statistical Significance
Statistical Significance
  • 2020.10.30
  • www.youtube.com
Let's talk about statistical significance! What's up with alpha anyway?? If this vid helps you, please help me a tiny bit by mashing that 'like' button. For ...
 

假设检验:单边和双边替代方案


假设检验:单边和双边替代方案

在今天的讨论中,我们将更深入地探讨假设检验的概念,特别关注单边和双边备择假设。让我们首先回顾一下均值假设检验的基本结构。

第一步是确定零假设,表示为 H₀。该陈述与总体平均值有关,代表了我们旨在收集证据反对的主张。接下来,我们建立一个替代假设,表示为 Hₐ,它与零假设相矛盾,通常代表我们寻求建立的假设。这个过程背后的概念是,通过积累反对原假设的证据,我们间接积累了支持备择假设的证据。

随后,我们收集数据并计算样本均值,表示为 x̄。假设原假设为真,我们可以从那里确定获得与我们观察到的样本均值一样极端的样本均值的概率(p 值)。 p 值表示反对原假设的证据强度,较低的值表示支持备择假设的证据较强。通常,我们通过将 p 值与预先确定的截止值(称为 alpha,表示检验的显着性水平)进行比较来得出假设检验。如果 p 值小于 alpha,我们拒绝原假设。值得注意的是,必须在数据收集之前选择显着性水平 alpha。

现在,让我们更详细地探讨替代假设。在前面的讨论中,我们指出选择备择假设是为了与原假设相矛盾。即使对于 mu 等于 mu₀ 的简单零假设(其中 mu₀ 代表假设值),也存在三种潜在的替代假设:

  1. mu < mu₀:此备择假设断言总体平均值 mu 小于假设值 mu₀。
  2. mu > mu₀:此替代假设表明总体平均值 mu 大于假设值 mu₀。
  3. mu ≠ mu₀:该备择假设没有对 mu 的具体值做出任何假设。

前两个备择假设由于专注于特定方向而被称为单边备择假设,而第三个备择假设被称为双边备择假设。这些替代方案中的每一个都以略有不同的方式与零假设相矛盾。

对平均值进行假设检验时,这些选项之间的选择取决于现实世界的考虑。作为一般准则,建议选择双边备择假设,除非有基于现实世界因素的特定原因,假设总体平均值不能或不应大于或小于由总体平均值提供的值。零假设,mu₀。

为了加深我们的理解,让我们继续举一些例子。第一个例子涉及一家糖果公司,声称其巧克力棒的平均重量为 350 克。如果我们怀疑平均重量实际上更小,则零假设将是该公司的声明,而备择假设将是 mu < 350 克。在这种情况下,我们只关心巧克力棒的平均重量低于 350 克的可能性。

在第二个例子中,教学手册声称一项特定练习平均需要 30 分钟。原假设是手册中的说法 mu = 30,备择假设是 mu ≠ 30。在这里,我们没有合理的理由排除或忽视 mu 小于或大于 30 的可能性。

在第三个示例中,换油企业坚持认为,平均而言,他们在 15 分钟内完成换油。假设我们怀疑实际时间更长。

如果 p 值小于或等于显着性水平 (alpha),我们拒绝原假设。这意味着数据提供了反对原假设的有力证据并支持备择假设。另一方面,如果 p 值大于显着性水平,我们无法拒绝原假设。在这种情况下,数据没有提供足够的证据来拒绝零假设,并且我们没有足够的支持备择假设。

值得注意的是,未能拒绝原假设并不一定意味着原假设为真。这仅仅意味着数据没有提供支持替代假设的重要证据。缺乏反对零假设的证据并不能证明其真实性。

选择单边备择假设还是双边备择假设取决于具体的研究问题和您想要解决的假设。如果您有兴趣确定总体平均值是否与特定值显着不同,您可以选择双边备择假设。这使您可以考虑平均值大于或小于假设值的两种可能性。

但是,如果您有特定理由相信均值只能大于或小于假设值,则可以选择单方面备择假设。这将检验的焦点缩小到偏离原假设的一个方向。

总之,假设检验涉及制定原假设(代表您想要收集证据的陈述)和备择假设(与原假设相矛盾)。收集数据并计算检验统计量,例如样本平均值。然后计算 p 值,表示假设原假设为真,获得与观察到的极端检验统计量的概率。单边或双边备择假设的选择取决于研究问题和关于总体参数的具体假设。最后,将 p 值与显着性水平进行比较,并根据数据提供的证据决定是否拒绝或未能拒绝原假设。

Hypothesis Testing: One- and Two-Sided Alternatives
Hypothesis Testing: One- and Two-Sided Alternatives
  • 2020.10.31
  • www.youtube.com
How do we determine the an alternative hypothesis when setting up a hypothesis test? How does our choice affect the way we calculate a p-value?
 

假设检验:示例


假设检验:示例

今天,我们将学习一个均值假设检验的示例。在深入研究具体示例之前,我们先回顾一下一般过程。它总是从建立假设开始,包括原假设(代表我们想要收集证据反对的想法)和备择假设(我们寻求支持)。假设原假设为真,我们检查样本均值 (X 条) 在该假设下的所有可能样本均值中的位置。

为此,我们计算 z 分数,它衡量我们的结果在原假设背景下的偏差。对于测试总体平均值 (μ) 是否小于或大于特定值的单边备择假设,我们计算获得小于或等于我们获得的 z 分数的概率。对于双边备择假设,我们计算任一概率,然后适当地将其加倍。

在最正式的表示中,我们发现获得的 z 分数小于或等于所获得的 z 分数的负绝对值的概率。通过使用累积分布函数,我们可以同时考虑左尾和右尾。获得 p 值后,我们将其与选定的显着性水平 (alpha) 进行比较。如果 p 值小于 alpha,我们拒绝原假设并得出支持备择假设的结论。

现在让我们将其应用到实际示例中。消费者权益团体测试了一种有机补充剂的维生素 C 含量,该补充剂声称每片平均含有 1000 毫克维生素 C。样本量为 32,他们发现样本平均值为 1008.9 毫克。总体标准差 (σ) 为 21 毫克。我们的任务是确定是否有足够的证据来拒绝该产品的声明。显着性水平 (alpha) 设置为 0.05。

按照一般程序,我们首先提出假设。原假设是产品声称的平均维生素 C 含量为 1000 毫克是正确的,而备择假设是真实平均值与 1000 毫克不同。由于没有具体指示仅考虑小于或大于 1000 的值,因此我们选择双边备择假设。

接下来,我们使用公式(样本均值 - 期望值)/(样本均值的标准差)计算 z 分数。假设原假设,我们使用平均值 1000 毫克,并将样本平均值的标准差计算为 σ / √n,其中 n 是样本量。因此,z 得分为 2.39,表明我们的样本平均值 1008.9 毫克与原假设下的预期平均值偏差 2.39 个标准差。

为了确定 p 值,我们需要找到获得与我们现有的 z 分数一样极端的 z 分数的概率(正数或负数)。在本例中,我们计算 P(Z ≤ -2.39),结果为 0.0084。由于这是双边测试,我们将概率加倍以获得 0.0168。

将 p 值与显着性水平进行比较,我们发现 0.0168 确实小于 0.05。因此,我们有足够的证据来拒绝原假设,并得出结论:该补充剂平均不含 1000 毫克维生素 C。

Hypothesis Testing: Example
Hypothesis Testing: Example
  • 2020.03.25
  • www.youtube.com
Another example of a two-sided hypothesis test for the mean when the population standard deviation is known. If this vid helps you, please help me a tiny bit...
 

显着性检验中的 I 类和 II 类错误


显着性检验中的 I 类和 II 类错误

今天,我们将讨论显着性检验未按计划进行的情况。让我们在三分钟内讲完所有内容。让我们开始。

在假设检验中,我们遇到 H naught(原假设)的两种可能状态:它可以是 true 或 false。测试结束时,我们有两个可能的决定:要么不拒绝 H,要么不拒绝。这给了我们总共四种可能的结果。我们可以检查这两个决策的组合。我有一个表格总结了这些结果,其中两个结果让我们满意:当 H 为假时拒绝 H 零,当 H 为真时不拒绝 H 零。然而,有两种情况是不可取的。

当我们深入研究这个主题时,需要注意的是,我们通常一开始并没有关于 H naught 是真是假的先验信息。如果我们获得此类信息,通常会晚得多。现在,我们来讨论一下这两个不利的结果。第一个称为 1 类错误或误报。当我们拒绝零假设(尽管它是正确的)时,就会发生这种情况。当随机事件发生时,我们错误地将其解释为重大事件,就会发生这种情况。第二种情况是 2 类错误或漏报。当我们无法拒绝零假设时就会发生这种情况,即使它实际上是错误的。在这种情况下,发生了一些重大的事情,但我们的测试未能检测到它。

术语“假阳性”和“假阴性”源自医学检测,其逻辑框架类似于显着性检验。在医学测试中,您可能正在测试某种疾病,并且测试可能会表明该疾病是否存在。所提供的表格总结了 1 类和 2 类总体错误,并用复选标记突出显示了所需的结果。

让我们快速浏览几个示例。假设一家巧克力棒制造商声称,他们的巧克力棒平均重 350 克。我怀疑他们可能高估了,所以我收集了一个样本,并以 p 值为 0.0089 拒绝了他们的说法。然而,如果制造商的说法确实属实,并且他们的金条平均重量确实为 350 克,那么我就会犯 1 类错误或误报。

这是另一个例子:一家餐馆声称其三明治的平均钠含量为 920 毫克。我分析了一个样本,但发现没有足够的证据来拒绝 alpha 水平为 0.01 的说法。如果餐厅的声明是错误的,假设平均钠含量实际上是 950 毫克,那么我如果不拒绝该声明,就会犯 2 类错误。

Type I and Type II Errors in Significance Tests
Type I and Type II Errors in Significance Tests
  • 2020.03.28
  • www.youtube.com
When hypothesis testing goes wrong, explained in under three minutes.
 

使用关键区域的假设检验


使用关键区域的假设检验

大家好,今天我们将讨论使用关键区域的假设检验。虽然这种方法可能被认为是老派的,但它仍然与我们将要介绍的理论相关。因此,对其有一个基本的了解是有益的。

过去,计算 p 值比现在更具挑战性。它涉及依靠表格进行计算,例如正态分布的表格,其精度有限且条目有限。为了最大限度地减少这些计算的需要,通常使用临界区域或拒绝区域的概念。

当今假设检验的典型过程包括根据样本数据计算 p 值并将其与所选的显着性水平 (alpha) 进行比较。然而,对于关键区域,我们扭转了这个过程。我们首先选择显着性水平 (alpha),然后定义检验统计量的截止值,表示为 Z 星或 T 星。如果样本数据产生的样本统计量比该截止值更极端,则会导致我们拒绝原假设。

让我们考虑一个例子来说明这一点。假设我们有一个双边备择假设,并且正在执行正态分布且 alpha 显着性水平等于 0.05 的检验。在这种情况下,alpha 等于 0.05 对应于分布中 0.05 的阴影区域(每边 0.025)。通过执行逆正态计算(使用 R 中的命令 Q 范数),我们发现临界值 Z-star 为 1.96。因此,如果样本统计量(Z星)大于1.96(绝对值),则表明我们应该拒绝原假设。

再举一个例子,我们考虑一个具有 8 个自由度和单边替代(右侧替代)的 t 分布。假设我们选择 alpha 等于 0.01 作为显着性水平。在本例中,T 星右侧有 0.01 的面积,对应于左侧 0.99 的面积。通过使用 R 中值为 0.99 和 8 的逆 t CDF(使用命令 QT),我们发现 T-star 约为 2.9。如果样本的 t 统计量大于 2.9,则它落在阴影区域内,导致我们拒绝原假设。

在正态分布的情况下,我们可以将临界 Z 值转化为关于临界样本均值的陈述。考虑以下示例:某品牌可乐罐的含量呈正态分布,标准差为 0.2 盎司。我们希望使用大小为 15 的样本来检验原假设(即罐子的平均含量为 12 盎司)和替代假设(即罐子的实际含量小于 12 盎司)。采用单边替代且 alpha 等于 0.05 时,临界 Z 值为 -1.645。因此,如果样本平均值 (X 条) 比平均值低 1.645 个标准差以上,我们应该拒绝原假设。具体来说,如果样本均值小于 11.92 盎司,我们将拒绝原假设。

Hypothesis testing using critical regions
Hypothesis testing using critical regions
  • 2020.03.29
  • www.youtube.com
A formerly very practical idea, now mostly of theoretical interest. If this vid helps you, please help me a tiny bit by mashing that 'like' button. For more ...