编程教程 - 页 12

 

R 中的茎叶图


R 中的茎叶图

大家好!今天,我们将探索茎叶图的迷人世界。茎叶图,也称为茎图,是单个变量数据的直观表示。它特别适合小型数据集,因为它可以深入了解数据的形状、中心和分布。为了加深我们的理解,我们将通过两个例子来进行研究。

首先,让我们深入了解内置的“忠实”数据集。该数据集包含 272 个美国著名的老忠实间歇泉喷发长度和等待时间的观测结果。所有测量值均以秒为单位记录。在 R 中,创建干图的基本命令被方便地命名为“stem”。我们需要指定要从“忠实”数据集中分析的变量的名称。让我们从等待时间变量开始。

观察位于主干图顶部的关键点。小数点位于斜线右侧一位。通过查看主干图,我们可以识别数据集中的前几个值,即 43 和 45。值得注意的是,R 会自动分割主干以适应一系列值。例如,40 分为第一干中的 40-44 范围和第二干中的 45-49 范围,依此类推。

如果我们希望覆盖自动词干分割,我们可以使用“scale”参数。该参数允许我们通过指定比例因子来调整茎图的高度。在这种情况下,为了防止茎分裂,我们可以通过设置“scale = 0.5”将茎的高度减半。尽管它可能不会增强视觉吸引力,但它可以作为使用“规模”论证的有价值的例证。

现在,让我们继续第二个例子。我们有一个数据集,其中包含 20 个研究参与者对视觉刺激的反应时间(以毫秒为单位)的观察结果。和以前一样,我们将从基本的主干图开始。在这种情况下,小数点是斜杠右侧的两位数。例如,“3/1”代表“310”。

请注意,该图中发生了一些舍入。数据集中的最小值实际上是309,导致信息略有丢失。与前面的示例一样,我们可以使用“scale”命令修改默认设置。让我们通过调整缩放因子来进行实验。例如,与我们原始的茎图相比,设置“scale = 0.5”可能会提供更少的关于数据集形状的直觉。但是,如果我们将主干图的长度加倍,我们就可以更好地了解数据的分布。

在此修改后的图中,您会注意到词干已从个位数转变为两位数。例如,当我们读取数据集中表示的前几个值时,我们观察到 307 和 309。此外,下一个列出的词干是“32”而不是“31”。出现这种情况是因为以“30”和“31”开头的数据组合成单个词干。因此,存在潜在的信息丢失的情况。然而,树叶继续按顺序增加。

为了避免跳过茎中的值并无遗漏地捕获所有数据,我们需要进一步调整缩放因子。在这种情况下,我们可以使主干图比原始版本长五倍。这使我们能够实现包含所有数据的茎图,而无需任何茎跳过,与我们所需的表示形式对齐。

虽然最终显示包含完整的数据集,但由于其长度过长,它可能不是最佳选择。感知数据集中的形状、模式和潜在趋势变得具有挑战性。考虑到替代方案,清晰且信息丰富的茎图的最佳选择要么是不覆盖茎分裂的茎图,要么是我们开始时使用的原始茎图。

通过选择这些选项中的任何一个,我们可以在捕获数据本质和保持简洁且可直观解释的表示之间取得平衡。重要的是要记住,茎叶图的目的是提供对数据分布的直觉和洞察,使我们能够识别中心趋势、变化和异常值。

因此,总而言之,茎叶图是分析小数据集的宝贵工具。它们提供了一种简单直观的方法来掌握数据的形状、中心和分布。通过试验缩放因子和茎分裂,我们可以调整绘图以满足我们的特定要求。然而,在捕获完整数据集和保持有利于数据分析和解释的清晰表示之间取得平衡至关重要。

现在我们已经通过两个示例探索了茎叶图,我们对它们的使用和定制获得了宝贵的见解。有了这些知识,我们就可以将茎叶图应用于其他数据集,以揭开它们隐藏的故事,并根据数据分析做出明智的决策。

Stem-and-Leaf Plots in R
Stem-and-Leaf Plots in R
  • 2020.07.08
  • www.youtube.com
Stem-and-leaf plots are easy with R! If this vid helps you, please help me a tiny bit by mashing that 'like' button. For more #rstats joy, crush that 'subscr...
 

定性描述数据


定性描述数据

大家好,今天我们将讨论数据集形状的定性描述,重点是构建词汇以有效地传达我们的观察结果。我们将探索各种图形表示形式,例如直方图、频率多边形和茎图,并讨论它们的特征。让我们深入研究一些示例:

首先,让我们检查一下直方图。在这种情况下,图表呈现对称形状,左半部分与右半部分相似。尽管真实数据很少表现出完美的对称性,但我们专注于描述整体形状而不是精确定位特定值。另一种类型的对称分布是均匀图,其中数据值均匀分布在各个箱中。这会产生水平平坦的形状,表明值落入每个箱的可能性相同。

现在,让我们探索不对称的数据集。我们将考虑使用干图来代替直方图进行更改。在这个茎图示例中,我们可以观察到不对称的形状。很明显,中心两侧的分布并不相同,中心位于 92 附近。而且,我们可以看出不对称的方向。在这种情况下,远离中心、朝向更高数字的尾巴更长。这表明分布是右偏的。

另一方面,这是一个左偏的主干图。我们注意到较小值一侧的尾部较长,而数据更集中于较大值。准确描述不对称的方向对于提供对数据集的全面理解非常重要。

最后,让我们考虑一个数据集,该数据集最初可能由于 160 或 170 左右的单个大异常值而出现右偏。但是,如果我们忽略该异常值,则分布会呈现出相当对称的形状,可能类似于钟形曲线。识别异常值至关重要,因为它们可能代表错误、异常情况或需要单独分析的现象。在描述数据的整体形状时,应承认异常值,但不应过多考虑。

通过开发描述数据集形状的词汇表,我们可以有效地传达数据中观察到的关键特征和模式。了解数据集的形状有助于解释其属性,并使我们能够得出有意义的见解。

Describing Data Qualitatively
Describing Data Qualitatively
  • 2020.07.12
  • www.youtube.com
It's time to build some vocabulary for describing single-variable data sets, and to look at some example histograms and stem plots. Yay! If this vid helps yo...
 

了解均值、中位数和众数


了解均值、中位数和众数

大家好,今天我们将讨论均值、中位数和众数的概念,重点讨论它们作为集中趋势度量的解释。每项措施都有其自身的用处,理解它们至关重要。让我们快速浏览一下它们的定义。

平均值表示数据集的数值平均值。它的计算方法是对集合中的所有值求和,然后将总数除以值的数量。平均值通常用 X 条或上面有一条线的 X 表示,特别是在处理样本时。

中位数是将数据精确地分成两半的值。要找到中位数,请将数据从最低到最高排列。如果有奇数个值,则中位数是中间的值。对于偶数个值,对中间的两个值进行平均即可找到中位数。中位数通常用大写 M 表示。

众数只是数据集中最常见的值。如果两个或多个值具有相同的频率,则分布可以具有多种众数,但如果所有数据具有相同的频率,我们就说该分布没有众数。

让我们考虑一个例子。假设我们有一个包含 16 个值的数据集。通过将所有值相加并除以 16 来计算平均值。在本例中,平均值为 67.9375。由于我们有偶数个值,因此中位数是通过取中间两个值的平均值得出的,结果为 65.5。最常见的众数是 65。

每个集中趋势的度量也有图形解释。在直方图中,众数是直方图上的最高点,代表最频繁的值。中位数是将直方图一分为二的值,平均划分面积。平均值是使直方图达到平衡的值。

考虑直方图的示例。众数可以通过识别直方图最高的 x 值来确定,在本例中该 x 值略大于 3。中位数是将直方图面积分成两半的值,约为 4.5。平均值是平衡直方图的值,略小于 5。

为什么我们需要三个集中趋势度量?每项措施都有其优点和缺点。均值常用于统计分析,而且很直观。然而,它受异常值的影响很大,可能不适合偏态分布。

中位数易于计算和理解,并且对异常值不敏感。然而,它并没有利用数据集中的所有信息,并且可能会给统计推断带来挑战。

该模式是集中趋势的通用度量,即使对于分类变量也是如此。然而,最常见的值并不一定代表分布的中间,这使得它作为中心度量的可靠性较低。

考虑一个小考试成绩数据集,包括异常值。在本例中,平均值 79 并不能准确描述典型学生的表现。中位数 94 是一个更具描述性的衡量标准。删除异常值可以更清楚地揭示差异,因为平均值发生显着变化,而中位数保持不变。

了解平均值、中位数和众数之间的区别使我们能够有效地解释和传达数据集的中心趋势,同时考虑它们在不同场景中的优势和局限性。

Understanding Mean, Median, and Mode
Understanding Mean, Median, and Mode
  • 2020.07.13
  • www.youtube.com
How can we measure the center of a data set? What are the strengths and weaknesses of each measure? How can we understand each graphically? If this vid helps...
 

样本方差和标准差


样本方差和标准差

大家好,今天我们要深入研究样本方差和标准差的概念。这两种度量可以帮助我们了解数据集中的变异或传播程度。它们提供了有关数据集中的值平均偏离平均值的程度的见解。

让我们看一下公式。公式中,“n”表示总样本量,“X_i”表示数据集中的值(例如X_1、X_2、X_3等),“X bar”(X上有一条线)代表样本均值。虽然我们通常使用 R 等技术来计算这些度量,但了解基本概念至关重要,特别是因为我们不再手动执行这些计算。

两个度量中的关键组成部分是术语“X_i 减去 X bar”,它表示每个值 (X_i) 与样本平均值的偏差。换句话说,它量化了每个值与平均值的正差或负差。理想情况下,我们希望确定这些偏差的平均值,但采用简单平均值会产生零,因为正偏差和负偏差会相互抵消。为了解决这个问题,我们在计算平均值之前对每个偏差(X_i 减去 X bar)进行平方。由此得出样本方差的公式,它表示与平均值的偏差平方的平均值。

但是,您可能已经注意到,我们在方差公式中除以 (n-1) 而不是 n。造成这种情况的原因有多种,但有一个简单的原因:计算样本平均值 (X 条) 时,我们只需要 (n-1) 个 X_i 值。这是因为 X bar 的计算方式为所有 X_i 除以 n 的总和。因此,一旦我们有了 X 柱,我们就可以求解任何 X_i 值。除以 (n-1) 可以解释这一点,并确保我们计算 (n-1) 个不同偏差的平均值,而不是所有 n 个偏差。通过这种方式,我们获得样本方差作为有意义的变异性度量。

另一个问题是方差与原始数据不在同一尺度上,这使得它变得抽象。为了解决这个问题,我们取样本方差的平方根,从而得出样本标准差的公式。虽然标准差需要更多的计算并且在理论上可能具有挑战性,但它比方差更容易解释和可视化。方差和标准差在不同的情况下都有其用途。

让我们考虑一个仅包含四个值的数据集的示例。为了计算样本方差和标准差,我们首先通过将四个值相加并除以四来计算样本平均值,得到平均值 121。使用方差公式,我们对每个值的偏差(X_i 减去 X bar)进行平方,并计算偏差平方的平均值,除以三(比值的数量少一)。这会产生 220 的方差。但是,该值缺乏直接的可解释性。为了解决这个问题,我们取方差的平方根,得到的标准差为 14.8。该值作为数据集中分布的度量更有意义。

在技术方面,我们可以使用R中的“var”和“sd”等命令分别计算方差和标准差。强烈建议利用技术进行这些计算,因为它可以节省时间并提供准确的结果。在大多数情况下,不再需要手动计算方差和标准差。

此外,值得注意的是,在大多数情况下,大约三分之二的数据值将落在平均值的一个标准差范围内。对于钟形分布(正态分布),大约 68% 的数据位于一个标准差之内,大约 95% 位于两个标准差之内,几乎所有数据 (99.7%) 位于平均值的三个标准差之内。这称为经验规则或 68-95-99.7 规则。

为了说明这一点,我们考虑一个包含 200 个从 0 到 100 之间的整数中随机选择的值的数据集。该数据集的平均值为 49.9,标准差为 27.3。应用经验规则,如果我们在平均值之上和之下各增加一个标准差,我们将捕获 68% 的值,即 136 个值。如果分布遵循钟形(正态分布),我们可以做出更精确的估计。在这种情况下,大约 95% 的值(200 个中的 190 个)将落在平均值的两个标准差内,并且几乎所有值(200 个中的 199 个)将落在平均值的三个标准差内。

让我们用一个使用经验规则的例子来结束。假设我们的标准化测试分数大致遵循钟形分布。平均分是 1060,标准差是 195。应用经验规则,我们可以估计大约 68% 的分数会落在 865 到 1255 之间(比平均值低和高一个标准差)。大约 95% 的分数位于 670 到 1450 之间(低于和高于平均值两个标准差)。最后,大约 99.7% 的分数将在 475 到 1645 的范围内(低于和高于平均值三个标准差)。

了解方差和标准差有助于我们掌握数据集中的分布和变异性。虽然技术促进了计算,但理解基本概念以有效解释和分析数据至关重要。通过利用这些措施,我们可以获得有价值的见解,并根据数据的特征做出明智的决策。

Sample Variance and Standard Deviation
Sample Variance and Standard Deviation
  • 2020.07.15
  • www.youtube.com
Let's measure the spread of data sets! Variance and standard deviation are hugely important in statistics; they're also easy to misunderstand. If this vid he...
 

R 中的百分位数和分位数


R 中的百分位数和分位数

今天我们将讨论 R 中的百分位数和分位数。让我们首先回顾一下它们的含义。

百分位数是一种测量数据集中值相对位置的方法。一般来说,数据集的第 p 个百分位数是大于数据的 p% 的值。例如,第 50 个百分位数是中位数,第 25 个百分位数是第一个四分位数,第 75 个百分位数是第三个四分位数。它表示 75% 以上的数据的值。

计算百分位数存在不同的方法,并且没有普遍接受的方法。然而,好消息是所有方法都会产生非常相似的结果。要计算百分位数,最好依靠 R 等技术,它可以提供高效且准确的计算。

另一方面,分位数本质上与百分位数相同。然而,术语“分位数”通常在指代小数值时使用,而“百分位数”则与整数值相关联。例如,您可能有第 15 个百分位数,但有 0.15 个分位数。分位数的优点在于,它们可以根据需要使用尽可能多的小数位来表达值,从而获得更高的精度。

现在,让我们切换到 R 并探索如何使用“忠实”数据集计算百分位数和分位数,该数据集包含有关美国老忠实间歇泉喷发长度和等待时间的信息(以分钟为单位)。

要计算 R 中的百分位数和分位数,我们可以使用“分位数”函数。它需要两个参数。首先,我们指定我们感兴趣的变量,在本例中是“faithful$waiting”。接下来,我们指示所需的分位数,以小数形式表示。例如,要计算第 35 个百分位数(0.35 分位数),我们将 0.35 写入分位数参数。通过执行命令,我们得到结果,例如本例中的65。这意味着大约 35% 的喷发等待时间小于或等于 65。

在 R 中,可以通过提供分位数向量来同时计算多个分位数。例如,使用“c()”函数,我们可以指定分位数 0.35、0.70 和 0.95。结果将是一个包含相应分位数的向量:65、81 和 89。

另一个有用的命令是“summary”,它提供变量的摘要。通过将变量“faithful$waiting”传递给命令,我们可以获得第一个四分位数(第 25 个百分位数)、中位数(第 50 个百分位数)、第三个四分位数(第 75 个百分位数)以及最小值、最大值和平均值。

现在,我们来解决相反的问题。如果我们在数据集中有一个值并想要确定其百分位数,我们可以使用“ecdf”命令。通过指定感兴趣的变量(例如“faithful$waiting”)并提供数据集中的特定值(例如 79),该命令将返回该值的百分位数。在此示例中,结果为 0.6617647,表示等待时间 79 大约对应于第 66 个百分位。

了解百分位数和分位数使我们能够评估数据集中值的相对位置,从而为数据的分布和特征提供有价值的见解。

Percentiles and Quantiles in R
Percentiles and Quantiles in R
  • 2020.07.18
  • www.youtube.com
Computing percentiles and quantiles by hand is for suckers! If this vid helps you, please help me a tiny bit by mashing that 'like' button. For more #rstats ...
 

样本方差和标准差


样本方差和标准差

大家好,今天我们要深入研究样本方差和标准差的概念。这两种度量可以帮助我们了解数据集中的变异或传播程度。它们提供了有关数据集中的值平均偏离平均值的程度的见解。

让我们看一下公式。公式中,“n”表示总样本量,“X_i”表示数据集中的值(例如X_1、X_2、X_3等),“X bar”(X上有一条线)代表样本均值。虽然我们通常使用 R 等技术来计算这些度量,但了解基本概念至关重要,特别是因为我们不再手动执行这些计算。

两个度量中的关键组成部分是术语“X_i 减去 X bar”,它表示每个值 (X_i) 与样本平均值的偏差。换句话说,它量化了每个值与平均值的正差或负差。理想情况下,我们希望确定这些偏差的平均值,但采用简单平均值会产生零,因为正偏差和负偏差会相互抵消。为了解决这个问题,我们在计算平均值之前对每个偏差(X_i 减去 X bar)进行平方。由此得出样本方差的公式,它表示与平均值的偏差平方的平均值。

但是,您可能已经注意到,我们在方差公式中除以 (n-1) 而不是 n。造成这种情况的原因有多种,但有一个简单的原因:计算样本平均值 (X 条) 时,我们只需要 (n-1) 个 X_i 值。这是因为 X bar 的计算方式为所有 X_i 除以 n 的总和。因此,一旦我们有了 X 柱,我们就可以求解任何 X_i 值。除以 (n-1) 可以解释这一点,并确保我们计算 (n-1) 个不同偏差的平均值,而不是所有 n 个偏差。通过这种方式,我们获得样本方差作为有意义的变异性度量。

另一个问题是方差与原始数据不在同一尺度上,这使得它变得抽象。为了解决这个问题,我们取样本方差的平方根,从而得出样本标准差的公式。虽然标准差需要更多的计算并且在理论上可能具有挑战性,但它比方差更容易解释和可视化。方差和标准差在不同的情况下都有其用途。

让我们考虑一个仅包含四个值的数据集的示例。为了计算样本方差和标准差,我们首先通过将四个值相加并除以四来计算样本平均值,得到平均值 121。使用方差公式,我们对每个值的偏差(X_i 减去 X bar)进行平方,并计算偏差平方的平均值,除以三(比值的数量少一)。这会产生 220 的方差。但是,该值缺乏直接的可解释性。为了解决这个问题,我们取方差的平方根,得到的标准差为 14.8。该值作为数据集中分布的度量更有意义。

在技术方面,我们可以使用R中的“var”和“sd”等命令分别计算方差和标准差。强烈建议利用技术进行这些计算,因为它可以节省时间并提供准确的结果。在大多数情况下,不再需要手动计算方差和标准差。

此外,值得注意的是,在大多数情况下,大约三分之二的数据值将落在平均值的一个标准差范围内。对于钟形分布(正态分布),大约 68% 的数据位于一个标准差之内,大约 95% 位于两个标准差之内,几乎所有数据 (99.7%) 位于平均值的三个标准差之内。这称为经验规则或 68-95-99.7 规则。

为了说明这一点,我们考虑一个包含 200 个从 0 到 100 之间的整数中随机选择的值的数据集。该数据集的平均值为 49.9,标准差为 27.3。应用经验规则,如果我们在平均值之上和之下各增加一个标准差,我们将捕获 68% 的值,即 136 个值。如果分布遵循钟形(正态分布),我们可以做出更精确的估计。在这种情况下,大约 95% 的值(200 个中的 190 个)将落在平均值的两个标准差内,并且几乎所有值(200 个中的 199 个)将落在平均值的三个标准差内。

让我们用一个使用经验规则的例子来结束。假设我们的标准化测试分数大致遵循钟形分布。平均分是 1060,标准差是 195。应用经验规则,我们可以估计大约 68% 的分数会落在 865 到 1255 之间(比平均值低和高一个标准差)。大约 95% 的分数位于 670 到 1450 之间(低于和高于平均值两个标准差)。最后,大约 99.7% 的分数将在 475 到 1645 的范围内(低于和高于平均值三个标准差)。

了解方差和标准差有助于我们掌握数据集中的分布和变异性。虽然技术促进了计算,但理解基本概念以有效解释和分析数据至关重要。通过利用这些措施,我们可以获得有价值的见解,并根据数据的特征做出明智的决策。

Sample Variance and Standard Deviation
Sample Variance and Standard Deviation
  • 2020.07.15
  • www.youtube.com
Let's measure the spread of data sets! Variance and standard deviation are hugely important in statistics; they're also easy to misunderstand. If this vid he...
 

Z 分数


Z 分数

大家好,在今天的讨论中,我们将探讨 z 分数,也称为标准分数。此方法允许我们测量数据集中值的相对位置。

z 分数表示值偏离平均值的标准差数。例如,如果我们有一个平均值为 50、标准差为 8 的数据集,则值为 62 时,z 分数将为 1.5。这意味着 62 的值比平均值高 1.5 个标准差。

Z 分数对于评估具有对称分布的数据集中的相对位置特别有用,尤其是那些遵循钟形或正态分布的数据集。然而,在处理倾斜数据或包含异常值的数据集时,均值和标准差可能无法准确表示数据的中心和分布。因此,在这种情况下,z 分数的用处就会减弱。

z 分数的计算公式为:z = (x - μ) / σ,其中 x 是数据集中的值,μ 是平均值,σ 是标准差。平均值有时用 x-bar 表示,标准差用 s 表示,但公式保持不变。

在比较不同数据集中值的相对位置时,Z 分数特别有价值。让我们考虑一个例子来说明这一点。美国成年男性的平均身高为 69.4 英寸,标准差为 3.0 英寸。另一方面,美国成年女性的平均身高为 64.2 英寸,标准差为 2.7 英寸。现在,我们可以比较一下身高 64.2 英寸的男性和身高 69.4 英寸的女性的相对稀有性。

为了计算该男子的 z 分数,我们使用公式 (64.2 - 69.4) / 3.0。生成的 z 得分为 -1.73,表明该男性的身高比男性平均身高低 1.73 个标准差。对于女性,z 得分为 (69.4 - 64.2) / 2.7,结果 z 得分为 1.93。这意味着该女性的身高比女性平均身高高出 1.93 个标准差。比较两个 z 分数的绝对值,我们可以得出结论,相对于女性的平均身高,该女性的身高更不寻常。

值得注意的是,z 分数本身并不能明确区分“通常”和“异常”值。一个常见的约定是将偏离平均值超过两个标准差的值视为异常,将偏离平均值超过三个标准差的值视为非常异常。然而,这只是一个经验法则,决策最终取决于数据的上下文和具体分布。

为了证明这一点,让我们考虑一个 76 英寸高的男人的情况。使用相同的公式以及给定的男性平均值和标准差,我们计算出 z 分数为 2.2。由于这个值的绝对值大于2,所以按照惯例我们会认为这个人的身高不正常。

经验规则为处理近似钟形分布提供了指导。大约 68% 的值落在平均值的 1 个标准差范围内(z 分数在 -1 到 1 之间),大约 95% 的值落在平均值的 2 个标准差范围内(z 分数在 -2 到 2 之间),大约 99.7% 的值落在 3 个标准差范围内标准差(z 分数介于 -3 和 3 之间)。

总之,z 分数提供了一种评估数据集中值的相对位置的有用方法。它们对于比较不同数据集的值并确定特定值的稀有性或异常性特别有价值。然而,在解释 z 分数时,必须考虑分布的形状、异常值和数据背景。

让我们以一个简短的例子作为结束。假设我们有一个美国成年女性身高的数据集,它大致遵循钟形分布。平均高度为 64.2 英寸,标准差为 2.7 英寸。

利用经验规则,我们可以估计一定比例的女性跌倒的身高范围。在平均值的一个标准差之内,大约 68% 的女性身高将被找到。 64.2 减去 2.7,我们得到 61.5 英寸,加上 2.7,我们得到 66.9 英寸。因此,我们可以估计大约 68% 的女性身高将落在 61.5 至 66.9 英寸之间。

扩大到两个标准差,我们发现大约 95% 的女性身高都在这个范围内。平均值减去 2.7 两次,得到 58.8 英寸,加上 2.7 两次,得到 69.6 英寸。因此,大约 95% 的女性身高预计会落在 58.8 至 69.6 英寸之间。

最后,在三个标准差(覆盖大约 99.7% 的数据)内,我们将平均值减去 2.7 三次,得到 56.1 英寸,再加上 2.7 三次,得到 71.7 英寸。因此,我们可以估计大约 99.7% 的女性身高将落在 56.1 至 71.7 英寸之间。

了解 z 分数及其解释使我们能够评估数据集中值的相对位置和稀有性,从而为统计、研究和数据分析等各个领域提供有价值的见解。

请记住,z 分数提供了相对位置的标准化度量,考虑了数据集的平均值和标准差。它们是理解不同数据集的分布和比较值的强大工具。

Z-Scores
Z-Scores
  • 2020.07.19
  • www.youtube.com
Let's understand z-scores! This is a simple way of describing position within a data set, most appropriate to symmetric (particularly bell-shaped) distributi...
 

五数总结和异常值的 1.5 x IQR 检验


五数总结和异常值的 1.5 x IQR 检验

大家好!今天,我们将深入研究五数汇总和异常值的 1.5 倍 IQR 检验的概念。让我们首先定义数据集的四分位数。四分位数是将数据集分为四个相等部分的值。第一个四分位数 (Q1) 位于数据的大约 25% 以上,第二个四分位数 (Q2) 位于数据的大约一半以上(也称为中位数),第三四分位数 (Q3) 位于数据的大约 75% 以上。数据。

需要注意的是,如果数据集不均匀划分,则划分为四个相等部分可能不准确。通过首先确定中位数可以找到第一和第三四分位数。为了找到 Q1 和 Q3,我们将数据集分为上半部分和下半部分,并计算这两部分的中位数。上半部分的中位数是Q3,下半部分的中位数是Q1。

让我们通过一个例子来说明这一点。考虑以下包含 17 个值的数据集,按从最低到最高的顺序列出。中位数或 Q2 将是中间的值,在本例中是第九个值(因为 17 是奇数个值)。因此,中位数是 42。为了找到 Q1,我们考虑小于中位数的八个值。对它们进行排序,我们发现 16、18、20 和 22。由于这是偶数个值,因此我们取中间两个值的平均值,得到 18。同样,对于 Q3,我们认为这八个值大于中位数,分别为 45、48、50 和 55。同样,取中间两个值的平均值,我们得到 Q3 为 52。

因此,对于本示例,四分位数为 Q1 = 18、Q2 = 42 和 Q3 = 52。数据集的五数摘要由这些四分位数以及数据集中的最小值和最大值组成。在我们的例子中,五数汇总是 5、18、42、52 和 93,其中 5 代表最小值,93 代表最大值。

另一个有用的度量是四分位距 (IQR),它量化数据中间一半的分布。它的计算方式为 Q3 和 Q1 之间的差。在我们的示例中,IQR 为 52 - 18 = 34。IQR 侧重于数据集中间 50% 内的值范围,受极端值的影响较小。

现在,让我们考虑另一个例子。假设我们有下面列出的 22 名学生的考试成绩。我们想要使用五数总结和 IQR 来描述分数的分布。首先,我们应该谨慎使用均值作为中心的度量,因为它可能会受到极值的影响。在本例中,平均值为 75.3,但由于少数学生得分特别低,平均值可能无法准确代表典型学生的表现。同样,范围(最小值和最大值(分别为 2 和 100)之间的差值)可能会因极值而产生误导。

为了获得更准确的描述,我们计算五数概括。对分数进行排序,我们发现最小值为 2,最大值为 100。中位数 (Q2) 是中间的值,在本例中为 80。数据集的下半部分由小于中位数,76 和 83 作为中间的两个值。取其平均值,我们发现 Q1 为 79。同样,对于数据集的上半部分,我们的中位数为 83,导致 Q3 为 83。

因此,该数据集的五数汇总为 2、79、80、83 和 100。从这个汇总中,我们观察到分数的中间一半位于 79 和 83 之间,表明分数紧密地分布在中位数。

为了识别数据集中的异常值,我们可以采用 1.5 倍 IQR 检验。如之前计算的,IQR 为 83 - 79 = 4。将 IQR 乘以 1.5 得到 6。我们从 Q1 中减去 6,并在 Q3 上加上 6,以确定值不被视为异常值的范围。在这种情况下,根据此规则,任何低于 73 或高于 89 的值都应被视为异常值。

将此测试应用于数据集,我们发现 2 和 100 应被视为异常值。作为一名教授,建议在确定考试曲线时忽略这些极端分数或减少它们的权重。

通过利用五数汇总、IQR 和 1.5 倍 IQR 检验,我们可以更好地了解分数的分布,并可以识别可能影响整体分析的潜在异常值。

The Five-Number Summary and the 1.5 x IQR Test for Outliers
The Five-Number Summary and the 1.5 x IQR Test for Outliers
  • 2020.07.15
  • www.youtube.com
The Five-Number Summary and the 1.5 x IQR Test for Outliers. If this vid helps you, please help me a tiny bit by mashing that 'like' button. For more statist...
 

箱线图


箱线图

今天,我们将讨论箱线图,也称为箱须图。箱线图是基于五数汇总的单变量数据集的图形表示。让我们直接看一个例子来更好地理解它们。

假设我们有一个数据集,要为其构建五数摘要和箱线图。数据集如下:34、42、48、51.5 和 58。首先,我们按升序排列数字,找到最小值 (34) 和最大值 (58)。由于值的数量为奇数,因此中位数是中间的值,在本例中为 48。

接下来,我们将数据集分为两半:下半部分和上半部分。下半部分的中位数是42,上半部分的中位数是51.5。这些值分别称为第一四分位数 (Q1) 和第三四分位数 (Q3)。

使用五数汇总,我们可以构建箱线图。箱线图由一个代表 Q1 和 Q3 之间范围的方框组成。框的底部对应于 Q1,框的顶部对应于 Q3,框内的水平线表示中位数。箱线图的“臂”从箱体延伸到最小值和最大值(分别为 34 和 58)。

箱线图的目的是可视化数据的分布。方框代表数据集的中间 50%,而臂则包含其余值。在给定的示例中,由于没有极值,因此箱线图上没有显示异常值。

让我们考虑另一个示例,我们想要确定五数汇总,使用 1.5 倍 IQR 检验测试异常值,并构建箱线图。数据集如下:62、64、75、81.5和110。

通过从 Q3 中减去 Q1 来计算四分位距 (IQR),我们发现它是 17.5。要执行 1.5 倍 IQR 测试,我们将 IQR 乘以 1.5。从 Q1 中减去 1.5 倍 IQR (64 - 1.5 * 17.5),我们得到 37.5。将 1.5 倍 IQR 添加到 Q3 (81.5 + 1.5 * 17.5),我们得到 107.75。任何低于 37.5 或高于 107.75 的值均应被视为异常值。

在这种情况下,值 110 超过上限并被分类为异常值。构建箱线图时,我们仅绘制箱线图的臂,直到非异常值的最极值。异常值 110 由单独的点表示,上臂仅延伸至 90,这表示非异常值范围内的最高值。

箱线图在比较组之间的数据时特别有用,例如绘制一个分类变量和一个定量变量。这种类型的图通常称为并排箱线图,提供不同组的清晰视觉比较。作为一个例子,我们可以考虑著名的鸢尾花数据集,其中我们比较了三个物种的花瓣宽度:setosa、versicolor 和 virginica。通过检查箱线图,我们可以观察到,与其他两个物种相比,山楂物种通常具有更窄的花瓣。此外,我们可以辨别每组内花瓣宽度的分布差异。

总之,箱线图提供了五个数字摘要的简洁可视化,并允许在不同组之间进行轻松比较。它们显示数据集的最小值、第一四分位数 (Q1)、中位数、第三四分位数 (Q3) 和最大值。该框代表中间 50% 的数据,框的底部位于 Q1,框的顶部位于 Q3。框内的线代表中位数。

箱线图还能够显示异常值,即超出 1.5 倍 IQR 测试确定范围的值。为了确定异常值,我们计算 IQR (Q3 - Q1) 并将其乘以 1.5。然后,我们从 Q1 中减去 1.5 倍的 IQR,并在 Q3 中加上 1.5 倍的 IQR。任何低于下限或高于上限的值都被视为异常值。

构建包含离群值的箱线图时,图的臂仅延伸至非离群值的最极端值。异常值被描述为箱线图臂之外的单个点。这确保箱线图准确地表示非异常值数据的分布,并避免误导性的解释。

比较不同组或类别之间的数据时,箱线图特别有用。通过并排绘制多个箱线图,可以更轻松地比较分布并了解所分析变量的差异。

例如,使用鸢尾花数据集,我们可以创建并排箱线图来比较 setosa、versicolor 和 virginica 物种的花瓣宽度。这使我们能够直观地观察物种之间花瓣宽度的差异以及每个组内值的分布。

综上所述,箱线图提供了五数汇总的直观概括,可以更轻松地了解数据的分布并比较不同的组。它们提供了对数据集中异常值的集中趋势、分布和存在的见解,使它们成为数据分析和可视化的宝贵工具。

Boxplots
Boxplots
  • 2020.07.16
  • www.youtube.com
What is a boxplot? How can you construct one? Why would you want to? If this vid helps you, please help me a tiny bit by mashing that 'like' button. For more...
 

R 中的箱线图


R 中的箱线图

大家好!今天,我们将学习如何使用 qplot 命令在 R 中创建漂亮的箱线图。在 R 中创建箱形图的方法有多种,但最具视觉吸引力的方法通常来自 ggplot2 包,它是 tidyverse 包系列的一部分。那么,让我们深入研究一下吧!

如果您以前没有使用过这些功能,则需要使用 install.packages 命令在计算机上安装 tidyverse 软件包。如果您还没有完成此步骤,那么这一步会很快。安装后,您需要在每个会话开始时使用library(tidyverse)命令将包加载到内存中以访问其功能。

在本教程中,我们将重点介绍使用 ggplot2 包中的 qplot 命令。现在,让我们从两个创建箱线图的示例开始。

首先,让我们手动输入一些数据。我们将创建一个长度为 21 的名为“scores”的向量,它可以表示规模为 21 的班级中学生数学考试的分数。

要创建分数的箱线图,我们使用 qplot 命令。基本语法保持不变:指定 x 轴和 y 轴的变量,并使用 geom 参数来指示我们想要一个箱线图。在本例中,我们将在 x 轴上绘制分数。

为了使我们的箱线图更具视觉吸引力,我们可以进行一些改进。首先,我们可以使用 y = "" 删除 y 轴上无意义的数字。接下来,如果我们想要一个垂直箱线图,我们可以通过使用 y 作为分数并删除 x 轴标签来切换轴。我们还可以分别使用 color 和 fill 参数为线条和框的内部添加颜色。最后,我们可以使用 ylab 和 main 参数自定义标签并为图表添加标题。

现在,让我们继续使用名为chickweights 的内置数据集的第二个示例。该数据集包含 71 个观察值,其中包含两个变量:不同雏鸡的体重和所给予的饲料。我们将创建一个并排箱线图来比较不同饲料类型的雏鸡体重分布。

与前面的示例类似,我们使用 qplot 命令并使用 data =chickweights 指定数据集。然后,我们表明我们需要一个垂直箱线图,其中 y 轴为权重,x 轴为提要。要按 feed 类型区分箱形图,我们可以使用 fill 参数并将其映射到 feed 变量。

同样,还有许多其他选项可用于自定义,包括字体样式、标签大小和磅值。您可以通过在线搜索进一步探索。

只需进行一些修改,我们就可以在 R 中创建具有专业外观的箱线图。这些示例展示了 ggplot2 包在数据可视化方面的强大功能和灵活性。

Boxplots in R
Boxplots in R
  • 2020.07.17
  • www.youtube.com
In this vid, we use the qplot() command in the {ggplot2} package to produce gorgeous boxplots in R. Note: since I recorded this vid, the qplot() command has ...