编程教程 - 一般 - MQL5 算法交易论坛

MetaQuotes 2023.06.29 12:49 #111

R 中的茎叶图

大家好！今天，我们将探索茎叶图的迷人世界。茎叶图，也称为茎图，是单个变量数据的直观表示。它特别适合小型数据集，因为它可以深入了解数据的形状、中心和分布。为了加深我们的理解，我们将通过两个例子来进行研究。

首先，让我们深入了解内置的“忠实”数据集。该数据集包含 272 个美国著名的老忠实间歇泉喷发长度和等待时间的观测结果。所有测量值均以秒为单位记录。在 R 中，创建干图的基本命令被方便地命名为“stem”。我们需要指定要从“忠实”数据集中分析的变量的名称。让我们从等待时间变量开始。

观察位于主干图顶部的关键点。小数点位于斜线右侧一位。通过查看主干图，我们可以识别数据集中的前几个值，即 43 和 45。值得注意的是，R 会自动分割主干以适应一系列值。例如，40 分为第一干中的 40-44 范围和第二干中的 45-49 范围，依此类推。

如果我们希望覆盖自动词干分割，我们可以使用“scale”参数。该参数允许我们通过指定比例因子来调整茎图的高度。在这种情况下，为了防止茎分裂，我们可以通过设置“scale = 0.5”将茎的高度减半。尽管它可能不会增强视觉吸引力，但它可以作为使用“规模”论证的有价值的例证。

现在，让我们继续第二个例子。我们有一个数据集，其中包含 20 个研究参与者对视觉刺激的反应时间（以毫秒为单位）的观察结果。和以前一样，我们将从基本的主干图开始。在这种情况下，小数点是斜杠右侧的两位数。例如，“3/1”代表“310”。

请注意，该图中发生了一些舍入。数据集中的最小值实际上是309，导致信息略有丢失。与前面的示例一样，我们可以使用“scale”命令修改默认设置。让我们通过调整缩放因子来进行实验。例如，与我们原始的茎图相比，设置“scale = 0.5”可能会提供更少的关于数据集形状的直觉。但是，如果我们将主干图的长度加倍，我们就可以更好地了解数据的分布。

在此修改后的图中，您会注意到词干已从个位数转变为两位数。例如，当我们读取数据集中表示的前几个值时，我们观察到 307 和 309。此外，下一个列出的词干是“32”而不是“31”。出现这种情况是因为以“30”和“31”开头的数据组合成单个词干。因此，存在潜在的信息丢失的情况。然而，树叶继续按顺序增加。

为了避免跳过茎中的值并无遗漏地捕获所有数据，我们需要进一步调整缩放因子。在这种情况下，我们可以使主干图比原始版本长五倍。这使我们能够实现包含所有数据的茎图，而无需任何茎跳过，与我们所需的表示形式对齐。

虽然最终显示包含完整的数据集，但由于其长度过长，它可能不是最佳选择。感知数据集中的形状、模式和潜在趋势变得具有挑战性。考虑到替代方案，清晰且信息丰富的茎图的最佳选择要么是不覆盖茎分裂的茎图，要么是我们开始时使用的原始茎图。

通过选择这些选项中的任何一个，我们可以在捕获数据本质和保持简洁且可直观解释的表示之间取得平衡。重要的是要记住，茎叶图的目的是提供对数据分布的直觉和洞察，使我们能够识别中心趋势、变化和异常值。

因此，总而言之，茎叶图是分析小数据集的宝贵工具。它们提供了一种简单直观的方法来掌握数据的形状、中心和分布。通过试验缩放因子和茎分裂，我们可以调整绘图以满足我们的特定要求。然而，在捕获完整数据集和保持有利于数据分析和解释的清晰表示之间取得平衡至关重要。

现在我们已经通过两个示例探索了茎叶图，我们对它们的使用和定制获得了宝贵的见解。有了这些知识，我们就可以将茎叶图应用于其他数据集，以揭开它们隐藏的故事，并根据数据分析做出明智的决策。

Stem-and-Leaf Plots in R

2020.07.08
www.youtube.com

Stem-and-leaf plots are easy with R! If this vid helps you, please help me a tiny bit by mashing that 'like' button. For more #rstats joy, crush that 'subscr...

Programming tutorials Gogetter EA Gogetter EA

MetaQuotes 2023.06.29 12:49 #112

定性描述数据

定性描述数据

大家好，今天我们将讨论数据集形状的定性描述，重点是构建词汇以有效地传达我们的观察结果。我们将探索各种图形表示形式，例如直方图、频率多边形和茎图，并讨论它们的特征。让我们深入研究一些示例：

首先，让我们检查一下直方图。在这种情况下，图表呈现对称形状，左半部分与右半部分相似。尽管真实数据很少表现出完美的对称性，但我们专注于描述整体形状而不是精确定位特定值。另一种类型的对称分布是均匀图，其中数据值均匀分布在各个箱中。这会产生水平平坦的形状，表明值落入每个箱的可能性相同。

现在，让我们探索不对称的数据集。我们将考虑使用干图来代替直方图进行更改。在这个茎图示例中，我们可以观察到不对称的形状。很明显，中心两侧的分布并不相同，中心位于 92 附近。而且，我们可以看出不对称的方向。在这种情况下，远离中心、朝向更高数字的尾巴更长。这表明分布是右偏的。

另一方面，这是一个左偏的主干图。我们注意到较小值一侧的尾部较长，而数据更集中于较大值。准确描述不对称的方向对于提供对数据集的全面理解非常重要。

最后，让我们考虑一个数据集，该数据集最初可能由于 160 或 170 左右的单个大异常值而出现右偏。但是，如果我们忽略该异常值，则分布会呈现出相当对称的形状，可能类似于钟形曲线。识别异常值至关重要，因为它们可能代表错误、异常情况或需要单独分析的现象。在描述数据的整体形状时，应承认异常值，但不应过多考虑。

通过开发描述数据集形状的词汇表，我们可以有效地传达数据中观察到的关键特征和模式。了解数据集的形状有助于解释其属性，并使我们能够得出有意义的见解。

Describing Data Qualitatively

2020.07.12
www.youtube.com

It's time to build some vocabulary for describing single-variable data sets, and to look at some example histograms and stem plots. Yay! If this vid helps yo...

MetaQuotes 2023.06.29 12:50 #113

了解均值、中位数和众数

了解均值、中位数和众数

大家好，今天我们将讨论均值、中位数和众数的概念，重点讨论它们作为集中趋势度量的解释。每项措施都有其自身的用处，理解它们至关重要。让我们快速浏览一下它们的定义。

平均值表示数据集的数值平均值。它的计算方法是对集合中的所有值求和，然后将总数除以值的数量。平均值通常用 X 条或上面有一条线的 X 表示，特别是在处理样本时。

中位数是将数据精确地分成两半的值。要找到中位数，请将数据从最低到最高排列。如果有奇数个值，则中位数是中间的值。对于偶数个值，对中间的两个值进行平均即可找到中位数。中位数通常用大写 M 表示。

众数只是数据集中最常见的值。如果两个或多个值具有相同的频率，则分布可以具有多种众数，但如果所有数据具有相同的频率，我们就说该分布没有众数。

让我们考虑一个例子。假设我们有一个包含 16 个值的数据集。通过将所有值相加并除以 16 来计算平均值。在本例中，平均值为 67.9375。由于我们有偶数个值，因此中位数是通过取中间两个值的平均值得出的，结果为 65.5。最常见的众数是 65。

每个集中趋势的度量也有图形解释。在直方图中，众数是直方图上的最高点，代表最频繁的值。中位数是将直方图一分为二的值，平均划分面积。平均值是使直方图达到平衡的值。

考虑直方图的示例。众数可以通过识别直方图最高的 x 值来确定，在本例中该 x 值略大于 3。中位数是将直方图面积分成两半的值，约为 4.5。平均值是平衡直方图的值，略小于 5。

为什么我们需要三个集中趋势度量？每项措施都有其优点和缺点。均值常用于统计分析，而且很直观。然而，它受异常值的影响很大，可能不适合偏态分布。

中位数易于计算和理解，并且对异常值不敏感。然而，它并没有利用数据集中的所有信息，并且可能会给统计推断带来挑战。

该模式是集中趋势的通用度量，即使对于分类变量也是如此。然而，最常见的值并不一定代表分布的中间，这使得它作为中心度量的可靠性较低。

考虑一个小考试成绩数据集，包括异常值。在本例中，平均值 79 并不能准确描述典型学生的表现。中位数 94 是一个更具描述性的衡量标准。删除异常值可以更清楚地揭示差异，因为平均值发生显着变化，而中位数保持不变。

了解平均值、中位数和众数之间的区别使我们能够有效地解释和传达数据集的中心趋势，同时考虑它们在不同场景中的优势和局限性。

Understanding Mean, Median, and Mode

2020.07.13
www.youtube.com

How can we measure the center of a data set? What are the strengths and weaknesses of each measure? How can we understand each graphically? If this vid helps...

可控优化: 模拟退火

MetaQuotes 2023.06.29 12:50 #114

样本方差和标准差

样本方差和标准差

大家好，今天我们要深入研究样本方差和标准差的概念。这两种度量可以帮助我们了解数据集中的变异或传播程度。它们提供了有关数据集中的值平均偏离平均值的程度的见解。

让我们看一下公式。公式中，“n”表示总样本量，“X_i”表示数据集中的值（例如X_1、X_2、X_3等），“X bar”（X上有一条线）代表样本均值。虽然我们通常使用 R 等技术来计算这些度量，但了解基本概念至关重要，特别是因为我们不再手动执行这些计算。

两个度量中的关键组成部分是术语“X_i 减去 X bar”，它表示每个值 (X_i) 与样本平均值的偏差。换句话说，它量化了每个值与平均值的正差或负差。理想情况下，我们希望确定这些偏差的平均值，但采用简单平均值会产生零，因为正偏差和负偏差会相互抵消。为了解决这个问题，我们在计算平均值之前对每个偏差（X_i 减去 X bar）进行平方。由此得出样本方差的公式，它表示与平均值的偏差平方的平均值。

但是，您可能已经注意到，我们在方差公式中除以 (n-1) 而不是 n。造成这种情况的原因有多种，但有一个简单的原因：计算样本平均值 (X 条) 时，我们只需要 (n-1) 个 X_i 值。这是因为 X bar 的计算方式为所有 X_i 除以 n 的总和。因此，一旦我们有了 X 柱，我们就可以求解任何 X_i 值。除以 (n-1) 可以解释这一点，并确保我们计算 (n-1) 个不同偏差的平均值，而不是所有 n 个偏差。通过这种方式，我们获得样本方差作为有意义的变异性度量。

另一个问题是方差与原始数据不在同一尺度上，这使得它变得抽象。为了解决这个问题，我们取样本方差的平方根，从而得出样本标准差的公式。虽然标准差需要更多的计算并且在理论上可能具有挑战性，但它比方差更容易解释和可视化。方差和标准差在不同的情况下都有其用途。

让我们考虑一个仅包含四个值的数据集的示例。为了计算样本方差和标准差，我们首先通过将四个值相加并除以四来计算样本平均值，得到平均值 121。使用方差公式，我们对每个值的偏差（X_i 减去 X bar）进行平方，并计算偏差平方的平均值，除以三（比值的数量少一）。这会产生 220 的方差。但是，该值缺乏直接的可解释性。为了解决这个问题，我们取方差的平方根，得到的标准差为 14.8。该值作为数据集中分布的度量更有意义。

在技术方面，我们可以使用R中的“var”和“sd”等命令分别计算方差和标准差。强烈建议利用技术进行这些计算，因为它可以节省时间并提供准确的结果。在大多数情况下，不再需要手动计算方差和标准差。

此外，值得注意的是，在大多数情况下，大约三分之二的数据值将落在平均值的一个标准差范围内。对于钟形分布（正态分布），大约 68% 的数据位于一个标准差之内，大约 95% 位于两个标准差之内，几乎所有数据 (99.7%) 位于平均值的三个标准差之内。这称为经验规则或 68-95-99.7 规则。

为了说明这一点，我们考虑一个包含 200 个从 0 到 100 之间的整数中随机选择的值的数据集。该数据集的平均值为 49.9，标准差为 27.3。应用经验规则，如果我们在平均值之上和之下各增加一个标准差，我们将捕获 68% 的值，即 136 个值。如果分布遵循钟形（正态分布），我们可以做出更精确的估计。在这种情况下，大约 95% 的值（200 个中的 190 个）将落在平均值的两个标准差内，并且几乎所有值（200 个中的 199 个）将落在平均值的三个标准差内。

让我们用一个使用经验规则的例子来结束。假设我们的标准化测试分数大致遵循钟形分布。平均分是 1060，标准差是 195。应用经验规则，我们可以估计大约 68% 的分数会落在 865 到 1255 之间（比平均值低和高一个标准差）。大约 95% 的分数位于 670 到 1450 之间（低于和高于平均值两个标准差）。最后，大约 99.7% 的分数将在 475 到 1645 的范围内（低于和高于平均值三个标准差）。

了解方差和标准差有助于我们掌握数据集中的分布和变异性。虽然技术促进了计算，但理解基本概念以有效解释和分析数据至关重要。通过利用这些措施，我们可以获得有价值的见解，并根据数据的特征做出明智的决策。

Sample Variance and Standard Deviation

2020.07.15
www.youtube.com

Let's measure the spread of data sets! Variance and standard deviation are hugely important in statistics; they're also easy to misunderstand. If this vid he...

Programming tutorials

MetaQuotes 2023.06.29 12:50 #115

R 中的百分位数和分位数

R 中的百分位数和分位数

今天我们将讨论 R 中的百分位数和分位数。让我们首先回顾一下它们的含义。

百分位数是一种测量数据集中值相对位置的方法。一般来说，数据集的第 p 个百分位数是大于数据的 p% 的值。例如，第 50 个百分位数是中位数，第 25 个百分位数是第一个四分位数，第 75 个百分位数是第三个四分位数。它表示 75% 以上的数据的值。

计算百分位数存在不同的方法，并且没有普遍接受的方法。然而，好消息是所有方法都会产生非常相似的结果。要计算百分位数，最好依靠 R 等技术，它可以提供高效且准确的计算。

另一方面，分位数本质上与百分位数相同。然而，术语“分位数”通常在指代小数值时使用，而“百分位数”则与整数值相关联。例如，您可能有第 15 个百分位数，但有 0.15 个分位数。分位数的优点在于，它们可以根据需要使用尽可能多的小数位来表达值，从而获得更高的精度。

现在，让我们切换到 R 并探索如何使用“忠实”数据集计算百分位数和分位数，该数据集包含有关美国老忠实间歇泉喷发长度和等待时间的信息（以分钟为单位）。

要计算 R 中的百分位数和分位数，我们可以使用“分位数”函数。它需要两个参数。首先，我们指定我们感兴趣的变量，在本例中是“faithful$waiting”。接下来，我们指示所需的分位数，以小数形式表示。例如，要计算第 35 个百分位数（0.35 分位数），我们将 0.35 写入分位数参数。通过执行命令，我们得到结果，例如本例中的65。这意味着大约 35% 的喷发等待时间小于或等于 65。

在 R 中，可以通过提供分位数向量来同时计算多个分位数。例如，使用“c()”函数，我们可以指定分位数 0.35、0.70 和 0.95。结果将是一个包含相应分位数的向量：65、81 和 89。

另一个有用的命令是“summary”，它提供变量的摘要。通过将变量“faithful$waiting”传递给命令，我们可以获得第一个四分位数（第 25 个百分位数）、中位数（第 50 个百分位数）、第三个四分位数（第 75 个百分位数）以及最小值、最大值和平均值。

现在，我们来解决相反的问题。如果我们在数据集中有一个值并想要确定其百分位数，我们可以使用“ecdf”命令。通过指定感兴趣的变量（例如“faithful$waiting”）并提供数据集中的特定值（例如 79），该命令将返回该值的百分位数。在此示例中，结果为 0.6617647，表示等待时间 79 大约对应于第 66 个百分位。

了解百分位数和分位数使我们能够评估数据集中值的相对位置，从而为数据的分布和特征提供有价值的见解。

Percentiles and Quantiles in R

2020.07.18
www.youtube.com

Computing percentiles and quantiles by hand is for suckers! If this vid helps you, please help me a tiny bit by mashing that 'like' button. For more #rstats ...

MetaQuotes 2023.06.29 12:51 #116