编程教程 - 页 9

 

R 中的多元线性回归


R 中的多元线性回归

大家好,欢迎观看这个有关 R 编程语言的视频。今天,我想讨论多元线性回归并演示如何在 RStudio 中实现它。首先,我们需要一个数据集进行分析。我已经有一个名为“real_estate.csv”的 CSV 文件,该文件是我在网上获取的。您可以在下面的描述中找到下载该数据集的链接。

首先创建一个名为“my_data”的变量,并使用“read.csv()”函数将 CSV 文件读入 RStudio。我们需要指定文件的位置和名称。要获取该位置,我将右键单击该文件,然后单击“属性”以复制文件位置。粘贴位置后,我会将其用引号引起来。此外,我将在斜杠后面添加文件名,并确保反转斜杠以匹配 Windows 计算机所需的格式。执行此代码将创建“my_data”数据框,其中包含 781 行和 8 列。

现在,让我们仔细看看数据框。我们有几个列,包括“MLS”(多重列表服务号码)、“位置”、“价格”、“卧室”、“浴室”、“大小”(房屋面积以平方英尺为单位)、“价格/平方英尺”和“状态”(销售类型)。为了演示多元线性回归,我们将仅使用数字列并排除“位置”和“状态”。

为了创建新的数据集,我将“my_data”分配给名为“my_data2”的新变量,并选择第 1、3、4、5、6 和 7 列。这个新数据集包含 781 行和 6 列。

现在,让我们继续创建线性模型。我将创建一个名为“lin_mod”的变量,并将其设置为等于“lm()”函数,该函数代表线性模型。我们希望根据“MLS”、“卧室”、“浴室”、“大小”和“价格/平方英尺”等特征来预测“价格”。通过将“价格”指定为因变量并包含其他特征,我们可以使用“my_data2”数据集构建线性模型。

为了获得线性模型的摘要,我将在“lin_mod”上使用“summary()”函数。摘要提供有关残差、系数和 p 值的信息。变量的重要性可以使用星号直观地确定,其中三颗星表示高度重要性。

现在我们有了线性模型,让我们尝试进行预测。我将创建一个名为“price”的变量,并将其设置为等于截距系数减 7.34,加上变量的系数乘以表中最后一行中各自的值。例如,我们将“MLS”值乘以其系数并将其添加到方程中。同样,我们将在预测方程中包括“卧室”、“浴室”、“尺寸”和“价格/平方英尺”。

让我们打印预测价格并将其与数据集中最后一行的实际价格进行比较。预计价格应在 1,100,000 美元左右。执行代码后,我们得到的预测价格为 1,023,000 美元,比实际价格低约 77,000 美元。尽管差异很大,但对于考虑购买百万美元房屋的买家来说,这可能不是主要问题。

我希望您觉得这个视频内容丰富且有趣。如果您有任何问题或意见,请在下面留言。不要忘记喜欢这个视频并继续关注更多教程。感谢您的观看,我们下一篇再见。

Multiple Linear Regression In R
Multiple Linear Regression In R
  • 2017.07.10
  • www.youtube.com
Multiple Linear Regression In R prediction.Get the Code: https://github.com/randerson112358/R-Programs/blob/master/MultLinReg.RGet the Dataset:https://wiki.c...
 

在 R 中使用 NBA 数据的 SQL 选择语句


在 R 中使用 NBA 数据的 SQL 选择语句

大家好!欢迎观看有关 R 编程语言的视频。在本教程中,我们将探索使用 R 从 SQL 执行 SELECT 语句并处理 NBA(美国国家篮球协会)数据。那么,让我们开始吧!

我们需要做的第一件事是加载 SQL 包。如果您尚未安装它,可以通过运行命令“install.packages("sqldf")”来安装它。由于我已经安装了它,因此我将简单地使用“library(sqldf)”加载该包。

接下来,我们将加载“xlsx”包,它允许我们读取 Excel 文件。如果您尚未安装,可以使用“install.packages("xlsx")”进行安装。由于我已经安装了它,因此我将使用“library(xlsx)”加载它。

现在我们已经加载了两个包,让我们继续读取 Cavaliers (Cavs) 数据。骑士队是一支 NBA 球队,我们将查询他们的球员数据。要从 Excel 文件读取数据,我们将使用“read.xlsx”函数。在本例中,数据存储在我的 C 驱动器上,因此我将相应地指定文件路径。例如,“C:/Desktop/data.xlsx”。此外,我们将工作表名称称为“Sheet1”。

成功读取数据后,我们可以检查“Cavs”数据帧的结构。它由 17 个观测值(行)和 9 个变量(列)组成。这些变量包括球员姓名、位置、身高、体重、出生日期、年龄、经验和就读学校。

为了清理数据,我们将选择感兴趣的特定列并将它们存储在名为“Cavs_cleaned”的新数据框中。我们将排除“height”和“exp”列,因为它们包含格式问题并且与我们的分析无关。

现在数据已清理完毕,我们可以开始使用“sqldf”函数执行 SQL SELECT 语句。首先,我们从“Cavs”表中选择所有列。我们将使用语句“SELECT * FROM Cavs”从表中检索所有行和列。

接下来,我们将从“Cavs”表中仅选择“球员”和“学校”列。这可以使用 SQL 语句“SELECT player, school FROM Cavs”来完成。

在下面的查询中,我们将选择名字以字母“I”开头的所有玩家。我们将使用 SQL 语句“SELECT * FROM Cavs WHERE player LIKE "I%"”来实现此目的。 “%”符号充当通配符,匹配玩家姓名中“I”后面的任何字符。

要检索特定信息,我们选择 LeBron James 的年龄和体重。我们将使用 SQL 语句“SELECT Age, Weight FROM Cavs WHERE player = "LeBron James"”从“Cavs”表中获取他的年龄和体重。

现在,让我们计算一下球队名单上每个不同年龄段的球员人数。我们将使用 SQL 语句“SELECTage, COUNT(age) FROM Cavs GROUP BYage”来实现此目的。结果将显示每个唯一的年龄和相应的玩家数量。

为了根据球员的年龄对球员进行排序,我们将使用 SQL 语句“SELECT player,age FROM Cavs ORDER BYage DESC”。这将根据玩家的年龄从最大到最小排列玩家。

最后,让我们只选择年龄超过 28 岁的后卫(具有“G”位置的球员)。我们可以通过执行 SQL 语句 'SELECTplayer,position,ageFROMCavsWHEREposition=“G”ANDage>28 来实现这一点'。

在视频的下一部分中,我们将对骑士队名单执行一些数据过滤和聚合操作。那么让我们深入探讨一下。

首先,我们选择所有体重超过 220 磅的球员。我们可以使用 SQL WHERE 子句来实现这一点。这是代码:

heavy_players <- SQLDF("SELECT * FROM Cavs WHERE weight > 220")

通过执行此查询,我们检索一个名为 Heavy_players 的新数据框,其中包含体重超过 220 磅的球员的信息。您可以进一步探索此数据框以分析结果。

现在,让我们继续聚合数据。我们将计算骑士队名单上球员的平均年龄。您可以这样做:

average_age <- SQLDF("SELECT AVG(age) AS average_age FROM Cavs")

执行此查询会为我们提供一个结果,其中包含 Average_age 变量中所有玩家的平均年龄。您可以打印它或将其用于进一步计算。

接下来,让我们找出玩家中最大的体重。我们可以使用 SQL MAX() 函数来实现此目的:

max_weight <- SQLDF("SELECT MAX(weight) AS max_weight FROM Cavs")

此查询从 Cavs 表中检索最大权重并将其存储在 max_weight 变量中。

现在,让我们过滤数据以选择年龄在 25 到 30 岁之间的玩家。代码如下:

young_players <- SQLDF("SELECT * FROM Cavs WHERE age BETWEEN 25 AND 30")

执行此查询会创建一个名为 young_players 的新数据框,其中包含指定年龄范围内的玩家信息。

最后,让我们根据球员的身高升序对他们进行排序:

sorted_players <- SQLDF("SELECT * FROM Cavs ORDER BY height ASC")

通过运行此查询,我们获得一个名为sorted_players的数据框,其中包含按身高升序排列的球员。

我们使用 R 编程语言对 NBA Cavs 数据进行 SQL 查询的演示到此结束。我希望您发现该视频内容丰富且有帮助。如果您有任何问题或建议,请在下面的评论部分告诉我。不要忘记点赞、分享和订阅,以便及时了解更多 R 编程教程。感谢您的观看,我们将在下一个视频中见到您!

SQL Select Statements Using NBA Data In R
SQL Select Statements Using NBA Data In R
  • 2017.11.12
  • www.youtube.com
SQL Select statements using Rhttps://stats.nba.com/team/1610612739/?dir=1Please Subscribe !►Websites: http://everythingcomputerscience.com/►C-Programming Tut...
 

Twitter Mining 在 R 中提取推文


Twitter Mining 在 R 中提取推文

嘿,伙计们,欢迎观看 Twitter 上使用我们自己的工具进行挖掘的视频。我在一个名为 Medium.com 的网站上写了一篇文章,帮助您设置自己的 Twitter 开发者帐户并开始使用 RStudio 挖掘推文。在本视频中,我们将完成本文中概述的步骤,以便您可以开始自己进行 Twitter 挖掘。我将确保在下面的描述中包含该文章的链接,以便您可以阅读并继续操作。

首先,我们来谈谈先决条件。首先,您需要 RStudio 和 Twitter 应用程序帐户。此外,您还需要一个 Twitter 开发者帐户。本文提供了有关如何设置 Twitter 应用程序的详细说明,因此请务必查看。设置完这些帐户后,我们就可以继续执行后续步骤。

接下来,我们需要安装并加载必要的 R 包。本文列出了此过程所需的特定包。确保在 RStudio 中安装并加载它们,然后再继续。

之后,我们将设置 Twitter 身份验证。同样,本文提供了有关如何执行此操作的分步说明。请按照指南使用 Twitter API 验证您的 RStudio 环境。此身份验证过程对于访问 Twitter 的数据至关重要。

最后,我们将使用搜索 Twitter 功能提取推文。在视频中,我们将使用预先配置的 RStudio 环境,因此我们不需要完成整个设置过程。我们可以直接运行搜索Twitter功能。

搜索 Twitter 函数需要几个参数。首先,我们指定搜索字符串,它代表我们要搜索的关键字或主题。我们还定义了要检索的行数或推文数量,以及推文的语言。在视频中,该示例搜索 NBA 推文。

一旦我们执行搜索 Twitter 函数,它就会检索与给定搜索条件相关的指定数量的推文。该视频显示了三条检索到的推文。我们可以修改搜索条件来探索不同的主题,例如冬季奥运会或电影“黑豹”。搜索 Twitter 功能使我们能够提取推文并进一步分析它们。

通过将提取的推文保存在 CSV 或文本文件中,您可以执行各种分析,包括情绪分析。例如,您可以分析人们对比特币或任何其他感兴趣主题的情绪。

我们对搜索 Twitter 功能的演示以及使用 RStudio 进行 Twitter 挖掘的基础知识到此结束。如果您觉得该视频有帮助,请在下面的评论中告诉我。不要忘记点赞、分享和订阅我的频道,以获取有关 Twitter 挖掘的更多视频。感谢您的观看,我们将在下一个视频中见到您!

Twitter Mining Extracting Tweets In R
Twitter Mining Extracting Tweets In R
  • 2018.02.17
  • www.youtube.com
Twitter MiningA step by step guide to extracting tweets or twitter data from twitter !Article on How to set up Twitter Mining Yourself:https://medium.com/@ra...
 

情感分析 R 编程


情感分析 R 编程

嘿,伙计们,欢迎观看这个关于 Art 编程语言的视频。在本视频中,我们将探讨一个令人兴奋的主题:情感分析。情感分析是通过计算对一段文本中表达的观点进行识别和分类的过程。它使我们能够确定作者对主题的态度是消极的、中立的还是积极的。那么让我们开始吧!

我们需要做的第一件事是安装情感分析所需的软件包。您可以使用命令 install.packages("ourthought") 来安装所需的包。由于我已经安装了它,因此我将跳过运行此命令。接下来,我们将使用库(我们的情绪)函数加载“我们的情绪”包。

“我们的情绪”包提供了几个有用的功能。其中之一称为calculate_total_presence_sentiment。我们将使用此函数来分析文本句子向量。在此示例中,我将使用以下句子:“这是一篇好文本”、“这是一篇糟糕的文本”、“这是一篇非常糟糕的文本”和“这太糟糕了”。输入向量并执行命令后,我们可以观察到其中三个句子具有负面情绪,而只有一个句子具有正面情绪。

现在,为了确定哪个句子对应于哪种情绪,我们可以使用calculate_sentiment函数。通过复制之前的命令并再次运行它,我们可以在文本与其情感之间获得清晰的映射。在这种情况下,“这是一篇好文本”被分类为正面。

如果您更喜欢数值而不是情感标签,则可以使用calculate_score函数。通过复制并执行命令,我们得到每个句子对应的分数。在此示例中,所有句子的负分均为 -1。

我希望您对这段有关 Art 编程语言情感分析的视频感兴趣。如果您有任何问题或意见,请在下面留言。如果您发现此视频有帮助,请不要忘记点赞、订阅和分享。感谢您的观看,我们将在下一个视频中见到您!

Sentiment Analysis R Programming
Sentiment Analysis R Programming
  • 2018.04.10
  • www.youtube.com
Sentiment Analysis with the R programming language !Please Subscribe !►Websites: http://everythingcomputerscience.com/►C-Programming Tutorial:https://www.ude...
 

适合初学者的 R 编程 - 为什么应该使用 R


适合初学者的 R 编程 - 为什么应该使用 R

R 是一种免费的开源编程语言,已经获得了巨大的普及,并成为数据分析和统计分析中的宝贵工具。在本视频中,我们将探讨为什么 R 比 SPSS、Stata 和 SAS 等昂贵的商用替代品越来越受青睐。

R 受欢迎的主要原因之一是它的成本效益。 R 是免费和开源的,提供了一组强大的特性和功能,无需昂贵的许可证。正如数据分析社区的持续趋势所表明的那样,这种可访问性导致用户从其他软件包大量迁移到 R。

尽管 R 是一种编程语言,这对某些人来说似乎令人生畏,但实际上它非常平易近人。该视频让观众放心,使用 R 并不困难或可怕。事实上,由于广大 R 社区提供的丰富支持,它相对直观且易于学习。

在数据分析中使用代码的一个关键优势是可重复性。通过以代码形式记录和共享您的分析,其他人可以精确地复制您的结果并了解您得出这些结论所采取的步骤。这提高了透明度并促进了协作,允许其他人进行审查、提出改进建议或识别分析中的潜在错误。相比之下,点击式系统缺乏这种程度的透明度和协作。

此外,基于代码的分析不仅是可重现的,而且是高度可重复的。如果您将来获取更多数据,只需执行代码即可重新运行分析,包括数据清理、操作和分析。这确保您的整个工作流程可以轻松重复,从而提供一致性和效率。

R 作为一种开源语言,最令人兴奋的方面之一是有大量可用于特定数据分析任务的软件包。这些软件包由世界各地的开发人员创建,解决了广泛的分析挑战,并且可以在 R 中自由安装和使用。该视频重点介绍了这些软件包的丰富性,数量达数千个,这进一步扩展了 R 的功能和多功能性,可用于各种领域。数据分析需求。

R 在数据可视化和图形功能方面也表现出色。该视频强调,在这方面,R 超越了任何其他可用的软件包。 R 中丰富的可视化工具允许创建信息丰富且具有视觉吸引力的图表和绘图,从而增强数据探索和呈现。

为了说明使用 R 这样的编程语言并不困难,该视频提供了一个简短的演示。它展示了一个名为“朋友”的简单数据框,显示年龄和身高等变量。通过演示,观众见证了如何将函数应用于 R 中的对象,从而实现简单的操作,例如计算平均值、绘制直方图和检查相关性。这有助于消除对编写代码的任何恐惧或误解,并表明这是一个易于访问且易于管理的过程。

总之,R 作为数据分析和统计分析工具的日益普及可归因于其成本效益、再现性、可重复性、广泛的软件包生态系统、强大的可视化功能和相对易用性。该视频系列旨在引导观众了解 R 的各个方面,从安装开始,一直到数据分析、操作、可视化,甚至机器学习和人工智能等高级主题。通过关注该频道的内容,观众可以开始学习并利用 R 的巨大潜力来进行数据分析。

R programming for beginners - Why you should use R
R programming for beginners - Why you should use R
  • 2018.12.14
  • www.youtube.com
R programming is typically used to analyze data and do statistical analysis. In this video, I talk about why R is a better option than other statistical pack...
 

如何安装 R 并安装 R Studio。如何使用R studio |适合初学者的 R 编程


如何安装 R 并安装 R Studio。如何使用R studio |适合初学者的 R 编程

在本视频中,我们将讨论下载和安装 R 的过程。此外,我们还将介绍 RStudio 的下载和安装,并简要介绍如何使用它。如果您有兴趣学习 R 编程,那么您来对地方了。该 YouTube 频道提供各种 R 编程视频,涵盖各种主题。

让我们从 R 的下载和安装开始。这是一个相对简单的过程,但重要的是要知道在哪里可以找到它。要下载 R,您需要访问 R 项目网站 (r-project.org)。进入网站后,单击“下载 R”选项。然后系统将提示您选择下载位置。例如,如果您在爱尔兰,则可以选择爱尔兰选项。由于您使用的是 Apple Mac,因此请选择下载 R for Mac 的选项。请确保下载最新版本。下载完成后,像任何其他软件应用程序一样安装 R。

下载并安装 R 后,我建议下载并安装 RStudio。在我看来,RStudio 是编写 R 代码的最佳平台。要获取 RStudio,请访问 RStudio 网站并单击“下载 RStudio”选项。您可以下载并安装 RStudio 的免费版本,因为付费版本主要供企业使用。为您的计算机选择适当的平台(在本例中为 Mac)。下载完成后,像任何其他软件应用程序一样安装 RStudio。

当您启动 RStudio 时,您将看到 RStudio 界面。为了帮助您熟悉它,我们简单讨论一下界面的四个象限。在左上角,您将找到代码编辑器,您可以在其中编写 R 代码。在此示例中,我编写了一行代码。当您运行代码时,它将出现在称为控制台的左下象限中。如果代码生成任何输出,它也会显示在控制台中。

要运行代码,只需选择该行并在 Mac 上按“Command + Enter”(快捷方式在 PC 上可能有所不同)。您将看到在控制台中执行的代码。要放大任何象限,您可以使用键盘快捷键(例如“Shift + Control + 1”)来聚焦于代码,或使用“Shift + Control + 0”来查看所有四个象限。

移动到右上象限,您会找到环境。这是在 R 会话期间创建的对象和函数将显示的位置。可以通过将数据分配给变量来创建对象。例如,通过将读取 CSV 文件的结果分配给变量“mydata”,我们创建了一个对象。要放大环境,请使用“Shift + Control + 8”快捷键。

最后,右下象限包含各种选项卡,例如“文件”、“绘图”、“包”和“帮助”。 “文件”选项卡允许您导航硬盘并访问文件和文件夹。 “绘图”选项卡显示 R 会话期间生成的所有绘图或可视化效果。 “包”选项卡提供了一种安装和管理扩展 R 功能的其他包的方法。我们将在另一个视频中更详细地介绍软件包。最后,当您需要有关特定功能或命令的信息时,“帮助”选项卡是宝贵的资源。通过键入前面带有问号的函数名称(例如“?t.test”),您可以访问详细信息和示例。

通过对 RStudio 的简要介绍,您应该可以轻松地下载和安装 R 和 RStudio。还有很多东西需要学习,在下一个视频中,我们将介绍导入数据、安装包、执行基本分析和启动项目。更多精彩内容请持续关注。不要忘记订阅此频道并单击通知铃以接收未来视频的更新。

How to install R and install R Studio. How to use R studio | R programming for beginners
How to install R and install R Studio. How to use R studio | R programming for beginners
  • 2019.01.28
  • www.youtube.com
This video will walk you through how to install R and how to install R studio. There is also a short introduction to R Studio. This is part of a series calle...
 

如何导入数据和安装包。适合初学者的 R 编程。


如何导入数据和安装包。适合初学者的 R 编程。

欢迎回到 SPAR 编程视频系列,我们将指导您如何开始 R 编程。在这个特定的视频中,我们将重点关注创建一个项目并解释项目的含义。此外,我们还将介绍数据导入、包安装和数据操作。在本课程结束时,我们的目标是让您感到有能力在 R 编程中执行任务。那么,让我们开始吧。

如果您有兴趣学习 R 编程,那么您来对地方了。在此 YouTube 频道上,我们提供涵盖广泛主题的全面 R 编程教程。此时,假设你已经安装了R和RStudio,我们来看看RStudio环境。

当您打开 RStudio 时,您会注意到四个象限。如果您不熟悉这个环境,我们有专门的视频介绍它,请随意观看。现在,让我们专注于开始。在左上角,您将找到一个下拉菜单,其中包含各种可供开始的选项。我们将在以后的视频中详细讨论每个选项。但是,目前我们建议您从创建一个项目开始。

要启动项目,请单击左侧的“创建项目”按钮。创建项目至关重要,因为它有助于将脚本、数据和输出组织到一个地方。 R 将知道在哪里找到数据并将所有与项目相关的文件整齐地存储在工作目录中。随着你的进步,这将被证明是有利的。因此,我们强烈建议您在 R 中开始项目时,单击“新建项目”按钮。

单击“新建项目”按钮后,您将看到用于创建新目录和命名项目的选项。例如,我们将项目命名为“Test One”,然后单击“创建项目”。然后,R 将创建一个项目,您可以在 RStudio 界面的右下角找到它。同时,将在您的硬盘上创建一个名为“Test One”的文件夹。如果您导航到该文件夹,您将看到代表该项目的图标。如果您在该文件夹内打开 RStudio 并单击项目图标,R 将打开,并将与该项目关联的所有脚本、数据和输出集中在一处。它创造了一个整洁有序的工作环境,您无疑会欣赏它。

现在,让我们讨论如何将数据导入到 R 中。返回到硬盘驱动器上启动项目时创建的文件夹。将要导入的数据剪切并粘贴到该文件夹中。将数据放入文件夹后,就可以使用代码自动获取数据并将其导入到 R 中。这样,当您运行代码时,数据将可以作为对象随时使用,并且您不必担心重复手动导入它。

避免在 RStudio 中使用“导入数据集”等选项,因为它们效率不高。相反,我们将向您展示如何将数据导入合并到您的代码中。以下是导入数据的示例代码片段:

my_data <- read.csv("filename.csv")

在此代码中,我们使用 read.csv 函数从 CSV 文件导入数据。您可以从各种文件格式(例如 Excel 或 SPSS)导入数据,但为了简单起见,我们现在重点关注 CSV 文件。执行此代码后,数据将作为对象 my_data 存储在 R 环境中。

要查看导入的数据,您可以使用 head、tail 或 view 等功能。例如:

head(my_data)  # displays the first six rows of the data
tail(my_data)  # displays the last six rows of the data

这些功能允许您检查数据的结构和内容。 head 函数显示数据的前几行,而 tail 函数显示最后几行。这有助于快速浏览数据集并验证其是否已正确导入。

导入数据后,您可能需要执行一些数据操作任务。 R 提供了一组丰富的数据操作函数和包。一个常用的包是 dplyr,它提供了一组用于数据操作任务的函数,例如过滤、选择列、排序和聚合数据。

要安装 dplyr 包,可以使用以下代码:

install.packages("dplyr")

安装后,您需要使用库函数将包加载到 R 会话中:

library(dplyr)

现在您可以开始使用 dplyr 包提供的函数进行数据操作。以下是根据条件过滤行的示例:

filtered_data <- my_data %>%
  filter(column_name == "some_value")

在此代码中,filtered_data 将仅包含 my_data 中名为 column_name 的列的值为“some_value”的行。这只是一个示例,dplyr 包提供了更多用于操作和转换数据的函数。

请记住经常保存 R 脚本以跟踪代码和更改。您可以通过单击 RStudio 脚本编辑器左上角的磁盘图标或使用快捷键 Ctrl+S(或 macOS 上的 Cmd+S)来保存脚本。

总之,在本视频中,我们介绍了在 RStudio 中创建项目、使用代码将数据导入 R 以及使用 dplyr 包执行数据操作的基础知识。这些基本概念将构成 R 编程之旅的基础。

在下一个视频中,我们将探索 R 中的数据可视化并学习如何创建富有洞察力的绘图和图表。请继续关注更多精彩的 R 编程教程!

How to import data and install packages. R programming for beginners.
How to import data and install packages. R programming for beginners.
  • 2019.02.14
  • www.youtube.com
In this video I look at how to start a project in R, how to import data and how to install a package. Packages like tidyverse or DPLYR or ggplot extend your ...
 

如何将Excel中的数据导入到R studio中。适合初学者的 R 编程


如何将Excel中的数据导入到R studio中。适合初学者的 R 编程

各位互联网人大家好!欢迎回到我们的编程 101。在这里您会发现 R 不仅强大、有用,而且有趣且易于使用。在本视频中,我们将讨论如何将 Excel 中的数据导入到 R 中。在上一个视频中,我讨论了如何将文件另存为 CSV(逗号分隔值)文件并使用 read 导入它.csv 函数。然而,在本视频中,我们将重点关注直接从 Excel 获取数据到 R,即使在数据可能位于单独选项卡中或位于电子表格中的非标准位置的复杂情况下也是如此。我们将涵盖所有内容,我将在大约三分钟内完成此视频,因此如果您想了解有关 R 编程的更多信息,请跟随我。

如果您对 R 编程感兴趣,那么您来对地方了。在此 YouTube 频道上,我们创建了与 R 相关的所有内容的编程视频。因此,让我们深入探讨将数据从 Excel 导入 R 的主题。

首先,让我们考虑一下我们想要实现的目标。如果我们有一个 Excel 电子表格,我们的目标是将该数据作为对象导入到 R 中,以便用于分析、可视化等。完成这项任务的方法不止一种。

首先,如果您查看 Excel 界面的右上角,您会发现一个“从 Excel 导入”选项。单击它将打开一个屏幕,您可以在其中导航到 Excel 文件的位置。同样,您还可以单击 RStudio 界面右下角的 Excel 图标来访问同一屏幕,该屏幕显示文件的位置。

如果您不熟悉编写将数据导入 R 的代码,此工具可能会很有用。它提供了图形界面来帮助您从 Excel 导入数据。但是,最好单击右上角代码部分上方的小图标,而不是单击工具中的“导入”按钮。这将复制将数据导入 R 所需的代码。然后,您可以将该代码粘贴到 R 脚本中以进行进一步的自定义和控制。

让我们仔细看看这个工具中可用的选项。在顶部,您指定 Excel 文件的位置。该工具提供数据预览,使您可以查看导入到 R 中时的外观。您可以使用下拉菜单修改每列的变量类型。例如,您可以指定是否应将列视为字符数据或数字数据。

在左下角,您可以为 R 中导入的数据对象设置名称。默认情况下,R 将根据 Excel 文件的名称分配名称。如果 Excel 文件包含多个工作表,您还可以选择要导入的工作表。此外,您还可以指定电子表格内的范围以及要导入的最大行数。 “跳过”选项允许您从导入过程中排除某些变量。

需要注意的一个要点是,R 默认情况下使用电子表格的第一行作为列名称。但是,如果取消选中“第一行作为名称”选项,R 将为变量分配自己的名称。

如果您想在导入后立即查看导入的数据,可以勾选“查看数据”选项。但是,通常更方便的做法是直接将数据导入到 R 脚本中,然后使用 R 的函数查看它。

现在,让我们仔细看看该工具生成的代码。当您将代码粘贴到 R 脚本中时,它通常会包含一行使用库或 require 函数加载 readxl 包。该包提供了 read_excel 函数,用于将 Excel 数据导入到 R 中。代码片段如下所示:

library(readxl)
my_data <- read_excel(file = "path/to/your/file.xlsx", sheet = "sheet_name", range = "A1:E10", na = "NA")

在代码中,我们首先使用库函数加载readxl包。这个包包含read_excel函数,可以让我们读取Excel文件。

接下来,我们创建一个名为 my_data 的对象来存储导入的数据。您可以为此对象选择任何名称。

在 read_excel 函数中,我们提供了几个参数。文件参数指定 Excel 文件的路径。您需要在此处提供正确的文件路径。

Sheet 参数允许您指定要导入的工作表的名称。如果您的 Excel 文件有多个工作表并且您想要导入特定工作表,请在此处提供其名称。或者,您可以使用工作表索引号。

range 参数是可选的,允许您指定要导入的工作表内的范围。例如,“A1:E10”会将数据从单元格 A1 导入到 E10。如果您不指定范围,它将导入整个工作表。

na 参数用于指定缺失值的表示。在本例中,我们将其设置为“NA”,这是 R 中默认的缺失值表示形式。您可以根据缺失值在 Excel 文件中的表示方式对其进行自定义。

将代码粘贴到 R 脚本中后,您可以运行它来导入数据。导入的数据将存储在 my_data 对象中,您可以继续进行数据分析、可视化或需要执行的任何其他操作。

值得注意的是,您可以为 read_excel 函数探索其他参数和选项。您可以通过在 R 控制台中键入 ?read_excel 来参考该函数的文档,这将提供有关可用选项的更多详细信息。

如果您认真学习数据分析并希望进一步探索 R 编程,我鼓励您订阅此频道并单击通知铃以接收未来视频的更新。

我希望这个解释可以帮助您了解如何使用 readxl 包将数据从 Excel 导入到 R 中。如果您还有任何疑问,请随时提问!

How to import data from excel into R studio. R programming for beginners
How to import data from excel into R studio. R programming for beginners
  • 2019.02.20
  • www.youtube.com
Importing data from excel into R is easy. Learn how to import data from excel by using both R code and by using the tools within R studio. This video is part...
 

适合初学者的 R 编程。使用 tidyverse 操作数据:选择、过滤和变异。


适合初学者的 R 编程。使用 tidyverse 操作数据:选择、过滤和变异。

欢迎回到我们的编程 101!在本课程中,您将发现 R 不仅强大且有用,而且还很有趣且相对易于使用。因此,请跟随我一起深入了解 R 编程的世界。

该视频是我们面向初学者的编程系列的一部分,我们重点关注基础知识。在这个特定的视频中,我将教您如何访问和利用 R 中的现有数据集。R 捆绑了各种数据集,您可以使用它们来练习数据操作、分析和统计技能。

首先,我希望您复制我将在本视频中指导您完成的分析。您可以访问数据集并在家中进行操作。动手实践是最好的学习方式。

在开始之前,让我们确保您已安装必要的软件包。在这种情况下,我们将使用“tidyverse”包。如果您尚未安装,则只需安装一次。但是,对于每个新会话,您需要使用 require 或库函数加载包。让我们运行命令库(tidyverse)来加载包。

现在我们已经加载了包,让我们继续。我们将使用 Star Wars 数据集,它是“tidyverse”包附带的附加数据集之一。要查看 R 中所有可用数据集的列表,可以使用 data() 函数。只需输入 data() 并按 Enter 键即可。

在本次分析中,我们有兴趣探索星球大战电影中角色的健康状况。作为一名医生,评估健康状况的一种方法是查看体重指数 (BMI),该指数的计算方法是用体重(公斤)除以身高(米)的平方。我们想调查男性和女性之间的体重指数是否存在差异。此外,我们将重点关注人类角色,并将机器人排除在我们的分析之外。

我们开始分析吧。我们将使用“tidyverse”包中的管道运算符 %>%,它允许我们将多个操作链接在一起。每行代码代表我们分析的一个步骤。

首先,我们将使用管道运算符指定我们正在处理 Star Wars 数据集。数据集包含许多变量,但我们只想使用其中的一个子集。为了简化数据集,我们可以使用 select() 函数来选择特定变量。在我们的例子中,我们对变量“性别”、“质量”、“高度”和“物种”感兴趣。代码将是选择(性别、质量、身高、物种)。

接下来,我们要从数据集中过滤掉非人类字符。我们可以使用filter()函数来实现这一点。我们指定只包含物种等于“人类”的观察结果。代码将是过滤器(物种==“人类”)。

过滤数据集后,我们可能会缺少想要删除的值。在本视频中,我们不会深入研究处理缺失数据的细节,因此让我们使用 na.omit() 函数删除任何包含缺失值的行。代码为 na.omit()。

现在,我们需要将高度变量从厘米转换为米。我们可以使用 mutate() 函数创建一个新变量或修改现有变量。我们将高度除以 100 将其转换为米。代码将发生变化(高度 = 高度 / 100)。

最后,我们要计算每个角色的体重指数。我们将再次使用 mutate() 函数来创建一个名为“BMI”的新变量。 BMI的计算公式是质量/身高^2。代码将是

mutate(BMI = mass / height^2)`.

至此,我们已经准备好数据集并计算了每个角色的 BMI。现在,让我们重点比较一下《星球大战》宇宙中男性和女性的体重指数。为此,我们需要按性别对数据进行分组,然后总结每组的平均 BMI。

使用管道运算符,我们将链接另一个操作。我们将使用 group_by() 函数按“性别”变量对数据进行分组。代码为 group_by(gender)。

接下来,我们将使用 Summarize() 函数来计算每个性别组内的平均 BMI。我们将使用代码summary(average_BMI =mean(BMI))创建一个名为“平均BMI”的新变量。

现在,如果我们一起运行整个代码,我们将获得显示星球大战宇宙中男性和女性平均 BMI 的汇总表。

总结我们的分析:

  1. 我们选择了感兴趣的变量:性别、质量、身高和物种。
  2. 我们过滤了数据集以仅包含人类角色。
  3. 我们删除了所有缺失值的行。
  4. 我们将高度变量从厘米转换为米。
  5. 我们计算了每个角色的体重指数。
  6. 我们按性别对数据进行分组。
  7. 我们计算了每个性别组的平均体重指数。

在汇总表中,您可以观察到《星球大战》宇宙中女性的平均 BMI 为 22,而男性为 26。这表明,平均而言,男性的 BMI 略高,表明有超重的趋势。

我鼓励您使用《星球大战》数据集在您自己的计算机上逐步进行此分析。实践练习将巩固您对 R 编程概念的理解。欢迎在下面的描述中发表评论,分享您的分析经验。

请记住,学习 R 编程是一个令人兴奋的旅程,您执行的每次分析都会增强您的技能。请继续关注我们的编程 101 系列中更多引人入胜的内容。

R programming for beginners. Manipulate data using the tidyverse: select, filter and mutate.
R programming for beginners. Manipulate data using the tidyverse: select, filter and mutate.
  • 2019.03.12
  • www.youtube.com
Learn to manipulate data using the tidyverse package in R. This is part of the "R programming for beginners" series of videos. In this video, I use one of R'...
 

R 编程中的数据类型


R 编程中的数据类型

欢迎回到我们的编程 101 教程!今天,我们将深入探讨数据类型的主题。了解不同类型的数据对于有效编程至关重要。虽然有很多类型,但我们将重点关注最重要的五种。我们还将简要讨论其他类型。此外,我们将学习如何更改 R 中变量的数据类型,并探索如何向因子添加级别。那么,请留下来,让我们开始吧!

如果您来这里是为了学习 R 编程,那么您来对地方了。在此 YouTube 频道上,我们提供涵盖广泛主题的综合编程视频。在本教程中,我们将讨论四种主要类型的数据:姓名、身高、年龄和体重。

第一种类型是“名称”,它表示名义数据。在 R 中,我们将其归类为字符数据类型,因为它由文本组成。下一个类型是“高度”,它也是分类数据,但它有特定的顺序。在 R 中,我们将其称为序数数据,并将其表示为一个因子。因素允许我们为变量分配不同的水平。

继续,我们有“年龄”,它是一个整数。在R中,我们将其归类为整数数据类型。最后,我们有“权重”,它可以是整数之间的任何数值。在 R 中,我们将其视为数值变量。

要检查数据框的结构(在我们的环境中是一个名为“friends”的对象),我们可以使用 str() 函数。通过运行 str(friends),我们可以在控制台中查看数据框的结构。 R 提供有关数据框中每个变量的数据类型的信息。我们注意到“name”变量被正确识别为字符,但“height”、“age”和“weight”分别被分类为字符和数字。

要将“height”变量的数据类型从字符更改为因子,我们使用 as.factor() 函数。代码 Friends$height <- as.factor(friends$height) 会将“height”变量转换为一个因子并相应地更新数据框。

同样,如果我们想将“age”变量的数据类型更改为整数,我们可以使用as.integer()函数。代码 Friends$age <- as.integer(friends$age) 会将“age”变量转换为整数。

现在,让我们重点关注向“height”变量添加级别。默认情况下,R 按字母顺序将级别分配给因子变量。但是,如果我们想更改顺序,可以使用levels()函数。例如,要将“height”的级别设置为“short”、“medium”和“tall”,我们可以使用代码levels(friends$height) <- c("short", "medium", "tall" ”)。

执行代码后,我们可以重新运行 str(friends) 命令来验证更改。现在,我们可以观察到“height”变量是一个具有“矮”、“中”和“高”级别的因子,正如我们所预期的那样。

除了讨论的四种类型之外,还有另一种重要的数据类型,称为“逻辑”。逻辑变量可用于存储真/假值。我们可以使用逻辑运算来比较变量,并根据比较生成新的逻辑变量。

例如,我们可以创建一个名为“old”的新逻辑变量来确定数据框中的个体是否年龄超过 23 岁。使用代码 Friends$old <- Friends$age > 23,我们将“age”变量与值 23 并将结果分配给“旧”变量。

通过使用 class(friends$old) 检查“old”变量的类,我们可以确认它确实是一个逻辑变量。

在本教程中,我们介绍了五种最重要的数据类型:字符、因子、整数、数字和逻辑。这些类型将作为您数据分析之旅的基础。但是,请记住,还有其他类型的数据,例如时间和日期数据,我们将在以后的视频中探讨这些数据。

如果您真的想掌握数据分析和 R 编程,请务必点击订阅按钮并启用通知铃声。这样,您将保持更新并收到我们未来视频的通知。

感谢您加入我们的编程 101 教程。我们希望您发现它内容丰富且有帮助。保持好奇心,不断探索迷人的编程世界!

Data types in R programming
Data types in R programming
  • 2019.03.28
  • www.youtube.com
In this video I provide an overview of the five main types of data used in R programming. These are character, factor, integer, continuous and logical. I sho...