矩阵包的研究 - 页 2

 
Alexey Burnakov:
我明天会就这个问题发布几个有用的代码。
#  hypothesis testing

#  two-sample mean comparison

t.test(x, y = NULL,
       alternative = c("two.sided", "less", "greater"),
       mu = 0, paired = FALSE, var.equal = FALSE,
       conf.level = 0.95, ...)

#  two-sample median comparison

wilcox.test(x, y = NULL,
            alternative = c("two.sided", "less", "greater"),
            mu = 0, paired = FALSE, exact = NULL, correct = TRUE,
            conf.int = FALSE, conf.level = 0.95, ...)

#  two distribution comparison

ks.test(x, y, ...,
        alternative = c("two.sided", "less", "greater"),
        exact = NULL)

#  normality test

shapiro.test(x)


# independence / goodness of fit / homogeneity tests for categorical variables
chisq.test(x, y = NULL, correct = TRUE,
           p = rep(1/length(x), length(x)), rescale.p = FALSE,
           simulate.p.value = FALSE, B = 2000)

#  covariance / correlation

var(x, y = NULL, na.rm = FALSE, use)

cov(x, y = NULL, use = "everything",
    method = c("pearson", "kendall", "spearman"))

cor(x, y = NULL, use = "everything",
    method = c("pearson", "kendall", "spearman"))

# ordinary linear regression
lm(formula, data, subset, weights, na.action,
   method = "qr", model = TRUE, x = FALSE, y = FALSE, qr = TRUE,
   singular.ok = TRUE, contrasts = NULL, offset, ...)   =) that easy
 
Alexey Burnakov:

#  selecting a random subset of rows from an array to perform Shapiro–Wilk test

shapiro.test(x = lateral_residuals$`lateral_linear_model$residuals`[sample(x = nrow(lateral_residuals), size = 4999, replace = F)])
 
Alexey Burnakov:

#  generate pseudo random numbers (or probabilities) for normal

dnorm(x, mean = 0, sd = 1, log = FALSE)
pnorm(q, mean = 0, sd = 1, lower.tail = TRUE, log.p = FALSE)
qnorm(p, mean = 0, sd = 1, lower.tail = TRUE, log.p = FALSE)
rnorm(n, mean = 0, sd = 1)


# for uniform

dunif(x, min = 0, max = 1, log = FALSE)
punif(q, min = 0, max = 1, lower.tail = TRUE, log.p = FALSE)
qunif(p, min = 0, max = 1, lower.tail = TRUE, log.p = FALSE)
runif(n, min = 0, max = 1)
 
Alexey Burnakov:
#  perform ANOVA on one or more trained models

anova(object, ...)   that easy =)
 
Alexey Burnakov:
#create histograms with error bars (on first 10 000 rows)

for(i in 1:8){
        
        subdat <- head(pre_an_int_eff, 10000)
        
        dodge <- position_dodge(width = 0.9)
        p <- ggplot(subdat, aes(fill = subdat$'sample_description', y = subdat$'mean', x = subdat$'sample_description')) + 
                geom_bar(position = "dodge", stat = "identity") + 
                geom_bar(position = dodge) + geom_errorbar(aes(ymin = subdat[, 9], ymax = subdat[, 10]), position = dodge, width = 0.25) +
                theme(axis.text.x = element_text(angle = 45, vjust = 1, hjust = 1)) + 
                theme(legend.position = 'none')
        
        print(p)
        
}
That is all, folks!
 
Alexey Volchanskiy:

顺便说一下,如果有懂R的人,有一个初学者的问题。我看到有几个R发行版,R-server,一些 "A web application framework for R" http://shiny.rstudio.com/ ,微软的怪物包。该如何选择?

R-studio已经很好了--它只是在语言之上改进了界面(任何R包和开发者的附加组件)。 Shiny也是R包,用于创建控件、输入表单、各种网络演示。
我没有从MS使用过它,我不能说。
 

男人!

如果你有一点前提条件--任何语言的编程经验和一些统计知识,那么只有R,而且只有R。

Matlab根本无法比较--它是一个不同的软件包,而且是花了很多钱的付费软件包。

R的竞争对手是SAS和SPSS,但它们都是付费软件包,R已经开始超越它们了。5年来,Matlab还在与R进行比较,但我在最后的评论中再也看不到它了--它已经被遗忘了。

现在,R是统计学的标准,有大量的出版物,总的来说是一个非常强大的运动。

例如,一个非常有用的博客,每天都会发布,你可以订阅新闻:http://www.r-bloggers.com/

这里有一堆价格非常合理的书:http://www.twirpx.com/search/?query=R。输入了R的搜索。它能很好地搜索关键词。

我们不要忘记,R作为一种算法编程语言,是十大语言之一,排名仅次于C的变体。

要使用它,你必须采取通常的R与RStudio。此外,我们不要忘记,R的付费变体被微软收购,并开始推广其变体--跟随发展。

R-bloggers
R-bloggers
  • xi'an
  • www.r-bloggers.com
In econometric modeling, I usually have a problem with correlated features. A few weeks ago, I was discussing feature selection when features are correlated. This week, I was wondering about... Clustering French Cities (based on Temperatures) In order to illustrate hierarchical clustering techniques and k-means, I did borrow François Husson‘s...
 
СанСаныч Фоменко:

男人!

如果你有一点前提条件--任何语言的编程经验和一些统计知识,那么只有R,而且只有R。

Matlab根本无法比较--它是一个不同的软件包,而且是花了很多钱的付费软件包。

R的竞争对手是SAS和SPSS,但它们都是付费软件包,R已经开始超越它们了。5年来,Matlab还在与R进行比较,但我在最后的评论中再也看不到它了--它已经被遗忘了。

现在,R是统计学的标准,有大量的出版物,总的来说是一个非常强大的运动。

例如,一个非常有用的博客,每天都会发布,你可以订阅新闻:http://www.r-bloggers.com/

这里有一堆价格非常合理的书:http://www.twirpx.com/search/?query=R。输入了R的搜索。它能很好地搜索关键词。

我们不要忘记,R作为一种算法编程语言,是十大语言之一,排名仅次于C的变体。

要使用它,你必须采取通常的R与RStudio。此外,我们不要忘记,付费的R变体被微软收购,并开始推广。

好吧,这是我慢慢学习R的第一天,回答我的问题,我想比较一下R和Matlab的特点。但没有任何喧嚣,以平衡和平静的方式进行 :)。

  1. R是一种具有OOP功能的语言吗?
  2. 我能否在R中创建一个32位和64位的dll,以便从MQL4/5中直接使用?如果是这样,我必须安装多大的包才能在用户的电脑上使用这样的dll?
  3. 我可以连接普通的dlls,以便从R中直接访问吗?
  4. R语言中是否有Simulink的类似物?
  5. 为什么所有的评论都强调R是一个统计程序?我对DSP感兴趣,R有数字信号处理的包吗?
  6. R中是否有一种内置的紧凑数据存储格式,类似于Matlab中的.mat文件?

 
Alexey Volchanskiy:

很好,这是我第一天学习R,请回答我的问题,我想比较R和Matlab的可能性。只是没有任何喋喋不休,以一种平衡和平静的方式 :)。


  1. 我可以连接普通数据库,从R中直接访问吗?

  2. 为什么在所有的评论中都强调R是一个统计程序?我对DSP感兴趣,R有数字信号处理的包吗?

是的,也是的。我的同事在坚持使用MS SQL。

信号: https://cran.r-project.org/web/packages/signal/index.html

可能也有其他类似的软件包。

R是从S中生长出来的。它最初是为统计数据处理而开发的。也许,它可能缺少一些成熟语言的功能,但用它来做统计研究是很方便的。而且有许多(成千上万)用于数据处理和分析的开源软件包。

即使是机器学习的最新趋势--深度学习和轰动一时的xGBoost--现在也已经实现了。

 
Alexey Burnakov:

是的,也是的。我的一个同事一直坚持使用MS SQL。

信号: https://cran.r-project.org/web/packages/signal/index.html

可能也有其他类似的软件包。

R是从S中生长出来的。它最初是为统计数据处理而开发的。也许,它可能缺少一些成熟语言的功能,但用它来做统计研究是很方便的。而且有许多(成千上万)用于数据处理和分析的开源软件包。

即使是机器学习的最新趋势--深度学习和轰动一时的xGBoost--现在也已经实现了。

我必须尝试在Matlab中把我的一些程序翻译成R,以比较速度。如果我在周末前设法弄清楚,我会去做,并向大家报告。Matlab是相当慢的,我用C#或C++做了很多东西,并将其作为DLL插入以获得速度。