Ricerca in pacchetti di matrici - pagina 2

 
Alexey Burnakov:
Domani posterò un paio di codici utili sull'argomento.
#  hypothesis testing

#  two-sample mean comparison

t.test(x, y = NULL,
       alternative = c("two.sided", "less", "greater"),
       mu = 0, paired = FALSE, var.equal = FALSE,
       conf.level = 0.95, ...)

#  two-sample median comparison

wilcox.test(x, y = NULL,
            alternative = c("two.sided", "less", "greater"),
            mu = 0, paired = FALSE, exact = NULL, correct = TRUE,
            conf.int = FALSE, conf.level = 0.95, ...)

#  two distribution comparison

ks.test(x, y, ...,
        alternative = c("two.sided", "less", "greater"),
        exact = NULL)

#  normality test

shapiro.test(x)


# independence / goodness of fit / homogeneity tests for categorical variables
chisq.test(x, y = NULL, correct = TRUE,
           p = rep(1/length(x), length(x)), rescale.p = FALSE,
           simulate.p.value = FALSE, B = 2000)

#  covariance / correlation

var(x, y = NULL, na.rm = FALSE, use)

cov(x, y = NULL, use = "everything",
    method = c("pearson", "kendall", "spearman"))

cor(x, y = NULL, use = "everything",
    method = c("pearson", "kendall", "spearman"))

# ordinary linear regression
lm(formula, data, subset, weights, na.action,
   method = "qr", model = TRUE, x = FALSE, y = FALSE, qr = TRUE,
   singular.ok = TRUE, contrasts = NULL, offset, ...)   =) that easy
 
Alexey Burnakov:

#  selecting a random subset of rows from an array to perform Shapiro–Wilk test

shapiro.test(x = lateral_residuals$`lateral_linear_model$residuals`[sample(x = nrow(lateral_residuals), size = 4999, replace = F)])
 
Alexey Burnakov:

#  generate pseudo random numbers (or probabilities) for normal

dnorm(x, mean = 0, sd = 1, log = FALSE)
pnorm(q, mean = 0, sd = 1, lower.tail = TRUE, log.p = FALSE)
qnorm(p, mean = 0, sd = 1, lower.tail = TRUE, log.p = FALSE)
rnorm(n, mean = 0, sd = 1)


# for uniform

dunif(x, min = 0, max = 1, log = FALSE)
punif(q, min = 0, max = 1, lower.tail = TRUE, log.p = FALSE)
qunif(p, min = 0, max = 1, lower.tail = TRUE, log.p = FALSE)
runif(n, min = 0, max = 1)
 
Alexey Burnakov:
#  perform ANOVA on one or more trained models

anova(object, ...)   that easy =)
 
Alexey Burnakov:
#create histograms with error bars (on first 10 000 rows)

for(i in 1:8){
        
        subdat <- head(pre_an_int_eff, 10000)
        
        dodge <- position_dodge(width = 0.9)
        p <- ggplot(subdat, aes(fill = subdat$'sample_description', y = subdat$'mean', x = subdat$'sample_description')) + 
                geom_bar(position = "dodge", stat = "identity") + 
                geom_bar(position = dodge) + geom_errorbar(aes(ymin = subdat[, 9], ymax = subdat[, 10]), position = dodge, width = 0.25) +
                theme(axis.text.x = element_text(angle = 45, vjust = 1, hjust = 1)) + 
                theme(legend.position = 'none')
        
        print(p)
        
}
That is all, folks!
 
Alexey Volchanskiy:

A proposito, se c'è qualcuno che conosce R, una domanda da principiante. Vedo che ci sono diverse distribuzioni di R, R-server, alcuni "A web application framework for R" http://shiny.rstudio.com/ , pacchetti mostro di Microsoft... Cosa scegliere?

R-studio è abbastanza buono - è semplicemente un'interfaccia migliorata sul linguaggio (qualsiasi pacchetto R e componenti aggiuntivi dello sviluppatore). Shiny è lo stesso pacchetto R per creare controlli, moduli di input, tutti i tipi di demo web.
Non l'ho usato da MS, non posso dirlo.
 

Uomini!

Se avete il minimo prerequisito - esperienza di programmazione in qualsiasi linguaggio e qualche conoscenza di statistica, allora solo R, e solo R.

Matlab non può essere assolutamente paragonato - è un pacchetto diverso, e un pacchetto a pagamento per un sacco di soldi.

I concorrenti di R sono SAS e SPSS, ma sono pacchetti a pagamento e R sta cominciando a superarli. Per 5 anni Matlab è stato ancora confrontato con R, ma non lo vedo più nelle ultime recensioni - è andato nel dimenticatoio.

Oggi R è lo standard per la statistica, ci sono un numero enorme di pubblicazioni e in generale un movimento molto potente.

Per esempio un blog molto utile, pubblicato ogni giorno, puoi iscriverti per le notizie: http://www.r-bloggers.com/

Ecco un mucchio di libri a prezzi molto ragionevoli: http://www.twirpx.com/search/?query=R. Ha digitato una ricerca per R. Cerca bene sulle parole chiave.

Non dimentichiamo che R, come linguaggio di programmazione algoritmica, è uno dei primi dieci linguaggi e si classifica accanto alle varianti del C.

Per usarlo, dovete prendere il solito R con RStudio. Inoltre, non dimentichiamo che la variante a pagamento di R è stata acquistata da Microsoft e inizia a promuovere la sua variante - seguire gli sviluppi.

R-bloggers
R-bloggers
  • xi'an
  • www.r-bloggers.com
In econometric modeling, I usually have a problem with correlated features. A few weeks ago, I was discussing feature selection when features are correlated. This week, I was wondering about... Clustering French Cities (based on Temperatures) In order to illustrate hierarchical clustering techniques and k-means, I did borrow François Husson‘s...
 
СанСаныч Фоменко:

Uomini!

Se avete il minimo prerequisito - esperienza di programmazione in qualsiasi linguaggio e qualche conoscenza di statistica, allora solo R, e solo R.

Matlab non può essere assolutamente paragonato - è un pacchetto diverso, e un pacchetto a pagamento per un sacco di soldi.

I concorrenti di R sono SAS e SPSS, ma sono pacchetti a pagamento e R sta cominciando a superarli. Per 5 anni Matlab è stato ancora confrontato con R, ma non lo vedo più nelle ultime recensioni - è andato nel dimenticatoio.

Oggi R è lo standard per la statistica, ci sono un numero enorme di pubblicazioni e in generale un movimento molto potente.

Per esempio un blog molto utile, pubblicato ogni giorno, è possibile iscriversi per le notizie: http://www.r-bloggers.com/

Ecco un mucchio di libri a prezzi molto ragionevoli: http://www.twirpx.com/search/?query=R. Ha digitato una ricerca per R. Cerca bene sulle parole chiave.

Non dimentichiamo che R, come linguaggio di programmazione algoritmica, è uno dei primi dieci linguaggi e si classifica accanto alle varianti del C.

Per usarlo, dovete prendere il solito R con RStudio. Inoltre non dimentichiamo che la variante R a pagamento è stata acquistata da Microsoft e sta iniziando a promuoverla.

Bene, è il primo giorno che sto imparando lentamente R, rispondi alle mie domande, voglio confrontare le caratteristiche di R e Matlab. Ma senza clamore, in modo equilibrato e calmo :).

  1. R è un linguaggio con capacità OOP?
  2. Posso creare in R una dll a 32-bit e 64-bit da usare direttamente da MQL4/5? Se sì, quale pacchetto di dimensioni devo installare per usare tale dll sul computer di un utente?
  3. Posso collegare le DLL comuni per l'accesso diretto da R?
  4. Esiste un analogo di Simulink in R?
  5. Perché tutte le recensioni sottolineano che R è un programma di statistica? Sono interessato al DSP, R ha pacchetti per l'elaborazione del segnale digitale?
  6. C'è un formato di archiviazione dati compatto integrato in R, simile ai file .mat in Matlab?

 
Alexey Volchanskiy:

Grande, è il mio primo giorno di apprendimento di R, rispondete alle mie domande per favore, voglio confrontare le possibilità di R e Matlab. Solo senza chiacchiere, in modo equilibrato e calmo :).


  1. Posso collegare database comuni per l'accesso diretto da R?

  2. Perché in tutte le recensioni si sottolinea che R è un programma di statistica? Sono interessato al DSP, R ha pacchetti per l'elaborazione del segnale digitale?

Sì e sì. Il mio collega si aggrappa a MS SQL.

Segnali: https://cran.r-project.org/web/packages/signal/index.html

Probabilmente ci sono anche altri pacchetti simili.

R è cresciuto da S. È stato originariamente sviluppato per l'elaborazione di dati statistici. Probabilmente, alcune caratteristiche dei linguaggi completi possono mancare in esso, ma è conveniente fare ricerche statistiche in esso. E ci sono molti (migliaia) pacchetti open-source per l'elaborazione e l'analisi dei dati.

Anche le ultime tendenze dell'apprendimento automatico - l'apprendimento profondo e il sensazionale xGBoost- sono state implementate.

 
Alexey Burnakov:

Sì e sì. Un mio collega si aggrappa a MS SQL.

Segnali: https://cran.r-project.org/web/packages/signal/index.html

Probabilmente ci sono anche altri pacchetti simili.

R è cresciuto da S. È stato originariamente sviluppato per l'elaborazione di dati statistici. Probabilmente, alcune caratteristiche dei linguaggi completi possono mancare in esso, ma è conveniente fare ricerche statistiche in esso. E ci sono molti (migliaia) pacchetti open-source per l'elaborazione e l'analisi dei dati.

Anche le ultime tendenze dell'apprendimento automatico - l'apprendimento profondo e il sensazionale xGBoost - sono state implementate.

Dovrei provare a tradurre alcuni dei miei programmi in R in Matlab, per confrontare la velocità. Se riesco a capirlo entro il fine settimana, lo farò e riferirò. Matlab è piuttosto lento, faccio un sacco di cose in C# o C++ e lo inserisco come DLL per la velocità.