L'apprentissage automatique dans la négociation : théorie, modèles, pratique et algo-trading - page 2367

 
mytarmailS:

Longs soupirs... oubliés, fatigués)

384 GB RAM ? ?

Je n'ai pas besoin d'autant - 64 vaut la peine.

 
Aleksey Vyazmikin:

Je n'ai pas besoin de tant de choses - ça coûte 64.

Ok, bon, voyons voir, je suis encore en train de trier le code moi-même, comment faire au mieux ce qui peut être optimisé, je pense, je suis en train d'essayer des options, je ne veux pas vous déranger pour rien aussi, je garderai en tête koroch....

 
Aleksey Nikolayev:

Certaines choses que l'on aime beaucoup par la suite semblent désagréables au premier abord - le café, le caviar, le wasabi, la musique rock, etc.)

c'est vrai, moi aussi je n'ai pas compris certaines des structures de p-ka au début, je pensais que c'était des bêtises

Je me suis également amusé avec certaines structures en p-ka au début, je pensais que c'était absurde, par exemple j'utilisais des boucles pour tout écrire et je ne comprenais pas la famille "apply", mais il s'est avéré plus tard que je pouvais gagner en lisibilité et en rapidité et que je pouvais écrire 6 lignes de code et en faire une seule.

 
mytarmailS:

Je n'ai pas non plus compris certaines des structures de p-ka au début, je pensais que c'était un non-sens.

J'avais l'habitude de tout écrire dans une boucle et je ne comprenais pas la famille "apply", mais il s'est avéré plus tard que je pouvais obtenir plus de lisibilité et de vitesse et que je pouvais écrire 6 lignes de code et faire une

Ne s'appliquent pas seulement. J'utilise souvent foreach car il peut être parallélisé sans modifier le code... Parfois l'itérateur est utile, essayez-le

library(coro)
abc <- generate_abc()
loop(for (x in abc) print(x))

Bonne chance

 
Vladimir Perervenko:

Pas seulement appliquer. J'utilise plus souvent foreach, on peut le paralléliser sans refaire le code... Parfois l'itérateur est utile, essayez-le

Bonne chance

Merci !

 
mytarmailS:

Merci !

Qu'est-ce que generate_abc ? Je n'ai toujours pas compris car l'exemple donne une erreur

library(coro)
> abc <- generate_abc()
Error in generate_abc() : could not find function "generate_abc"
 

Toutes ces opérations sont en python

print([x for x in range(50)])
 
Tout cela a commencé en lisp et est particulièrement développé dans la programmation fonctionnelle, dont on retrouve des éléments dans R et Python.
 
Je suis tombé par hasard sur un article dont l'affirmation m'a surpris :Prédicteurs, réponses et résidus : qu'est-ce qui doit vraiment être normalement distribué ?

Quelques citations :

"De nombreux scientifiques sont préoccupés par la normalité ou la non-normalité des variables dans l'analyse statistique. Les points de vue suivants et d'autres similaires sont souvent exprimés, publiés ou enseignés :

  • " Si vous voulez faire des statistiques, tout doit être distribué normalement .
  • "Nous avons normalisé nos données pour qu'elles correspondent à l'hypothèse de normalité .
  • " Nous avons converti nos données en logarithme car elles avaient une distribution très asymétrique .
  • "Après avoir ajusté le modèle, nous avons testé l'homoscédasticité des résidus .
  • " Nous avons utilisé un test non paramétrique car nos données ne correspondaient pas à l'hypothèse de normalité " .

Et ainsi de suite. Je sais que c'est plus compliqué que cela, mais il semble quand même que la distribution normale soit ce que les gens veulent voir partout, et que la distribution normale des choses ouvre la porte à des statistiques propres et convaincantes et à des résultats solides. De nombreuses personnes que je connais vérifient régulièrement si leurs données sont normalement distribuées avant de les analyser, puis elles essaient soit de les "normaliser", par exemple en utilisant une transformation logarithmique, soit d'ajuster la méthode statistique en conséquence sur la base de la distribution de fréquence de leurs données. J'explore ici cette question de plus près et je montre qu'il y a peut-être moins d'hypothèses sur la normalité qu'on pourrait le croire."

Justification supplémentaire de la pensée et de la conclusion :

" Pourquoi les gens normalisent-ils encore les données ?

La raison pour laquelle les gens ont encore tendance à "normaliser" leurs variables (prédicteurs et réponses) avant d'ajuster un modèle est un autre problème déroutant. Pourquoi cette pratique a-t-elle émergé et s'est-elle répandue, même si aucune hypothèse n'en est à l'origine ? J'ai plusieurs théories à ce sujet : ignorance, tendance à suivre les livres de recettes statistiques, propagation des erreurs, etc. D.
Deux explications semblent plus plausibles : premièrement, les gens normalisent les données pour linéariser les relations. Par exemple, une transformation logarithmique du prédicteur peut être utilisée pour ajuster une fonction exponentielle en utilisant le mécanisme habituel des moindres carrés. Cela peut sembler normal, mais alors pourquoi ne pas spécifier la relation non linéaire directement dans le modèle (par exemple en utilisant une fonction de référence appropriée) ? En outre, la pratique de la transformation logarithmique des réponses peut conduire à de sérieux artefacts, par exemple dans le cas de données de comptage avec des comptes nuls (O'Hara & Kotze 2010).
Une deuxième raison plausible de "normalisation" de la pratique a été suggérée par ma collègue Catherine Mertes-Schwartz : cela peut être dû au fait que les chercheurs tentent de résoudre un problème et que leurs données ont été collectées de manière très lisse et inégale. En d'autres termes, on travaille très souvent avec des données qui présentent un grand nombre d'observations regroupées dans une certaine partie du gradient, tandis que l'autre partie du gradient est relativement sous-représentée. Cela conduit à des distributions faussées. La transformation de ces distributions conduit à une distribution apparemment régulière des observations le long du gradient et à l'élimination des valeurs aberrantes. Cela peut en effet être fait de bonne foi. Cependant, cela aussi est fondamentalement faux."

Pour moi, cette déclaration est (choquante ?), je n'arrive pas à trouver le mot juste pour la décrire. Mais je le garderai à l'esprit à l'avenir.

Predictors, responses and residuals: What really needs to be normally distributed?
Predictors, responses and residuals: What really needs to be normally distributed?
  • www.r-bloggers.com
[This article was first published on Are you cereal? » R , and kindly contributed to R-bloggers]. (You can report issue about the content on this page here)
 
Maxim Dmitrievsky:

Toutes ces opérations sont en python.

Il ne s'agit pas d'impression, mais de générateurs et d'itérateurs.