L'apprentissage automatique dans la négociation : théorie, modèles, pratique et algo-trading - page 883

 
Maxim Dmitrievsky:

les forêts régulières, les forêts aléatoires et les forêts d'arbres sont la même chose :) La forêt est un ensemble d'arbres

les caractéristiques sont-elles réduites, ce qui signifie qu'elles sont moins nombreuses ou quoi ? par caractéristiques réduites, nous entendons des caractéristiques rarement modifiées et/ou catégoriques comme des uns et des zéros (enfin, c'est une compréhension de haut niveau)

Non, l'effondrement signifie qu'une variable a plusieurs valeurs, mais que le nombre de combinaisons reste le même. J'ai joint un fichier, similaire à celui de l'année dernière pour les achats, mais dans une autre représentation.

Dossiers :
 
Vizard_:

La binarisation tue beaucoup d'informations utiles.

Quelle différence cela fait-il de savoir comment l'information est présentée, cela ne change rien... ? ? ??

 
Maxim Dmitrievsky:

Je n'ai rien contre SanSanych personnellement, c'est un homme très compétent et discret, qui fait quelque chose de son propre inconnu, il a probablement besoin de R

Je préfère python intuitivement, bien que je n'aie rien inventé de spécial pour le rendre génial, mais je continue à l'étudier tranquillement, pour voir si ça aide :D

R est un environnement merveilleux, qui présente de nombreux avantages par rapport à Python. Plus important encore, R est un environnement de modélisation. Par rapport à Python, vous pouvez obtenir des résultats plus rapides et plus faciles dans R.

Il est clair que Python, en combinaison avec les modules, a ses propres avantages.

D'ailleurs, pour la RF, il semble qu'ici comme en NS, on puisse se passer de la sélection éprouvée des prédicteurs et utiliser directement la PA normalisée telle quelle.

 
SanSanych Fomenko:

Forêt normale ou forêt aléatoire, ou les deux ?

Dans le hochet, exécutez les deux modèles forestiers appelés tree et ada. Ouvrez l'onglet journal et voyez le code R, les références aux paquets utilisés et vous pouvez comprendre leurs différences.

Je comprends la différence entre l'arbre et l'échafaudage (ou du moins je pense que je la comprends) ; l'échafaudage est meilleur à utiliser lorsqu'il y a plus d'incertitude dans les données, c'est-à-dire un modèle moins stable puisque l'échafaudage prend des décisions par vote, ce qui se produit sur des arbres aléatoires (indépendants en raison du raccourcissement), ou ai-je tort ? Et l'option "adad" je ne l'ai pas, elle n'est pas dans la capture d'écran, il y a "Forest" - n'est-ce pas ?

SanSanychFomenko:

J'ai mis Rattle et R (bien, et glitches tous ces trucs ...),

Je ne comprends pas ce qui se passe, dernièrement j'ai lancé un grand nombre de modèles - tous normaux.

J'ai eu quelques problèmes avec le téléchargement des paquets - il dit qu'il a commencé, mais ne veut pas les télécharger, puis il les pose et dit qu'il n'a pas les bibliothèques dont il a besoin, puis il se bloque lors de la lecture des données d'un fichier... Le processus de travail n'est pas visible - on ne sait pas combien de temps il faut attendre pour qu'il soit terminé. Pour l'instant, je ne parle que de ces bugs. Une fois que l'on a retiré une tâche du répartiteur...

SanSanych Fomenko:


La photo du hochet, vous l'avez inachevée. Vous devez au moins passer à l'onglet suivant et voir les résultats qui s'y trouvent.

Mais la chose la plus importante est de diviser le fichier source en deux parties avec des noms différents (vous devrez probablement le faire dans R).

Dans le premier fichier, construisez les six modèles et regardez leur test d'estimation, validez. Ensuite, entrez le nom du second fichier dans le champ R Dataset. Et là-dessus, tu as encore des notes. Toutes les estimations doivent être approximativement les mêmes !

Si ces estimations ne coïncident pas, et que le second fichier montre des résultats plus mauvais des modèles, cela signifie que les modèles sont surentraînés et que la raison en est le bruit (non lié à la variable cible) des prédicteurs.


C'est le moment de vérité : soit vous disposez d'un ensemble de prédicteurs pertinents pour une variable cible particulière, soit vous n'en disposez pas. Et aucun modèle ne peut réparer cette circonstance malheureuse. Commence alors le travail stupide de sélection d'une paire de "prédicteurs cibles", les modèles ne sont pas intéressants du tout, trouvez une paire, puis les modèles ne sont que des graines dans R, vous en obtiendrez une douzaine en une journée et vous en ferez des ensembles.

Alors comment couper un fichier avec R, faut-il utiliser un algorithme spécial ? Intéressant de voir ce qui se passe à la fin.

 
SanSanych Fomenko:


2. Aucun problème pour utiliser R EA : tout fonctionne et est très stable.

Est-ce que cela fonctionne aussi pour MT5 ? Où puis-je trouver des exemples de code ? Je pense qu'il serait préférable d'utiliser un indicateur pour envoyer des informations, car dans l'optimiseur, il sera plus facile de les comparer lors de la connexion à l'EA et de montrer visuellement ce que la forêt pense de la situation du marché à un moment donné.

 
Yuriy Asaulenko:

R est un environnement merveilleux, avec de nombreux avantages par rapport à Python. La principale est que R est un environnement de modélisation. Par rapport à Python, les résultats en R peuvent être obtenus plus rapidement et plus facilement.

Il est clair que Python, en combinaison avec les modules, a ses propres avantages.

D'ailleurs, en ce qui concerne RF, il semble qu'ici, comme en NS, il soit possible de se passer de la sélection des prédicteurs et d'utiliser directement la TA normalisée en tant que telle.

vous pouvez même utiliser des données non normalisées

 
Maxim Dmitrievsky:

Vous pouvez même le faire sans rationnement.

Ça ne marchera pas. Il doit y avoir une référence claire de la section BP à un certain niveau, zéro, par exemple.

 
Aleksey Vyazmikin:


Je comprends la différence entre les arbres et les forêts (ou du moins je le pense) ; les forêts sont meilleures à utiliser lorsqu'il y a plus d'incertitude dans les données, c'est-à-dire un modèle moins stable puisque les forêts prennent des décisions en votant, ce qui est fait par des arbres aléatoires (indépendants en raison du raccourcissement), ou ai-je tort ?

Je ne sais pas, je juge d'après les résultats.

Et l'option "adad" je ne l'ai pas, elle n'est pas dans la capture d'écran, il y a "Forest" - ce n'est pas ça ?

Dans l'ordre :


Arbre

Le paquet 'rpart' fournit la fonction'rpart'.


Boost

# Extreme Boost

# Le paquet `xgboost' implémente l'algorithme de boost de gradient extrême.


SVM

# Machine à vecteur de support.

# Le paquet 'kernlab' fournit la fonction 'ksvm'.


Linéaire

# Modèle de régression

# Construire un modèle de régression.


Réseau neuronal

# Réseau neuronal

# Construire un modèle de réseau neuronal en utilisant le paquet nnet.

library(nnet, quietly=TRUE)


D'ailleurs, j'ai fait ce travail pour vous - vous pouvez voir tout cela dans Log vous-même. Si vous avez une autre version de rattle, la liste peut être différente.


Alors, comment couper un fichier avec R, vous devez utiliser un algorithme spécial ? Il est intéressant de voir quel sera le résultat.

Par indice, par exemple : [1:2000,], [2001:4000,]. Il est important de ne pas briser la séquence temporelle naturelle dans le second fichier.

 
Aleksey Vyazmikin:

Fonctionne-t-il également pour MT5 ? Où puis-je trouver des exemples de code ? Je pense qu'il serait préférable de fournir des informations par indicateur, car l'optimiseur peut facilement les comparer lorsqu'il se connecte à l'EA, et voir visuellement ce que la forêt pense de la situation du marché à un moment donné.

La bibliothèque est modifiée selon ma demande - j'avais besoin d'un testeur de MT5. J'ai fait le calcul, je suis trop paresseux pour le chercher, peut-être que je l'ai nettoyé.

Jetez un coup d'œil aux articlesde Vladimir Perervenko.

Si vous vous intéressez aux réseaux, il est le dernier en date dans ce domaine, R, les conseillers, l'homme est disponible sur le site
 
Aleksey Vyazmikin:

Non, effondré, ce qui signifie qu'une variable a plusieurs valeurs, mais que le nombre de combinaisons reste le même. J'ai joint un fichier analogue au dernier pour le shopping, mais dans une représentation différente.

Essayez-le de la manière que vous voulez :) La principale chose est de ne pas oublier de lire la théorie qui ne ferait pas quelque chose de stupide, et le paquet dont vous avez besoin n'est pas difficile, ils sont pleins d'entre eux, et même en ligne - vous n'avez pas besoin d'installer quoi que ce soit. Il y a un boom dans les datasens, "ça" est partout.

Je n'ai pas le temps d'analyser les archives, je travaille sur mes propres affaires.