L'apprentissage automatique dans la négociation : théorie, modèles, pratique et algo-trading - page 91
![MQL5 - Langage des stratégies de trading intégré au terminal client MetaTrader 5](https://c.mql5.com/i/registerlandings/logo-2.png)
Vous manquez des opportunités de trading :
- Applications de trading gratuites
- Plus de 8 000 signaux à copier
- Actualités économiques pour explorer les marchés financiers
Inscription
Se connecter
Vous acceptez la politique du site Web et les conditions d'utilisation
Si vous n'avez pas de compte, veuillez vous inscrire
un paquet qui sélectionne les BP qui peuvent être prédites et celles qui ne le peuvent pas, si j'ai bien compris
http://www.gmge.org/2012/05/foreca-forecastable-component-analysis/
http://www.gmge.org/2015/01/may-the-forec-be-with-you-r-package-foreca-v0-2-0/
Et tous ceux qui viennent. Dans l'archive z1 il y a deux fichiers train et test. Pour la cible, construire un modèle sur le train, l'appliquer au test, afficher les résultats en % (prédiction réussie).
des cas) pour les deux échantillons (train = xx%, test = xx%). Les méthodes et les modèles ne doivent pas être annoncés, mais seulement les chiffres. Toute manipulation de données est autorisée
et les méthodes d'exploitation minière.
1. Tous vos prédicteurs n'ont aucun pouvoir prédictif - tous, sans exception, sont du bruit.
2. Trois modèles ont été construits : rf, ada, SVM. Voici les résultats
rf
Appelez :
randomForest(formula = TFC_Target ~ ,
data = crs$dataset[crs$sample, c(crs$input, crs$target)],
ntree = 500, mtry = 3, importance = TRUE, replace = FALSE, na.action = randomForest::na.roughfix)
Type de forêt aléatoire : classification
Nombre d'arbres : 500
Nombre de variables essayées à chaque fractionnement : 3
Estimation par l'OOB du taux d'erreur : 49,71%.
Matrice de confusion :
[0, 0] (0, 1] class.error
[0, 0] 197 163 0.4527778
(0, 1] 185 155 0.5441176
ada
Appelez :
ada(TFC_Target ~ ., data = crs$dataset[crs$train, c(crs$input,
crs$target)], control = rpart::rpart.control(maxdepth = 30,
cp = 0,01, minsplit = 20, xval = 10), iter = 50)
Perte : exponentielle Méthode : discrète Itération : 50
Matrice de confusion finale pour les données :
Prédiction finale
Valeur réelle (0,1] [0,0]
(0,1] 303 37
[0,0] 29 331
Erreur du train : 0.094
Erreur de sortie de sac : 0.157 itération= 50
SVM
Résumé du modèle SVM (construit avec ksvm) :
Objet Support Vector Machine de la classe "ksvm".
Type de SV : C-svc (classification)
paramètre : coût C = 1
Fonction de noyau à base radiale gaussienne.
Hyperparamètre : sigma = 0.12775132444179
Nombre de vecteurs de soutien : 662
Valeur de la fonction objective : -584.3646
Erreur de formation : 0.358571
Modèle de probabilité inclus.
Durée : 0,17 seconde.
Sur le banc d'essai (je veux dire le hochet, pas le vôtre)
Matrice d'erreurs pour le modèle Ada Boost sur test.csv [valider] (comptes) :
Prédiction :
Réel (0,1) [0,0]
[0,0] 33 40
(0,1] 35 42
Matrice d'erreurs pour le modèle Ada Boost sur test.csv [valider] (proportions) :
Prévu
Réel (0,1) [0,0] Erreur
[0,0] 0.22 0.27 0.55
(0,1] 0.23 0.28 0.45
Erreur globale : 50%, erreur moyenne de classe : 50%.
Horodatage du hochet : 2016-08-08 15:48:15 utilisateur
======================================================================
Matrice d'erreurs pour le modèle Random Forest sur test.csv [valider] (comptes) :
Prévu
Réel [0,0] (0,1)
[0,0] 44 29
(0,1] 44 33
Matrice d'erreurs pour le modèle Random Forest sur test.csv [valider] (proportions) :
Prévu
Réel [0,0] (0,1) Erreur
[0,0] 0.29 0.19 0.40
(0,1] 0.29 0.22 0.57
Erreur globale : 49%, erreur moyenne de la classe : 48%.
Horodatage du hochet : 2016-08-08 15:48:15 utilisateur
======================================================================
Matrice d'erreur pour le modèle SVM sur test.csv [valider] (comptes) :
Prévu
Réel [0,0] (0,1)
[0,0] 41 32
(0,1] 45 32
Matrice d'erreurs pour le modèle SVM sur test.csv [valider] (proportions) :
Prévu
Réel [0,0] (0,1) Erreur
[0,0] 0.27 0.21 0.44
(0,1] 0.30 0.21 0.58
Erreur globale : 51%, erreur moyenne de la classe : 51%.
Horodatage du hochet : 2016-08-08 15:48:15 utilisateur
Analyse ROC pour randomforest
Confirme ce qui précède.
Conclusion.
Votre jeu de prédicteurs est sans espoir.
un paquet qui peut sélectionner les BP qui peuvent être prédits et ceux qui ne le peuvent pas, si j'ai bien compris
Je l'ai lu, d'après la description, c'est un très bon paquet (ForeCA, il est même dans le dépôt R, pas besoin de télécharger quoi que ce soit de githab). La principale caractéristique est qu'il évalue la "prévisibilité" des données.
Et en plus, ce qui est également important, peut être appliqué pour réduire la dimensionnalité des données. C'est-à-dire qu'à partir des prédicteurs existants, ce paquet en créera deux nouveaux, avec une prédictibilité étonnamment bonne. En même temps, il éliminera les déchets, etc. Cela me rappelle la méthode des composantes principales, mais au lieu de composantes, elle va créer quelque chose qui lui est propre.
Très simplement - donnez à ce paquet un tableau avec beaucoup de prédicteurs (prix, indicateurs, deltas, déchets, etc.). ForeCA donnera un nouveau tableau à la place du tableau original. Cette nouvelle table est utilisée pour entraîner les modèles prédictifs (gbm, rf, nnet, etc.).
Sur une note un peu plus compliquée, il s'agit d'un autre paquet de conversion de données nucléaires, avec un penchant pour le marché boursier.
Tout ça a l'air génial, direct, voire trop, je vais devoir vérifier.
un paquet qui sélectionne les BP qui peuvent être prédites et celles qui ne le peuvent pas, si j'ai bien compris
http://www.gmge.org/2012/05/foreca-forecastable-component-analysis/
http://www.gmge.org/2015/01/may-the-forec-be-with-you-r-package-foreca-v0-2-0/
Extrêmement curieux.
Le paquet est installé, la documentation est disponible.
Peut-être que quelqu'un va l'essayer et poster le résultat ?
Je l'ai lu, d'après la description, c'est un très bon paquet (ForeCA, il est même dans le dépôt R, pas besoin de télécharger quelque chose depuis githab). La principale caractéristique est qu'il évalue la "prévisibilité" des données.
Et en plus, ce qui est également important, peut être appliqué pour réduire la dimensionnalité des données. C'est-à-dire qu'à partir des prédicteurs existants, ce paquet en créera deux nouveaux, avec une prédictibilité étonnamment bonne. En même temps, elle éliminera les déchets, etc. Cela me rappelle la méthode des composantes principales, mais au lieu de composantes, elle va créer quelque chose qui lui est propre.
Très simplement - donnez à ce paquet un tableau avec beaucoup de prédicteurs (prix, indicateurs, deltas, déchets, etc.). ForeCA donnera un nouveau tableau à la place du tableau original. Cette nouvelle table est utilisée pour entraîner les modèles prédictifs (gbm, rf, nnet, etc.).
Si c'est un peu plus compliqué, il s'agit d'un autre paquet pour la transformation nucléaire des données, avec un penchant pour le marché boursier.
Tout cela a l'air génial, direct, voire trop génial, je vais devoir vérifier.
Cela ne nécessiterait-il pas une présélection ?
Les gars, allez-y !
Conclusion.
Votre jeu de prédicteurs est sans espoir.
"afficher les résultats en % (cas prédits avec succès) pour les deux échantillons (train = xx%, test = xx%). Il n'est pas nécessaire de préciser les méthodes et les modèles, juste les chiffres".
Nous attendons d'autres résultats. Je me demande quelles conclusions Mihail Marchukajtes va tirer.
OK)))) mais lisez bien les conditions -
"afficher les résultats en % (cas prédits avec succès) pour les deux échantillons (train = xx%, test = xx%). Il n'est pas nécessaire de préciser les méthodes et les modèles, juste les chiffres".
Nous attendons d'autres résultats. Je me demande quelles conclusions Mihail Marchukajtes va tirer.
Le test est inutile !
Le modèle ne peut pas être entraîné ! Vous ne pouvez pas tester un espace vide.
J'ai lu la description et cela semble être un très bon paquet (ForeCA, ..............).