L'apprentissage automatique dans la négociation : théorie, modèles, pratique et algo-trading - page 91

 

un paquet qui sélectionne les BP qui peuvent être prédites et celles qui ne le peuvent pas, si j'ai bien compris

http://www.gmge.org/2012/05/foreca-forecastable-component-analysis/

http://www.gmge.org/2015/01/may-the-forec-be-with-you-r-package-foreca-v0-2-0/

ForeCA: Forecastable Component Analysis
  • 2012.05.22
  • Georg
  • www.gmge.org
Forecastable component analysis (ForeCA) is a novel dimension reduction (DR) technique to find optimally forecastable signals from multivariate time series (published at JMLR). ForeCA works similar to PCA or ICA, but instead of finding high-variance or statistically independent components, it finds forecastable linear combinations. ForeCA is...
 
Vizard_:
Et tous ceux qui viennent. Dans l'archive z1 il y a deux fichiers train et test. Pour la cible, construire un modèle sur le train, l'appliquer au test, afficher les résultats en % (prédiction réussie).
des cas) pour les deux échantillons (train = xx%, test = xx%). Les méthodes et les modèles ne doivent pas être annoncés, mais seulement les chiffres. Toute manipulation de données est autorisée
et les méthodes d'exploitation minière.

1. Tous vos prédicteurs n'ont aucun pouvoir prédictif - tous, sans exception, sont du bruit.

2. Trois modèles ont été construits : rf, ada, SVM. Voici les résultats

rf

Appelez :

randomForest(formula = TFC_Target ~ ,

data = crs$dataset[crs$sample, c(crs$input, crs$target)],

ntree = 500, mtry = 3, importance = TRUE, replace = FALSE, na.action = randomForest::na.roughfix)


Type de forêt aléatoire : classification

Nombre d'arbres : 500

Nombre de variables essayées à chaque fractionnement : 3


Estimation par l'OOB du taux d'erreur : 49,71%.

Matrice de confusion :

[0, 0] (0, 1] class.error

[0, 0] 197 163 0.4527778

(0, 1] 185 155 0.5441176

ada

Appelez :

ada(TFC_Target ~ ., data = crs$dataset[crs$train, c(crs$input,

crs$target)], control = rpart::rpart.control(maxdepth = 30,

cp = 0,01, minsplit = 20, xval = 10), iter = 50)


Perte : exponentielle Méthode : discrète Itération : 50


Matrice de confusion finale pour les données :

Prédiction finale

Valeur réelle (0,1] [0,0]

(0,1] 303 37

[0,0] 29 331


Erreur du train : 0.094


Erreur de sortie de sac : 0.157 itération= 50

SVM

Résumé du modèle SVM (construit avec ksvm) :


Objet Support Vector Machine de la classe "ksvm".


Type de SV : C-svc (classification)

paramètre : coût C = 1


Fonction de noyau à base radiale gaussienne.

Hyperparamètre : sigma = 0.12775132444179


Nombre de vecteurs de soutien : 662


Valeur de la fonction objective : -584.3646

Erreur de formation : 0.358571

Modèle de probabilité inclus.


Durée : 0,17 seconde.

Sur le banc d'essai (je veux dire le hochet, pas le vôtre)

Matrice d'erreurs pour le modèle Ada Boost sur test.csv [valider] (comptes) :


Prédiction :

Réel (0,1) [0,0]

[0,0] 33 40

(0,1] 35 42


Matrice d'erreurs pour le modèle Ada Boost sur test.csv [valider] (proportions) :


Prévu

Réel (0,1) [0,0] Erreur

[0,0] 0.22 0.27 0.55

(0,1] 0.23 0.28 0.45


Erreur globale : 50%, erreur moyenne de classe : 50%.


Horodatage du hochet : 2016-08-08 15:48:15 utilisateur

======================================================================

Matrice d'erreurs pour le modèle Random Forest sur test.csv [valider] (comptes) :


Prévu

Réel [0,0] (0,1)

[0,0] 44 29

(0,1] 44 33


Matrice d'erreurs pour le modèle Random Forest sur test.csv [valider] (proportions) :


Prévu

Réel [0,0] (0,1) Erreur

[0,0] 0.29 0.19 0.40

(0,1] 0.29 0.22 0.57


Erreur globale : 49%, erreur moyenne de la classe : 48%.


Horodatage du hochet : 2016-08-08 15:48:15 utilisateur

======================================================================

Matrice d'erreur pour le modèle SVM sur test.csv [valider] (comptes) :


Prévu

Réel [0,0] (0,1)

[0,0] 41 32

(0,1] 45 32


Matrice d'erreurs pour le modèle SVM sur test.csv [valider] (proportions) :


Prévu

Réel [0,0] (0,1) Erreur

[0,0] 0.27 0.21 0.44

(0,1] 0.30 0.21 0.58


Erreur globale : 51%, erreur moyenne de la classe : 51%.


Horodatage du hochet : 2016-08-08 15:48:15 utilisateur

Analyse ROC pour randomforest

Confirme ce qui précède.

Conclusion.

Votre jeu de prédicteurs est sans espoir.

 
Alexey Burnakov: Nous nous entraînons donc jusqu'à ce que nous ayons le visage bleu avec le meilleur modèle sur le train. Peut-être deux ou trois modèles. Puis leur test unique.
Oui, c'est exactement ce qui est indiqué dans les conditions (construire un modèle dans le train, l'appliquer dans le test).
 
mytarmailS:

un paquet qui peut sélectionner les BP qui peuvent être prédits et ceux qui ne le peuvent pas, si j'ai bien compris

Je l'ai lu, d'après la description, c'est un très bon paquet (ForeCA, il est même dans le dépôt R, pas besoin de télécharger quoi que ce soit de githab). La principale caractéristique est qu'il évalue la "prévisibilité" des données.
Et en plus, ce qui est également important, peut être appliqué pour réduire la dimensionnalité des données. C'est-à-dire qu'à partir des prédicteurs existants, ce paquet en créera deux nouveaux, avec une prédictibilité étonnamment bonne. En même temps, il éliminera les déchets, etc. Cela me rappelle la méthode des composantes principales, mais au lieu de composantes, elle va créer quelque chose qui lui est propre.

Très simplement - donnez à ce paquet un tableau avec beaucoup de prédicteurs (prix, indicateurs, deltas, déchets, etc.). ForeCA donnera un nouveau tableau à la place du tableau original. Cette nouvelle table est utilisée pour entraîner les modèles prédictifs (gbm, rf, nnet, etc.).
Sur une note un peu plus compliquée, il s'agit d'un autre paquet de conversion de données nucléaires, avec un penchant pour le marché boursier.

Tout ça a l'air génial, direct, voire trop, je vais devoir vérifier.

 
mytarmailS:

un paquet qui sélectionne les BP qui peuvent être prédites et celles qui ne le peuvent pas, si j'ai bien compris

http://www.gmge.org/2012/05/foreca-forecastable-component-analysis/

http://www.gmge.org/2015/01/may-the-forec-be-with-you-r-package-foreca-v0-2-0/

Extrêmement curieux.

Le paquet est installé, la documentation est disponible.

Peut-être que quelqu'un va l'essayer et poster le résultat ?

 
Dr. Trader:

Je l'ai lu, d'après la description, c'est un très bon paquet (ForeCA, il est même dans le dépôt R, pas besoin de télécharger quelque chose depuis githab). La principale caractéristique est qu'il évalue la "prévisibilité" des données.
Et en plus, ce qui est également important, peut être appliqué pour réduire la dimensionnalité des données. C'est-à-dire qu'à partir des prédicteurs existants, ce paquet en créera deux nouveaux, avec une prédictibilité étonnamment bonne. En même temps, elle éliminera les déchets, etc. Cela me rappelle la méthode des composantes principales, mais au lieu de composantes, elle va créer quelque chose qui lui est propre.

Très simplement - donnez à ce paquet un tableau avec beaucoup de prédicteurs (prix, indicateurs, deltas, déchets, etc.). ForeCA donnera un nouveau tableau à la place du tableau original. Cette nouvelle table est utilisée pour entraîner les modèles prédictifs (gbm, rf, nnet, etc.).
Si c'est un peu plus compliqué, il s'agit d'un autre paquet pour la transformation nucléaire des données, avec un penchant pour le marché boursier.

Tout cela a l'air génial, direct, voire trop génial, je vais devoir vérifier.

Cela ne nécessiterait-il pas une présélection ?

Les gars, allez-y !

 
SanSanych Fomenko:

Conclusion.

Votre jeu de prédicteurs est sans espoir.

OK)))) mais lisez bien les conditions -
"afficher les résultats en % (cas prédits avec succès) pour les deux échantillons (train = xx%, test = xx%). Il n'est pas nécessaire de préciser les méthodes et les modèles, juste les chiffres".
Nous attendons d'autres résultats. Je me demande quelles conclusions Mihail Marchukajtes va tirer.
 
Vizard_:
OK)))) mais lisez bien les conditions -
"afficher les résultats en % (cas prédits avec succès) pour les deux échantillons (train = xx%, test = xx%). Il n'est pas nécessaire de préciser les méthodes et les modèles, juste les chiffres".
Nous attendons d'autres résultats. Je me demande quelles conclusions Mihail Marchukajtes va tirer.

Le test est inutile !

Le modèle ne peut pas être entraîné ! Vous ne pouvez pas tester un espace vide.

 
Laissez-moi essayer..... Juste vu....
 
Dr. Trader:

J'ai lu la description et cela semble être un très bon paquet (ForeCA, ..............).

Je ne comprends pas comment cette "prévisibilité" est calculée et si elle a un sens si l'objectif n'est pas pris en compte.