L'apprentissage automatique dans la négociation : théorie, modèles, pratique et algo-trading - page 3009

 
СанСаныч Фоменко #:
Mais surtout, il doit y avoir une preuve théorique que le pouvoir prédictif des caractéristiques disponibles ne change pas, ou change faiblement dans le futur. Dans tout ce rouleau compresseur, c'est la chose la plus importante.

Malheureusement, personne n'a trouvé cela, sinon il ne serait pas ici mais sur les îles tropicales))))

SanSanych Fomenko #: À mon avis, le modèle joue un rôle extrêmement limité, car il n'a aucun rapport avec la stabilité de la capacité prédictive des traits : la stabilité de la capacité prédictive est une propriété de la paire "enseignant-trait".

Oui, même un arbre ou une régression peut trouver un modèle s'il est présent et ne change pas.

SanSanych Fomenko #:

1. Quelqu'un d'autre a-t-il une paire enseignant-trait avec moins de 20% d'erreur de classification ?

C'est facile. Je peux dégénérer des dizaines d'ensembles de données. Je suis en train d'étudier TP=50 et SL=500. Il y a en moyenne 10 % d'erreur dans la notation de l'enseignant. Si elle est de 20 %, il s'agira d'un modèle de mauvaise qualité.
L'important n'est donc pas l'erreur de classification, mais le résultat de l'addition de tous les profits et de toutes les pertes.

Comme vous pouvez le voir, le meilleur modèle a une erreur de 9,1 %, et vous pouvez gagner quelque chose avec une erreur de 8,3 %.
Les graphiques ne montrent que les OOS, obtenus par Walking Forward avec un recyclage une fois par semaine, soit un total de 264 recyclages sur 5 ans.
Il est intéressant que le modèle ait fonctionné à 0 avec une erreur de classification de 9,1 %, et 50/500 = 0,1, c'est-à-dire que 10 % devraient être. Il s'avère que 1% a mangé l'écart (minimum par barre, l'écart réel sera plus grand).

 

Il faut d'abord se rendre compte que le modèle est plein de déchets à l'intérieur...

Si vous décomposez un modèle en bois formé en règles internes et en statistiques sur ces règles.

comme :

     len  freq   err                                                                                 condition pred
315    3 0.002 0.417    X[,1]>7.49999999999362e-05 & X[,2]<=-0.00026499999999996 & X[,4]<=0.000495000000000023    1
483    3 0.000 0.000     X[,1]<=0.000329999999999941 & X[,8]>0.000724999999999976 & X[,9]>0.000685000000000047    1
484    3 0.002 0.273      X[,1]>0.000329999999999941 & X[,8]>0.000724999999999976 & X[,9]>0.000685000000000047   -1
555    3 0.001 0.333   X[,5]<=0.000329999999999941 & X[,7]>0.000309999999999921 & X[,8]<=-0.000144999999999951   -1
687    3 0.001 0.250 X[,2]<=-0.00348499999999996 & X[,7]<=-0.000854999999999939 & X[,9]<=-4.99999999999945e-05    1
734    3 0.003 0.000    X[,7]>-0.000854999999999939 & X[,8]>0.000724999999999865 & X[,9]<=0.000214999999999965    1
1045   3 0.003 0.231   X[,1]<=-0.000310000000000032 & X[,4]>0.000105000000000022 & X[,4]<=0.000164999999999971   -1
1708   3 0.000 0.000    X[,3]>0.00102499999999994 & X[,6]<=0.000105000000000022 & X[,7]<=-0.000650000000000039    1
1709   3 0.002 0.250     X[,3]>0.00102499999999994 & X[,6]<=0.000105000000000022 & X[,7]>-0.000650000000000039   -1
1984   3 0.001 0.000     X[,1]<=0.000329999999999941 & X[,8]>0.000724999999999976 & X[,9]>0.000674999999999981    1
2654   3 0.003 0.000        X[,4]<=0.00205000000000011 & X[,5]>0.0014550000000001 & X[,9]<=0.00132999999999994    1
2655   3 0.000 0.000         X[,4]<=0.00205000000000011 & X[,5]>0.0014550000000001 & X[,9]>0.00132999999999994   -1
2656   3 0.001 0.200         X[,3]<=0.00245499999999998 & X[,4]>0.00205000000000011 & X[,5]>0.0014550000000001   -1
2657   3 0.000 0.000          X[,3]>0.00245499999999998 & X[,4]>0.00205000000000011 & X[,5]>0.0014550000000001    1
2852   3 0.000 0.000                X[,2]<=-0.001135 & X[,8]>-0.000130000000000075 & X[,8]>0.00128499999999998   -1
2979   3 0.001 0.200     X[,1]>0.000930000000000097 & X[,1]>0.00129000000000012 & X[,8]<=-0.000275000000000025   -1


et que l'on analyse la dépendance de l'erreur de la règle err par rapport à la fréquence de son apparition dans l'échantillon.


nous obtenons


Nous nous intéressons donc à ce domaine


Lorsque les règles fonctionnent très bien, mais qu'elles sont si rares qu'il est logique de douter de l'authenticité des statistiques les concernant, car 10-30 observations ne sont pas des statistiques.

 
mytarmailS #:

Il faut d'abord se rendre compte que le modèle est plein de déchets à l'intérieur...

Si vous décomposez un modèle en bois formé en règles à l'intérieur et en statistiques sur ces règles.

comme.. :

et analyser la dépendance de l'erreur de la règle err sur la fréquence freq de son occurrence dans l'échantillon.

nous obtenons

Juste un rayon de soleil dans l'obscurité des messages récents
Si l'on analyse correctement les erreurs du modèle, on peut trouver quelque chose d'intéressant. Nous accepterons très rapidement et sans aucun gpu, sms et inscriptions.
 
Maxim Dmitrievsky #:
Juste un rayon de soleil dans l'obscurité des messages récents
Si vous analysez correctement les erreurs de modèle, vous pouvez trouver quelque chose d'intéressant. Nous accepterons très rapidement et sans gpu, sms et inscriptions.

Il y aura un article à ce sujet, s'il y en a un.

 
mytarmailS #:

Il y aura un article à ce sujet, s'il y en a un.

Norm, mon dernier article portait sur la même chose. Mais si votre méthode est plus rapide, c'est un plus.
 
Maxim Dmitrievsky #:
Norm, mon dernier article traitait de la même chose. Mais si votre méthode est plus rapide, c'est un plus.

Que voulez-vous dire par "plus rapide" ?

 
mytarmailS #:

Que voulez-vous dire par "plus rapide" ?

En termes de vitesse.
 
Maxim Dmitrievsky #:
En termes de vitesse.

environ 5 à 15 secondes sur un échantillon de 5 km

 
mytarmailS #:

environ 5 à 15 secondes sur un échantillon de 5 km.

Je parle de l'ensemble du processus, depuis le début jusqu'à l'obtention du CT.

J'ai deux modèles qui sont entraînés plusieurs fois, donc ce n'est pas très rapide, mais c'est acceptable.

Et à la fin, je ne sais pas exactement ce qu'ils ont éliminé.

 
Maxim Dmitrievsky #:

Je veux dire, tout le processus depuis le début jusqu'à l'obtention du CT.

J'ai 2 modèles qui sont entraînés plusieurs fois, donc ce n'est pas très rapide, mais c'est acceptable.

et à la fin, je ne sais pas exactement ce qu'ils ont éliminé.

Entraînement 5k.

Valider 60k.


formation du modèle - 1-3 secondes

extraction des règles - 5-10 secondes

vérification de la validité de chaque règle (20-30k règles) 60k 1-2 minutes


Bien entendu, tout est approximatif et dépend du nombre de caractéristiques et de données.