L'apprentissage automatique dans la négociation : théorie, modèles, pratique et algo-trading - page 1778

 
Dmitry:

Et la capacité à prédire est déterminée par quoi ?

Eh bien, pas par corrélation...

peut-être par corrélation croisée à travers l'estimation des retards...

Dimitri:

En mettant bêtement tout ce qui existe dans le monde dans le modèle ?

Pourquoi pas ? En formation, la validation croisée éliminera ce qui n'est pas nécessaire, ou certaines statistiques...

Comment savez-vous "ce qui est quoi" Comment savoir "ce qui est quoi" avant de le vérifier ?

 
Aleksey Vyazmikin:

Vous n'avez toujours pas dit comment faire du commerce dessus - donc je ne sais pas quel type de TS inventer.

Comment ? C'est évident)) ZZ en haut signifie acheter, en bas signifie vendre.

Vous auriez prédit la direction de ZZ, n'est-ce pas ?

 
mytarmailS:

pas par corrélation...

peut-être par corrélation croisée à travers l'estimation des retards...

Pourquoi pas ? La validation croisée permet d'éliminer ce dont vous n'avez pas besoin dans la formation, ou certaines statistiques...

Comment savez-vous "ce qui est quoi" jusqu'à ce que vous le testiez ?

Je pourrais parler longuement du problème de la redondance, en particulier en ce qui concerne les NS, mais je suis paresseux.

C'est d'ailleurs ce problème qui est souvent à l'origine de la faible capacité de prédiction du modèle.

 
mytarmailS:

Comment ? C'est évident)) ZZ : la hausse est un achat, la baisse est une vente.

Vous prédisez la direction de ZZ, n'est-ce pas ?

Ça s'avérerait être un tic, probablement.

Avez-vous essayé de faire la moyenne/lisser l'indicateur de classification avec la fenêtre pour éliminer les valeurs aberrantes ?

 
Aleksey Vyazmikin:

Il s'agira probablement d'un twitch.

Avez-vous essayé de faire la moyenne/lisser l'indicateur de classification avec la fenêtre pour éliminer les valeurs aberrantes ?

Dans ce cas, la moyenne est égale au décalage. Vous devez améliorer la qualité de la classification, le lissage n'est pas une option.

Essayez-le tel quel !

Dmitriy:

Je pourrais parler longuement du problème de la redondance, en particulier en ce qui concerne les NS, mais je suis paresseux.

D'ailleurs, ce problème est souvent à l'origine de la faible capacité de prédiction du modèle.

C'est pourquoi je pense dans cette direction, les signes peuvent déjà être formés par l'AMO ou les règles de travail, ces signes devraient être qualitatifs, des informations compressées et ma mini expérience sur la page précédente l'a prouvé.

Je ne comprends toujours pas comment prédire la corrélation (je ne sais pas).

 
mytarmailS:


Et comment prédire par corrélation, je ne comprends toujours pas(

Prévision à nouveau....

Le coefficient de corrélation permet d'identifier à l'avance les prédicteurs les plus significatifs - plus la corrélation entre la variable dépendante et le prédicteur est élevée, plus cette variable est significative pour le modèle.

Donc, dans votre exemple, il y a deux façons de procéder. La première, la vôtre, consiste à substituer un prédicteur à la fois dans le modèle et à voir dans quelle mesure la précision de la prédiction s'améliore. C'est une longue période.

La seconde consiste à utiliser le coefficient de corrélation pour éliminer à l'avance les prédicteurs sans importance qui parasitent le modèle.


Le problème de la redondance est le suivant : vous pouvez ajouter 100+1 nouveaux prédicteurs au modèle, mais 100 prédicteurs ajouteront 0,01% à la qualité de la prévision, tandis qu'un seul ajoutera 10%. Et il ne sert à rien de surcharger le modèle avec ces 100 nouveaux prédicteurs - overfitting

 
mytarmailS:


Et d'ailleurs, sur un grand nombre de prédicteurs, l'arbre est merdique, la forêt aléatoire domine.

 
Dmitry:

Prévision à nouveau....

Le coefficient de corrélation permet d'identifier à l'avance les prédicteurs les plus significatifs - plus la corrélation entre la variable dépendante et le prédicteur est élevée, plus cette variable est significative pour le modèle.

Donc, dans votre exemple, il y a deux façons de procéder. La première, la vôtre, consiste à substituer un prédicteur à la fois dans le modèle et à voir dans quelle mesure la précision de la prédiction s'améliore. C'est une longue période.

Deuxièmement, utilisez le coefficient de corrélation pour éliminer à l'avance les prédicteurs non importants qui parasitent le modèle.

La corrélation n'est qu'une des options de filtrage et ce n'est certainement pas la meilleure... Vous pouvez également utiliser la cointégration, la corrélation croisée, la corrélation non linéaire, etc. et ce sera encore mieux, mais elles sont toutes hiérarchiquement inférieures à la simple erreur de classification, c'est pourquoi j'ai choisi le critère de l' erreur de prédiction d'un trait.

Dimitri:

Et d'ailleurs, sur un grand nombre de prédicteurs, l'arbre est merdique, la forêt aléatoire domine.

Je suis partiellement d'accord, mais en termes plus généraux, la forêt est la même règle, la seule différence est la complexité.

Il existe un package en R qui permet de compresser une forêt de 200 arbres en une ou trois règles en supprimant tout ce qui est inutile et superflu, la perte de qualité de la classification est de 0,5-2%, il s'agit d'une compression de l'information à laquelle nous devons tendre + l'interprétabilité.

 
mytarmailS:

Dans ce cas, la moyenne est égale au retard. Vous devez améliorer la qualité de la classification, le lissage n'est pas une option.

Essayez-le tel quel !

Ce n'est pas une option. Il y a trop de brouillage dans l'appartement.

Bien sûr, vous pouvez déplacer le seuil d'activation : 0,65 - achat, 0,35 - vente.


 
Aleksey Vyazmikin:

Ce n'est pas une option. Il y a trop de palissades dans l'appartement.

Vous pourriez, bien sûr, déplacer le seuil d'activation à 0,65 - achat, et 0,35 - vente.

Montrez-moi un graphique avec les transactions