L'apprentissage automatique dans la négociation : théorie, modèles, pratique et algo-trading - page 3168

 
Vladimir Perervenko #:

Vladimir, quel est le maximum d'akurasi "honnête" que vous avez obtenu avec les nouvelles données ?

Et avec quel algorithme MO ?

 
Aleksey Nikolayev #:

L'idée est de diviser les exemples en groupes qui sont différents les uns des autres et au sein desquels il existe une homogénéité. Il n'est pas du tout certain que des caractéristiques spécifiques permettent de le faire. En fait, il n'est pas certain qu'aucune d'entre elles le permette, en raison de la non-stationnarité, par exemple.

Je n'ai pas l'intention d'étudier cet article en détail, car il ne fait qu'effleurer le sujet qui m'intéresse. CHAID s'en rapproche un peu, mais ce n'est pas tout à fait la même chose.

Justement, j'aimerais trouver une certaine régularité dans la dynamique des changements d'ordre de séquence, ou au moins une estimation du déplacement avec l'identification d'un point de rupture. Et je parle de prédicteurs binaires triviaux. Par exemple, identifiez 5 séquences qui ont été rencontrées au cours des cinq dernières années, examinez la stabilité de leur prédisposition à la valeur cible et, en outre, s'il y a des changements significatifs à la fois dans les séquences et dans la prédisposition, excluez le prédicteur de l'entraînement ou du modèle. J'ai lu et visionné un grand nombre de méthodes au cours des six derniers mois, mais il n'est pas réaliste pour moi de tout coder pour le test - il y a beaucoup de travail à faire. Ce qui est le plus triste, c'est de travailler sur quelque chose et de se rendre compte que le résultat n'est pas celui escompté.

Quel est, selon vous, l'avantage de CHAID ?

 

Cette méthode de formation consiste à détecter les lignes susceptibles d'être exclues de l'échantillon (réduction à zéro) par segment quantique.

Chaque étape consiste à ajouter une règle. Les règles ressemblent à ceci si( arr_Q[n0][i]==1 || arr_Q [n1][i]==1 || arr_Q[nn][i ]==1 ) Propusk=true ;

Il s'agit d'un gif - vous devez cliquer dessus pour le faire fonctionner.

Balance - profit en pips - cinq chiffres.

Oui, ce n'est qu'un échantillon pour l'entraînement, je ne suis pas allé plus loin pour l'instant - j'expérimente.

Ajouté : Et voici un autre critère pour évaluer le choix du segment quantique, par lequel le signal sera exclu - il semble qu'ici l'élimination des lignes non rentables était plus joyeuse.


 
Aleksey Vyazmikin #:

Justement, j'aimerais trouver une certaine régularité dans la dynamique des changements d'ordre de séquence, ou au moins une estimation du décalage avec l'identification du point de rupture. Et je parle de prédicteurs binaires triviaux. Par exemple, identifiez 5 séquences qui ont été rencontrées au cours des cinq dernières années, examinez la stabilité de leur prédisposition à la valeur cible et, en outre, s'il y a des changements significatifs à la fois dans les séquences et dans la prédisposition, excluez le prédicteur de l'entraînement ou du modèle. J'ai lu et visionné un grand nombre de méthodes au cours des six derniers mois, mais il n'est pas réaliste pour moi de tout coder pour le test - il y a beaucoup de travail à faire. Le plus triste, c'est quand on travaille sur quelque chose et qu'on se rend compte que le résultat n'est pas celui escompté.

Selon moi, il s'agit d'une mauvaise approche au sens combinatoire du terme. Un ensemble de séquences trop riche peut conduire à un surentraînement - il y aura toujours de "bonnes" séquences aléatoires.

Aleksey Vyazmikin #:

Quel est, selon vous, l'avantage de CHAID ?

La réflexion du point de vue de matstat, tout d'abord. Il s'agit d'arrêter la construction de l'arbre lorsqu'un niveau de signification donné est atteint, au lieu d'une règle de gauche. Et l'utilisation de la correction de Bonferoni, etc. C'est tout simplement agréable d'un point de vue esthétique de regarder un modèle aussi bien pensé) Même si, bien sûr, l'utilisation de caractéristiques nominales uniquement ne me convient pas du tout, je cherche (j'essaie de construire) un autre modèle.

 
Aleksey Vyazmikin #:

Justement, j'aimerais trouver une certaine régularité dans la dynamique des changements d'ordre de séquence, ou au moins une estimation du décalage avec l'identification du point de rupture. Et je parle de prédicteurs binaires triviaux. Par exemple, identifiez 5 séquences qui ont été rencontrées au cours des cinq dernières années, examinez la stabilité de leur prédisposition à la valeur cible et, en outre, s'il y a des changements significatifs à la fois dans les séquences et dans la prédisposition, excluez le prédicteur de l'entraînement ou du modèle. J'ai lu et visionné un grand nombre de méthodes au cours des six derniers mois, mais il n'est pas réaliste pour moi de tout coder pour le test - il y a beaucoup de travail à faire. Le plus triste, c'est quand on travaille sur quelque chose et qu'on se rend compte que le résultat n'est pas celui escompté.

Quel est, selon vous, l'avantage de CHAID ?

1) Si nous procédons de la manière suivante, obtiendrons-nous le même résultat que le vôtre (en termes de signification) ?
Nous prenons une feuille (après 5 divisions), nous trions tous les exemples qu'elle contient en fonction du temps, s'il y a d'abord une croissance et ensuite une chute au-dessus d'une certaine valeur, nous retirons la feuille de l'utilisation.

2) Avez-vous des OOS sur vos graphiques ?

3) Les règles/feuilles sont triées sur la base des données de la formation ou de la validation/du test.

 
Aleksey Nikolayev #:

Selon moi, il s'agit d'une mauvaise approche au sens combinatoire du terme. Un ensemble de séquences trop riche peut conduire à un surentraînement - il y aura toujours de "bonnes" séquences qui se produiront de manière aléatoire.

La question ici est de détecter la stabilité, si elle existe dans l'historique, alors il y a au moins une raison de s'y attendre dans l'utilisation réelle des caractéristiques dans le modèle. La méthode de détection peut être différente. Mais l'estimation de la distribution n'est pas suffisante, elle ne permet pas d'estimer la stabilité. Soit elle a besoin d'être nettoyée. J'ai également constaté que si l'on prend des intervalles, disons d'un mois, il n'y a pas assez de signaux pour tirer des conclusions statistiques. Jusqu'à présent, j'ai mis un point d'interrogation.... Quoi qu'il en soit, il est important d'évaluer la distribution des événements dans le temps.

Aleksey Nikolayev #:

Réflexion en termes de matstat, tout d'abord. Il s'agit d'arrêter la construction de l'arbre lorsqu'un niveau de signification donné est atteint, au lieu d'utiliser une règle de gauche. Et l'utilisation de la correction de Bonferoni, etc. C'est tout simplement agréable sur le plan esthétique de regarder un modèle aussi bien pensé) Même si, bien sûr, le fait de n'utiliser que des caractéristiques nominales ne me convient pas du tout, je cherche (j'essaie de construire) un autre modèle.

Je vais devoir essayer. Avez-vous fait des comparaisons avec d'autres options de construction d'arbres, le résultat est-il vraiment meilleur ?

 
Forester #:

1) Si nous procédons de la manière suivante, obtiendrons-nous le même résultat que le vôtre (en termes de signification) ?
Nous prenons une feuille (après 5 divisions), nous trions tous les exemples qui y figurent en fonction du temps, s'il y a une croissance au début, puis une chute au-dessus d'une certaine valeur, nous supprimons la feuille de l'utilisation.

2) Avez-vous des OOS sur vos graphiques ?

3) Les règles/feuilles sont triées sur la base des données de la formation ou de la validation/du test.

1) Le rejet est normal, le problème ici est la cyclicité s'il s'agit d'une feuille (j'ai un segment quantique - littéralement une feuille de deux divisions F>=X1 && F<X2 ). En d'autres termes, s'il s'agit d'oscillations même proches de zéro, ce n'est pas grave, mais elles ne doivent pas être très élevées dans une direction (pour l'estimation, je prends des intervalles de 10 échantillons). Ou littéralement, comme vous l'écrivez, au début il y a eu une croissance, puis un déclin - c'est immédiatement dans les déchets. Mais il s'agit ici de feuilles, et si la section quantique, il y a sélection par biais de probabilité à partir de 5% de la moyenne de la classe comme l'un des critères de sélection initiaux.

2. Non, bien sûr, j'ai écrit qu'il s'agissait d'un échantillon d'entraînement. Il n'y a pas de formation du modèle lui-même - je suppose qu'il y en a d'autres à former.

3) Sur la formation dans l'exemple. Mais il ne s'agit pas d'un filtrage, mais d'une sélection de ceux qui serviront de filtre, c'est-à-dire qui ramèneront à zéro la réponse du modèle. Et exclure les chaînes/exemples de la formation, apparemment.

Et en général, si nous nous concentrons sur l'identification de segments quantiques stables (considérons les prédicteurs binaires), alors un tel "modèle" fonctionnera sans entraînement par un quelconque classificateur. Et tant que cela n'est pas possible, l'utilisation de classificateurs n'a pas beaucoup de sens. Bien sûr, personne n'annule le hasard, et il est possible de trouver des modèles efficaces, mais il sera difficile d'envisager raisonnablement une telle méthode.

Parmi les inconvénients de la méthode figure la baisse du rappel, mais elle n'est pas plus forte que celle du modèle CatBoost - environ jusqu'à 0,5 dans l'exemple.

 
Aleksey Vyazmikin #:

Avez-vous fait des comparaisons avec d'autres options de construction d'arbres ? Le résultat est-il vraiment meilleur ?

Ce que j'ai trouvé dans la forme prête à l'emploi n'est pas très adapté au marché, et la forme faite maison n'est pas prête à l'emploi. Mais je n'ai pas beaucoup d'espoir, je ne suis donc pas pressé.

 

C'est le genre de chose qui se produit. À gauche, les passes OOS, à droite, non. Et le côté droit plonge littéralement tout de suite.


Cela se produit la plupart du temps.

C'est-à-dire qu'il y a littéralement un plongeon important et immédiat. La nature de ce plongeon n'est pas claire. Il semble qu'il devrait y avoir quelque chose de proche de SB, mais je vois trop souvent ce genre d'image.


J'ai l'impression que si, après optimisation, j'exécute un TS inversé, je ne perdrai peut-être même pas.

 
fxsaber #:

C'est le genre de chose qui se produit. À gauche, l'OOS passe, à droite, il ne passe pas. Et du côté droit, il "plonge" littéralement immédiatement.


Cela se produit la plupart du temps.

C'est-à-dire qu'il y a littéralement un plongeon important et immédiat. La nature de cette plongée n'est pas claire. Je pense qu'il devrait s'agir de quelque chose de proche du SB, mais je vois trop souvent ce genre d'image.


Il semble que si, après optimisation, vous exécutez un TS inversé, vous pouvez même ne pas perdre.

Il y a environ deux ans, j'ai publié cet effet ici