L'apprentissage automatique dans la négociation : théorie, modèles, pratique et algo-trading - page 1301

 
Aleksey Vyazmikin:

L'évaluation du modèle n'affecte-t-elle pas la performance du modèle lorsqu'elle est appliquée à un échantillon non familier ?

Qu'est-ce que tu fais, tu construis un tas de modèles différents et tu vérifies lequel fonctionne le mieux ?

Quel est le rapport avec les "feuilles" et la sélection des meilleures feuilles, etc.

J'essaie juste de comprendre ce que vous écrivez.

ou chaque ligne correspond-elle à une feuille
 
Maxim Dmitrievsky:

Que faites-vous ? Vous construisez un tas de modèles différents et vérifiez lequel fonctionne le mieux ?

Quel est le rapport avec les "feuilles", la sélection des meilleures feuilles, etc.

J'essaie juste de comprendre ce que tu écris de temps en temps.

Comme la conversation portait sur la sélection automatique d'un modèle, j'ai expliqué que les modèles intéressants peuvent être sélectionnés de deux façons, à l'aide d'un critère et d'une formule connus (comme je le fais maintenant - 3 dernières colonnes sont remplies pour chaque échantillon et pour chaque échantillon un tableau est formé, si 3 colonnes de filtre correspondent, alors le modèle est sélectionné), ou vous pouvez utiliser l'apprentissage automatique, lorsque vous comprenez ce que vous voulez du modèle dans un échantillon indépendant, mais ne savez pas comment y parvenir. Ainsi, pour la deuxième méthode, les différentes métriques du modèle deviennent des prédicteurs et le modèle est entraîné sur ces derniers, ce qui permet déjà de sélectionner des modèles appropriés à partir de données similaires au moyen de la MO. J'ai eu une expérience similaire avec la formation cette année-là et elle a donné des résultats positifs, en termes de précision c'était bon mais pas si bon en termes d'exhaustivité, puis j'ai décidé que nous manquions de diversité dans l'échantillon et j'ai reporté le travail à des temps meilleurs. De nombreux échantillons différents sont maintenant générés et il est possible de revoir ce travail. L'idée principale n'est pas de sélectionner le meilleur parmi l'ensemble disponible, mais de sélectionner le meilleur selon des critères absolus, qu'il s'agisse du MO ou de l'indice fixe.

Les feuilles fonctionnent avec certains modèles.

Chaque ligne est un modèle distinct.
 
Aleksey Vyazmikin:

Il semble que la conversation portait sur la sélection automatique de modèles, j'ai expliqué que les modèles intéressants peuvent être sélectionnés de deux façons, par un critère et une formule connus (comme je le fais maintenant - 3 dernières colonnes sont remplies pour chaque échantillon et pour chaque échantillon un tel tableau est formé, si 3 colonnes de filtre coïncident alors le modèle est sélectionné), ou par apprentissage automatique, lorsque vous comprenez ce que vous voulez du modèle dans le travail sur l'échantillon indépendant, mais ne savez pas comment l'atteindre. Ainsi, pour la deuxième méthode, les différents indicateurs métriques du modèle deviennent des prédicteurs et le modèle est entraîné sur eux, ce qui, grâce à la méthode MO, permet de sélectionner des modèles appropriés à partir de données similaires. J'ai eu une expérience similaire avec la formation cette année-là et elle a donné des résultats positifs, en termes de précision, c'était bon mais pas si bon en termes d'exhaustivité, puis j'ai décidé que nous manquions de diversité dans l'échantillon et j'ai reporté le travail à des temps meilleurs. De nombreux échantillons différents sont maintenant générés et il est possible de revoir ce travail. L'idée principale n'est pas de sélectionner le meilleur parmi l'ensemble disponible, mais de sélectionner le meilleur selon des critères absolus, qu'il s'agisse du MO ou de l'indice fixe.

Les feuilles travaillent déjà avec les modèles sélectionnés.

Vous prenez donc n modèles (comme dans le fichier), entrez leurs métriques comme prédicteurs pour le NS, et qu'en ressort-il ?

quelques estimations tirées de l'expérience ? comme avec de tels indicateurs le modèle fonctionnera, mais pas avec ceux-ci

Et ensuite vous filtrez les nouveaux modèles à travers ces éléments ? Eh bien, comme le NS sélectionne lui-même les modèles MI ?

 
Maxim Dmitrievsky:

En d'autres termes, vous prenez n modèles (comme dans le fichier), vous entrez leurs métriques comme prédicteurs pour le NS, et qu'est-ce qui en ressort ?

quelques estimations tirées de l'expérience ? comme avec tels indicateurs, le modèle fonctionnera, mais pas avec tels autres ?

Et ensuite vous filtrez les nouveaux modèles à travers ces éléments ? Eh bien, comme le NS sélectionne lui-même les modèles MI ?

Lorsque j'ai expérimenté, j'ai pris des mesures similaires pour l'échantillon de test et j'ai mis le résultat de l'échantillon de test (indépendant de la formation) dans l'échantillon cible. Les mesures cibles étaient le profit et le drawdown (séparément pour les transactions d'achat et de vente) et quelque chose d'autre provenant des mesures du modèle lui-même - je ne me souviens pas exactement. Je dois maintenant ajouter les mesures d'un échantillon de formation aux données de l'échantillon de test (à l'époque, je ne savais pas que les résultats pouvaient être différents pour Catbust) et je dois encore expérimenter avec la cible.

Le modèle résultant a été alimenté par les résultats d'autres échantillons avec des modèles, le principal résultat étant alors un bon filtrage des modèles non rentables.
 
Aleksey Vyazmikin:

Lorsque j'ai expérimenté, j'ai pris des mesures similaires pour l'échantillon de test, et j'ai mis le résultat de l'échantillon de test (indépendant de la formation) dans l'échantillon cible. L'objectif était le profit, le drawdown (séparément pour les transactions d'achat et de vente) et quelque chose d'autre du modèle lui-même, je ne me souviens pas exactement. Maintenant, je dois ajouter aux données de l'échantillon de test les métriques de l'échantillon de formation (à l'époque, je ne savais pas que les résultats pouvaient être significativement différents pour Catbust) et je dois expérimenter davantage avec la cible.

C'est une solution ornementale très étrange, je n'ai jamais vu une telle chose et je ne peux rien dire à ce sujet.

mais si cela fonctionne bien
 
Maxim Dmitrievsky:

une solution ornée très étrange, je n'ai jamais rien vu de tel et il m'est difficile d'en dire quoi que ce soit

mais si cela fonctionne, tant mieux

L'idée est que par la structure du modèle, son comportement sur l'échantillon de test et de formation, on peut définir certaines attentes de comportement dans le travail réel.

Il s'agit d'une orientation très intéressante, mais qui nécessite du temps et des ressources. D'autre part, on peut développer collectivement et échanger ouvertement des prédicteurs.

Si vous ne pouvez rien dire sur ses performances futures à partir d'un modèle, c'est une perte de temps - une question de chance...

 
Aleksey Vyazmikin:

L'idée est que par la structure du modèle, son comportement sur l'échantillon de test et de formation, on peut définir certaines attentes de comportement dans le travail réel.

Cette orientation est très intéressante, mais elle nécessite du temps et des ressources. D'autre part, on peut développer collectivement et échanger ouvertement des prédicteurs.

Si l'on ne peut rien dire sur les performances futures du modèle, tout le MO est une perte de temps - une question de hasard...

Avec le temps, la variation des résultats augmente, il faut en tenir compte. Si le modèle se casse immédiatement lors de nouveaux échanges, alors seulement il s'agit d'un ajustement, sinon vous pouvez essayer de le resserrer. Le moyen le plus simple d'améliorer la situation est la régularisation (étape du gradient dans katbust) ou simplement ne pas ajuster.

Regardez comment les gens négocient - toutes sortes de trucs de martingale. MoD donne déjà une sorte d'avantage.

Je n'écris pas sur les modèles d'estimation complexes de type bayésien parce que je n'ai pas encore tout à fait compris comment les utiliser moi-même ; il y a encore beaucoup à apprendre et à travailler.
 
Maxim Dmitrievsky:

Avec le temps, la variation des résultats augmente, il faut en tenir compte. Si le modèle se brise immédiatement sur les nouvelles transactions, vous devez alors affiner le réglage, sinon vous pouvez essayer de continuer.

Sinon, regardez comment les gens négocient - tous ces trucs de martingale. Le MO donne déjà un certain avantage

Hier, j'ai montré que Catbust forme du bruit dans les feuilles (arbres binaires) qui peut être supprimé et le modèle s'améliorera. J'ai expérimenté un peu plus dans cette direction, en augmentant le filtrage, et j'ai trouvé qu'après un certain seuil une chose paradoxale se produit - les améliorations s'arrêtent sur l'échantillon indépendant, mais continuent sur l'échantillon de test et d'entraînement. C'est-à-dire qu'en réalité, il s'avère que le modèle continue à fonctionner (sur un échantillon indépendant de l'entraînement) en se retournant sur les connexions avec des poids faibles, en fait des raccords, et ici nous avons une question que soit les poids sont distribués incorrectement, soit le modèle est sur-entraîné et fonctionne aléatoirement sur du bruit blanc (enfin pas exactement du bruit, sur des indicateurs moins significatifs des arbres binaires). Je pense qu'il est également possible de voir d'où viennent ces relations et de découvrir leur signification sur un court échantillon d'examen.

 
Aleksey Vyazmikin:

Hier, j'ai montré que Catbust génère du bruit dans les feuilles (arbres binaires), qui peut être supprimé et le modèle s'améliorera. J'ai expérimenté un peu plus dans cette direction, en augmentant le filtrage, et j'ai trouvé qu'après un certain seuil une chose paradoxale se produit - les améliorations s'arrêtent sur l'échantillon indépendant, mais continuent sur l'échantillon de test et d'entraînement. C'est-à-dire qu'en réalité, il s'avère que le modèle continue à fonctionner comme d'habitude sur des relations à faible poids, en fait des raccords, et il est question que soit les poids sont distribués de manière incorrecte, soit le modèle est réentraîné et travaille accidentellement sur du bruit blanc (enfin, pas exactement du bruit, sur des indicateurs moins significatifs des arbres binaires). Je pense que vous pourriez également examiner l'origine de ces relations et identifier leur signification sur un court échantillon d'examen.

Quelle que soit la façon dont vous creusez, vous trouverez des "régularités" illusoires partout, vous pouvez les trouver dans n'importe quel phénomène...

ce qui me réjouit le plus, c'est le grand nombre de "prédicteurs". D'où viendrait-elle dans les citations ? Il y a 90% de déchets.

 
Maxim Dmitrievsky:

Je n'en ai aucune idée, je ne m'occupe pas des arbres et des feuilles, et je n'en ai pas l'intention... tout peut être fait au niveau du modèle lui-même.

Quelle que soit la façon dont vous creusez, vous trouverez des "motifs" illusoires partout, vous pouvez les trouver dans tout phénomène

alors travaillez juste de manière connue.

Et je suis juste inspiré par l'accordage manuel - j'ai perdu la foi en la magie passive.

Je ne connais pas l'algorithme exact pour le poids des feuilles, mais je pense qu'il dépend de la séquence des liens trouvés, et pas seulement des liens eux-mêmes, c'est-à-dire que si un nouvel arbre dans le boosting corrige une erreur, alors le poids est donné par le delta de la correction de l'erreur, alors que le nouveau lien peut avoir plus de valeur que la correction elle-même. Idéalement, vous devriez revérifier les liens et leurs poids, vérifier le nombre d'arbres binaires impliqués dans la décision, s'il y a une douzaine d'arbres donnant une probabilité de 0,5 au total, c'est peut-être un lien faible... D'autre part, vous devez prendre en compte la taille de l'arbre lui-même (maintenant j'utilise la profondeur 4, juste pour identifier les règles courtes dans les feuilles). C'est juste une idée, je n'ai pas besoin de réponse...