L'apprentissage automatique dans la négociation : théorie, modèles, pratique et algo-trading - page 3336

 
СанСаныч Фоменко #:

Lesétiquettes (enseignant, variable cible) ne peuvent PAS être des déchets par définition.

Sanych, ne vous mettez pas dans l'embarras

Vous n'avez même pas commencé à étudier pour exprimer votre opinion.

 

Autre fait amusant, je me disais qu'il ne s'agissait apparemment que d'un recyclage, et j'ai décidé de voir sur quels indices le changement de classe s'était produit - j'ai pensé que vers la fin, ce n'était qu'une bonne illustration du recyclage.

En fait, il s'est avéré que


Sur l'échantillon test

Il s'avère que les mille premières feuilles (dans la séquence suivante d'ajouts au modèle) sont pour la plupart instables !

Je suis surpris.

Sur l'échantillon d'examen

 
Aleksey Vyazmikin #:

Autre fait amusant, je me suis dit qu'il ne s'agissait apparemment que d'un recyclage et j'ai décidé de voir sur quels indices le changement de classe s'était produit - j'ai pensé que c'était vers la fin et que c'était une bonne illustration du recyclage.

En fait, il s'est avéré que


Sur l'échantillon test

Il s'avère que ce sont les mille premières feuilles (dans la séquence suivante d'ajout au modèle) qui sont les plus instables !

Surprise.

Sur un échantillon

Vous comptez par bousillage, n'est-ce pas ? Ici, seul le premier arbre est entraîné sur les étiquettes de l'enseignant original.
Pour tous les autres arbres, l'enseignant est l'erreur de prédiction, c'est-à-dire (Y - Pred). Et même avec eta = 0.1...0.001. L'influence des feuilles de ces arbres est insignifiante, elles ne font que corriger. Ce que vous avez montré (leur insignifiance).
 

GPT pour enseigner )

Ok, ajoutons l'indicateur Enveloppes à notre analyse. L'indicateur Enveloppes représente des lignes au-dessus et au-dessous d'une moyenne mobile. Elles se situent généralement à une distance fixe en pourcentage de cette moyenne mobile.

  1. Enveloppes pour le dernier mois (novembre 2023) :

    • Choisissons un pourcentage de distance par rapport à la moyenne mobile.
    • Calculons les lignes supérieures et inférieures des enveloppes.
  2. Tendance globale à l'aide du RSI, des bandes de Bollinger et des enveloppes :

    • Comparons les signaux obtenus à partir de différents indicateurs.

Considérons également que les signaux provenant de différents indicateurs peuvent être contradictoires et qu'il est important de les analyser ensemble.

Poursuivons les calculs et l'analyse.

 
Yuriy Vasilyev indicateur Enveloppes à notre analyse. L'indicateur Enveloppes représente des lignes au-dessus et au-dessous d'une moyenne mobile. Elles se situent généralement à une distance fixe en pourcentage de cette moyenne mobile.
  1. Enveloppes pour le dernier mois (novembre 2023) :

    • Choisissons un pourcentage de distance par rapport à la moyenne mobile.
    • Calculons les lignes supérieures et inférieures des enveloppes.
  2. Tendance générale à l'aide du RSI, des bandes de Bollinger et des enveloppes :

    • Comparons les signaux obtenus avec les différents indicateurs.

Prenons également en compte le fait que les signaux de différents indicateurs peuvent être contradictoires et qu'il est important de les analyser ensemble.

Poursuivons les calculs et l'analyse.

Avez-vous essayé de soumettre des prix pour obtenir une prévision ? Ce genre de chose se pratique sur le marché, quelqu'un a fait fuir l'algorithme, apparemment
 
Forester #:
Vous comptez le boosting, n'est-ce pas ?

Vous avez tout à fait raison, nous parlons de CatBoost !

Forester #:
Là, seul le premier arbre est formé par les étiquettes de l'enseignant initial.
Pour tous les autres arbres, l'enseignant est l'erreur de prédiction, c'est-à-dire (Y - Pred).

En effet, c'est ce que la théorie suggère.

Forestier #:
Oui aussi avec le coefficient eta = 0.1...0.001

Le coefficient "learning rate", du moins dans CatBoost, est fixe pour tous les arbres.

Forester #:
L'influence des feuilles de ces arbres est insignifiante, elles ne font que corriger. C'est ce que vous avez montré (leur insignifiance).

Pouvez-vous vraiment expliquer comment les coefficients des feuilles sont arrangés dans CatBoost ?

Il y a des points que je ne comprends pas bien.

Cependant, j'ai démontré un changement de "classe" dans les feuilles, c'est-à-dire que 40 % des feuilles semblent tirer les totaux dans le mauvais sens sur les nouvelles données.

 
Aleksey Vyazmikin #:

Pouvez-vous expliquer comment les coefficients sont disposés sur les feuilles dans CatBoost ?

Voulez-vous que je fouille dans le code de CatBoost et que je vous donne la réponse exacte ? Je ne cherche que ce qui m'intéresse. Je n'utilise pas CatBoost.
C'est la première fois que j'entends parler des coefficients de feuilles - qu'est-ce que c'est ?

Tutoriel et code boost simple ici https://habr.com/ru/companies/vk/articles/438562/
Пишем XGBoost с нуля — часть 2: градиентный бустинг
Пишем XGBoost с нуля — часть 2: градиентный бустинг
  • 2019.02.07
  • habr.com
Всем привет! В прошлой статье мы разбирались, как устроены решающие деревья, и с нуля реализовали алгоритм построения, попутно оптимизируя и улучшая его. В этой статье мы реализуем алгоритм градиентного бустинга и в конце создадим свой собственный XGBoost. Повествование будет идти по той же схеме: пишем алгоритм, описываем его, в заверешение...
 
Aleksey Vyazmikin #:

Je signale que sur un échantillon séparé de test - 7467, et sur l'examen - 7177, mais il n'y a pas un petit nombre de feuilles sans aucune activation - je n'ai pas compté en une seule fois.


Voici la répartition des feuilles qui ont changé de classe en fonction de leur valeur pour l'échantillon de test


et c'est l'examen.

Et voici la répartition en classes - il y en a trois, la troisième est "-1" - pas d'activation.


Pour l'échantillon de train


Pour l'échantillon test


Pour l'échantillon d'examen

En général, nous pouvons voir que les poids des feuilles ne correspondent plus à la logique de la classe - ci-dessous le graphique de l'échantillon d'examen - il n'y a pas de vecteur clair.


En général, cette méthode permet d'obtenir une certaine approximation, mais elle ne garantit pas la qualité des prédicteurs.

En général, je suppose que les "barres" distinctes sur le graphique ci-dessus sont des feuilles très similaires par la place et la fréquence d'activation.


Il est difficile de discuter de ce que l'on ne connaît pas. Je ne peux donc que me réjouir de votre réussite. Si j'avais une telle méthode, je l'utiliserais :)

Ma méthode ne donne pas encore de tels résultats qualitatifs, mais elle est assez parallèle.

Vous êtes-vous déjà demandé pourquoi cela se produit ?

 

Vitesse de test du modèle exporté en code naïf (catbust)

EURUSD,H1: total time from login to stop testing 0:00:04.143 (including 0:00:00.031 for history data synchronization)

Et exporté vers ONNX

EURUSD,H1: total time from login to stop testing 0:00:09.539 (including 0:00:00.025 for history data synchronization)

Les internes des deux versions du bot sont presque similaires, les résultats sont les mêmes.

 
Forester #:
Voulez-vous que je fouille dans le code catbust pour vous et que je vous donne une réponse exacte ? Je ne creuse que ce qui m'intéresse. Je n'utilise pas catbust.

J'ai supposé que vous le saviez, mais ce n'est pas le cas - je n'ai pas pensé à vous le demander.

Forester #:
C'est la première fois que j'entends parler des coefficients foliaires - de quoi s'agit-il ?

Les valeurs des feuilles qui sont additionnées pour former la coordonnée Y d'une fonction.


Une valeur supérieure ou égale à 0,5 en X signifie que la classe par défaut est "1" dans CatBoost.