L'Apprentissage Automatique dans le trading : théorie, modèles, pratique et trading algo - page 2478

 
Maxim Dmitrievsky #:
À mon avis, il s'agit davantage d'un effet de standardisation que d'équilibrage. De plus, l'échantillonnage des distributions permet d'éviter le surentraînement

Ai-je bien compris, plus il y a d'échantillons, plus on se rapproche de la norme ?

 
iwelimorn #:

Ai-je bien compris, plus il y a d'échantillons, plus les signes sont proches de la normalisation ?

Il est difficile de dire quelle est la taille optimale de l'échantillon, elle dépend probablement du nombre de composantes des mélanges gaussiens. Un échantillonnage trop important, avec un ensemble de données bruitées, conduit à la génération d'échantillons très similaires, c'est-à-dire que la probabilité d'occurrence d'échantillons fréquemment répétés augmente, car des gaussiennes sont utilisées pour l'estimation de la densité et la génération. Par conséquent, il est plus probable que ce soit non que oui.
J'ai lu quelque part que le GMM ne fonctionne pas bien avec les grands ensembles de données.
 
Maxim Dmitrievsky #:
Il est difficile de dire quelle est la taille optimale de l'échantillon, cela dépend probablement du nombre de composantes du mélange gaussien. Un échantillon trop grand, avec un ensemble de données bruitées, conduit à la génération d'échantillons très similaires, c'est-à-dire que la probabilité d'occurrence d'échantillons fréquemment répétés augmente, car les gaussiennes sont utilisées pour l'estimation de la densité et la génération. Donc il est plus probable que ce soit non que oui.

Merci. Je n'ai probablement pas posé la question correctement, je voulais dire qu'il est possible que plus d'échantillons générés donnent un échantillon plus standardisé.

 
iwelimorn #:

Merci. Je n'ai probablement pas posé la question correctement, je voulais dire qu'il est possible que plus d'échantillons générés donnent un échantillon plus standardisé.

Oui, bien sûr.
 
iwelimorn #:

Merci. Je n'ai probablement pas posé la question correctement, je voulais dire qu'il est possible que plus d'échantillons générés donnent un échantillon plus standardisé.

L'important est d'avoir le moins d'incohérences possible lors de la génération de l'échantillon, sinon l'entraînement sera inutile. Imaginons que dans un cas, avec la même valeur du vecteur d'entrée, la cible ait la valeur 1, et que dans le cas suivant, avec un vecteur d'entrée identique, la cible ait la valeur 0. Que doit alors faire l'algorithme ? Comment réagir ? L'augmentation des échantillons d'entraînement n'est donc pertinente que si elle n'entraîne pas une augmentation de la contradiction. C'est une question philosophique. Par exemple, je couvre 3 mois de marché sur M5 sur 100 échantillons d'entraînement. A titre d'exemple...
 
Et d'ailleurs, il y a une dame dans nos rangs, si je comprends bien. C'est un cas vraiment rare, on pourrait dire une exception à la règle... :-)
 
Mihail Marchukajtes #:
Il est important d'avoir le moins de contradictions possible lors de la constitution de l'échantillon, sinon la formation sera inutile . Imaginons que dans un cas, avec la même valeur du vecteur d'entrée, la cible ait la valeur 1, et que dans le cas suivant, avec un vecteur d'entrée identique, la cible ait la valeur 0. Que doit alors faire l'algorithme ? Comment réagir ? L'augmentation des échantillons d'entraînement n'est donc pertinente que si elle n'entraîne pas une augmentation de la contradiction. C'est une question philosophique. Par exemple, je couvre 3 mois de marché sur M5 sur 100 échantillons d'entraînement. A titre d'exemple...

Avez-vous au moins compris ce que vous avez écrit ?

 

Mihail Marchukajtes #:
Il est important d'avoir le moins de contradictions possible lors de la constitution de l'échantillon, sinon la formation sera inutile. Imaginons que dans un cas, avec la même valeur du vecteur d'entrée, la cible ait la valeur 1, et que dans le cas suivant, avec un vecteur d'entrée identique, la cible ait la valeur 0. Que doit alors faire l'algorithme ? Comment réagir ? L'augmentation des échantillons d'entraînement n'est donc pertinente que si elle n'entraîne pas une augmentation de la contradiction. C'est une question philosophique. Par exemple, je couvre 3 mois de marché sur M5 sur 100 échantillons d'entraînement. A titre d'exemple...

Je suis d'accord avec vous, si un seul et même exemple décrit plusieurs états, alors lors de la classification par n'importe quel algorithme disponible, nous obtiendrons une probabilité proche de 1/n où n est le nombre d'états.

Mais il n'y a pas d'exemples absolument similaires, ils le sont jusqu'à un certain point. La question est de savoir comment détecter cette "similitude".


100 exemplaires en trois mois sur la M5... Je me demande... Est-ce que vous sélectionnez des échantillons de l'échantillon original selon les règles , que vous utilisez ensuite dans le trading ?

 
iwelimorn #:

Je suis d'accord avec vous, si le même exemple décrit plusieurs états, nous obtiendrons une probabilité proche de 1/n où n est le nombre d'états lors de la classification par tout algorithme disponible.

Mais il n'y a pas d'exemples absolument similaires, ils le sont jusqu'à un certain point. La question est de savoir comment détecter cette "similitude".


100 exemplaires en trois mois sur la M5... Je me demande... Est-ce que vous sélectionnez des échantillons de l'échantillon original selon les règles , que vous utilisez ensuite dans le trading ?

Si le même ensemble de variables indépendantes dans l'échantillon de formation correspond à une seule variable dépendante, il s'agit alors d'une série déterministe.

Il n'y a rien à classer ici - l'erreur de prédiction est de 0.

Oui, c'est déjà une agonie.

 
Dmytryi Nazarchuk #:

Si le même ensemble de variables indépendantes dans l'échantillon de formation correspond à une seule variable dépendante, il s'agit d'une série déterministe.

Il n'y a rien à classer ici - l'erreur de prédiction est de 0.

Oui, c'est une agonie.

Merci, peut-être que ce n'est pas l'agonie mais mon manque de connaissances fondamentales.

Est-ce également vrai si plusieurs ensembles de variables indépendantes correspondent à la même variable ?