L'apprentissage automatique dans la négociation : théorie, modèles, pratique et algo-trading - page 2792

 
Maxim Dmitrievsky #:
J'ai fait la même chose avec le clustering il y a plus d'un an, puis j'ai déterminé les niveaux moyens comme sur les photos et j'ai passé des commandes à partir de ces niveaux. Divisé en 3 groupes : hausse, baisse, retour à la moyenne. Cela fonctionne très bien sur l'entraînement.
Ce qui est amusant, c'est que peu importe les moyens spéciaux que vous utilisez, vous ne pouvez rien tirer de bon du hasard.

Apparemment, on ne peut rien tirer des prix. Il n'y a rien d'autre. Il y a aussi les volumes à la bourse.
Apparemment, FA est la seule chose qui peut donner quelque chose. Et il est probablement préférable de le faire manuellement. Mais même là, on peut se tromper, les fake news sont actives.

 
Maxim Dmitrievsky #:

J'ai vérifié l'informativité des attributs en les décalant vers l'arrière. En d'autres termes, nous ne prenons pas les dernières valeurs de l'historique des attributs, mais avec un retrait vers le passé. J'ai pris 50 retraits. (de zéro à -50 barres)

Dans la colonne de droite, l'indentation en barres, dans la colonne de gauche, l'information mutuelle. L'indentation est dans l'ordre croissant de l' information mutuelle entre les puces et les étiquettes.

Il s'est avéré que les derniers prix ne sont pas toujours meilleurs que les précédents, il y a une certaine augmentation à -11 barres par rapport à la barre zéro :

indicatif

Qu'entendez-vous par "information mutuelle" ? L'effet de la fic sur la marque est-il intéressant ? L'influence réciproque est-elle intéressante ? Comment l'"information mutuelle" est-elle calculée ?

 
СанСаныч Фоменко #:

Qu'entendez-vous par "information mutuelle" ? L'effet de la fiche sur l'étiquette est-il intéressant ? L'influence réciproque est-elle intéressante ? Comment l'"information mutuelle" est-elle calculée ?

Vos questions me laissent perplexe

 
Maxim Dmitrievsky #:

J'ai vérifié l'informativité des attributs en les décalant vers l'arrière. En d'autres termes, nous ne prenons pas les dernières valeurs de l'historique des attributs, mais avec un retrait vers le passé. J'ai pris 50 retraits. (de zéro à -50 barres)

Dans la colonne de droite, l'indentation en barres, dans la colonne de gauche, l'information mutuelle. L'indentation est dans l'ordre croissant de l'information mutuelle entre les puces et les étiquettes.

Il s'est avéré que les derniers prix ne sont pas toujours meilleurs que les précédents, il y a une certaine augmentation à -11 barres par rapport à la barre zéro :

indicatif

Corrections H1 ?

0   0.001554  23
1   0.001612  22
2   0.001708  15
3   0.001783  24
Il semble qu'il s'agisse de cycles diurnes. Les 22-24 heures sont les plus instructives. La journée d'aujourd'hui sera donc identique à celle d'hier.
 
Maxim Dmitrievsky #:

vous me déconcertez avec vos questions

Pourquoi être perplexe ?

Pour moi, l'influence, le lien, le pouvoir prédictif d'une caractéristique, d'une puce, d'un prédicteur avec une étiquette peut être expliqué par l'exemple suivant.

Soit une étiquette "personne", qui prend deux valeurs : homme et femme.

Soit une étiquette "vêtement", qui prend deux valeurs : pantalon et jupe, et le nombre de valeurs de différents pantalons et jupes est de plusieurs centaines ou milliers.

Supposons que les hommes ne portent que des pantalons et les femmes que des jupes. Dans ce cas, une telle fiche détermine l'étiquette sans erreur, c'est-à-dire que l'erreur de prédiction est de 0 %. Nous pouvons considérer que la fiche affecte, est liée, prédit l'étiquette à 100 %. Si ces conditions sont maintenues à l'avenir, l'erreur ne changera pas et sera =- 0%.

Dans la société moderne, ce n'est pas le cas et il y aura une erreur de prédiction, dont l'ampleur est inconnue et peut varier en fonction du remplissage de la fiche.

Il existe un grand nombre d'approches, mises en œuvre sous la forme de progiciels, qui, dans notre exemple, pour l'amour d'une partie des femmes pour les pantalons et des hommes pour les jupes, montreront une certaine différence par rapport à une connexion à 100 % de la puce avec la marque.


Les graphiques le montrent très bien.

Un exemple de fonction inutile :


Un exemple de fiche assez prometteuse. L'intersection est une erreur de prédiction. Dans le graphique précédent, une puce chevauche complètement l'autre - l'erreur de prédiction est de 50 %.


Cette mesure correspond-elle à la différence entre les puces dans le premier graphique ou dans le second ? La différence entre les estimations est de 2,5 fois. Mais les chiffres sont relatifs. Toutes les caractéristiques sont-elles mauvaises, certaines ou toutes sont-elles excellentes ?

 
Cherchez sur google, je ne veux pas citer wikipedia. La mesure de la connexion peut être géométrique, comme dans le cas de la corrélation, et informationnelle dans le cas de Mi.

Je ne comprends pas pourquoi je dois lutter contre la paresse de quelqu'un d'autre, que vous avez vous-même admise précédemment.)

Donnez une bonne approche, vous n'avez pas besoin d'un grand nombre de paquets. Le nom suffit.
 
Maxim Dmitrievsky géométrique, comme dans le cas de la corrélation, et informationnelle dans le cas de Mi.

Je ne vois pas pourquoi je devrais lutter contre la paresse de quelqu'un d'autre, ce que j'admettais moi-même auparavant )

Oui, bon, d'accord. Qu'il en soit ainsi

 
СанСаныч Фоменко #:

Oui, bon, d'accord. Ainsi soit-il

Non seulement vous ne donnez aucun résultat et faites référence à un grand nombre de bons paquets, mais vous me faites également deviner ce que vous vouliez dire exactement. Si l'on parle de quelque chose de spécifique, il faut écrire spécifiquement, avec des résultats spécifiques.

Il s'agit d'un exemple banal sur les distributions étendues, montrez-moi comment les obtenir efficacement.
La relation d'information a été nommée par vous. Il s'agit de l'entropie et de l'information mutuelle sur sa base. Avez-vous besoin de l'écrire 500 fois ? L'entropie est définie pour une série, l'information mutuelle pour 2.
 

Il est préférable d'évaluer les caractéristiques non pas à l'aide de méthodes et de paquets qui ne sont pas liés au modèle, mais à l'aide du modèle lui-même.
Il y a 2 ans, j'ai comparé les méthodes d'évaluation de l'importance de https://www.mql5.com/ru/blogs/post/737458.

Le modèle lui-même a été pris comme échantillon. Je l'ai entraîné N fois (en fonction du nombre de caractéristiques) en supprimant l'une d'entre elles.
Plus le résultat se détériore après la suppression d'une caractéristique, plus celle-ci est importante. Il y avait également des puces dont l'élimination améliorait le résultat, c'est-à-dire qu'il s'agissait clairement de bruit.

Aucune des variantes de détermination de l'importance d'une caractéristique n'était similaire à l'importance exemplaire. Je crains que l'information mutuelle et d'autres ensembles ne soient également incohérents.

Сравнение разных методов оценки важности предикторов.
Сравнение разных методов оценки важности предикторов.
  • www.mql5.com
Провел сравнение разных методов оценки важности предикторов. Тесты проводил на данных титаника (36 фичей и 891 строки) при помощи случайного леса из 100 деревьев. Распечатка с результатами ниже. За
 
elibrarius #:

Ilest préférable d'évaluer les caractéristiques non pas à l'aide de méthodes et de packages sans rapport avec le modèle, mais à l'aide du modèle lui-même.
Il y a 2 ans, j'ai comparé des méthodes d'évaluation de l'importance https://www.mql5.com/ru/blogs/post/737458

Le modèle lui-même a été pris comme échantillon. Je l'ai entraîné N fois (en fonction du nombre de caractéristiques) en supprimant l'une d'entre elles.
Plus le résultat se détériorait après la suppression d'une caractéristique, plus celle-ci était importante. Il y avait également des puces dont la suppression améliorait le résultat, c'est-à-dire qu'il s'agissait clairement de bruit.

Aucune des variantes de détermination de l'importance d'une caractéristique n'était similaire à l'importance exemplaire. Je crains que l'information mutuelle et d'autres ensembles ne soient également incohérents.

En première approximation, vous avez certainement raison - on devrait avoir un score final, si l'on entend par là l'évaluation d'un modèle par ses mesures de performance.

Mais il y a une nuance qui l'emporte sur tout le reste.

L'évaluation d'un modèle en fonction de ses performances est une évaluation sur la base de données historiques. Mais comment le modèle se comportera-t-il à l'avenir ?

Si nous évaluons les caractéristiques elles-mêmes, nous pouvons lancer une fenêtre et obtenir des statistiques sur l'évolution de la valeur du score d'une caractéristique, chacune individuellement. Il me semble qu'il est préférable d'utiliser les caractéristiques dont le score d'importance fluctue peu, de préférence moins de 10 %. Mon jeu de fictions présente des fluctuations de l'écart-type de 10 % à 120 % à 500 mesures (de mémoire). Cela signifie que le score fluctue à l'intérieur du canal de 10 %, c'est-à-dire que le chiffre que nous voyons est celui-là. Mais pour 120%, la valeur du score d'importance que nous voyons est la fic.