L'apprentissage automatique dans la négociation : théorie, modèles, pratique et algo-trading - page 1193

 
Maxim Dmitrievsky:

sur mql5 également... Mais il y a un bon testeur et une base ici :)

voilà le hic, je m'épuise à tout lire quand j'ai le temps.

Si le but est de vendre le produit sur le marché, hélas, alors tout est dans MQL, si le but est l'utilisation personnelle ou la distribution au-delà de ce forum, alors le problème vient de la possibilité d'obtenir des .dll et de les lier à MT.

 
Igor Makanu:

C'est le problème, je tourne moi-même, je suis fatigué de tout lire quand j'ai le temps...

Je dois définir les objectifs - penser à haute voix ))))), si le but est un produit sur le marché, hélas, alors tout à MQL, si le but de l'utilisation personnelle ou de la distribution au-delà de ce forum, alors la tâche se résume à la capacité d'obtenir .dll et la liaison à MT

Je vais l'utiliser comme un excellent bot MQL, tout le reste est de la merde. Si vous écrivez pour le marché, la promotion y est plus importante que les performances commerciales, et les acheteurs stupides vous en mettront plein la vue (j'ai de l'expérience). J'ai de l'expérience. Vous pouvez prendre presque n'importe quel indicateur ou conseiller expert de la base de code et le vendre sur le marché... ou en mettre 200 comme Gribachev, chaque jour un nouveau, mais ce n'est pas la voie du samouraï.

Vous devez mettre votre femme ou un esclave salarié sur l'ordinateur pour communiquer avec les clients, mais vous ne perdrez pas votre temps :)
 
Maxim Dmitrievsky:

Le but est d'avoir un bot génial sur le MO, le reste c'est des conneries. Si vous écrivez pour le marché, la promotion y est plus importante que les performances commerciales, et les acheteurs stupides vous feront perdre la tête (j'en ai fait l'expérience). Je n'ai pas d'indicateur de base de code ou de conseiller expert, et ils les vendront sur le marché... Ou vous pouvez en mettre 200 comme Gribachev, chaque jour un nouveau, mais ce n'est pas la voie du samouraï.

Si vous comptez faire cela, vous feriez mieux d'envoyer votre femme ou un esclave salarié pour communiquer avec les acheteurs, car vous ne perdrez pas de temps à le faire :)

J'ai déjà prévu, donc je ne pense pas qu'il est nécessaire de "pantalon" et que quelque chose de valable à mettre dans le marché - je ne peux pas fournir le soutien du produit, car il faudra beaucoup de temps, et des trucs stockés là, avec l'espoir qu'il ya peeple qui veut donner 30 $, comme la conscience ne permet pas))))

ZS : Grilles d'ordres par un simple indicateur... Il fonctionne pour toujours, pour toujours (en haut ou en bas), et est toujours demandé par les utilisateurs )))).

 
Igor Makanu:

Je l'ai déjà prévu, donc je ne pense pas qu'il soit nécessaire de "pantoufler" et de mettre quelque chose de valable sur le marché - je ne serai pas en mesure de soutenir le produit, parce que cela prendra beaucoup de temps, et les trucs stockés là, en espérant trouver des gens qui veulent donner 30 $, je ne le permets pas))))

ZS : Grilles d'ordres par un simple indicateur... Il fonctionnera toujours (en haut ou en bas) et sera toujours demandé par les utilisateurs )))).

Martins, grilles oui... les geeks de tous poils, c'est éternel :)

 

Une idée m'est venue à l'esprit : déterminer le surentraînement au moyen du MO. Je continue à creuser catbust, là vous pouvez obtenir une prédiction en termes probabilistes - j'ai dispersé en groupes de 0 à 9 probabilités - pour faciliter la perception et l'analyse ultérieure - regardé les distributions, l'écart-type, l'aplatissement, l'asymétrie, y compris une ventilation par cible et la distribution de l'erreur, la justesse des réponses dans chaque groupe. Maintenant, je vais tirer différents indicateurs standard pour évaluer le modèle, comme AUC F1 et d'autres, là vous pouvez voir la dynamique de l'apprentissage, mais jusqu'à présent, je ne sais pas comment mieux la décrire.

Il y a deux modèles dans le graphique - groupe de distribution * groupe de classification correcte. Le modèle bleu est meilleur sur l'échantillon d'examen.


Quels autres prédicteurs pouvez-vous imaginer pour évaluer le modèle ?

 
Aleksey Vyazmikin:

Une idée m'est venue à l'esprit : déterminer le surentraînement au moyen du MO . Je continue à creuser catbust, là vous pouvez obtenir une prédiction en termes probabilistes - j'ai dispersé en groupes de 0 à 9 probabilités - pour faciliter la perception et l'analyse ultérieure - regardé les distributions, l'écart-type, l'aplatissement, l'asymétrie, y compris une ventilation par cible et la distribution de l'erreur, la justesse des réponses dans chaque groupe. Maintenant, je vais tirer différents indicateurs standard pour évaluer le modèle, comme AUC F1 et d'autres, là vous pouvez voir la dynamique de l'apprentissage, mais jusqu'à présent, je ne sais pas comment mieux la décrire.

Il y a deux modèles dans le graphique - groupe de distribution * groupe de classification correcte. Le modèle bleu est meilleur sur l'échantillon d'examen.


Quels autres prédicteurs pouvez-vous imaginer pour évaluer le modèle ?

cool, c'est en fait ce que tout le monde fait

les métriques sont utilisées pour estimer le modèle, pas les prédicteurs, les métriques standard sont généralement suffisantes mais vous pouvez en créer de nouvelles

En général, plus l'erreur dans la forêt est grande, plus la dispersion des valeurs est faible, c'est-à-dire qu'il s'agit d'un simple bruit blanc autour de 0,5. En ce sens, la ligne bleue est pire que la ligne rouge.
 
Maxim Dmitrievsky:

Super, c'est en fait ce que tout le monde fait.

Les métriques sont utilisées pour estimer un modèle, et non des prédicteurs. Les métriques standard sont généralement suffisantes, mais vous pouvez en créer de nouvelles.

généralement, plus l'erreur dans la forêt est importante, plus la dispersion des valeurs est faible, c'est-à-dire qu'il s'agit d'un simple bruit blanc autour de 0,5. En ce sens, la ligne bleue est plus mauvaise que la rouge.

Ha, il s'agit donc de trouver un critère d'estimation, et pas seulement d'estimer avec différentes formules de calcul ! Toutes ces approches avec des formules évaluent le modèle de manière stationnaire, mais ne disent rien sur sa capacité à continuer à travailler, et c'est exactement ce que je veux réaliser, c'est pourquoi je génère des prédicteurs, afin qu'il soit possible de trouver un modèle à partir d'un ensemble de différents indicateurs avec l'aide de MO.

À propos de la dispersion - votre déclaration est très étrange, peut-être ne prend-elle en compte que le fait de trouver des valeurs sans tenir compte de leur valeur de classification et du pourcentage de réponses correctes. Sur le graphique allant de zéro à 5 sur l'axe des x, on trouve le produit d'un groupe de zéros et de leur classification correcte, et de 5 en face, le produit des unités.

Voici un graphique de ces modèles, mais qui montre la distribution de la cible "1".

Comme vous pouvez le voir, le modèle rouge a un pourcentage de distribution décalé au-delà de 5, ce qui signifie que les "uns" n'ont aucune chance d'être correctement classés, et ceux qui ont une chance sont moins nombreux que le modèle bleu - 23% et 28%, respectivement.

Et voici comment la fidélité de la classification change

Bien sûr, il est possible d'utiliser aussi un tel modèle aplati, mais il faut déplacer la division de classification de 0,5 à 0,7 par exemple, mais il ne reste plus beaucoup de matière à traiter, mais d'un autre côté, de tels modèles aplatis peuvent être combinés...

 
Aleksey Vyazmikin:

Ha, il s'agit donc de trouver un critère d'estimation, et pas seulement d'estimer avec différentes formules de calcul ! Toutes ces approches fondées sur des formules évaluent le modèle de manière stationnaire, mais ne nous renseignent pas sur sa capacité à continuer à fonctionner, ce qui est exactement ce que je veux réaliser, et c'est pourquoi je génère des prédicteurs, afin de pouvoir trouver un modèle à partir d'un ensemble d'indicateurs différents au moyen de MO.

À propos de la dispersion - votre déclaration est très étrange, peut-être ne prend-elle en compte que le fait de trouver des valeurs sans tenir compte de leur valeur de classification et du pourcentage de réponses correctes. Sur le graphique allant de zéro à 5 sur l'axe des x, on trouve le produit d'un groupe de zéros et de leur classification correcte, et de 5 en face, le produit des unités.

Voici un graphique de ces modèles, mais qui montre la distribution de la cible "1".

Comme vous pouvez le voir, le modèle rouge a un pourcentage de distribution décalé au-delà de 5, ce qui signifie que les "uns" n'ont aucune chance d'être correctement classés, et ceux qui ont une chance sont moins nombreux que le modèle bleu - 23% et 28%, respectivement.

Et voici comment la fidélité de la classification change

Bien sûr, nous pouvons aussi utiliser un tel modèle aplati, mais il est nécessaire de faire passer la division de la classification de 0,5 à 0,7 par exemple, mais il ne reste plus beaucoup de matière à traiter, mais d'un autre côté de tels modèles aplatis peuvent être combinés...

le fait qu'il soit biaisé parle simplement en faveur d'une certaine classe, il pourrait s'agir d'un marché de tendance, c'est-à-dire d'un échantillon d'apprentissage (en gros).

Et si vous prenez la bleue, vous avez une forte diminution des probabilités, c'est-à-dire que si, idéalement, la probabilité d'un signal devrait être de 1, alors vous avez un maximum de 0.6-0.7, c'est-à-dire que les deux classes tournent autour de 0.5, avec de petits écarts vers l'une ou l'autre classe, en fait, il y a du bruit et non des signaux, ou le modèle est fortement régularisé

possibilité de continuer à travailler sur un échantillon d'essai par erreurs... si vous parvenez à vous rapprocher des erreurs sur un plateau, le modèle est bon en règle générale

 
Maxim Dmitrievsky:

le fait qu'il soit biaisé parle simplement en faveur d'une certaine classe, il pourrait s'agir d'un marché de tendance, c'est-à-dire d'un échantillon d'entraînement (en gros).

Nous comparons le modèle dans les mêmes conditions, voici les mêmes modèles sur d'autres données ; les unités cibles tombent dans la classification 1 - 35% vs. 39%.

fidélité de la classification

et comme le groupe de toutes les valeurs est plus proche du centre, on obtient le produit

Maxim Dmitrievsky:

Et si vous prenez le bleu, vous obtenez une forte diminution des probabilités, c'est-à-dire que si, idéalement, la probabilité d'un signal devrait être de 1, alors vous avez un maximum de 0,6-0,7, c'est-à-dire que les deux classes tournent autour de 0,5, avec de petites déviations vers l'une ou l'autre classe, en fait, il y a du bruit mais pas de signaux.

la capacité de continuer à travailler sur un échantillon d'erreurs... si vous parvenez à vous rapprocher des erreurs sur un plateau, alors le modèle est bon, en règle générale

Pourquoi cette probabilité doit être de "1" - c'est plutôt un excès de confiance, au contraire je pense qu'un modèle correct (idéal) doit avoir deux bosses entre 0,1 et 0,3 et 0,7 et 0,9 - parce que cela indiquera la stabilité et l'adéquation, mais de tels modèles ne sont pas encore observés dans les faits.

A propos de l'approximation des valeurs des coefficients estimés - oui, je suis d'accord - je regarderai le delta et prendrai d'autres mesures sur la dynamique - à catbust vous pouvez voir comment les valeurs changent lorsque des arbres sont ajoutés au modèle.
 
Aleksey Vyazmikin:

Nous comparons le modèle dans les mêmes conditions, voici les mêmes modèles sur d'autres données ; les unités cibles tombent dans la classification 1 - 35% vs. 39%.

fidélité de la classification

et comme l'accumulation de toutes les valeurs est plus proche du centre, on obtient le produit

Pourquoi cette probabilité devrait être de "1" - il s'agit plutôt de complaisance, en fait je pense qu'un modèle approprié (idéal) devrait avoir deux bosses entre 0,2 et 0,4 et 0,7 et 0,9 - cela indiquerait la stabilité et l'adéquation mais je ne vois pas encore de tels modèles dans la réalité.

A propos de l'approximation des valeurs des coefficients estimés - oui, je suis d'accord - je vais regarder le delta et faire quelques mesures supplémentaires sur la dynamique - à catbust vous pouvez voir comment les indicateurs changent lorsque des arbres sont ajoutés au modèle.

plus la probabilité de l'événement est élevée, plus le signal est précis, cela découle même de la définition :) 2 il n'y aura pas de bosse sur des données bruyantes, et au moins parce qu'il y aura des états transitoires, mais le modèle devrait au moins capturer les valeurs extrêmes dans une certaine mesure, sinon il n'est jamais sûr des entrées.