L'Apprentissage Automatique dans le trading : théorie, modèles, pratique et trading algo - page 43
Vous manquez des opportunités de trading :
- Applications de trading gratuites
- Plus de 8 000 signaux à copier
- Actualités économiques pour explorer les marchés financiers
Inscription
Se connecter
Vous acceptez la politique du site Web et les conditions d'utilisation
Si vous n'avez pas de compte, veuillez vous inscrire
Qu'en est-il de l'opinion selon laquelle, si vous suivez la voie de Sanych, vous réduisez sensiblement la probabilité, déjà faible, d'atteindre les 1% tant convoités ?
Chaque indicateur comporte des informations supplémentaires, et toutes ces informations sont utiles, pas seulement un pour cent. Pour le RSI, il n'existe pas de stratégie "acheter à >0,99, vendre à <0,01", c'était un exemple malheureux.
Par exemple, vous pouvez prendre un indicateur, créer un conseiller expert basé sur celui-ci et optimiser ses paramètres pour obtenir de meilleurs résultats. Mais une telle EA échouera toujours à l'avenir. Pour que l'EA n'échoue pas, nous avons besoin de dizaines d'indicateurs (peut-être même moins, mais pour moi ce n'est pas si facile), où les valeurs des indicateurs seront testées par une logique complexe avec différentes conditions. Par exemple, si MA(20)>MA(16), alors achetez si RSI>0.3. Et si MA(20)<MA(16), alors ne regardez pas le rsi, mais le stochastique. La logique devrait être quelque chose comme ça, mais encore plus complexe et ornée. Le modèle de forêt aléatoire peut construire une telle logique, ce qui est très bien.
Toutes les valeurs des indicateurs sont importantes pour la construction du modèle. Le modèle déterminera lui-même les seuils de ces valeurs pour la décision et l'achat/vente et les conditions de leur réalisation à partir des valeurs des autres indicateurs.
Chaque indicateur comporte des informations supplémentaires, et toutes ces informations sont utiles, pas seulement un pour cent.
Connaissez-vous le principe du rasoir d'Occam ?
Si un indicateur possède une certaine plage de valeurs, alors toute valeur dans cette plage dit quelque chose, porte sa propre signification supplémentaire. Je ne recommande pas de prendre simplement 1% des limites supérieures et inférieures de l'indicateur et de décider de ne trader que dans ces limites. Bien sûr, vous pouvez essayer, mais cela s'avérera peu rentable, et vous aurez besoin de beaucoup d'autres indicateurs pour ajouter beaucoup de conditions à la stratégie. En d'autres termes, vous pouvez soit négocier dans toute la gamme des valeurs RSI avec un tas d'autres indicateurs. Ou vous pouvez négocier uniquement dans une certaine plage de valeurs RSI, avec un tas d'autres indicateurs. Je ne vois pas comment la deuxième façon me donnera un avantage.
Mais lorsqu'au départ, il y a des dizaines d'indicateurs, et tous avec une centaine de variantes de décalages ou de paramètres, alors certains d'entre eux doivent être éliminés, ici le rasoir d'Occam est en pleine force. De ce fait, je n'ai qu'une centaine de prédicteurs sur près de 9000 (une douzaine d'indicateurs avec des décalages différents (shift). Et ces prédicteurs restants ont une précision d'au moins 60%.
Plus le nombre de prédicteurs bruyants est élevé, plus il est probable qu'il y ait parmi eux des données utiles similaires.
Réapprentissage des a priori, dont Sanych se vante tant de l'absence.
Plus vous avez de prédicteurs de bruit, plus il est probable que parmi eux se trouvent des données utiles similaires.
Le surapprentissage a priori, dont Sanych se vante tant de l'absence
J'étais plutôt imprécis sur les prédicteurs de bruit.
Je me vante ici d'avoir un algorithme qui élimine les prédicteurs de bruit. Mais ce n'est pas tout à fait exact, dans le sens où, pour moi, il n'existe pas de prédicteurs 100% bruyants et 100% non bruyants. Tous les prédicteurs que j'ai vus (plusieurs centaines, plus de 10 ensembles provenant de différentes personnes) sont en partie bruyants ou en partie non bruyants. Toujours. Je n'en ai pas vu d'autres. Je vais vous expliquer ci-dessous avec des chiffres.
Maintenant, pour quoi nous battons-nous ?
Selon mon algorithme, si nous prenons des prédicteurs purement bruyants, nous obtenons une probabilité de prédiction correcte de la classe d'environ 50% - tirez à pile ou face. Et le hic, c'est que lorsque vous vous entraînez sur des prédicteurs purement bruités, vous obtenez presque toujours de très bons résultats, et si vous prenez du temps hors échantillon, vous obtenez ces 50 %.
Chaque prédicteur a une valeur abstraite de "bruit". S'il s'agit d'une valeur comprise entre 0 et 1, c'est qu'il y a du bruit et que c'est sans espoir. Si c'est 1 à 2, vous pouvez, mais il vaut mieux ne pas l'utiliser. Vous devriez aller avec ma mesure sur 3. Au-dessus de 6, je n'ai jamais vu.
Supposons donc que les prédicteurs avec ma mesure de "bruit sur 3" soient sélectionnés. Si vous construisez un modèle, j'ai obtenu une erreur de 25 à 35% pour différents ensembles de prédicteurs. Sur tous les types d'échantillonnage (formation-test-validation - tous avec mélange aléatoire, et hors échantillon - strictement dans l'ordre d'arrivée des barres), les résultats sont à peu près égaux, par exemple 32-30-33-35%. Il n'y a aucun moyen d'améliorer l'erreur de moitié, par exemple, avec le même ensemble particulier de prédicteurs. C'est-à-dire que l'ampleur de l'erreur du modèle est déterminée par un ensemble particulier de prédicteurs. Si vous n'aimez pas l'ampleur de l'erreur, vous avez besoin d'un autre ensemble de prédicteurs, qui peut donner une erreur différente.
L'erreur que j'obtenais est bien sûr importante, mais pour moi il est important que l'erreur hors échantillon soit approximativement égale dans la formation et le test. Mais je tire la conclusion la plus importante : l 'ensemble donné de prédicteurs ne génère pas de surentraînement du modèle - dans le futur, j'aurai approximativement la même erreur de prédiction... Ceci a été testé sur différentes variations d'échafaudage aléatoire, ada, SVM. Aucun autre modèle n'a été essayé.
Plus vous avez de prédicteurs de bruit, plus il est probable que parmi eux se trouvent des données utiles similaires.
Le sur-apprentissage a priori, dont Sanych se vante tant de l'absence.
Je ne sais pas)) J'ai besoin d'un outil qui fasse des prédictions multiples en utilisant une matrice avec des prédicteurs. Je ne me soucie pas de la façon dont il fera la prédiction, la régression ne prend que la série temporelle comme entrée, cela ne me convient pas, j'ai besoin d'une matrice avec des prédicteurs....
J'ai regardé la fonction "iforecast", elle prend une série temporelle pour la régression comme entrée, ce n'est pas la même chose, ou est-ce que je comprends mal quelque chose ?
Chaque indicateur comporte des informations supplémentaires, et toutes ces informations sont utiles, pas seulement un pour cent. Pour le RSI, il n'existe pas de stratégie "acheter à >0,99, vendre à <0,01", c'est un exemple malheureux.
Pour continuer le sujet de la sélection
J'ai une question : nous avons un prédicteur (un parmi plusieurs) avec une certaine gamme de valeurs, disons 10 pcs.
diviser le prédicteur en ces plages X1,X2....X10
calculons l'importance de chaque plage dans le prédicteur par certains moyens il n'est pas important maintenant comment
nous obtiendrons un tableau d'importance(je vous rappelle qu'il s'agit d'un prédicteur divisé en sous prédicteurs)
Х1 = 0,5%
Х2 = 0,01%
Х3 = 0,003%
Х4 = 0,0033%
Х5 = 0,0013%
Х6 = 0,0039%
Х7 = 0,0030%
Х8 = - 0,0000%
Х9 = - 0,0001%
Х10 = - 0,00002%
nous voyons que seule une plage "X1" a vraiment une forte influence, l'influence des autres est soit négative soit à un demi-pas du négatif et il est très douteux que sur de nouvelles données ces plages X2....X7 se montrent pour le mieux...
Question :
est-il préférable de conserver toute la plage positive X1...X7 ou de ne conserver que la plage où il n'y a pas de doute, c'est-à-dire seulement X1
Encore une fois, il ne s'agit que de la sélection d'un seul prédicteur, et si nous épurons 200 prédicteurs ? sur quelles données l'algorithme reconnaîtra-t-il mieux les nouvelles données ou non ?
Qui y pense ?
Pour continuer le sujet de la sélection
J'ai une question : nous avons un prédicteur (un parmi plusieurs) avec une certaine gamme de valeurs, disons 10 pcs.
diviser le prédicteur dans ces plages X1,X2....X10
calculons l'importance de chaque plage dans le prédicteur par certains moyens il n'est pas important maintenant comment
nous obtiendrons un tableau d'importance(je vous rappelle qu'il s'agit d'un prédicteur divisé en sous prédicteurs)
Х1 = 0,5%
Х2 = 0,01%
Х3 = 0,003%
Х4 = 0,0033%
Х5 = 0,0013%
Х6 = 0,0039%
Х7 = 0,0030%
Х8 = - 0,0000%
Х9 = - 0,0001%
Х10 = - 0,00002%
nous voyons que seule une plage "X1" a vraiment une forte influence, l'influence des autres est soit négative soit à un demi-pas du négatif et il est très douteux que sur de nouvelles données ces plages X2....X7 se montrent pour le mieux...
Question :
est-il préférable de conserver toute la plage positive X1...X7 ou de ne conserver que la plage où il n'y a pas de doute, c'est-à-dire seulement X1
Encore une fois, il ne s'agit que de la sélection d'un seul prédicteur, et si nous épurons 200 prédicteurs ? sur quelles données l'algorithme reconnaîtra-t-il mieux les nouvelles données ou non ?
Qui y pense ?