L'Apprentissage Automatique dans le trading : théorie, modèles, pratique et trading algo - page 655

 
Dr. Trader:

J'ai beaucoup pensé à ça aussi.

Si le modèle de régression prédit les gains de prix par barre et que le score R2 est supérieur à zéro sur les fronttests et backtests, c'est déjà un bon début. Le problème est que le résultat, bien que stable, est faible, l'écart ne peut être battu.

D'un point de vue analytique, le problème est que R2 pénalise plus fortement le modèle pour les erreurs importantes et ignore les petites erreurs et les mauvaises directions de transaction. Si vous regardez la distribution des gains, la plupart des mouvements de prix ne sont que de quelques pips. Et le modèle, au lieu de prédire la direction correcte de ces petits mouvements, apprend à prédire les longues queues de la distribution pour lesquelles il obtiendra un R2 plus élevé. Par conséquent, le modèle peut prédire les grands mouvements, mais sur les petits, il se trompe toujours de direction et perd l'écart.

Conclusion - les estimations de régression standard pour le forex sont mauvaises. Il est nécessaire de créer une sorte de fonction d'adéquation, afin de prendre en compte les directions de distribution, la diffusion et la précision. Ainsi, même avec une précision d'un peu plus de 50 %, il y a une chance de faire des bénéfices.
La précision, le ratio Sharp, le facteur de récupération et les autres fonctions d'analyse des graphiques commerciaux sont trop discrets, les neurones avec un backprop standard ne sortiront pas du minimum local et ne pourront pas apprendre correctement.

Une autre conclusion consiste à ignorer complètement les signaux faibles du neurone. N'échangez que des produits solides. Le problème est que nous pouvons toujours définir le seuil qui donne de bons résultats sur le backtest, mais qui ne donnera pas de bons résultats sur le fronttest. Ici aussi, nous devons penser à quelque chose.

Pourtant, l'idée même d'utiliser des modèles de régression pour l'apprentissage automatique semble très discutable. Et surtout pour la prédiction incrémentale. Et c'est doublement vrai pour les SN, qui sont en quelque sorte une boîte noire avec quelques couches et perseptrons. Quelle est la signification économique ou statistique de ces mots ?

Après tout, ce n'est pas pour rien que les modèles GARCH sont utilisés pour les incréments. et ce sont les plus courants à l'heure actuelle. L'idée fondamentale de surmonter la non-stationnarité en décomposant les séries non-stationnaires en composantes, qui ont un sens économique et statistique tout à fait significatif, est très attrayante.


Dans le modèle GARCH, le modèle se compose des étapes suivantes :

  • La série originale est détendue par le logarithme (diminuant l'influence des valeurs aberrantes) du rapport des barres voisines.
  • puisqu'en général, on ne peut pas se débarrasser complètement de la non-stationnarité, alors
  • modéliser la tendance restante (ARIMA)
  • modéliser les nuances de l'ARCH
  • modéliser la distribution des incréments.

Tout travail significatif et utile.

Si nous ajoutons la possibilité d'ajouter des régresseurs externes, nous obtenons un outil assez riche, malheureusement extrêmement varié et donc exigeant en main-d'œuvre.

 
ARIMA+GARCH Trading Strategy on the S&P500 Stock Market Index Using R | QuantStart
ARIMA+GARCH Trading Strategy on the S&P500 Stock Market Index Using R | QuantStart
  • www.quantstart.com
In this article I want to show you how to apply all of the knowledge gained in the previous time series analysis posts to a trading strategy on the S&P500 US stock market index. We will see that by combining the ARIMA and GARCH models we can significantly outperform a "Buy-and-Hold" approach over the long term. Strategy Overview The idea of the...
 
SanSanych Fomenko:

  • la série originale est détendue par le logarithme (diminuant l'influence des émissions) du rapport des barres voisines.

sur quelle base ?

 
SanSanych Fomenko:

Pourtant, l'idée même d'utiliser des modèles de régression pour l'apprentissage automatique semble très discutable. Et cela est particulièrement vrai pour la prédiction incrémentale. Et c'est doublement vrai pour les SN, qui sont au sens d'une boîte noire avec quelques couches et perseptrons. Quelle est la signification économique ou statistique de ces mots ?

Après tout, ce n'est pas pour rien que les modèles GARCH sont utilisés pour les incréments. et ce sont les plus courants à l'heure actuelle. L'idée fondamentale de vaincre la non-stationnarité en décomposant une série non-stationnaire en composantes qui ont une signification économique et statistique tout à fait significative est très séduisante.

Vous avez tort SanSanych. La NS est en quelque sorte l'équivalent de la logique floue. Apprenable. Personnellement, je ne vois rien de mystérieux là-dedans. Vous pouvez utiliser d'autres analogies.

Eh bien, et la non-stationnarité. Tout processus, s'il est décomposé en morceaux, deviendra non stationnaire, et s'il ne l'est pas, il ne sera pas aléatoire.

D'ailleurs, à la vue des distributions sur différentes longues périodes (plusieurs sur 3 mois), je n'ai pas remarqué de différence significative entre les deux.

Quant au sens économique, je ne sais pas. Je suppose que le marché est aléatoire pour l'observateur. Que ce soit réellement aléatoire ou non n'a pas vraiment d'importance. Le mot clé ici est pour l'observateur.

 

Vous êtes un homme intéressant ! Il s'avère que tu sais tout !

 
Maxim Dmitrievsky:

sur quelle base ?

J'ai du bois, quelle différence cela fait-il ?

 
SanSanych Fomenko:

J'ai du bois, quelle différence cela fait-il ?

Car dans ce cas, le logarithme n'élimine pas les valeurs aberrantes : le calcul des incréments avec n-lag élimine les valeurs aberrantes.

le logarithme centre simplement le graphique par rapport à 0

et pour se débarrasser des aberrations par logarithme, il faut introduire une échelle logarithmique.

simples incréments

logarithme des incréments (naturel)


 
Maxim Dmitrievsky:

Parce que le logarithme dans ce cas n'évite pas les valeurs aberrantes : le calcul des incréments avec n-lag évite les valeurs aberrantes.

Le logarithme centre simplement le graphique par rapport à 0.

et pour éliminer les valeurs aberrantes par logarithme, il faut introduire une échelle logarithmique.

simples incréments

logarithme des incréments (naturel).


Les émissions sont une chose délicate. Il est préférable de remplacer des émissions trop importantes par un maximum plus acceptable.

Il n'est pas possible de se débarrasser complètement des émissions. Mais pour minimiser leur impact sur la distribution, non seulement on peut et on doit utiliser le logarithme.

> summary(diff(eur))
     Index                       diff(eur)         
 Min.   :2016-01-04 00:00:00   Min.   :-0.0230100  
 1 st Qu.:2016-04-14 19:00:00   1 st Qu.:-0.0005300  
 Median :2016-07-27 12:00:00   Median : 0.0000100  
 Mean   :2016-07-27 12:01:14   Mean   :-0.0000036  
 3 rd Qu.:2016-11-08 06:00:00   3 rd Qu.: 0.0005200  
 Max.   :2017-02-17 23:00:00   Max.   : 0.0143400  


> summary((diff(eur, log=T)))
     Index                     (diff(eur, log = T))
 Min.   :2016-01-04 00:00:00   Min.   :-0.0206443  
 1st Qu.:2016-04-14 19:00:00   1st Qu.:-0.0004810  
 Median :2016-07-27 12:00:00   Median : 0.0000090  
 Mean   :2016-07-27 12:01:14   Mean   :-0.0000034  
 3rd Qu.:2016-11-08 06:00:00   3rd Qu.: 0.0004755  
 Max.   :2017-02-17 23:00:00   Max.   : 0.0127862  
                               NA's   :1


Si nous prenons un cas hypothétique avec des citations adjacentes 10 et 2

10/2 = 5

log (10/2) = 0,69

 
Maxim Dmitrievsky:

Parce que le logarithme dans ce cas n'évite pas les valeurs aberrantes : le calcul des incréments avec n-lag évite les valeurs aberrantes.



n-lag est une augmentation de la TF, et plus la TF est grande, plus l'augmentation est importante.

Votre lag 50 est n8, seulement plus précis dans le sens où votre TF=8 heures commence chaque minute, contrairement au graphique normal.

 
SanSanych Fomenko:

Les émissions sont une chose délicate. Il est préférable de remplacer complètement les émissions trop élevées par un maximum plus acceptable.

Il n'est pas possible de se débarrasser complètement des émissions. Mais il est non seulement possible mais nécessaire de réduire leur influence sur la distribution et cela se fait par logarithme.



Si nous prenons un cas hypothétique avec des citations adjacentes 10 et 2

10/2 = 5

log (10/2) = 0,69

bien, vous avez trouvé la puissance de e pour obtenir la valeur de l'incrément initial

mais tu ne t'es pas débarrassé des aberrations.

J'ai cité 2 photos ci-dessus