L'apprentissage automatique dans la négociation : théorie, modèles, pratique et algo-trading - page 86

 
Mihail Marchukajtes:

Admettons qu'il l'ait mélangé et divisé par deux, alors le nombre de classes sera le même dans les échantillons d'entraînement et de test, n'est-ce pas ?

Si le nombre d'exemples des deux classes dans l'échantillon n'était pas le même, alors ils ne seront pas les mêmes dans la partie test. Seuls les exemples de la classe la moins représentative seront divisés en deux : la moitié d'entre eux se trouvera dans la partie formation, et l'autre moitié dans la partie test. Dans la partie enseignement, il y aura exactement autant d'exemples de la classe la plus représentative que de la moins représentative. Le reste de la classe la plus représentative, qui n'a pas été incluse dans la partie formation, sera incluse dans la partie test.

Le fait est que dans les versions antérieures, il n'y avait pas du tout d'équilibrage. L'échantillon a été mélangé par MSRP et trivialement divisé en deux parties : une moitié des échantillons a été utilisée pour la formation et l'autre moitié pour la partie test. Puis je suis tombé sur un échantillon dans lequel les exemples des deux classes étaient fortement déséquilibrés. Il était tout à fait évident que la classe la plus représentative avait d'excellents résultats en matière de généralisabilité, tandis que la classe peu représentative était en dessous du socle. J'ai dû ajouter un équilibrage à l'algorithme de séparation pour éliminer ces valeurs aberrantes.

 
Nah... c'est OK.... fausse alerte :-)
 
SanSanych Fomenko:
Le modèle est réentraîné car la liste des prédicteurs n'a pas été nettoyée des prédicteurs de bruit. Il s'agit d'un exemple de formation et il est présenté comme tel délibérément. C'est pourquoi je le dis avec confiance.

J'y ai réfléchi.
La forêt se souvient des données, c'est un fait, et avec plus d'arbres, elle aura une plus grande "capacité de mémoire" pour se souvenir. Mais si, même avec un nombre suffisant d'arbres, la précision n'atteint pas 100 %, cela signifie que les données d'apprentissage contiennent des exemples incohérents. Il existe des ensembles d'exemples d'apprentissage, où les valeurs des prédicteurs sont exactement les mêmes, mais où les classes sont différentes. De telles données ne peuvent jamais être prédites à 100%, même avec des données d'entraînement. Ainsi, le modèle ne peut même pas apprendre complètement, il manque simplement de données et a donc moins de chances de se recycler.
L'incohérence des exemples de formation n'est même pas due à une erreur, mais à la suppression d'un prédicteur qui permettrait une précision de 100 %. Mais sans cela, les prédictions sur les nouvelles données seront meilleures.
Règle très intéressante, nous pouvons l'utiliser pour créer une méthode simple de préestimation de l'ensemble des prédicteurs afin d'écarter certains ensembles avant la formation et la validation croisée des modèles.

 

Bonjour !

1) Est-ce que quelqu'un a essayé l'une des méthodes ci-dessus ? Des résultats ?

2) Quelqu'un a-t-il essayé de tester des stratégies directement dans R ? J'ai besoin de simuler des transactions dans R-ka de manière assez primitive, mais il y a des stops et d'autres petites choses, y a-t-il un outil qui rendra cela aussi simple et rapide que possible ?

 
Yury Reshetov:

Où puis-je obtenir des volumes réels sous forme de données historiques ? MetaTrader ne fournit qu'un compteur de ticks, appelé "volumes". En outre, les valeurs de ces compteurs peuvent différer de plusieurs ordres de grandeur dans différentes cuisines.

...

Lesvolumes de tique diffèrent non seulement dans différentes cuisines, mais aussi dans une seule. Parfois, vous pouvez voir une étape, ici il y avait un flux dense, puis bam est passé à un flux clairsemé.

Ceci est dû à un changement du filtre de teck à l'intérieur du dilling.

Question intéressante : il existe une corrélation entre les volumes réels et les volumes en ticks, et il existe une corrélation entre les volumes en ticks et la taille des barres.

 
Nikolay Demko:

Cela signifie-t-il qu'il existe une corrélation entre les volumes réels et la taille des barres ?

bien sûr
 
mytarmailS:
bien sûr
Quelle est la collocation entre le volume et la barre. Le volume peut être élevé et le corps de la bougie est absent, il en va de même pour l'oborod. Le volume est faible et la bougie est montée.... tout dépend des conditions du marché au moment du marché....
 
Mihail Marchukajtes:
Quelle est la signification de la corrélation entre le volume et la barre. Le volume peut être élevé et le corps du chandelier absent, il en va de même pour la barre. Le volume est faible et le chandelier s'est développé..... tout dépend des conditions du marché au moment du marché....

:)

Je pensais que nous parlions de marchés très liquides, c'est-à-dire de marchés à terme et de marchés de devises, je ne pense pas que quiconque négocie des pénalités.

http://prntscr.com/c10p51

La figure montre la corrélation dans une fenêtre glissante de 100, la volatilité par rapport au volume, si je me souviens bien, une valeur supérieure à 0,6 est considérée comme une corrélation positive significative.

Скриншот
Скриншот
  • prnt.sc
Снято с помощью Lightshot
 
mytarmailS:

Peut-être que quelqu'un sera intéressé, j'ai trouvé un paquet qui peut simuler le trading et construire des systèmes de trading appelé quantstrat.

http://www.rinfinance.com/agenda/2013/workshop/Humme+Peterson.pdf

Je vais reposer ça, peut-être que ça s'est juste envolé.

et un autre lien utilehttp://www.r-programming.org/papers

ou personne n'est intéressé par ces paquets ? si non, pourquoi ? je suis curieux de savoir comment et où les gens testent leurs modèles

 
mytarmailS:

Je vais le reposter, peut-être qu'il est juste passé à côté.

et un autre lien utilehttp://www.r-programming.org/papers

ou personne n'est intéressé par ces paquets ? si non, pourquoi ? je suis curieux de savoir comment et où les gens testent leurs modèles

Tous les paquets (modèles) peuvent être divisés en deux catégories :

  • bon en principe
  • pas bon en principe

Les performances des paquets qui sont "fondamentalement bons" sont à peu près les mêmes, les différences ne sont pas substantielles.

Le problème ne vient pas du modèle, mais de l'ensemble des prédicteurs et de leur préconditionnement. Si nous prenons un ensemble de prédicteurs, la possibilité de construire un modèle NON surentraîné, ainsi que l'ampleur de l'erreur dépendent peu de la modification du modèle. Il faut donc choisir le modèle le plus simple et le plus rapide parmi ceux qui "correspondent en principe".

PS.

D'après ma propre expérience. À moi plus de 75% de la main-d'œuvre dans la construction de TS - est la sélection des prédicteurs, si à tous parvient à trouver un tel ensemble pour une variable cible particulière.