L'Apprentissage Automatique dans le trading : théorie, modèles, pratique et trading algo - page 163
Vous manquez des opportunités de trading :
- Applications de trading gratuites
- Plus de 8 000 signaux à copier
- Actualités économiques pour explorer les marchés financiers
Inscription
Se connecter
Vous acceptez la politique du site Web et les conditions d'utilisation
Si vous n'avez pas de compte, veuillez vous inscrire
1) Si vous regardez les premières publications de l'auteur des algorithmes de randomforest, l'auteur était très sérieux en affirmant que rf n'est pas du tout sujet au surentraînement et donnait de nombreux exemples. Le paquet randomforest lui-même est construit de manière à exclure le moindre soupçon de surentraînement.
En même temps, l'algorithme le plus surentraîné est randomforest. Je me suis personnellement brûlé.
2) La grande majorité des publications sur l'apprentissage automatique ne sont testées sur aucun analogue de fichier secondaire. La raison est triviale. Les algorithmes ne sont PAS appliqués aux séries chronologiques. Et il s'avère que la division aléatoire du fichier numéro un est tout à fait suffisante. Et c'est effectivement le cas pour la reconnaissance de textes manuscrits, par exemple.
1) Forrest, GBM et toute autre méthode sont recyclés. Invisible sur les données pliées et très perceptible sur les données très bruyantes.
2) Il y a, il y a des publications qui discutent de l'introduction de la validation croisée emboîtée sur des échantillons supplémentaires dans une plage de temps différente.
2) Il y a, il y a des publications qui discutent de l'introduction de la validation croisée emboîtée sur des échantillons supplémentaires dans une plage de temps différente.
Si cela ne vous dérange pas, le lien
Une des discussions : http://stats.stackexchange.com/questions/65128/nested-cross-validation-for-model-selection
Ibid : /go?link=https://stats.stackexchange.com/questions/103828/use-of-nested-cross-validation
Il y a des liens vers des articles dans les discussions.
Un article intéressant : http://www.andrewng.org/portfolio/preventing-overfitting-of-cross-validation-data/
Comme vous pouvez le voir dans le titre, il s'agit du surentraînement, qui se produit au stade de l'évaluation du modèle sur les foules de validation de la validation croisée. Par conséquent, en plus de la validation croisée, vous avez également besoin d'un échantillon pour évaluer un modèle déjà sélectionné.
Si krakto (déjà écrit à ce sujet) :
Un modèle sélectionné par validation croisée doit être revalidé par un autre échantillon retardé.
Et la validation croisée imbriquée implique la construction de n k-fold crossvalidations (sur des données différentes) suivie d'une validation sur n échantillons retardés (chaque fois sur des données différentes).
Et ce n'est pas tout. Si la couche supérieure des échantillons différés est re-sélectionnée, par exemple un comité de modèles basé sur les données de ces échantillons différés, alors la validation du comité doit être faite sur un échantillon différé de plus.
Idéalement, ce processus :
k-fold кроссвалидация
-------------------------------- повторилась n раз
------------------------------------------------------------- на полученных данных сформирован комитет
------------------------------------------------------------------------------------------------------------------------ комитет валидирован на еще одной выборке из будущего
doit être répétée non pas une mais plusieurs fois, afin d'inverser les résultats au niveau le plus élevé. Cela permet de réduire le biais à un minimum réalisable.
Mais ce faisant, la valeur attendue de la SF, par exemple, peut être réduite plusieurs fois... La douleur.
l'introduction de la validation croisée emboîtée sur des échantillons supplémentaires dans une plage de temps différente.
Je fais aussi quelque chose de similaire. Disons que j'ai une année de données à former. Je vais entraîner 12 modèles - un sur les données de janvier, le deuxième modèle sur les données de février, le troisième sur les données de mars, etc. Je sélectionne les prédicteurs et les paramètres du modèle pour obtenir les bonnes performances de l'un de ces modèles entraînés sur une petite partie des données pendant toute l'année et cela me donne un certain espoir que les prédicteurs utilisés aient des relations stables entre eux. Prendre une décision sur les nouvelles données en utilisant cet ensemble de modèles.
De toutes les méthodes de validation croisée que j'ai essayées, celle-ci a donné les meilleurs résultats sur les nouvelles données. Mais il y a beaucoup de problèmes non résolus - combien de modèles devrait-il y avoir, c'est-à-dire que je peux en former une centaine au lieu de 12, mais y a-t-il un intérêt ? L'évaluation du commerce est également importante, je peux choisir n'importe quoi, y compris rf ou sharp, je dois expérimenter pour trouver le meilleur.
Je fais aussi quelque chose de similaire. Disons que j'ai une année de données d'entraînement. Je vais former 12 modèles - un pour janvier, le deuxième pour février, le troisième pour mars, etc. Je sélectionne les prédicteurs et les paramètres du modèle pour obtenir les bonnes performances de n'importe lequel de ces modèles entraînés sur une petite partie des données pendant toute l'année et cela me donne un certain espoir que les prédicteurs utilisés aient des relations stables entre eux. Prendre une décision sur les nouvelles données en utilisant cet ensemble de modèles.
De toutes les méthodes de validation croisée que j'ai essayées, celle-ci a donné les meilleurs résultats sur les nouvelles données. Mais il y a beaucoup de problèmes non résolus - combien de modèles devrait-il y avoir, c'est-à-dire que je peux en former une centaine au lieu de 12, mais y a-t-il un intérêt ? L'évaluation commerciale est également importante, vous pouvez choisir n'importe quoi, y compris rf ou sharp, vous devez expérimenter pour trouver le meilleur.
Je fais aussi quelque chose de similaire. Disons que j'ai une année de données d'entraînement. Je forme 12 modèles - un pour janvier, le deuxième pour février, le troisième pour mars, etc. Je sélectionne les prédicteurs et les paramètres du modèle pour obtenir les bonnes performances de n'importe lequel de ces modèles entraînés sur une petite partie des données pendant toute l'année et cela me donne un certain espoir que les prédicteurs utilisés aient des relations stables entre eux. Prendre une décision sur les nouvelles données en utilisant cet ensemble de modèles.
De toutes les méthodes de validation croisée que j'ai essayées, celle-ci a donné les meilleurs résultats sur les nouvelles données. Mais il y a beaucoup de problèmes non résolus - combien de modèles devrait-il y avoir, c'est-à-dire que je peux en former une centaine au lieu de 12, mais y a-t-il un intérêt ? L'évaluation du commerce est également importante, il y a tout ce qu'il faut pour choisir, y compris la rf ou le sharp, vous devez expérimenter pour trouver le meilleur.
Une des discussions : http://stats.stackexchange.com/questions/65128/nested-cross-validation-for-model-selection
Ibid : /go?link=https://stats.stackexchange.com/questions/103828/use-of-nested-cross-validation
Il y a des liens vers des articles dans les discussions.
Un article intéressant : http://www.andrewng.org/portfolio/preventing-overfitting-of-cross-validation-data/
Comme vous pouvez le voir dans le titre, il s'agit du surentraînement, qui se produit au stade de l'évaluation du modèle sur les foules de validation de la validation croisée. Par conséquent, outre la validation croisée, nous avons besoin d'un autre échantillon pour estimer le modèle déjà sélectionné.