L'apprentissage automatique dans la négociation : théorie, modèles, pratique et algo-trading - page 163

 
SanSanych Fomenko:

1) Si vous regardez les premières publications de l'auteur des algorithmes de randomforest, l'auteur était très sérieux en affirmant que rf n'est pas du tout sujet au surentraînement et donnait de nombreux exemples. Le paquet randomforest lui-même est construit de manière à exclure le moindre soupçon de surentraînement.

En même temps, l'algorithme le plus surentraîné est randomforest. Je me suis personnellement brûlé.


2) La grande majorité des publications sur l'apprentissage automatique ne sont testées sur aucun analogue de fichier secondaire. La raison est triviale. Les algorithmes ne sont PAS appliqués aux séries chronologiques. Et il s'avère que la division aléatoire du fichier numéro un est tout à fait suffisante. Et c'est effectivement le cas pour la reconnaissance de textes manuscrits, par exemple.

1) Forrest, GBM et toute autre méthode sont recyclés. Invisible sur les données pliées et très perceptible sur les données très bruyantes.

2) Il y a, il y a des publications qui discutent de l'introduction de la validation croisée emboîtée sur des échantillons supplémentaires dans une plage de temps différente.

 
Alexey Burnakov:

2) Il y a, il y a des publications qui discutent de l'introduction de la validation croisée emboîtée sur des échantillons supplémentaires dans une plage de temps différente.

Si cela ne vous dérange pas, un lien
 
SanSanych Fomenko:
Si cela ne vous dérange pas, le lien


Une des discussions : http://stats.stackexchange.com/questions/65128/nested-cross-validation-for-model-selection

Ibid : /go?link=https://stats.stackexchange.com/questions/103828/use-of-nested-cross-validation

Il y a des liens vers des articles dans les discussions.

Un article intéressant : http://www.andrewng.org/portfolio/preventing-overfitting-of-cross-validation-data/

Comme vous pouvez le voir dans le titre, il s'agit du surentraînement, qui se produit au stade de l'évaluation du modèle sur les foules de validation de la validation croisée. Par conséquent, en plus de la validation croisée, vous avez également besoin d'un échantillon pour évaluer un modèle déjà sélectionné.

Nested cross validation for model selection
Nested cross validation for model selection
  • stats.stackexchange.com
How can one use nested cross validation for model selection? From what I read online, nested CV works as follows: There is the inner CV loop, where we may conduct a grid search (e.g. running K-fold for every available model, e.g. combination of hyperparameters/features) There is the outer CV loop, where we measure the performance of the model...
 

Si krakto (déjà écrit à ce sujet) :

Un modèle sélectionné par validation croisée doit être revalidé par un autre échantillon retardé.

Et la validation croisée imbriquée implique la construction de n k-fold crossvalidations (sur des données différentes) suivie d'une validation sur n échantillons retardés (chaque fois sur des données différentes).

Et ce n'est pas tout. Si la couche supérieure des échantillons différés est re-sélectionnée, par exemple un comité de modèles basé sur les données de ces échantillons différés, alors la validation du comité doit être faite sur un échantillon différé de plus.

Idéalement, ce processus :

k-fold кроссвалидация 

-------------------------------- повторилась n раз

------------------------------------------------------------- на полученных данных сформирован комитет

------------------------------------------------------------------------------------------------------------------------ комитет валидирован на еще одной выборке из будущего 

doit être répétée non pas une mais plusieurs fois, afin d'inverser les résultats au niveau le plus élevé. Cela permet de réduire le biais à un minimum réalisable.

Mais ce faisant, la valeur attendue de la SF, par exemple, peut être réduite plusieurs fois... La douleur.

 
Alexey Burnakov:

l'introduction de la validation croisée emboîtée sur des échantillons supplémentaires dans une plage de temps différente.

Je fais aussi quelque chose de similaire. Disons que j'ai une année de données à former. Je vais entraîner 12 modèles - un sur les données de janvier, le deuxième modèle sur les données de février, le troisième sur les données de mars, etc. Je sélectionne les prédicteurs et les paramètres du modèle pour obtenir les bonnes performances de l'un de ces modèles entraînés sur une petite partie des données pendant toute l'année et cela me donne un certain espoir que les prédicteurs utilisés aient des relations stables entre eux. Prendre une décision sur les nouvelles données en utilisant cet ensemble de modèles.

De toutes les méthodes de validation croisée que j'ai essayées, celle-ci a donné les meilleurs résultats sur les nouvelles données. Mais il y a beaucoup de problèmes non résolus - combien de modèles devrait-il y avoir, c'est-à-dire que je peux en former une centaine au lieu de 12, mais y a-t-il un intérêt ? L'évaluation du commerce est également importante, je peux choisir n'importe quoi, y compris rf ou sharp, je dois expérimenter pour trouver le meilleur.

 
Vous voulez un indice, que je vais aborder en détail dans mon article ?????. Tu le veux ou pas ?
 
Dr. Trader:

Je fais aussi quelque chose de similaire. Disons que j'ai une année de données d'entraînement. Je vais former 12 modèles - un pour janvier, le deuxième pour février, le troisième pour mars, etc. Je sélectionne les prédicteurs et les paramètres du modèle pour obtenir les bonnes performances de n'importe lequel de ces modèles entraînés sur une petite partie des données pendant toute l'année et cela me donne un certain espoir que les prédicteurs utilisés aient des relations stables entre eux. Prendre une décision sur les nouvelles données en utilisant cet ensemble de modèles.

De toutes les méthodes de validation croisée que j'ai essayées, celle-ci a donné les meilleurs résultats sur les nouvelles données. Mais il y a beaucoup de problèmes non résolus - combien de modèles devrait-il y avoir, c'est-à-dire que je peux en former une centaine au lieu de 12, mais y a-t-il un intérêt ? L'évaluation commerciale est également importante, vous pouvez choisir n'importe quoi, y compris rf ou sharp, vous devez expérimenter pour trouver le meilleur.

Réponse : 9
 
Dr. Trader:

Je fais aussi quelque chose de similaire. Disons que j'ai une année de données d'entraînement. Je forme 12 modèles - un pour janvier, le deuxième pour février, le troisième pour mars, etc. Je sélectionne les prédicteurs et les paramètres du modèle pour obtenir les bonnes performances de n'importe lequel de ces modèles entraînés sur une petite partie des données pendant toute l'année et cela me donne un certain espoir que les prédicteurs utilisés aient des relations stables entre eux. Prendre une décision sur les nouvelles données en utilisant cet ensemble de modèles.

De toutes les méthodes de validation croisée que j'ai essayées, celle-ci a donné les meilleurs résultats sur les nouvelles données. Mais il y a beaucoup de problèmes non résolus - combien de modèles devrait-il y avoir, c'est-à-dire que je peux en former une centaine au lieu de 12, mais y a-t-il un intérêt ? L'évaluation du commerce est également importante, il y a tout ce qu'il faut pour choisir, y compris la rf ou le sharp, vous devez expérimenter pour trouver le meilleur.

C'est un ajustement. En sélectionnant les paramètres et les entrées, vous pouvez facilement obtenir des modèles qui fonctionnent pour au moins 3 années du test.

J'ai moi aussi quelques moeydels (100) qui montrent de bons résultats sur des données en dehors de la formation. Nous parlons de 10 ans... Mais c'est uniquement parce que les modèles sont choisis spécifiquement sur des données de test (hors formation). En d'autres termes, résister à l'épreuve.

Votre prochaine étape consiste à évaluer ces modèles ou tout autre comité sélectionné sur un échantillon supplémentaire retardé. Et de préférence, chaque modèle sur des données uniques. Vous comprendrez alors comment la qualité du test est en corrélation avec la qualité de l'échantillon sur lequel le modèle n'a pas été sélectionné.
 
Alexey Burnakov:


Une des discussions : http://stats.stackexchange.com/questions/65128/nested-cross-validation-for-model-selection

Ibid : /go?link=https://stats.stackexchange.com/questions/103828/use-of-nested-cross-validation

Il y a des liens vers des articles dans les discussions.

Un article intéressant : http://www.andrewng.org/portfolio/preventing-overfitting-of-cross-validation-data/

Comme vous pouvez le voir dans le titre, il s'agit du surentraînement, qui se produit au stade de l'évaluation du modèle sur les foules de validation de la validation croisée. Par conséquent, outre la validation croisée, nous avons besoin d'un autre échantillon pour estimer le modèle déjà sélectionné.

Merci. C'est agréable de voir que je ne suis pas le seul à m'en soucier.
 
Vous êtes ennuyeux, surtout dans le domaine des nouvelles connaissances...