Régression bayésienne - Est-ce que quelqu'un a fait un EA en utilisant cet algorithme ? - page 51
Vous manquez des opportunités de trading :
- Applications de trading gratuites
- Plus de 8 000 signaux à copier
- Actualités économiques pour explorer les marchés financiers
Inscription
Se connecter
Vous acceptez la politique du site Web et les conditions d'utilisation
Si vous n'avez pas de compte, veuillez vous inscrire
Et comment déterminer la "meilleure" combinaison ?
Le problème de base est celui de la liste des prédicteurs. Après avoir justifié la liste des prédicteurs, nous pouvons passer au reste.
Merci. Je penche également pour l'ajout de plus de prédicteurs.
Pensez-vous que le nombre de prédicteurs que vous utilisez est insuffisant ?
Je n'en suis pas sûr.
Je n'en suis pas sûr.
Je l'ai déjà écrit, je le répète.
J'ai effectué le travail sur la sélection des prédicteurs plusieurs fois, y compris sur demande. Les résultats sont donnés ci-dessous
Donc.
Prenons un ensemble de prédicteurs, pas moins de 50, et mieux qu'une centaine.
Tous les ensembles de prédicteurs que j'ai traités (c'est-à-dire que je ne prétends pas généraliser) peuvent être divisés en deux parties :
J'écris "relation" très soigneusement et, délibérément, je n'utilise aucun terme.
Exemple de prédicteurs :
Veuillez noter que je spécifie la variable cible. Pour l'autre variable cible, ce peut être l'inverse.
Le problème que pose la présence de ces deux groupes de prédicteurs dans l'ensemble initial de prédicteurs est que les outils standard pour déterminer l'IMPORTANCE ne fonctionnent pas. Il faut donc des outils, que j'ai développés et que j'utilise, qui permettent de faire un tri grossier des prédicteurs de bruit. Il convient de noter qu'il n'y a pas d'ambiguïté ici. L'algorithme quantifie séparément pour les prédicteurs valides et nominaux. Moins de 2 (une certaine valeur relative) est du bruit, c'est certain. Entre 2 et 3 : peut être utilisé, mais mieux vaut ne pas le faire....
Le problème avec le bruit est que les prédicteurs pertinents pour le bruit écrasent les prédicteurs non pertinents pour eux. Par exemple, les algorithmes randomforest, ada et svm, pour une raison quelconque, construisent le modèle davantage sur ces prédicteurs de bruit.
Après avoir éliminé les prédicteurs bruyants, et dans mes ensembles il y en avait environ 80%( !), nous prenons le reste de la liste des prédicteurs et commençons à appliquer les outils de R pour déterminer l'importance des variables. Le nombre réel de prédicteurs utilisés pour entraîner le modèle est environ la moitié des prédicteurs NON bruyants, c'est-à-dire environ 10% de l'ensemble original.
Je détermine l'importance des prédicteurs dans la fenêtre. Au fur et à mesure que la fenêtre se déplace, la liste des prédicteurs des 20% de base change tout le temps. C'est-à-dire que 12 à 15 prédicteurs sont utilisés pour construire le modèle, mais ils sont différents au fur et à mesure que la fenêtre se déplace après la citation.
Quelle est la raison ?
Le fait est que le fait de débarrasser l'ensemble des prédicteurs du bruit entraîne la création de modèles qui ne sont PAS réentraînés.
En chiffres.
Sur un ensemble complet de prédicteurs, il est possible de construire des modèles avec une erreur de prédiction de 3 à 5 % ! Et tous les algorithmes qui divisent l'échantillon en parties, dites "hors échantillon" - OOV, confirment ce résultat. On le voit très bien chez raatle, qui divise toujours l'échantillon original en plusieurs parties et est très satisfait des résultats.
Mais.
Si l'échantillon initial contient des prédicteurs de bruit, alors si on prend un véritable "hors échantillon", c'est-à-dire par exemple l'échantillon pour l'entraînement du 01.06.2015 au 01.01.2016, et qu'on calcule ensuite sur l'échantillon après le 1er janvier, on peut facilement obtenir une erreur de 50% et 70% au lieu de 3%-5% ! En outre, plus on s'éloigne du 1er janvier, plus le résultat est mauvais.
LE MODÈLE EST RÉENTRAÎNÉ
Si je nettoie l'ensemble original de prédicteurs de bruit, les résultats sont les suivants et il en est de même pour randomforest, ada SVM ainsi que plusieurs autres modèles - c'est-à-dire que le modèle n'a rien résolu dans mes cas, les résultats sont les suivants : l'erreur de prédiction est d'environ 30% sur n'importe quel ensemble. En appliquant les outils d'importance des prédicteurs de R, nous pouvons encore réduire l'erreur à environ 25%. Il n'a pas été possible d'améliorer ce résultat pour la variable cible ZZ.
Je l'ai déjà écrit, je le répète.
J'ai fait le travail de sélection des prédicteurs à plusieurs reprises, y compris sur commande. Les résultats sont donnés ci-dessous
Donc.
Prenons un ensemble de prédicteurs, pas moins de 50, et de préférence plus d'une centaine.
Tous les ensembles de prédicteurs que j'ai traités (c'est-à-dire que je ne prétends pas généraliser) peuvent être divisés en deux parties :
J'écris "relation" très soigneusement et, délibérément, je n'utilise aucun terme.
Exemple de prédicteurs :
Veuillez noter que je spécifie la variable cible. Pour l'autre variable cible, ce peut être l'inverse.
Le problème que pose la présence de ces deux groupes de prédicteurs dans l'ensemble initial de prédicteurs est que les outils standard pour déterminer l'IMPORTANCE ne fonctionnent pas. Il faut donc des outils, que j'ai développés et que j'utilise, qui permettent de faire un tri grossier des prédicteurs de bruit. Il convient de noter qu'il n'y a pas d'ambiguïté ici. L'algorithme quantifie séparément pour les prédicteurs valides et nominaux. Moins de 2 (une certaine valeur relative) est du bruit, c'est certain. Entre 2 et 3 : peut être utilisé, mais mieux vaut ne pas le faire....
Le problème avec le bruit est que les prédicteurs pertinents pour le bruit écrasent les prédicteurs non pertinents pour eux. Par exemple, les algorithmes randomforest, ada et svm, pour une raison quelconque, construisent le modèle davantage sur ces prédicteurs de bruit.
Après avoir éliminé les prédicteurs bruyants, et dans mes ensembles il y en avait environ 80%( !), nous prenons le reste de la liste des prédicteurs et commençons à appliquer les outils de R pour déterminer l'importance des variables. Le nombre réel de prédicteurs utilisés pour entraîner le modèle est environ la moitié des prédicteurs NON bruyants, c'est-à-dire environ 10% de l'ensemble original.
Je détermine l'importance des prédicteurs dans la fenêtre. Au fur et à mesure que la fenêtre se déplace, la liste des prédicteurs des 20% de base change tout le temps. C'est-à-dire que 12 à 15 prédicteurs sont utilisés pour construire le modèle, mais ils sont différents au fur et à mesure que la fenêtre se déplace après la citation.
Quelle est la raison ?
Le fait est que le fait de débarrasser l'ensemble des prédicteurs du bruit entraîne la création de modèles qui ne sont PAS réentraînés.
En chiffres.
Avec un ensemble complet de prédicteurs, il est possible de construire des modèles avec une erreur de prédiction de 3 à 5 % ! Et tous les algorithmes qui divisent l'échantillon en parties, dites "hors échantillon" - OOV, confirment ce résultat. On le voit très bien chez raatle, qui divise toujours l'échantillon original en plusieurs parties et est très satisfait des résultats.
Mais.
Si l'échantillon initial contient des prédicteurs de bruit, alors si on prend un véritable "hors échantillon", c'est-à-dire par exemple l'échantillon pour l'entraînement du 01.06.2015 au 01.01.2016, et qu'on calcule ensuite sur l'échantillon après le 1er janvier, on peut facilement obtenir une erreur de 50% et 70% au lieu de 3%-5% ! En outre, plus on s'éloigne du 1er janvier, plus le résultat est mauvais.
LE MODÈLE EST RÉENTRAÎNÉ
Si je nettoie l'ensemble original de prédicteurs de bruit, les résultats sont les suivants et il en est de même pour randomforest, ada SVM ainsi que plusieurs autres modèles - c'est-à-dire que le modèle n'a rien résolu dans mes cas, les résultats sont les suivants : l'erreur de prédiction est d'environ 30% sur n'importe quel ensemble. En appliquant les outils d'importance des prédicteurs de R, nous pouvons encore réduire l'erreur à environ 25%. Il n'a pas été possible d'améliorer ce résultat pour la variable cible ZZ.
Merci.
Je vois ce que vous pensez. De tout ce qui précède, j'ai vu une possibilité de calculer l'importance des prédicteurs sur plusieurs parties de l'échantillon d'entraînement, puis de comparer les listes et de sélectionner les doublons.
Je ne peux rien dire sur la sélection manuelle, je préfère utiliser la machine tout de suite.
SZZ : Je vais essayer d'appliquer ma méthode maison, basée sur la fonction d'information mutuelle, en plus de l'importance des variables de la forêt de décision. Je vous montrerai les résultats plus tard.
Le problème du bruit est que les prédicteurs relatifs au bruit encombrent les prédicteurs qui n'y sont pas liés. Par exemple, les algorithmes randomforest, ada et svm, pour une raison quelconque, construisent le modèle davantage sur ces prédicteurs de bruit.