L'apprentissage automatique dans la négociation : théorie, modèles, pratique et algo-trading - page 162

 
SanSanych Fomenko:

Merci, je l'ai lu.

Je pense que l'auteur est trop optimiste.

Le problème du surentraînement n'est pas soluble en principe.

...

En théorie, elle est soluble du point de vue de la déterminité universelle de Laplace, par exemple, si tous les facteurs nécessaires sont connus à l'avance et que l'on peut y accéder par l'information. Mais en pratique, cette "décidabilité" pose de nombreux problèmes (tous les facteurs ne sont pas connus et tous ne sont pas disponibles, et ceux qui sont disponibles sont souvent bruyants).

SanSanych Fomenko:


...

Selon ma conviction, si les prédicteurs d'entrée ne sont pas d'abord débarrassés des prédicteurs de bruit, c'est-à-dire "non pertinents" pour la variable cible, alors la méthode de "coarsening" ne fonctionne pas et les autres méthodes qui utilisent le concept d'"importance" des prédicteurs ne fonctionnent pas non plus.

Selon votre conviction, et sur la base de la confirmation par mes expériences avec jPrediction, cela semble être exactement ce que cela devrait être ?

Mais le drame est que toutes les expériences ne confirment pas l'affirmation ci-dessus. Tout dépend du type de méthodes d'apprentissage automatique utilisées.

Par exemple, Viktor Tsaregorodtsev a mené des recherches sur les réseaux neuronaux avec BackPropagation et, sur la base des résultats, est arrivé à des conclusions tout à fait opposées dans son article"Reduction of neural network size does not lead to increased generalization ability", et je cite :

"Cela contredit l'opinion selon laquelle l' élimination des caractéristiques bruyantes, non informatives et des neurones redondants est obligatoire et utile en pratique."

En d'autres termes, il s'avère qu'il est absolument inutile de tirer des conclusions générales pour toutes les méthodes d'apprentissage automatique sans exception (pour faire une approche unique). Pour certaines méthodes, ces "conclusions" seront correctes, tandis que pour d'autres, elles pourront s'avérer délibérément erronées.

 
Yury Reshetov:

Par augmentation de la complexité des modèles dans jPrediction, nous entendons l'augmentation progressive du nombre de prédicteurs. Parce que dans jPrediction le nombre de neurones dans la couche cachée est 2^(2*n+1), où n est le nombre de prédicteurs. Ainsi, avec l'augmentation du nombre de prédicteurs, la complexité du modèle (nombre de neurones dans la couche cachée) augmente.


S'il y a 100 prédicteurs, alors, selon votre formule, le nombre de neurones dans une couche cachée sera presque égal au nombre d'atomes dans l'Univers (j'ai peur de penser à 200 prédicteurs). Vous semblez disposer de ressources divines - calcul et temps.



 
Andrey Dik:

CC vient de donner un exemple très malheureux tout en continuant à persister dans son ignorance...

Que voulez-vous dire par "autres forces" ? Les mêmes forces agissent sur le ballon et sur la peluche - la force de gravité (poids) et la force du vent répartie sur la moitié de la surface du corps.

...

Andrew, je te rappelle que ce fil de discussion porte sur l'apprentissage des machines, pas sur les problèmes de physique.

Veuillez avoir la gentillesse de ne pas vous lancer dans des sujets distraits, qui ne sont pas les bienvenus dans ce fil.

Si vous êtes si désireux de vous vanter de vos connaissances en physique, créez un fil de discussion distinct consacré à ce sujet.

D'autant plus que vous essayez de défier la métaphore avec un visage intelligent, en vous mettant dans une position délibérément stupide.

 
Yury Reshetov:

Andrew, je te rappelle que ce fil de discussion porte sur l'apprentissage des machines, pas sur les problèmes de physique.

Veuillez avoir la gentillesse de ne pas vous lancer dans des sujets distraits, qui ne sont pas les bienvenus dans ce fil.

Si vous voulez vous vanter de vos connaissances en physique, commencez un fil séparé sur la physique.

D'autant plus lorsque vous essayez de faire preuve d'intelligence pour défier une métaphore, en vous mettant dans une position délibérément stupide.

Eh bien, si vous pensez que les métaphores basées sur des exemples erronés ont une quelconque valeur, je n'interviendrai pas davantage.

Je suis désolé. Et vous CC excusez moi.

 
sibirqk:

S'il y a 100 prédicteurs, selon votre formule, le nombre de neurones dans une couche cachée sera proche du nombre d'atomes dans l'Univers (je n'ose même pas penser à 200 prédicteurs). Vous semblez disposer de ressources divines - calcul et temps.

Je me fiche qu'il y ait 10 000 prédicteurs. Il n'est pas certain qu'ils soient tous informatifs. En d'autres termes, jPrediction trouvera parmi elles quelques-unes des plus informatives, ce qui compliquera progressivement les modèles. Elle s'arrêtera dès que le caractère généralisable commencera à diminuer.

Il ne s'agit pas de ressources divines. Un ordinateur personnel ordinaire est tout à fait suffisant.

 
Andrey Dik:

OK, si vous pensez que les métaphores basées sur des exemples erronés ont une quelconque valeur, alors je n'interviendrai plus à partir de maintenant.

Je suis désolé. Et vous CC excusez moi.

Les métaphores n'ont aucune valeur autre que rhétorique, indépendamment de leur succès rhétorique. Et s'en prendre à eux est une mauvaise idée.

Excuses acceptées bien sûr.

 
Yury Reshetov:
Les métaphores n'ont aucune valeur autre que rhétorique, indépendamment de leur succès rhétorique. Et s'en prendre à eux est une mauvaise idée.

Si une chose dite n'a aucune valeur, c'est du bolabolisme. Je ne pense pas que CC voulait faire du bola-bola-bola-bola, c'est juste la façon dont il l'a fait.

Et les métaphores sont utilisées lorsqu'on veut transmettre une idée dans un langage accessible par le biais d'une comparaison. Ainsi, certains exemples sont bons pour un politicien, et d'autres exemples sont compréhensibles pour un physicien nucléaire, de sorte que le politicien et le physicien nucléaire se comprennent, ils utilisent des comparaisons, des métaphores. Les métaphores ont donc un but précis - faciliter la compréhension des interlocuteurs.

Peu importe, oublie ça.

 
Andrey Dik:

Si quelque chose dit n'a pas de valeur, alors c'est du bolabolisme. Je ne pense pas que CC voulait faire du bola-bola-bola, c'est juste arrivé comme ça.

Il n'a fait que donner une mauvaise métaphore. Et alors ? Au mur pour le mettre pour ça ?

Nous sommes tous humains et nous faisons tous des erreurs parfois.

L'autre chose est qu'il y a tellement de flou à cause de cela, ce qui réduit excessivement la valeur informative du sujet. Et ce n'est pas suffisant.

 
Yury Reshetov:

En théorie, elle est soluble en termes de déterminisme universel de Laplace, par exemple, si tous les facteurs nécessaires sont connus et s'il y a un accès informationnel à ceux-ci. Mais en pratique, cette "décidabilité" pose de nombreux problèmes (tous les facteurs ne sont pas connus et tous ne sont pas disponibles, et ceux qui sont disponibles sont souvent bruyants).

Selon votre conviction, et sur la base de la confirmation par mes expériences avec jPrediction, cela semble être exactement la façon dont cela devrait être ?

Mais le problème est que toutes les expériences ne confirment pas l'affirmation ci-dessus. Tout dépend du type de méthodes d'apprentissage automatique utilisées.

Par exemple, Victor Tsaregorodtsev a effectué des recherches sur les réseaux neuronaux avec BackPropagation, et les résultats sont arrivés à des conclusions tout à fait opposées dans son article"Reduction of neural network size does not lead to higher generalization ability", et je cite :

"Cela contredit l'opinion selon laquelle l'élimination des caractéristiques bruyantes, non informatives et des neurones redondants est obligatoire et utile en pratique."

En d'autres termes, il s'avère qu'il est absolument inutile de tirer des conclusions générales pour toutes les méthodes d'apprentissage automatique sans exception (pour faire une approche unique). Pour certaines méthodes, ces "conclusions" seront correctes, tandis que pour d'autres, elles seront délibérément erronées.

Si vous regardez les premières publications de l'auteur des algorithmes de randomforest, l'auteur a affirmé très sérieusement que rf n'est pas du tout enclin au surentraînement et a donné de nombreux exemples. Le paquet randomforest lui-même est construit de manière à exclure le moindre soupçon de surentraînement.

En même temps, l'algorithme le plus surentraîné est randomforest. Je me suis personnellement brûlé.

Je ne crois que les chiffres obtenus par la méthodologie suivante.

Nous prenons deux dossiers qui se suivent dans le temps.

Nous divisons le premier dossier de manière aléatoire en trois parties : enseignement, test et validation.

  • Nous enseignons sur la partie formation, qui est à son tour utilisée pour enseigner l'algorithme, et sur la partie évaluation - l'échantillon AOB - est appelé hors échantillon. Nous obtenons l'erreur d'apprentissage. Nous obtenons une tranche pour ALE par des algorithmes de validation croisée, c'est-à-dire qu'elle est toujours différente.
  • Nous vérifions le modèle entraîné sur la partie test et validation du premier fichier.
  • on obtient l'erreur d'application du modèle précédemment formé. Les trois erreurs devraient être proches.

Passez au deuxième fichier, qui est en retard sur le premier fichier dans le temps.

Appliquez le modèle formé à ce deuxième fichier. L'erreur résultante ne devrait PAS être très différente des 3 erreurs.

IL EN RÉSULTE QUATRE VALEURS D'ERREUR QUI NE SONT PAS TRÈS DIFFÉRENTES LES UNES DES AUTRES.

Pour moi, c'est la seule preuve de l'absence de surentraînement. Et si nous obtenons également une erreur proche de ces quatre dans le testeur, nous pouvons échanger.

C'est tout ce en quoi je crois.

Un très grand nombre de publications sur l'apprentissage automatique ne sont testées sur aucun fichier analogue. La raison est triviale. Les algorithmes ne sont PAS appliqués aux séries chronologiques. Et il s'avère qu'une division aléatoire du fichier numéro un est tout à fait suffisante. Et c'est effectivement le cas de la reconnaissance de l'écriture manuscrite, par exemple.

 

En ce qui concerne mes métaphores et analogies.

Je suis diplômé en mathématiques appliquées. Et mes professeurs croyaient que j'étais, comme tous mes camarades de classe, capable de maîtriser n'importe quel outil mathématique. Et mes professeurs considéraient que le principal problème de notre futur travail était de résoudre le problème de l'applicabilité d'un outil particulier à un problème pratique particulier. C'est ce que j'ai fait toute ma vie, mais la maîtrise de n'importe quel outil ..... En R, il y en a des centaines ou des milliers, et alors ?

Tout ce trollage à mon adresse...

Contredire le troll ne fait que l'alimenter.

Bien sûr, j'aimerais pouvoir nettoyer le fil, c'était un excellent fil.