L'apprentissage automatique dans la négociation : théorie, modèles, pratique et algo-trading - page 1963

 
Maxim Dmitrievsky:

multiple D-neurons (type grille)

erreur, % = 45.10948905109489

au revoir)

J'ai envoyé à l'auteur de la grille mes coupures et mon indignation par courrier.
Qu'avez-vous déterminé ? L'authenticité des billets de banque ?
 
Valeriy Yastremskiy:
Qu'avez-vous déterminé ? L'authenticité des billets de banque ?

Oui

 
Maxim Dmitrievsky:

oui

Logique défectueuse.
 
Valeriy Yastremskiy:
Logique défectueuse.

Il peut y avoir quelques pièges. Par exemple, vous ne pouvez pas utiliser de valeurs négatives dans les attributs car il utilise des valeurs binarisées dans ses micro-tests. Il n'y a rien à ce sujet dans la description sommaire, elle ne montre pas d'erreurs.

 
Maxim Dmitrievsky:

il peut y avoir des pièges. Par exemple, vous ne pouvez pas avoir de valeurs négatives dans les attributs car il utilise des valeurs binarisées dans ses micro-tests. Il n'y a rien à ce sujet dans la description sommaire, il ne montre pas d'erreurs.

La corruption se produit souvent sur la base de symptômes non explicites. Et c'est un problème de les détecter dans une logique apparemment correcte.
 
Poids d'un côté et binarité de l'autre. C'est de là que nous venons.
 

Approche intéressante de NS pour le filtrage collaboratif

Vous pouvez prendre des outils et des stratégies de négociation au lieu de personnes et d'identifiants de films, et certains paramètres au lieu de notes (attentes, etc.). Calculez ensuite les variables cachées pour l'instrument et la stratégie. Et puis tout ce que tu veux. Faire correspondre le système à l'instrument ou le générer à la volée avec les caractéristiques nécessaires, construire des synthétiques pour le système.....

 
Maxim Dmitrievsky:
J'ai envoyé par e-mail à l'auteur de la grille les coupures et mon indignation

Je me demande ce qu'il a répondu.

 
mytarmailS:

Je me demande ce qu'il a écrit.

Rien jusqu'à présent. Il doit y avoir une certaine régularité dans les échantillons, c'est tout l'intérêt. C'est une approche différente. Je pense que les ensembles réguliers et les ensembles devraient être enseignés. En d'autres termes, plus l'entropie de la ligne est faible, meilleure est la résolution, et dans cet ensemble de données, les échantillons sont mélangés de manière aléatoire. En termes oabochanstiens, ce n'est pas tant le modèle qui est important, mais la séquence...
 
elibrarius:
Nous mélangeons la fraction la plus propre avec les moins propres. C'est-à-dire que nous allons aggraver le résultat sur le plateau, en principe ce n'est pas important pour nous. Mais il n'est pas sûr que cela améliore le résultat au test, c'est-à-dire la généralisabilité. Quelqu'un devrait essayer... Personnellement, je ne pense pas que la généralisation sera meilleure que le cas de l'échafaudage.

Il est beaucoup plus facile de limiter la profondeur de l'arbre et de ne pas faire la dernière fente, en s'arrêtant à la précédente. Nous nous retrouverons avec la même feuille moins claire que si nous faisions une division supplémentaire. Votre option donnerait quelque chose entre les deux, que nous fassions un split ou pas. Par exemple, avec votre méthode, vous ferez la moyenne de la feuille au 7ème niveau de profondeur. Elle sera légèrement plus propre que la feuille de niveau 6. Je pense que la généralisation ne changera pas grand-chose, et c'est beaucoup de travail pour tester l'idée. Vous pouvez également faire la moyenne de quelques arbres avec les niveaux de profondeur 6 et 7 - vous obtiendrez à peu près la même chose que votre méthodologie.

Je n'ai probablement pas précisé plus tôt qu'il devrait rester au moins 1% d'indicateurs dans la feuille sur les petits échantillons et 100 sur les grands échantillons, donc bien sûr le fractionnement ne sera pas au point qu'il n'y ait aucune erreur dans la feuille sur aucune classe.

Vous semblez mal comprendre la dernière étape - je la vois comme une évaluation statistique de l'échantillon de 1% restant - dans cet échantillon, nous observons que le résultat s'améliore avec des divisions par différents prédicteurs, nous obtenons des informations de sous-espace, par exemple :

Si A>x1, alors la cible 1 sera correcte à 40%, soit 60% du sous-échantillon.

Si B>x2, alors la cible 1 sera correctement identifiée avec 55%, soit 45% du sous-échantillon.

Si A<=x1, alors la cible 1 sera correctement définie par 70%, soit 50% du sous-échantillon.

Chacune de ces divisions a un facteur de signification (je n'ai pas encore décidé comment le calculer), et la dernière division en a un aussi.

et ainsi de suite, disons jusqu'à 5-10 prédicteurs, puis lors de l'application, si nous atteignons la dernière division, nous additionnons les coefficients (ou utilisons une méthode plus compliquée de sommation), et si la somme des coefficients dépasse le seuil, alors la feuille est classée 1, sinon zéro.


Une façon simple de mettre cela en œuvre est de construire de force une forêt jusqu'à l'avant-dernière division, puis d'exclure les prédicteurs déjà sélectionnés de l'échantillon, de sorte que de nouveaux prédicteurs soient sélectionnés. Ou simplement, après avoir construit l'arbre, filtrer l'échantillon par feuille et passer en revue chaque prédicteur par lui-même à la recherche de la meilleure répartition qui répond au critère de complétude et de précision.

Et, le résultat sur l'échantillon de formation s'améliorera si l'autre classe "0" signifie aucune action et non l'entrée opposée, sinon il peut y avoir à la fois amélioration et détérioration.