L'apprentissage automatique dans la négociation : théorie, modèles, pratique et algo-trading - page 1237

 
Dmitry:

Il y a deux ans, j'ai écrit ici à Maximka que la NS est un jouet comme une bombe nucléaire. Que si TOUT autre modèle donne des résultats au moins satisfaisants, il n'est pas recommandé d'utiliser NS - ils trouvent quelque chose qui n'existe pas et vous ne pouvez rien y faire.

Les arbres sont une bonne chose, mais il est préférable d'utiliser des échafaudages.

Je prévois d'expérimenter avec xgboost via R, tout ce dont j'ai besoin semble être là. Il semble être très rapide et utilise la mémoire de manière optimale.
Pourra-t-il gérer 100 000 échantillons avec, par exemple, 100 prédicteurs ?
 
elibrarius:
Je prévois d'expérimenter xgboost par le biais de R, je pense qu'il a tout ce dont j'ai besoin. Il semble être très rapide et utilise la mémoire de manière optimale.
Peut-il gérer 100 000 échantillons avec, par exemple, 100 prédicteurs ?

) Je ne sais pas - c'est pour Fa, je suppose.

J'ai joué avec des modèles simples - j'ai joué avec des modèles binaires.

 
elibrarius:
Je prévois d'expérimenter xgboost par le biais de R, je pense que tout ce dont j'ai besoin est là. Il semble être très rapide et utilise la mémoire de manière optimale.
Peut-il gérer 100 000 échantillons avec, par exemple, 100 prédicteurs ?

vraiment rapide

je le testerai sur mes données dès que j'aurai appris à sauvegarder les matrices en mql dans un fichier normal (c'est une plaie))

je n'ai aucune différence de qualité entre le mqlp et les logs... presque aucune différence entre n'importe quoi et les modèles normaux, mais j'ai envie d'essayer le boisting moi-même, peut-être que c'est vraiment 40 fois mieux... mais en fait c'est peut-être un peu mieux.

en ce qui concerne le livre ci-dessus - quand je vois trop de mots inutiles et d'interjections dans le texte, je réalise immédiatement que l'auteur est cinglé et je le ferme ;))

 
Maxim Dmitrievsky:

vraiment rapide

je le testerai sur mes données dès que j'aurai appris à sauvegarder les matrices en mql dans un fichier normal (c'est une plaie))

je n'ai aucune différence de qualité entre le mqlp et les logs... presque aucune différence entre n'importe quoi et les modèles normaux, mais j'aimerais essayer le boisting moi-même, peut-être que c'est vraiment 40 fois mieux... mais en fait c'est peut-être un peu mieux.

En ce qui concerne le livre - quand je vois que le texte est rempli de trop de mots superflus et d'interjections, je réalise immédiatement que l'auteur est fou et je le ferme ;))

Le NS à cause du BackProp quand il y a beaucoup de bruit ne peut pas trouver les données importantes (et nous avons toutes les barres lointaines qui sont presque bruyantes, il est essentiellement important de savoir si elles viennent du haut ou du bas).

En ce qui concerne les forêts, je n'ai pas encore compris comment elles gèrent le bruit (en dehors du fait qu'il s'agit d'un vote de nombreux arbres différents).


L'arbre unique peut-il lui-même supprimer le bruit ? (Je me souviens de ce que j'ai lu il y a un an qu'il peut mémoriser complètement l'échantillon avec le bruit).

 
elibrarius:
NS ne peut pas trouver des données importantes avec beaucoup de bruit (et toutes les barres longues sont presque bruyantes, c'est-à-dire qu'il importe peu qu'elles viennent du haut ou du bas).

En ce qui concerne les forêts, je n'ai pas encore compris comment elles gèrent le bruit (en dehors du fait qu'il s'agit d'un vote de nombreux arbres différents).


L'arbre unique peut-il lui-même supprimer le bruit ? (D'après ce que j'ai lu il y a un an, je me souviens qu'il peut mémoriser complètement l'échantillon avec le bruit).

de la même manière que les ensembles de réseaux neuronaux sont construits sur la base de la mise en sac et vous obtenez la même chose qu'une forêt.

vous devez comprendre qu'une forêt n'est qu'un cas particulier de mise en sac, au lieu d'arbres, vous pouvez y mettre ce que vous voulez, n'importe quel modèle faible. Un seul arbre est un modèle élémentaire qui ne peut rien supprimer.

la forêt ne se recycle pas "en quelque sorte" à cause de l'échantillonnage aléatoire, mais en fait, elle se recycle très facilement et sans prétention.

Les deux doivent être régularisés soit par Decay (étape du gradient), soit par un arrêt précoce, soit par le paramètre r de la forêt, soit par un prétraitement, mais toutes ces améliorations sont généralement comprises entre 5 et 10 %. Sur de mauvaises données, les deux modèles auront les mêmes performances

en ce qui concerne le boosting (extrême, pas GBM), ils disent qu'il n'y a pas beaucoup de recyclage, vous devriez regarder, je ne peux rien dire.

https://www.analyticsvidhya.com/blog/2016/03/complete-guide-parameter-tuning-xgboost-with-codes-python/

 
Vizard_:

Mon estimé Innocent. Je n'ai pas peur de ce mot, Maître, merci pour ces moments de joie !
La vie a brillé de nouvelles couleurs (bleu, rouge, gris, vert))))
Si vous pouviez répondre à quelques questions. Pourquoi faites-vous si assidûment référence à Vorontsov en tant que Voronov.
et pourquoi essayez-vous de nous parler du marché sans MoD et pourquoi essayez-vous de nous vendre des conneries de ciblage.
Et le plus important - où se trouve le trend-flat ?)))

J'ai écrit sur Vorontsov et mon désespoir face à vos moqueries, mais mes posts ont été supprimés, ne faites pas comme les nazis de la grammaire, ma cible n'est pas un gris (plat) et la couleur (tendance) diffère avec une précision de 90%, bleu et rouge pour la clarté, je n'utilise pas la direction, je prends l'indicateur vert comme une valeur absolue.

 
Maxim Dmitrievsky:

Je le testerai sur mes données dès que j'aurai appris à sauvegarder les matrices dans mql sous une forme normale dans un fichier (c'est une plaie)).

créer un tableau de structures, écrire une matrice dans chaque structure et la réinitialiser en une fois en utilisantFileWriteArray()

Документация по MQL5: Файловые операции / FileWriteArray
Документация по MQL5: Файловые операции / FileWriteArray
  • www.mql5.com
//|                                          Demo_FileWriteArray.mq5 | //|                        Copyright 2013, MetaQuotes Software Corp. | //|                                              https://www.mql5.com | //| Структура для хранения данных о ценах                            |...
 
elibrarius:
Non pas grand, il a expliqué sur les petits nombres par 10 : 8:2 contre 6:4. Mais nous avons beaucoup de données.


Combien d'échantillons peuvent être considérés comme représentatifs de BP ? Je n'utilise généralement pas moins de 10000, une petite classe doit avoir au moins 1000.

Pour les arbres, il existe un graphique remarquable de l'erreur en fonction du nombre d'arbres.

Ainsi, pour les sentinelles, le nombre d'arbres supérieur à 100 ne réduit pas l'erreur.

Le graphique ressemble à ceci :



Vous pouvez prendre des fichiers de différentes tailles et obtenir la réponse à votre question.

Mais ce n'est pas tout.

Pour rf, il existe un autre paramètre "Taille de l'échantillon". Avec elle, vous pouvez niveler la différence de classe. En tout cas, ce paramètre influence beaucoup la taille de l'erreur.

Par exemple.

Pour une taille d'échantillon = 1000, 500 avec une taille de fichier de 7500 lignes semble déprimant. Mais elle l'est à première vue et n'est pas forcément déprimante. Supposons que la classe "0" est longue et que la classe "1" est "hors marché" . L'erreur pour "hors marché" est supérieure à 0,5, ce qui signifie que l'achat est effectué à partir de zéro. Si nous changeons de place, cela signifierait que l'erreur "hors marché" est gratuite, mais que l'erreur "longue" est très faible.



Et le même fichier avec Taille de l'échantillon = 1000, 1000 semble très décent.

 
Igor Makanu:

créer un tableau de structures et écrire une matrice dans chaque structure, si nécessaire, et le réinitialiser en une fois en utilisant FileWriteArray()

Je ne connais pas le nombre de colonnes à l'avance... et les tableaux de structures avec des tableaux dynamiques à l'intérieur ne sont-ils pas écrits dans des fichiers ? ) C'est un peu le bordel...

J'ai juste besoin de sauvegarder un tableau 2-d, dont le nombre de colonnes est inconnu à l'avance.

 
Maxim Dmitrievsky:

de la même manière que les ensembles de réseaux neuronaux sont construits sur la base de la mise en sac et vous obtenez la même chose qu'une forêt.

vous devez comprendre qu'une forêt n'est qu'un cas particulier de backgammon, à la place des arbres vous pouvez mettre n'importe quoi, n'importe quel modèle faible. Un seul arbre est un modèle élémentaire qui ne peut rien supprimer.

la forêt ne se recycle pas "en quelque sorte" à cause de l'échantillonnage aléatoire, mais en fait, elle se recycle très facilement et sans prétention.

Les deux doivent être régularisés soit par Decay (étape du gradient), soit par un arrêt précoce, soit par le paramètre r de la forêt, soit par un prétraitement, mais toutes ces améliorations sont généralement comprises entre 5 et 10 %. Sur de mauvaises données, les deux modèles auront les mêmes performances

en ce qui concerne le boosting (extrême, pas GBM), ils disent qu'il n'y a pas beaucoup de recyclage, vous devriez regarder, je ne peux rien dire.

https://www.analyticsvidhya.com/blog/2016/03/complete-guide-parameter-tuning-xgboost-with-codes-python/

Tout est à peu près identique : rf, xgboost, SVM, GLM, nnet.

Sur certains sites, un modèle est meilleur que l'autre, sur d'autres moins bons - toutes les unités pour cent.

L'impression est que l'erreur du modèle est en réalité l'erreur du couple prédicteur-variable cible. Il y a une certaine limite au-delà de laquelle vous ne pouvez pas aller par des astuces mais pouvez facilement la détruire, vous pourriez manquer une paire prometteuse.