L'apprentissage automatique dans la négociation : théorie, modèles, pratique et algo-trading - page 584

 
Maxim Dmitrievsky:

Vous ne saviez même pas comment déterminer l'importance des prédicteurs dans la RF, en donnant des bêtises sur le recuit et ainsi de suite sans explication (quel est le rapport avec tout ça ?).

Qui a dit où sont les bancs spécifiques pour les applications forex ? pourquoi Ada et pas GBM ? vos réponses sont trop d'abstractions floues. en réalité le gain ne sera pas plus de 5% avec plus de surentraînement.

Au niveau où se déroule la discussion

Permettez-moi de préciser le niveau ALGLIB - le niveau d'une ferme collective, un village près de Novgorod. Vous avez écrit à plusieurs reprises que ce niveau vous convient. Il se peut que cela suffise pour vos tâches, mais pourquoi se vexer ?


Vous n'êtes pas si bon que ça pour pousser des absurditéssur le recuit et lacorruption.

Tu ne devrais pas être si...

J'ai essayé presque toutes les R et ce recuit est le plus efficace.


Pourquoi Ada et pas GBM ? vos réponses sont trop d'abstractions floues. en réalité le gain ne sera pas supérieur à 5% avec plus de surentraînement.

Parce que je les ai essayés et pas seulement eux. J'ai toujours les protocoles.

Oui, le meilleur est ada ? Oui, de 5%, maximum 7% par rapport à la forêt. Et je ne connais rien de mieux que ça.

Et c'est quoi "beaucoup de surentraînement" ? De quoi parlez-vous ? Quant au surentraînement, je ne me souviens pas d'un seul message de votre part dans lequel vous montrez que vos modèles ne sont pas surentraînés !

Je ne peux que répéter que le surentraînement ne dépend pas du tout du modèle, il dépend de :

  • ensemble de prédicteurs
  • la possibilité de dégrossir les modèles

 
SanSanych Fomenko:

Au niveau où se déroule la discussion

Je précise le niveau d'ALGLIB - le niveau de la ferme collective, le village près de Novgorod. Vous avez écrit à plusieurs reprises que ce niveau vous convient. Il se peut que cela suffise pour vos tâches, mais pourquoi se vexer ?


Vous n'êtes pas si bon que ça pour pousser des absurditéssur le recuit et lacorruption.

Tu ne devrais pas être si...

J'ai essayé presque toutes les R et ce recuit est le plus efficace.


Pourquoi Ada et pas GBM ? vos réponses sont trop d'abstractions floues. en réalité le gain ne sera pas supérieur à 5% avec plus de surentraînement.

Parce que je les ai essayés et pas seulement eux. J'ai toujours les protocoles.

Oui, le meilleur est ada ? Oui, de 5%, maximum 7% par rapport à la forêt. Et je ne connais rien de mieux que ça.

Et c'est quoi "beaucoup de surentraînement" ? De quoi parlez-vous ? Quant au surentraînement, je ne me souviens pas d'un seul message de votre part dans lequel vous montrez que vos modèles ne sont pas surentraînés !

Je ne peux que répéter que le surentraînement ne dépend pas du tout du modèle, mais de :

  • ensemble de prédicteurs
  • la possibilité de dégrossir les modèles.


Quelle est la différence entre le binning et le boosting ? Dans le binning, il y a moins d'ajustement au départ et plus d'élément de hasard, alors que dans le boosting, on est ajusté sur les restes du deuxième, puis sur le troisième et ainsi de suite. Et vous vous retrouvez avec une surcharge totale. C'est-à-dire que la RF peut déjà être rendue assez "grossière" dès le début, mais il faudra que je le vérifie, je n'ai pas encore eu le temps.

Tous mes modèles sont recyclés :) car je n'ai pas encore trouvé de modèles permanents pour eux.

Alglib a presque tout - convolution, PCA, clustering, ensemble de réseaux de neurones, forrest... donc, selon les classiques, tout est là, ce dont vous avez besoin d'autre - je ne comprends pas :) les choses plus modernes, bien sûr pas

Et l'auteur écrit qu'il ne traite pas les réseaux neuronaux et autres avec une grande vénération, mais les considère comme des outils habituels de cassification/régression et ne les distingue pas des autres méthodes. J'aime cette approche réaliste.

En ce qui concerne le recuit, je ne comprends pas non plus - existe-t-il une méthode universelle pour tous les modèles ? Chaque modèle devrait avoir sa propre méthode d'estimation, qui permet d'entraîner au mieux cette chose spécifique ?

 
Maxim Dmitrievsky:

Dans le cas du bang, il y a moins d'ajustement initial et plus d'éléments de hasard, mais dans le cas de la fanfaronnade, on s'ajuste sur les restes du deuxième, puis du troisième et ainsi de suite. Et vous vous retrouvez avec une surcharge totale. C'est-à-dire que la RF peut déjà être rendue assez "grossière" dès le début, mais il faudra que je le vérifie, je n'ai pas encore eu le temps.

Tous mes modèles sont recyclés :) car je n'ai pas encore trouvé de modèles permanents pour eux.

Alglib a presque tout - convolution, PCA, clustering, ensemble de réseaux de neurones, forrest... donc, selon les classiques, tout est là, ce dont vous avez besoin d'autre - je ne comprends pas :) les choses plus modernes, bien sûr pas

Et l'auteur écrit qu'il ne traite pas les réseaux neuronaux et autres avec une grande vénération, mais les considère comme des outils habituels de cassification/régression et ne les distingue pas des autres méthodes. J'aime cette approche réaliste.

En ce qui concerne le recuit, je ne comprends pas non plus - s'agit-il d'une méthode universelle pour tous les modèles ? Chaque modèle devrait avoir sa propre méthode d'évaluation, grâce à laquelle il peut être formé de la meilleure façon possible.

J'ai essayé à plusieurs reprises de vous expliquer des choses élémentaires de mon point de vue. J'ai échoué.


Je ne peux que vous conseiller : passez quelques mois sur caret et vous aurez une autre façon de penser, un regard qualitativement différent.

 
Maxim Dmitrievsky:

Chaque modèle devrait avoir sa propre méthode d'évaluation, grâce à laquelle il peut être formé de la meilleure façon possible.

Le recuit est un recuit en Afrique, et les buts/objectifs sont à peu près les mêmes. Permet au modèle de trouver non pas des minmax locaux, mais des minmax globaux.

Je ne sais pas pour ADA, mais pour NS le recuit donne de très bons résultats. Je n'aime pas le modèle intégré, car les paramètres de recuit doivent être définis à l'avance. J'ai donc recuit manuellement, en modifiant les paramètres en fonction des résultats de l'apprentissage précédent.

HZZ Au fait, les NS plus ou moins compliqués sans recuit n'apprennent généralement rien.

 
Maxim Dmitrievsky:

oui, mais c'est tellement supérieur que je ne vais pas m'y attarder à ce stade :) + il a écrit qu'il est impossible de gagner plus de 20% par an... Je suppose qu'il faut toujours commencer par de telles déclarations et ensuite entrer dans les détails :)

Maxim, arrête de fumer. Sortir les propos de quelqu'un d'autre de leur contexte, les attribuer à d'autres, etc.
+ partie des commentaires supprimés. De même, n'attribuez pas la paternité du mot serpent à sonnette à Fa (Fomenko)).

 
Vizard_:

Maximka, arrête de fumer. Sortir les choses de leur contexte, attribuer les paroles d'autres personnes à d'autres personnes, etc. + certains des commentaires ont été supprimés.
+ certains des commentaires ont été supprimés. De même, n'attribuez pas la paternité du mot " crotale" à Fa (Fomenko)).


Je dis juste :) ce qui est dans ta tête est sur ta langue.

et puis quelque chose apparaîtra... le flux de travail est impersonnel.

J'avais tort au sujet du cliquetis.) SanSanych a écrit une fois quelque chose de similaire... une absurdité ou quelque chose comme ça

 

(Par désœuvrement et par manque total d'idées pour un travail ultérieur, j'ai décidé d'apprendre quelque chose de nouveau, pour moi-même bien sûr - peut-être est-ce déjà très ancien). J'ai commencé avec la RF, et c'est par la RF que je suis arrivé à Python, car il est compatible (comme on dit) dans les deux sens avec mon logiciel SciLab. J'en suis maintenant à l'examen des paquets pour Python.

Au total, il y a plus de 120 000 paquets. Parmi eux, environ 70 sur l'apprentissage automatique et 70 sur les réseaux neuronaux, y compris l'apprentissage profond. Il est possible qu'il y en ait beaucoup plus - j'ai cherché dans les rubriques et certains paquets pourraient apparaître dans d'autres sections.

Sans compter les paquets distribués directement par d'autres entreprises. Il y a beaucoup de paquets de ce type, également sur des sujets intéressants pour nous - je les ai vus moi-même, notamment le MoD, l'Assemblée nationale de la RF et l'ADA.

Parmi les autres entreprises, il y a l'apprentissage automatique, les arbres, NS et quelque chose en rapport avec ADA.

De nombreux paquets sont réalisés en C/C++, il n'y a donc pas lieu de s'inquiéter des performances - Python n'est qu'une interface (langage de script). Et R aussi, d'ailleurs.

Dans l'ensemble, je passe un moment intéressant).

 
Maxim Dmitrievsky:

Pourquoi Ada et pas GBM ? il y a trop d'abstractions floues dans vos réponses. en réalité le gain ne serait pas supérieur à 5% avec un surentraînement plus important.

Dans la notation, il est très courant d'utiliser la "précision" - le pourcentage de réponses correctes - pour évaluer un modèle. À mon avis, il s'agit de l'une des évaluations les plus faibles et les plus inappropriées des modèles de négociation et elle devrait être évitée. J'ai suggéré d'en essayer un tas d'autres ici dans le fil de discussion - kappa, f-score, logloss.

Ada dans R (peut-être pas seulement dans R) utilise une estimation légèrement différente du modèle de classification intégré dans la formation, ce qui est bien meilleur par rapport à la "précision".

 
Yuriy Asaulenko:

(Par désœuvrement et par manque total d'idées pour un travail ultérieur, j'ai décidé d'apprendre quelque chose de nouveau, pour moi-même bien sûr - peut-être est-ce déjà très ancien). J'ai commencé avec la RF, et c'est par la RF que je suis arrivé à Python, car il est compatible (comme on dit) dans les deux sens avec mon logiciel SciLab. J'en suis maintenant à l'examen des paquets.

Au total, il y a plus de 120 000 paquets. Parmi eux, environ 70 portent sur l'apprentissage automatique et environ 70 sur les réseaux neuronaux, y compris l'apprentissage profond. Il y en a probablement beaucoup plus - j'ai fait une recherche par rubriques et certains paquets pourraient apparaître dans d'autres sections.

Sans compter les paquets distribués directement par d'autres entreprises. Il existe de nombreux paquets de ce type, ainsi que sur des sujets intéressants pour nous - je les ai vus moi-même, notamment le MoD, l'Assemblée nationale de la RF et l'ADA.

Parmi les autres entreprises, il y a l'apprentissage automatique, les arbres, NS et quelque chose en rapport avec ADA.

De nombreux paquets sont réalisés en C/C++, il n'y a donc pas lieu de s'inquiéter des performances - Python n'est qu'une interface (langage de script). Et R aussi, d'ailleurs.

Dans l'ensemble, je passe un moment intéressant).

consultez d'autres articles de ce genre https://cloud.google.com/datalab/

La direction d'AutoML s'y développe - le service ira chercher le modèle par lui-même pour certaines tâches.

Cloud Datalab - Interactive Data Insights Tool  |  Google Cloud Platform
Cloud Datalab - Interactive Data Insights Tool  |  Google Cloud Platform
  • cloud.google.com
Integrated Cloud Datalab simplifies data processing with Cloud BigQuery, Cloud Machine Learning Engine, Cloud Storage, and Stackdriver Monitoring. Authentication, cloud computation and source control are taken care of out-of-the-box. Multi-Language Support Cloud Datalab currently supports Python, SQL, and JavaScript (for BigQuery...
 
Dr. Trader:

En classification, il est très courant d'utiliser la "précision" - le pourcentage de réponses correctes - pour évaluer un modèle. À mon avis, il s'agit de l'une des évaluations les plus faibles et les plus inappropriées des modèles de négociation, et elle devrait être évitée. J'ai suggéré d'en essayer un tas d'autres ici dans le fil de discussion - kappa, f-score, logloss.

Ada dans R (peut-être pas seulement dans R) utilise une évaluation intégrée légèrement différente du modèle de classification en formation, qui est bien meilleure que la "précision".


Pour le trading, il est difficile d'évaluer de cette manière, il y a la durée de la transaction et les niveaux de stop loss doivent être ajoutés à tout le reste, et le programme lui-même se ré-entraîne périodiquement... donc c'est dommage :)