L'apprentissage automatique dans la négociation : théorie, modèles, pratique et algo-trading - page 385

 
Maxim Dmitrievsky:


Ils distribuent de telles tâches ? J'ai cru comprendre que c'était un fonds de couverture, si vous vous inscrivez, qu'obtiendra-t-il ?

Je travaille avec différents modèles, mais jusqu'à présent, j'ai obtenu la même chose que vous, soit 0,5.

Eh bien, 0,5 et 0,513 sont différents, bien sûr pas tant pour le commerce, mais quand même. Ils s'appellent eux-mêmes des hedge-funds, je ne sais pas quelle est leur structure légale, en Amérique il n'y a pas ce type d'organisation formellement, mais je peux me tromper. Si vous vous inscrivez, vous pouvez participer à la prédiction du marché une semaine à l'avance, sur de tels ensembles de données, quelqu'un parvient à récolter >10k$ dessus, mais je connais personnellement ceux qui n'ont gagné que quelques centaines de quidams))).
 
Aliosha:
Eh bien, 0,5 et 0,513 sont différents, bien sûr, ce n'est pas beaucoup pour le commerce, mais quand même. Ils s'appellent eux-mêmes hedge-fund, je ne sais pas quelle est leur structure légale, en Amérique il n'y a pas ce type d'organisation formellement, mais je peux me tromper. Si vous vous inscrivez, vous pouvez participer à la prédiction du marché une semaine à l'avance, sur de tels ensembles de données, quelqu'un parvient à récolter >10k$ dessus, mais personnellement je connais ceux qui n'ont gagné que quelques centaines de quidams))).


alors comment ça marche ? ils me donnent le jeu de données, je dois entraîner le réseau dessus et ensuite quoi ? je pense qu'il y a une astuce, vous devez faire une sélection de caractéristiques).

https://docs.microsoft.com/ru-ru/azure/machine-learning/machine-learning-data-science-select-features

Выбор признаков в процессе обработки и анализа данных группы
Выбор признаков в процессе обработки и анализа данных группы
  • 2017.03.24
  • bradsev
  • docs.microsoft.com
В этой статье описаны цели выбора характеристик и приводятся примеры, поясняющие его роль в совершенствовании данных в процессе машинного обучения. Эти примеры взяты из Студии машинного обучения Azure. Реконструирование признаков: этот процесс направлен на создание дополнительных признаков на основе соответствующих существующих необработанных...
 
Maxim Dmitrievsky:


Comment cela fonctionne-t-il ? Ils fournissent un ensemble de données, je dois entraîner le réseau sur cet ensemble et ensuite ? Je pense qu'il y a une astuce, je dois faire une sélection de caractéristiques.)

https://docs.microsoft.com/ru-ru/azure/machine-learning/machine-learning-data-science-select-features

Connectez-vous et lisez le guidon, il fait une demi-page de long. Il suffit de télécharger le jeu, de l'enseigner, de l'exécuter sur un test et de l'envoyer. Il y a un exemple de ce à quoi le résultat devrait ressembler, les identifiants et les noms de colonnes devraient être identiques aux leurs.
 
Aliosha:
Inscrivez-vous et lisez les rouleaux, il y a une demi-page là. Il suffit de télécharger le jeu, de l'apprendre, de l'exécuter sur un test et de l'envoyer. Il y a un exemple de ce à quoi le résultat devrait ressembler, donc les identifiants et les noms de colonnes devraient être identiques aux leurs.

Oui, j'essaierai plus tard... en bref, cet ensemble de données est sans espoir, aucun modèle )
 

numerai a changé les règles plusieurs fois cette année.

Avant, c'était simple et efficace : on formait un modèle sur une table de formation, on vérifiait l'erreur sur la table de test, on envoyait des prédictions, on les extrapolait sur la table de test cachée, on comptait l'erreur sur cette table. Celui qui a le moins d'erreurs sur la table cachée gagne. Il était très bon et correct que l'erreur sur l'ensemble de données de test coïncide vraiment avec celle sur leur ensemble de données cachées, afin que vous puissiez vérifier votre modèle.

Puis ils ont changé quelque chose, et l'erreur sur l'ensemble de données de test a cessé d'être corrélée avec l'erreur sur leur ensemble de données de contrôle caché. Tous les leaders du sommet ont disparu, juste des personnes aléatoires qui ont eu la chance d'avoir leur modèle dans leur table de contrôle cachée ont gagné. Je pense que c'est un échec de la part de Numeraï, des déchets aléatoires et non un concours.

Puis ils ont vu que toutes les personnes adéquates s'éloignaient de leur concours aléatoire, ont réalisé leur erreur et ont changé quelque chose. Les prédictions sont maintenant évaluées en fonction de plusieurs critères. Le critère qui m'énerve le plus est celui de l'"unicité". Si quelqu'un a déjà envoyé des résultats similaires, le vôtre sera rejeté pour plagiat. Par exemple, si plusieurs personnes utilisent le même cadre pour créer un modèle, celui qui s'est levé tôt et a envoyé une prédiction obtiendra l'argent.
La précision du modèle est désormais totalement inutile pour le calcul des bénéfices. Vous pouvez obtenir l'erreur 0, être en 1ère place dans le top et ne rien gagner, car le top montre le résultat sur les données de test qu'ils se donnent à télécharger, le top ne montre plus le résultat de leur tableau de contrôle caché.
L'itération actuelle de leur concours est à mon avis un non-sens, aucune transparence, tout est chamboulé. J'attends qu'ils changent à nouveau quelque chose dans le concours, en espérant qu'il sera à nouveau adéquat.

 
Maxim Dmitrievsky:

Oui, je vais essayer plus tard... en bref, cet ensemble de données est sans espoir, il n'y a pas de modèle)
Essayez cette table. Entraînez le modèle uniquement sur les lignes où data_type=="validation". Ce sont les données utilisées pour évaluer le modèle et entrer dans le top. Si vous obtenez une précision de 100 %, vous serez à la première place du classement. Mais vous ne recevrez pas de prix en espèces pour une telle tricherie.
Dossiers :
 
Dr. Trader:
Essayez cette table. Entraînez le modèle uniquement sur les lignes où data_type=="validation". Ce sont les données qui sont utilisées pour évaluer le modèle et entrer dans le top. Si vous obtenez une précision de 100 %, vous serez à la première place du classement. Mais ils ne vous donneront pas de prix en espèces pour cette tricherie.

oh, cool, j'essaierai demain... super pour s'entraîner ;)
 
Dr. Trader:
Essayez cette table. Entraînez le modèle uniquement sur les lignes où data_type=="validation". Ce sont les données qui sont utilisées pour évaluer le modèle et entrer dans le top. Si vous obtenez une précision de 100 %, vous serez à la première place du classement. Mais vous ne recevrez pas de prix en argent pour une telle tricherie.


à nouveau 0,5



 

Il est important de comprendre comment les résultats sur les ensembles de données de formation et d'évaluation coïncident. Je vois un ensemble de données divisé, par logique (peut-être que je me trompe) les données sont divisées aléatoirement en deux groupes, le premier groupe est entraîné par le modèle, le second groupe est seulement prédit et évalué par le modèle.

Quel sera le résultat si vous prédisez les mêmes données que celles sur lesquelles il a été formé ?
Puis de prédire les données sur lesquelles il n'a pas été entraîné, et de comparer la précision du modèle dans les deux cas.

Si, sur des données entraînées, il prédit avec une précision de 100 %, et sur des données estimées - 50 % - alors le modèle est trop entraîné, il est mauvais.

 
Dr. Trader:

Il est important de comprendre comment les résultats sur les ensembles de données de formation et d'évaluation coïncident. Je vois un ensemble de données divisé, par logique (peut-être que je me trompe) les données sont divisées aléatoirement en deux groupes, le premier groupe est entraîné par le modèle, le second groupe est seulement prédit et évalué par le modèle.

Quel sera le résultat si je prédis les mêmes données que celles qui ont été utilisées pour la formation ?
Puis prédire les données qui n'ont pas été utilisées pour la formation et comparer la précision du modèle dans les deux cas.

Si, sur des données entraînées, il prédit avec une précision de 100 %, et sur des données estimées - 50 % - alors le modèle est trop entraîné, il est mauvais.


J'ai aussi appris 50% des prédictions. J'ai supprimé la date de fractionnement et soumis le même ensemble comme test.

Premièrement, l'ensemble est très vaste, deuxièmement, nous ne connaissons pas la nature des caractéristiques et les modèles linéaires comme les vecteurs et les forêts ne conviennent pas ici, il est évident que nous devons créer une non-grille complexe, c'est peut-être la raison. Je ne sais toujours pas comment modifier le réseau neuronal dans ce studio pour le rendre plus complexe, par exemple en essayant de faire une convolution.

De celui-ci : https://gallery.cortanaintelligence.com/Experiment/Neural-Network-Convolution-and-pooling-deep-net-2

Je suis encore novice en matière de grilles ... )