L'apprentissage automatique dans la négociation : théorie, modèles, pratique et algo-trading - page 613

 
Vladimir Perervenko:

Surpris. Quel est ce modèle qui compte pour plus d'une heure ?

Cela devrait durer 1 à 2 minutes au maximum.

Réseau 88-50-20-2, 86400 lignes de données d'entraînement sur 88 prédicteurs. + 28800 pour les données de validation et pour la section test (toutefois, elles sont comptées rapidement).

 
Vizard_:

Professeur, je suis gêné de demander. Combien doit coûter un modèle ?
Vous êtes sûr que ça ne rapportera pas un sou ? Il existe peut-être une formule (prix-qualité) ?)).


Eh bien évidemment pas deux kopecks, Trickster..... Vous devriez comprendre que, vous n'êtes pas un petit garçon.....

Trouver un modèle généralisateur dans l'espace de données multidimensionnel n'est pas une tâche rapide et optimisante. L'augmentation des exigences et des règles de plus en plus strictes pour la construction de modèles afin de réduire l'effet de sur-apprentissage conduit à une augmentation du temps nécessaire pour trouver un tel modèle. Il faut donc secouer les données en profondeur. ....

Pourquoi le même fichier sur AWS et celui de Reshetny est traité dans des délais différents ? AWS 2-5 minutes, Reshetov 3 heures et son modèle est deux fois meilleur que celui d'AWS/ Pourquoi ?

 
elibrarius:

Réseau 88-50-20-2, 86 400 lignes de données d'entraînement sur 88 prédicteurs. + 28 800 euros par données de validation et parcelle d'essai (toutefois, ils comptent vite)


Avec un tel ensemble, Reshetov compterait pour toujours :-)

Laissez-moi vous dire un secret du forex. Alpha dans les données ne peut porter que sur une très courte section. Avec mes données, je n'ai pas encore pu augmenter ce paramètre au-delà de 50 lignes. C'est-à-dire que j'ai 100 colonnes et 50 lignes. Cela couvre environ deux semaines de marché. C'est-à-dire que si je commence à augmenter l'intervalle de formation, la qualité du modèle tombe en dessous de 75% et la qualité de la CB devient telle qu'il est impossible de travailler dessus, à vos risques et périls. Donc je ne comprends pas ce que vous voulez faire avec ces milliers de dossiers. Vous ne pouvez pas construire un modèle pour l'ensemble du marché avec un niveau acceptable de qualité de formation - plus la zone de formation est grande, plus le modèle est mauvais. Et s'il montre un bon résultat dans un tel domaine, il n'a rien à voir avec le concept de généralisation...... Vous savez ce que je veux dire......

Savez-vous pourquoi vous ne pouvez pas construire des modèles sur une longue distance avec de bonnes performances ??? Parce que ces données... entrées.... qui pourrait construire un tel modèle N'EXISTE PAS dans la nature en principe...... Il n'existe pas de telles données, sinon elles auraient été d'usage courant depuis longtemps. Je veux dire des données accessibles au public....... pas des données d'initiés ou autres..... Alors... ne comprend pas pourquoi tant de lignes ????

 
Mihail Marchukajtes:

Avec un tel ensemble, Reshetov compterait pour toujours :-)

Laissez-moi vous dire un secret du forex. Alpha dans les données ne peut porter que sur une très courte section. Avec mes données, je n'ai pas encore pu augmenter ce paramètre au-delà de 50 lignes. Je veux dire que j'ai 100 colonnes et 50 lignes.

Vous ne pouvez pas construire de tels modèles, la longueur de l'échantillonnage devrait être au moins 5 fois le nombre de caractéristiques, et vous avez plus de caractéristiques que l'échantillonnage et la malédiction de la dimensionnalité.

Vous montrez votre ignorance au lieu de révéler le secret du Forex.

 
Mihail Marchukajtes:
Alors je ne comprends pas ce que vous voulez faire avec ces milliers de dossiers ? Vous ne serez pas en mesure de construire un modèle sur l'ensemble du marché avec un niveau acceptable de qualité de formation. Et si elle montre de bons résultats dans un tel domaine, alors elle n'a rien à voir avec le concept de généralisation...... Vous savez ce que je veux dire......

C'est un M1, seulement 60 jours. Donc pas du tout pour l'ensemble du marché, mais pour les 3 derniers mois.

Lorsque la durée double, le modèle ne construit plus..... Optimiser la durée bien sûr, mais je n'en suis pas encore là. J'aimerais d'abord déterminer le nombre de couches.

Si vous construisez au moins 10 modèles, il vous faudra 8-10 heures pour les calculer(((

Il y a 3 formules à calculer, trouver le min et le max, les compter, puis 2-3 entre les deux, et 2-3 à l'extérieur. Et ensuite, à partir de tout cela, choisir les meilleurs modèles, et s'ils sont déjà calculés - les assembler.

PS Hm. C'est avec 2 couches cachées, et la même quantité avec 1 couche.

En général, vingt-quatre heures suffisent pour déterminer le modèle.

 
elibrarius:

En général, 24 heures suffisent pour déterminer le modèle.


Je ne suis pas un fou de minage, le prix est 3 fois plus élevé que toutes les cartes normales).

Les monstres miniers ont multiplié par trois le prix des cartes normales.

 
elibrarius:

C'est un M1, seulement 60 jours. Donc pas du tout pour l'ensemble du marché, mais pour les 3 derniers mois.

En doublant la durée, le modèle n'était plus construit..... Optimiser la durée, bien sûr, mais je ne l'ai pas encore fait. J'aimerais d'abord déterminer le nombre de couches.

Si vous construisez au moins 10 modèles, il vous faudra 8-10 heures pour les calculer(((

Il y a 3 formules à calculer, trouver le min et le max, les compter, puis 2-3 entre les deux, et 2-3 à l'extérieur. Et ensuite, à partir de tout cela, choisir les meilleurs modèles, et s'ils sont déjà calculés - les assembler.

PS Hmm. C'est avec 2 couches cachées, et la même quantité avec 1 couche.

En général, 24 heures suffisent pour déterminer le modèle.

De préférence, vous devriez essayer de construire un modèle basé sur le principe de l'analyse fractale en utilisant ces données. Lorsque plusieurs délais sont utilisés pour entrer. Maxim nous a montré une bonne vidéo sur la fractalité du monde.
En général, je peux vous proposer un serveur dédié pour i7 3-4Ghz et ssd pour seulement 7-8 $ par mois. Ça compte bien, et l'ordinateur ne sera pas aussi occupé.
 

J'ai l'idée que l'entrée (et éventuellement la sortie) peut être alimentée avec des distributions de citations d'une certaine profondeur, ou des moments de distributions

Cela permettra d'obtenir un certain lissage et une image probabiliste et, peut-être, un nombre limité de certaines variantes, ce qui est important. Mais je ne l'ai pas encore fait - pour cela, je dois gonfler l'analyse de la variance.

Si nous prenons en compte les fractales, alors mb. les relations de distributions entre différents tf. Mais le sujet doit être sérieusement travaillé, en dessinant un schéma

 
Mihail Marchukajtes:

Trouver un modèle généralisable dans l'espace de données multidimensionnel n'est pas une mince affaire du point de vue de l'optimisation, car les exigences croissantes et l'introduction de règles de plus en plus strictes pour la construction de modèles afin de réduire l'effet du sur-apprentissage entraînent une augmentation du temps nécessaire pour trouver un tel modèle. Il faut donc secouer les données en profondeur. ....

Pourquoi le même fichier sur AWS et celui de Reshetny est traité dans des délais différents ? AWS 2-5 minutes, Reshetov 3 heures et son modèle est deux fois meilleur que les modèles AWS/ Pourquoi ?

Le modèle de Reshetov n'est pas une référence. Par exemple, la recherche d'un ensemble de prédicteurs dans le modèle se fait en essayant différentes variantes - le modèle prend un ensemble aléatoire de prédicteurs, il est entraîné, et il se souvient du résultat. Cette opération est répétée un très grand nombre de fois en boucle, le meilleur résultat étant utilisé comme modèle final. Ce processus peut être sensiblement accéléré si vous effectuez d'abord une sélection de prédicteurs à l'aide d'un algorithme spécial, puis si vous entraînez le modèle de Reshetov une seule fois sur cet ensemble particulier. Et vous obtenez la qualité du modèle Reshetov à une vitesse comparable à celle d'AWS. Le "coût" d'un tel modèle diminuera considérablement, mais la qualité restera la même.

 
Aleksey Terentev:
Je pense que vous devriez essayer de construire un modèle basé sur le principe de l'analyse fractale avec de telles données. Lorsque plusieurs échéances doivent être saisies. Maxim a montré une bonne vidéo sur la fractalité du monde.
En général, je peux vous suggérer un serveur dédié pour i7 3-4Ghz et ssd pour seulement 7-8 $ par mois. Ça compte bien, et l'ordinateur ne sera pas aussi occupé.
Quelques TF et j'utilise) Juste analyser chaque minute. Je n'ai pas besoin de serveur, merci !