L'apprentissage automatique dans la négociation : théorie, modèles, pratique et algo-trading - page 596

 
Aleksey Terentev:
Essayez la validation croisée (K-fold).
Comment cela permettra-t-il d'accroître l'impact des nouvelles données ?
 
elibrarius:
Comment contribue-t-il à accroître l'impact des nouvelles données ?
Pensez-y : vous entraînez le modèle en lui fournissant des blocs de données individuels, ce qui donne au modèle une certaine indépendance par rapport à la séquence de la série chronologique, ce qui fait que les nouvelles données sont évaluées sans "biais".
 
Aleksey Terentev:
Pensez-y : vous apprenez le modèle en alimentant des blocs de données séparés, ce qui donnera au modèle une certaine indépendance par rapport à la séquence des séries temporelles et les nouvelles données seront évaluées sans "biais".

"séries temporelles indépendantes de la séquence" est assurée par le brassage. Sans elle, le modèle n'aboutit à rien du tout.

La question est de savoir comment accroître l'importance des données les plus récentes lors de leur mélange, afin que le modèle détecte plus rapidement les nouvelles tendances du marché.

 
elibrarius:

"séries temporelles indépendantes de la séquence" est assurée par le brassage. Sans elle, le modèle n'aboutit à rien du tout.

La question est de savoir comment, en mélangeant les données, accroître l'importance des données les plus récentes, afin que le modèle détecte plus rapidement les nouvelles tendances du marché.

Le pré-entraînement est effectué sur des données anciennes. Les dernières étapes de la formation sont menées sur de nouvelles données.
 

C'est-à-dire une formation en 2 étapes ?
Entraînement sur une grande quantité de données + réentraînement du modèle résultant sur de nouvelles données.
Il est possible d'essayer.


J'ai eu une idée, il suffit d'ajouter des données fraîches 2 à 3 fois à l'ensemble des données de formation. Même avec le brassage, l'importance augmentera.

 
elibrarius:

Je me demandais, si tout est mélangé, comment faire pour que les nouvelles données aient un impact plus fort sur l'apprentissage ?

Il existe une astuce pour reproduire plusieurs fois les exemples d'entraînement les plus récents.
Par exemple, dans le paquet gbm, vous pouvez définir un coefficient d'importance pour chaque exemple de formation, mais ce n'est pas un neurone, je viens de donner un exemple.


elibrarius:

Les "séries temporelles indépendantes de la séquence" sont fournies par le brassage. Sans elle, le modèle n'aboutit à rien du tout.

Dans la plupart des modèles, la dépendance de séquence n'existe pas du tout. Dans les neurones, par exemple, une erreur est calculée pour chaque exemple de formation, puis la somme de toutes les erreurs affecte les changements de poids. La somme ne change pas lorsque l'ordre des sommets change.

Mais les modèles ont souvent le paramètre batch.size ou quelque chose de similaire qui influence le pourcentage de données de formation à prendre pour la formation. Si vous prenez un très petit pourcentage de données d'apprentissage et que vous désactivez le mixage, le modèle prendra le même petit ensemble de données à chaque fois, et les choses se termineront mal. Je ne connais pas spécifiquement darch, mais la désactivation du mixage ne devrait pas provoquer un échec complet, vous avez quelque chose qui ne va pas avec d'autres paramètres.


Aleksey Terentev:
Essayez la validation croisée (K-fold).

Je suis tout à fait d'accord. Quelles que soient les affirmations fracassantes de l'auteur du modèle sur sa protection contre la suralimentation, seul le k-fold montrera si c'est vrai ou non.

 
Il est temps pour vous de faire le point et de tirer une conclusion.
Et montrer la pratique.
 
Alexander Ivanov:
Il est temps pour vous de faire le point et de tirer une conclusion.
Et montrer la pratique.

Prochainement... "presque fini".

C'est la chose la plus difficile que j'ai faite dans ma vie.

 
Maxim Dmitrievsky:

Prochainement... "presque fini".

C'est la chose la plus difficile que j'ai faite dans ma vie.

Ugh, frotter les stylos pour essayer la démo 😀👍👍👍👍 comme une savoureuse tarte de grand-mère fraîche😂😀.
 
Imho bien sûr, mais ici chaque page de la branche, vous devez commencer avec le slogan de SanSanych - "rubbish in - rubbish out". Et tous vos talents cognitifs et créatifs devraient d'abord viser à réduire les déchets à l'entrée, et seulement ensuite essayer de charger le matériel informatique à l'extrême.