L'étiquette du marché ou les bonnes manières dans un champ de mines - page 11

 
Neutron >> :

C'est vrai.

Mais, l'entrée de chaque perseptron a une entrée supplémentaire séparée pour un décalage constant de +1. Cela accélère l'apprentissage et augmente la puissance de la grille.

Ou, si vous ne comptez pas la couche d'entrée, alors avec tout ce qui a été dit :



S'il y a des erreurs, merci de les corriger.

 
Neutron >> :

C'est vrai.

Mais, l'entrée de chaque perseptron a une entrée supplémentaire séparée pour un décalage constant de +1. Cela accélère l'apprentissage et augmente la puissance du réseau.

S'agit-il d'un gadget qui remplace le seuil des neurones sans augmenter le nombre de paramètres configurables ? Cool, c'est la première fois que je vois ça mais j'aime bien :)

 

Et où se trouve le biais constant à l'entrée de chaque neurone ?

paralocus писал(а) >>

Pour autant que j'aie pu vous comprendre, la figure montre l'architecture NS optimale pour le marché.

C'est ce que j'ai compris. Peut-être que ce n'est pas vrai. Mais les résultats des expériences numériques confirment cette affirmation.

Le nombre d'entrées est de 12 et le nombre de synapses est de 4. Par la formule Popt=k*w*w/d on obtient 144/4 = 36... C'est 36 barres ? Ou 36 situations d'achat/vente proches ? Ai-je bien compris ?

Réfléchissez bien : Nombre de toutes les synapses dans votre architecture : w=12+4=16.

Nombre d'entrées : d=3 (pas 4*3, mais seulement 3).

La longueur optimale de l'échantillon d'entraînement : Popt=k*w*w/d =4*16*16/3=340 échantillons par série temporelle (vous avez 4 échantillons à chaque neurone d'entrée). Il peut s'agir de barres ou de valeurs indicatrices, ou encore d'échantillons transactionnels. C'est à vous de décider ce qui est le mieux pour augmenter la prévisibilité... N'oubliez pas que la prévisibilité fait partie du taux de rendement du SMT au 4e degré ! Une corrélation très forte (voir ce sujet au début).

 
paralocus писал(а) >>

Ou, si vous ne comptez pas la couche d'entrée, prenez en compte tout ce qui est dit :

S'il y a des erreurs, veuillez les corriger.

Je ne comprends pas !

Pourquoi ne comptez-vous pas la couche d'entrée ? Ne participe-t-il pas à l'apprentissage et à la prédiction ?

Il est préférable d'avoir deux couches - une couche cachée (ou couche d'entrée) et une couche de sortie. Avec cette architecture, vous avez w=4*4+5=21, d=4 et P=4*21*21/4=440 comptes.

 
TheXpert писал(а) >>

Est-ce une sorte de gadget qui remplace le seuil des neurones sans augmenter le nombre de paramètres ajustables ?

FION a écrit >>

Je vois. Le décalage constant ne fait que déplacer légèrement le point d'activation sur la courbe hypertangente .

Généralement correct, mais pour être précis, lorsqu'un autre lot de données arrive à l'entrée NS, nous impliquons qu'il n'est pas centré (MO!=0). C'est pourquoi nous introduisons une entrée constante supplémentaire dans chaque neurone. Au cours du processus de formation, un neurone particulier sélectionne une valeur de poids à cette entrée de manière à compenser un éventuel décalage de ses données d'entrée. Cela permet un apprentissage statistiquement plus rapide (depuis le centre du nuage imaginaire).

 
Neutron >> :

Et où se trouve le biais constant à l'entrée de chaque neurone ?

C'est ce que je pense. Cela peut ne pas être vrai. Mais les résultats des expériences numériques confirment cette affirmation.

Comptons soigneusement : Nombre de toutes les synapses dans votre architecture : w=12+4=16

Nombre d'entrées : d=3 (pas 4*3, mais seulement 3).

La longueur optimale de l'échantillon d'entraînement : Popt=k*w*w/d =4*16*16/3=340 échantillons par série temporelle (vous avez 4 échantillons à chaque neurone d'entrée). Il peut s'agir de barres ou de valeurs indicatrices, ou encore d'échantillons transactionnels. C'est à vous de décider ce qui est le mieux pour augmenter la prévisibilité... N'oubliez pas que la prévisibilité fait partie du taux de rendement du SMT au 4e degré ! Une corrélation très forte (voir ce fil au début).

Popt=k*w*w/d, où k est une constante sans dimension d'ordre 1 et tient compte du fait que le marché est volatile.

Dans cette formule, d est le nombre d'entrées d'un neurone de la couche cachée, et k est le nombre de neurones dans la couche cachée ? Désolé, j'ai du mal à croire que le réseau puisse apprendre sur 340 barres. C'est très petit... J'ai dû mal comprendre quelque chose.

Jusqu'à présent, je ne connaissais que le perceptron le plus simple qui est "entraîné" dans le testeur du terminal MT4 avec un algorithme génétique. Vous devez vérifier au moins un historique significatif (2 ou 3 mois). Bien sûr, je comprends que le généticien n'apprend rien au perceptron, il se contente de choisir les coefficients les plus appropriés et travaille avec une efficacité très faible, puisqu'il agit à l'aveugle. Eh bien, peu importe. C'était une digression lyrique.


Ai-je bien compris que les entrées individuelles doivent également avoir leurs propres facteurs de pondération ? Et comment puis-je mettre les entrées sur une "liste blanche" ? C'est-à-dire, supposons que j'ai un RSI normalisé par l'hypertangente avec une espérance aussi élevée que 0,21 sur l'entrée. Si je fais ce qui suit : f(t) = th(RSI(i)*kf), où kf > 1 est un coefficient spécialement choisi pour niveler la fonction de densité de probabilité au prix d'une certaine distorsion du signal d'entrée, cela sera-t-il correct ou non ?

Que sont les comptages transitoires ?

 
Neutron >> :


Au fait, pour toutes les personnes intéressées : la stratégie - "bloquer les pertes et laisser les profits augmenter" ou "bloquer les profits et laisser les pertes augmenter" (selon que le marché est en tendance ou plat, selon l'horizon de trading choisi) - n'est pas optimale lors du réinvestissement du capital. Dans ce cas, il est plus rentable de fixer sur chaque étape avec un réinvestissement ! Par exemple, si nous avons 10 transactions rentables continues, il est plus rentable de payer des commissions aux sociétés de courtage et de les réinvestir, que de garder une position tout le temps et d'économiser sur le spread.

Un tel paradoxe, qui peut nous conduire aux transactions bernulling et après cela - à l'utilisation effective de l'équation de base du trading sous la forme analytique (contrairement à Vince) sans aucun problème de paramétrage.

Il ne s'agit pas tant d'un paradoxe que d'une propriété du MM avec réinvestissement. L'efficacité de ce MM dépend, entre autres, du nombre de transactions. La rentabilité de ce MM est la moyenne géométrique en degré du nombre de transactions. Avec un petit nombre de transactions, la rentabilité perd au profit d'un simple MM, mais si nous parvenons à survivre avec un grand nombre de transactions (jouer long) alors le rendement peut être plus important. Mais comme toujours, rien n'est donné gratuitement. Le prix à payer est l'effet de levier asymétrique et sa conséquence - une longue période de faible revenu par rapport à un simple MM.

 
paralocus писал(а) >>

Popt=k*w*w/d, k est une constante sans dimension d'ordre 1 et tient compte du fait de la variabilité du marché.

Dans cette formule, d est le nombre d'entrées d'un neurone de la couche cachée, et k est le nombre de neurones dans la couche cachée ? Désolé, j'ai du mal à croire que le réseau puisse apprendre sur 340 barres. C'est très petit... J'ai dû mal comprendre quelque chose.

Jusqu'à présent, je ne connaissais que le perceptron le plus simple qui est "entraîné" dans le testeur du terminal MT4 avec un algorithme génétique. Vous devez vérifier au moins un historique significatif (2 ou 3 mois). Bien sûr, je comprends que le généticien n'apprend rien au perceptron, il se contente de choisir les coefficients les plus appropriés et travaille avec une efficacité très faible, puisqu'il agit à l'aveugle. Eh bien, peu importe. C'était une digression lyrique.

Ai-je bien compris que les entrées individuelles doivent également avoir leurs propres coefficients de pondération ? Et comment pouvons-nous "blanchir" les entrées ? Supposons que j'ai un RSI normalisé hypertangent avec une espérance aussi élevée que 0,21 sur l'entrée. Si je fais ce qui suit : f(t) = th(RSI(i)*kf), où kf > 1 est un coefficient spécialement choisi pour niveler la fonction de densité de probabilité au prix d'une certaine distorsion du signal d'entrée, cela sera-t-il correct ou non ?

Que sont les comptages transitoires?

Paralocus, tu as peur de te tromper ? Lâchez-la ! - Essayez-le de cette façon et de cette autre, et voyez le résultat - tout se mettra en place.

k n'est pas le nombre d'entrées des neurones, mais une caractéristique empirique du Marché - sa variabilité et est choisi dans la gamme de 2 à 4. Si le Marché était stationnaire, alors k pourrait être pris à la fois 10 et 20, ce qui signifierait aller vers les asymptotiques sur le processus d'apprentissage du Réseau. Malheureusement, le marché ne peut être qualifié de stationnaire que dans sa non-stationnarité, de sorte que le coefficient doit être pris aussi bas que possible dans le processus de recyclage de NS. On obtient ainsi la fourchette de k mentionnée ci-dessus .

Votre généticien est une sorte de méthode d'apprentissage stochastique avec des éléments de descente de gradient (si je ne me trompe pas). Ce n'est pas une mauvaise chose, mais il perd en termes de vitesse d'apprentissage par rapport au BGC. Abandonnez le généticien en faveur de la rétropropagation des erreurs - l'apprentissage sera plus efficace et il n'y a pas de limite au nombre d'entrées et de synapses du réseau.

Les entrées individuelles ont leurs coefficients, qui sont formés comme normaux et ne diffèrent pas en propriétés des autres entrées.

Le blanchiment des entrées est une élimination des dépendances de corrélation entre elles. Pour utiliser cette procédure, il faut d'abord se convaincre de cette corrélation même.

Une transaction, c'est l'acte d'acheter ou de vendre un actif sur le marché, c'est-à-dire une transaction, un pot-de-vin (pas au sens pénal du terme :-)

 
Neutron >> :

Abandonnez la génétique en faveur de la rétropropagation des erreurs - l'apprentissage sera plus efficace et il n'y a pas de limite au nombre d'entrées et de synapses du réseau.


C'est tout, j'ai abandonné. Je me suis assis pour écrire la grille avec ORO. Il peut y avoir des questions sur l'ATE elle-même.

 
paralocus писал(а) >>

Il peut y avoir des questions sur l'ATE elle-même.

Pas de problème !

À propos, examinons de plus près l'architecture de votre réseau.

Vous avez un comité de trois réseaux bicouches indépendants reliés par un neurone de sortie (donc comité). Chaque grille de votre comité ne contient qu'un seul neurone en entrée, ce qui est faux, car une telle architecture ne diffère pas d'un perseptron monocouche dans sa puissance de calcul. C'est pourquoi vous avez trois entrées (4 avec le biais) au lieu de 12. Encore une fois : vous avez créé une analogie avec un conseil d'administration, où le président par vote général (neurone de sortie) choisit la "bonne" réponse, et chacun des votants est représenté par un seul neurone. Une telle architecture n'offrirait pas d'avantage commercial. A droite, fournir au moins deux neurones d'entrée pour chaque membre du comité, cela permettra d'exploiter pleinement la propriété de nullité de FA et d'augmenter sensiblement le pouvoir prédictif du comité.

Vous voyez combien l'IA et nous avons en commun... En fait, le vote à une réunion du Komsomol n'est rien d'autre que le schéma optimal du comportement collectif en termes de réalisation la plus rapide de l'objectif au moindre coût !

Notez que la sortie du comité n'a pas de fonction d'activation non linéaire, c'est simplement un additionneur et sa fonction est de prendre une décision sur la base des résultats du vote. Cette architecture est donc la plus proche de votre idée. Il s'agit d'un comité de réseaux non linéaires à deux couches avec une couche cachée. Le nombre de neurones dans la couche cachée peut être augmenté pour accroître la précision de la prévision, mais il faut se rappeler que la longueur de l'échantillon d'apprentissage augmente de manière quadratique et arrive très vite à un point où l'efficacité de l'augmentation incrémentielle diminue et entraîne même une dégradation des capacités de prévision du réseau. D'après mes expériences numériques, l'optimum n'est pas plus de 2-4 nerons dans la couche cachée.

Pour une architecture donnée, la longueur optimale des échantillons d'entraînement P=1500 échantillons.

P.S. C'est joli. Je parle de la photo. J'ai un plaisir esthétique !