L'étiquette du marché ou les bonnes manières dans un champ de mines - page 58

 
gpwr >> :

Je crois que tu m'as encore mal compris.

Je ne comprends vraiment pas comment vous allez influencer les coefficients de ce polynôme afin de trouver l'erreur minimale globale (c'est-à-dire l'apprentissage). Je vais vous montrer les poids du neurone entraîné :


Trois expériences sur le même vecteur. L'expérience la plus à droite a été la plus réussie. En d'autres termes, je comprends qu'en ayant une topologie prête, il n'est pas difficile (théoriquement) de choisir un tel polynôme qui lisserait cette topologie assez bien, mais expliquez-moi, comment allez-vous calculer cette topologie (maillage déjà formé) pour un maillage non formé ? En d'autres termes, quel est l'algorithme permettant d'influencer le kf, ce qui entraîne une réduction de la fonction d'erreur d'apprentissage ? Vous le connaissez ?

 
Neutron >> :

Nous l'avons construit spécialement pour vous :

Vous pouvez clairement voir que FZ est toujours présent et est visuellement visible sur les mouvements brusques du kotir.

Sergey, je ne discuterai plus de ce sujet avec vous, car il est trivial et totalement inutile. Apprenez les mathématiques, et la prochaine fois que vous aurez une idée super brillante, pour la mise en œuvre de laquelle vous pensez avoir besoin d'un ou deux instituts de recherche et d'un groupe de PC, vous réfléchirez une minute - peut-être ne savez-vous pas ou ne comprenez-vous pas. Après tout, c'est plus probable que la "découverte d'époque", dans la zone où vous avez depuis longtemps tout piétiné auparavant.


OK, considérons que le retard de phase (c'est le terme) existe pour deux cas de figure



Franchement, et vous m'ennuyez :o)

 
HideYourRichess >> :

Je suis surpris de voir un algorithme qui le démontre à 80 %. Je cherche une erreur. Cela semble très simple. Ça ne marche pas comme ça.

pas de surprise si moi, qui ne suis pas mathématicien, j'ai eu raison, alors que dire d'un pro ! :о)))

 

à Neutron


Y a-t-il un retard de phase entre le High/Low et le Close ? :о))) Donc, selon votre méthode visuelle, il y en a un :




D'où peut-il venir ?


Corrections et addendum: Tant que personne ne regarde, je vais faire de petites corrections. J'ai fait une petite erreur à la hâte, dans la - photo ci-dessus Ouvrir et Fermer. Un signal est retardé par rapport à l'autre, mais dans ce cas particulier, il ne s'agit pas d'un déphasage.


Il n'y a pas de retard de phase. Aucun opérateur mathématique n'a été exécuté pour provoquer un décalage. Il n'y a pas de déphasage qui surgit de nulle part. Au lieu de cela, il y a un choix de processus, une règle qui dit "c'est le processus".


Si le "glissement" est considéré en termes d'ouverture en premier et de fermeture en second, alors oui - il y a un "glissement" (je ne vais pas argumenter contre cela). Mais je ne sais même pas quelles méthodes mathématiques permettront de "trouver" le décalage dans ce cas particulier. Ces signaux sont alternatifs les uns aux autres.




Et pour choisir Close pour la prédiction, il est nécessaire d'avoir un système incroyablement précis. Et pour mon idée simple, qui est d'ailleurs très "robotique", aucun délai (H+L)/2 n'aura le moindre effet.


PS: Jésus, Seryoga Seryoga, - ces processus sont monopéniques, absolument. C'est tout maintenant, au revoir. Bonne chance

 

à Neutron

En attendant le nouveau Matkad, je répète ce que j'ai appris, c'est-à-dire que je m'amuse avec la couche unique. Vous m'avez demandé de montrer la longueur du vecteur d'erreur, et c'est ce que j'ai obtenu :


Statistiques X, longueur L (si j'ai bien compris).

Calculé de la manière suivante :


Ici, i est la boucle sur la statistique X est le vecteur d'entrée (additionné sur toute la longueur du vecteur d'apprentissage actuel). Le carré des erreurs est accumulé pendant toute l'époque avec le carré du vecteur d'apprentissage :


Et à la fin d'une époque, elle est comptée comme suit :


Ici, n est le cycle sur les époques.

Est-ce que tout est fait correctement ?

 

D'après la figure, il y a une erreur quelque part - nous devrions voir un apprentissage progressif du réseau (diminution de la longueur du vecteur d'erreur) au fur et à mesure que nous passons d'une époque à l'autre. Ce n'est pas visible. Les raisons, comme toujours, pourraient être un chariot et une petite charrette. Par exemple, au lieu de la magnitude du vecteur d'erreur à partir de l'époque, le graphique montre cette magnitude pour le réseau déjà formé (dernière époque) en fonction du nombre d'expériences indépendantes... Il découle de votre - "Par X statistiques..." - quelles statistiques ? Ce n'est pas comme si on était censé le taper ici. Et celui-ci - "...par L longueur", - L est normalisé à la longueur du vecteur de données et doit être proche de 1, diminuant progressivement vers la fin de la circonférence... Nous voyons quelque chose de différent.

Regardez ici à quoi cela devrait ressembler :

Ici, le bleu montre la longueur du vecteur d'erreur sur l'échantillon d'entraînement (nous regardons comment la grille est entraînée, pas comment elle prédit). Dans l'ensemble, nous avons utilisé 200 époques d'entraînement et k=1 pour plus de clarté, afin de montrer que dans ce cas particulier, le réseau est complètement entraîné (l'erreur est nulle) et mémorise simplement l'échantillon d'entraînement par cœur. C'est encore plus rapide. Le problème est que sur l'échantillon de test avec de telles pondérations, notre additionneur affichera le temps qu'il fait en Afrique, c'est-à-dire qu'il est complètement privé de sa capacité de généralisation. Les lignes rouges de la figure montrent la variance (dispersion) d'une série d'expériences (n=50), tandis que la ligne bleue indique la moyenne (je compile effectivement des statistiques, mais d'une manière différente de la vôtre et j'en parlerai plus tard).

Vos deux dernières expressions sont presque correctes, sauf qu'il ne devrait pas y avoir d'indice sur les statistiques (vous ne faites qu'UNE seule expérience et vous avez besoin d'un nouveau code, sans ensemble de statistiques), et je ne comprends pas la première équation. D'où vient-elle ? J'ai un bloc similaire qui ressemble à ceci :

j, est la boucle sur le vecteur d'apprentissage. Remarquez que mes indices sont sensiblement plus petits lorsque l'indice est au carré !

P.S. Au fait, j'ai renoncé à utiliser la fonction squeeze pour les poids, d'abord pour la couche simple, puis pour la couche double. Sans elle, les résultats sont tout aussi bons et les tracas sont moindres.

 
grasn >> :

ce n'est pas une surprise si moi, qui ne suis pas mathématicien, je l'ai eu, alors tu parles d'un pro ! :о)))


J'ai compris. Ce que je faisais pouvait être considéré comme une version primitive de la RA, ou inversement, la RA pouvait être considérée comme une version améliorée de ce que je faisais.

 
Neutron >> :

Vos deux dernières expressions sont presque correctes, sauf qu'il ne devrait pas y avoir d'indice sur les statistiques (vous ne faites qu'UNE seule expérience et vous avez besoin d'un nouveau code, sans ensemble de statistiques), mais je ne comprends pas la première équation. D'où vient-elle ? J'ai un bloc similaire qui ressemble à ceci :

Où j, est la boucle sur le vecteur d'apprentissage. Remarquez que mes indices sont sensiblement plus petits lorsque l'indice est au carré !

P.S. Au fait, j'ai renoncé à utiliser la fonction squeeze pour les poids, d'abord pour la couche simple, puis pour la couche double. Sans elle, les résultats sont tout aussi bons et les tracas sont moindres.

La première équation calcule la longueur du vecteur d'erreur et la normalise à la longueur du vecteur de données (c'est-à-dire la façon dont je l'ai compris jusqu'à présent). La raison en est probablement que j'ai vraiment besoin d'un nouveau code sans ensemble de statistiques. Je vais le faire maintenant.

Quant à la fonction de compression, elle n'a pas fonctionné pour moi tout de suite (c'est-à-dire que le résultat n'était pas évident), donc je ne l'ai pas utilisée.

 
paralocus писал(а) >>

La première équation consiste à calculer la longueur du vecteur d'erreur et à la normaliser par la longueur du vecteur de données (c'est-à-dire de la manière dont je l'ai compris jusqu'à présent)

Que représentent donc les deux dernières expressions ?

Je pensais que le deuxième était de trouver les carrés des longueurs des vecteurs et que le troisième était de trouver la longueur normalisée. Si oui, pourquoi la première expression ?

 
HideYourRichess >> :

J'ai tout compris. Ce que j'ai fait peut être considéré comme une version primitive de l'AR, ou vice versa, l'AR peut être considéré comme une version améliorée de ce que j'ai fait.

Je n'ai pas inclus l'identification du modèle, c'est-à-dire la définition optimale de la longueur de l'échantillon et de l'ordre du modèle. Avec ça, je pense qu'il est possible d'atteindre les 90%. Je ne doute absolument pas que vos résultats seront tout aussi bons, voire meilleurs. ;)