Réseaux neuronaux hybrides. - page 16

 
Je veux le savoir par moi-même !
 
gumgum >> :
Je veux le savoir moi-même !

Kgm ... Je crois que je sais :) Lorsque j'ai implémenté RPRop pour la première fois, j'ai rencontré une situation où l'erreur commence à augmenter et où la valeur de dEdW (gradient) atteint +Inf.

Limiter le nombre d'époques d'apprentissage à disons 10-15 ou introduire la vérification de la valeur supérieure du gradient dans le code, j'ai un tel code ici :


si (Math::Abs(this->dEdW[j][k][i]) < 10e-25)
{
ce->dEdW[j][k][i] = 0 ;
}


Cela signifie que l'algorithme a atteint un minimum local ou que nous avons affaire à un recyclage du réseau.

 
Je comprends donc qu'il faut alimenter tous les exemples de l'ensemble d'entraînement, calculer pour chaque dedw et ensuite diviser dedw par le nombre d'exemples d'entraînement, est-ce ainsi que le mode batch fonctionne ?
 
gumgum >> :
Je comprends que nous alimentons tous les exemples de l'ensemble d'entraînement en calculant pour chaque dedw, nous accumulons la somme des dedw, puis nous divisons dedw par le nombre d'exemples d'entraînement. Est-ce ainsi que le mode batch fonctionne ?

L'inconvénient de cet algorithme est qu'il est discret.

 
gumgum >> :
Donc, je comprends, pour alimenter tous les exemples de l'ensemble de formation, en calculant pour chaque dedw nous accumulons la somme de celui-ci. et ensuite diviser dedw par le nombre d'exemples de formation ? est-ce ainsi que le mode batch fonctionne ?

Oui, mais ne confondez pas gradient local pour un seul neurone et dEdW - vous avez autant de gradients locaux que de neurones, dans dEdW vous avez autant de connexions synaptiques par rapport au seuil de la fonction.

 
dentraf >> :

>> L'inconvénient de cet algorithme est qu'il est discret.

hmm ... Qu'entendez-vous par "discret" ? Cet algorithme n'est pas plus mauvais pour un certain nombre de problèmes que n'importe quelle méthode de gradient. Elle est inférieure aux méthodes quasi-newtoniennes ou à la LMA. Mais c'est plus rapide qu'un simple gradient.

 
rip >> :

hmm ... qu'entend-on par "discret" ? Cet algorithme n'est pas plus mauvais pour un certain nombre de problèmes que n'importe quelle méthode de gradient. Elle est inférieure aux méthodes quasi-newtoniennes ou à la LMA. Mais cela fonctionne plus rapidement qu'un simple gradient.

Je n'ai rien dit sur la vitesse).

 
Un réseau neuronal - je vois. Comment le préparez-vous ? Sur quel type de données l'exécutez-vous ? Intervalles ?
 
Merci à tous !
 
rip писал(а) >>

hmm ... qu'entend-on par "discret" ? Cet algorithme n'est pas plus mauvais pour un certain nombre de problèmes que n'importe quelle méthode de gradient. Elle est inférieure aux méthodes quasi-newtoniennes ou à la LMA. Mais cela fonctionne plus rapidement qu'un simple gradient.

Plus de détails sur les méthodes quasi-newtonienne et LMA.