Redes neurais híbridas. - página 16

 
Eu quero saber por mim mesmo!
 
gumgum >> :
Eu mesmo quero saber!

Kgm ... Eu acho que sei :) Quando implementei o RPRop pela primeira vez, deparei com uma situação em que o erro começa a crescer e o valor do dEdW (gradiente) vai para +Inf.

Limitar o número de épocas de aprendizagem para dizer 10-15 ou introduzir a verificação do valor superior do gradiente no código, eu tenho esse código lá:


if (Matemática::Abs(isto->dEdW[j][k][i]) < 10e-25)
{
this->dEdW[j][k][i] = 0;
}


Isto significa que o algoritmo atingiu um mínimo local ou estamos lidando com o requalificação da rede.

 
Então, para alimentar todos os exemplos do conjunto de treinamento, calculando para cada dedw e depois dividindo o dedw pelo número de exemplos de treinamento, é assim que o modo batch funciona?
 
gumgum >> :
Entendo que alimentamos todos os exemplos do conjunto de treinamento calculando para cada dedw e depois dividimos o dedw pelo número de exemplos de treinamento, é assim que o modo batch funciona?

A desvantagem deste algoritmo é que ele é discreto

 
gumgum >> :
Então, entendo, para alimentar todos os exemplos do conjunto de treinamento, calculando para cada dedw acumulamos a soma dele. e depois dividimos o dedw pelo número de exemplos de treinamento? é assim que o modo batch funciona?

Sim, mas não confunda gradiente local para um único neurônio e dEdW - você tem tantos gradientes locais quanto neurônios, no dEdW você tem tantas conexões sinápticas no que diz respeito ao limite da função.

 
dentraf >> :

>> o lado negativo deste algoritmo é que ele é discreto.

hmm ... O que você quer dizer com discreto? Este algoritmo não é pior para uma série de problemas do que qualquer método de gradiente. É inferior aos métodos quase newtonianos ou, digamos, LMA. Mas é mais rápido do que o simples gradiente.

 
rip >> :

hmm ... o que se entende por discreto? Este algoritmo não é pior para uma série de problemas do que qualquer método de gradiente. É inferior aos métodos quase newtonianos ou, digamos, LMA. Mas funciona mais rápido do que o simples gradiente.

Eu não disse nada sobre velocidade).

 
Uma rede neural - estou vendo. Como você o prepara? Em que tipo de dados você os executa? Intervalos?
 
Obrigado a todos vocês!
 
rip писал(а) >>

hmm ... o que se entende por discreto? Este algoritmo não é pior para uma série de problemas do que qualquer método de gradiente. É inferior aos métodos quase newtonianos ou, digamos, LMA. Mas funciona mais rápido do que o simples gradiente.

Mais detalhes sobre os métodos quase-Newtonianos e LMA.