Você está perdendo oportunidades de negociação:
- Aplicativos de negociação gratuitos
- 8 000+ sinais para cópia
- Notícias econômicas para análise dos mercados financeiros
Registro
Login
Você concorda com a política do site e com os termos de uso
Se você não tem uma conta, por favor registre-se
Eu mesmo quero saber!
Kgm ... Eu acho que sei :) Quando implementei o RPRop pela primeira vez, deparei com uma situação em que o erro começa a crescer e o valor do dEdW (gradiente) vai para +Inf.
Limitar o número de épocas de aprendizagem para dizer 10-15 ou introduzir a verificação do valor superior do gradiente no código, eu tenho esse código lá:
if (Matemática::Abs(isto->dEdW[j][k][i]) < 10e-25)
{
this->dEdW[j][k][i] = 0;
}
Isto significa que o algoritmo atingiu um mínimo local ou estamos lidando com o requalificação da rede.
Entendo que alimentamos todos os exemplos do conjunto de treinamento calculando para cada dedw e depois dividimos o dedw pelo número de exemplos de treinamento, é assim que o modo batch funciona?
A desvantagem deste algoritmo é que ele é discreto
Então, entendo, para alimentar todos os exemplos do conjunto de treinamento, calculando para cada dedw acumulamos a soma dele. e depois dividimos o dedw pelo número de exemplos de treinamento? é assim que o modo batch funciona?
Sim, mas não confunda gradiente local para um único neurônio e dEdW - você tem tantos gradientes locais quanto neurônios, no dEdW você tem tantas conexões sinápticas no que diz respeito ao limite da função.
>> o lado negativo deste algoritmo é que ele é discreto.
hmm ... O que você quer dizer com discreto? Este algoritmo não é pior para uma série de problemas do que qualquer método de gradiente. É inferior aos métodos quase newtonianos ou, digamos, LMA. Mas é mais rápido do que o simples gradiente.
hmm ... o que se entende por discreto? Este algoritmo não é pior para uma série de problemas do que qualquer método de gradiente. É inferior aos métodos quase newtonianos ou, digamos, LMA. Mas funciona mais rápido do que o simples gradiente.
Eu não disse nada sobre velocidade).
hmm ... o que se entende por discreto? Este algoritmo não é pior para uma série de problemas do que qualquer método de gradiente. É inferior aos métodos quase newtonianos ou, digamos, LMA. Mas funciona mais rápido do que o simples gradiente.
Mais detalhes sobre os métodos quase-Newtonianos e LMA.