Вы упускаете торговые возможности:
- Бесплатные приложения для трейдинга
- 8 000+ сигналов для копирования
- Экономические новости для анализа финансовых рынков
Регистрация
Вход
Вы принимаете политику сайта и условия использования
Если у вас нет учетной записи, зарегистрируйтесь
сам желаю знать!,
Кгм ... кажется знаю :) Когда я впервые реализовывал RPRop натолкнулся на ситуацию, когда ошибка начинает рости и значение dEdW (градиент) вылетает в +Inf.
Ограничьте кол-во эпох обучения, до скажем 10-15 или введите в код проверку на верхнее значение градиента, у меня там есть такой код:
if (Math::Abs(this->dEdW[j][k][i]) < 10e-25)
{
this->dEdW[j][k][i] = 0;
}
Это значит, что алгоритм попал в область локального минимума или имеем дело с переобучением сети.
я так понял. подать все примеры из обучающего множества расчитывая для каждого dedw накапливаем сумму оного. а потом что делить dedw на кол_во обуч. примеров? так пакетный режим функционирует?
Минус этого алгоритма что он дискретный
я так понял. подать все примеры из обучающего множества расчитывая для каждого dedw накапливаем сумму оного. а потом что делить dedw на кол_во обуч. примеров? так пакетный режим функционирует?
Да так, только не путайте локальный градиент для отдельного нейрона и dEdW - локальных градиентов у вас столько сколько нейронов, в dEdW - столько сколько синаптических связей с учетом порога ф-ции.
Минус этого алгоритма что он дискретный
хм ... а что подразумевается под дискретным? Этот алгоритм ни чем не хуже для ряда задач, чем любой градиентный метод. Он уступает квази-ньютоновским методам или скажем LMA. Но работает быстрее чем simple gradient.
хм ... а что подразумевается под дискретным? Этот алгоритм ни чем не хуже для ряда задач, чем любой градиентный метод. Он уступает квази-ньютоновским методам или скажем LMA. Но работает быстрее чем simple gradient.
Я про скорость и не говорил)))
хм ... а что подразумевается под дискретным? Этот алгоритм ни чем не хуже для ряда задач, чем любой градиентный метод. Он уступает квази-ньютоновским методам или скажем LMA. Но работает быстрее чем simple gradient.
Можно поподробней по квази-ньютоновским и LMA.