하이브리드 신경망. - 페이지 17

 

누가 시도 했습니까?

.................................................................. . ........

역전파와 코시 학습 결합

역전파와 코시 학습을 사용한 결합 알고리즘의 가중치 보정은 (1) 역전파 알고리즘을 사용하여 계산된 방향성 성분과 (2) 코시 분포에 의해 결정된 랜덤 성분의 두 가지 구성 요소로 구성됩니다.

이러한 구성 요소는 각 가중치에 대해 계산되며 그 합은 가중치가 변경되는 양입니다. 코시 알고리즘과 마찬가지로 가중치의 변화를 계산한 후 목적함수를 계산한다. 개선 사항이 있으면 변경 사항이 저장됩니다. 그렇지 않으면 볼츠만 분포에 의해 주어진 확률로 지속됩니다.

가중치 보정은 각 알고리즘에 대해 이전에 제시된 방정식을 사용하여 계산됩니다.

w mn,k (n+1) = w mn,k (n) + η [ a Δ w mn,k (n) + (1 – a ) δ n,k OUT m,j ] + (1 – η) x , _

여기서 η 는 가중치 단계 구성요소에서 상대적인 Cauchy 및 역전파 값을 제어하는 계수입니다. η 가 0으로 설정 되면 시스템은 완전한 코시 머신이 됩니다. η 가 1 이면 시스템은 역전파 기계가 됩니다.

.................................................................. . .....

 
gumgum >> :

quasi-Newtonian 및 LMA에서 더 자세히 가능합니다.

LMA = Levenberg–Marquardt 알고리즘

준뉴턴법

2차 그라디언트 방법


간단히 말해서 쓸 것이 많습니다.


뉴턴 알고리즘,
xk+1 = xk - sk*H^(-1)(xk)grad f(xk), 여기서
H^(-1)(xk)는 점 xk에서 헤세 행렬의 역행렬입니다.
sk - 단계 크기,
gradf(xk) - 점 xk에서의 함수 기울기.

따라서 준뉴턴 방법에서는 H^(-1)(xk) 대신 2차 편도함수로 구성된 행렬 H(xk)가 사용됩니다.
준뉴턴법에서는 극단차이법을 사용하여 2차 도함수를 계산한다. 따라서 우리는 가장 일반적으로 사용되는 두 가지

CR 계산 공식:


Broyden - Fletcher - Goldfarb - Shanno (BFGS)

데이비던-플레처-파월( DFP )


LMA:


2차 방법에도 적용됩니다. 2차의 편도함수를 계산할 필요가 있고,


xk+1 = xk - sk*H^(-1)(xk)grad f(xk), 여기서

따라서 H^(-1)(xk)는 H= J^t*J로 계산됩니다. 여기서 J는 야코비 행렬입니다.

각각 gradf(xk) = J^t*E, J^t는 전치된 야코비 행렬, E는 네트워크 오류 벡터, 다음

xk+1 = xk - [J^t*J + mu*I]^(-1)*J^t*E, 여기서 mu는 스칼라이며 mu가 0이면 mu ->인 경우 Hessenian 근사를 사용하는 Newton의 방법을 사용합니다. + 정보,

작은 단계로 그라데이션 방법.


여기에 더 많은 토론이 있습니다.


신경 합성기, 디자이너 + 연구실

 
rip писал(а) >>

LMA = Levenberg–Marquardt 알고리즘

준뉴턴법

2차 그라디언트 방법

간단히 말해서 쓸 것이 많습니다.

뉴턴 알고리즘,
xk+1 = xk - sk*H^(-1)(xk)grad f(xk), 여기서
H^(-1)(xk)는 점 xk에서 헤세 행렬의 역행렬입니다.
sk - 단계 크기,
gradf(xk) - 점 xk에서의 함수 기울기.

따라서 준뉴턴 방법에서는 H^(-1)(xk) 대신 2차 편도함수로 구성된 행렬 H(xk)가 사용됩니다.
준뉴턴법에서는 극단차이법을 사용하여 2차 도함수를 계산한다. 따라서 우리는 가장 일반적으로 사용되는 두 가지

CR 계산 공식:

Broyden - Fletcher - Goldfarb - Shanno (BFGS)

데이비던-플레처-파월( DFP )


LMA:

2차 방법에도 적용됩니다. 2차의 편도함수를 계산할 필요가 있고,

xk+1 = xk - sk*H^(-1)(xk)grad f(xk), 여기서

따라서 H^(-1)(xk)는 H= J^t*J로 계산됩니다. 여기서 J는 야코비 행렬입니다.

각각 gradf(xk) = J^t*E, J^t는 전치된 야코비 행렬, E는 네트워크 오류 벡터, 다음

xk+1 = xk - [J^t*J + mu*I]^(-1)*J^t*E, 여기서 mu는 스칼라이며 mu가 0이면 mu ->인 경우 Hessenian 근사를 사용하는 Newton의 방법을 사용합니다. + 정보,

작은 단계의 그래디언트 방법.

여기에 더 많은 토론이 있습니다.


신경 합성기, 디자이너 + 연구실

고맙습니다.

문제는 남아 있습니다... 진실은 어디에 있습니까?

왼쪽 상단 모서리(RProp). DE/DW(t-1)*DE/DW<0일 때 왜 DE/DW=0입니까?

 
gumgum >> :

고맙습니다.

문제는 남아 있습니다... 진실은 어디에 있습니까?

왼쪽 상단 모서리. DE/DW(t-1)*DE/DW<0일 때 왜 DE/DW=0입니까?

기울기의 음수 곱은 알고리즘이 필요한 극한값을 "점프"했음을 나타냅니다. 따라서 현재 단계에서 그래디언트 값이 저장된 메모리 셀(그래디언트 자체가 아니라 메모리 셀임에 유의)은 다음 단계에서 세 번째 조건이 작동하도록 0으로 재설정됩니다. 기사 전체를 읽으면 이것이 알고리즘의 트릭입니다.

 
alsu писал(а) >>

기울기의 음수 곱은 알고리즘이 필요한 극한값을 "점프"했음을 나타냅니다. 따라서 현재 단계에서 그래디언트 값이 저장된 메모리 셀(그래디언트 자체가 아니라 메모리 셀임에 유의)은 다음 단계에서 세 번째 조건이 작동하도록 0으로 재설정됩니다. 기사 전체를 읽으면 이것이 알고리즘의 트릭입니다.

그러나 그러면 de/dw(t-1)=0이 필요합니다.

 
gumgum >> :

그러나 그러면 de/dw(t-1)=0이 필요합니다.

이 단계에서는 de/dw(t)이고 다음 단계에서는 de/dw(t-1)이 됩니다.

 
alsu писал(а) >>

이 단계에서는 de/dw(t)이고 다음 단계에서는 de/dw(t-1)이 됩니다.

고맙습니다. JRprop q가 각 무게에 대해 개별적인지 또는 어떻게 알려줄 수 있습니까?

 

나는 이미 혼란스러워서 deltaW=-n*DE/DW를 쓰는 사람도 있고 deltaW=n*DE/DW를 쓰는 사람도 있고 등등. 등. ......

 
gumgum >> :

고맙습니다. JRprop q가 각 무게에 대해 개별적인지 또는 어떻게 알려줄 수 있습니까?

내가 이해하는 한, ku one for all

 
gumgum >> :

나는 이미 혼란스러워서 deltaW=-n*DE/DW를 쓰는 사람도 있고 deltaW=n*DE/DW를 쓰는 사람도 있고 등등. 등. ......

맨 처음부터 시작합시다. RProp은 발견적 알고리즘이며, 시냅스의 가중치에 대한 오류 함수의 1차 도함수의 부호 분석을 사용합니다.

양의 도함수의 부호가 변경되지 않은 경우 dEdW(t)*dEdW(t-1) > 0 즉. 오류 최소화가 완료되면 올바른 방향으로 이동합니다.

기호가 변경된 경우, 즉. dEdW(t)*dEdW(t-1) < 0, 우리는 최소값(로컬 최소값)을 놓쳤습니다. 2단계 뒤로 물러나야 합니다. 첫 번째는 놓친 최소값을 보상하는 것입니다. 귀하의 예에서 DELTAij(t)는 이전 델타 값과 -eta에서 계산되며, 이 단계에서 Wij(t) 수정을 수행할 수 없습니다. 이전 Wij 값이지만 완료되었으므로 도함수의 부호가 변경되는 지점에서 뒤로 두 번 이동합니다.


<deltaW=-n*DE/DW other deltaW=n*DE/DW>는 상관없습니다. 어떤 단계가 어떤 방향으로, 어떤 시점에 수행되는지 이해하면 됩니다.


이것은 휴리스틱이므로 공식의 정확한 준수가 중요하지 않고 원칙이 중요합니다.