지뢰밭에서의 시장예절 또는 예의범절 - 페이지 81

 
이러한 반올림으로 분포에서 잊지 말고 0과 같은 값의 수를 2로 나눕니다.
 
네, 알겠습니다(+/-0)
 
Neutron >> :

사실은 동일한 훈련 샘플에 대한 통계가 아니라 각 주기마다 한 카운트씩 순차적으로 이동하여 통계를 수집한다는 것입니다. 따라서 학습 결과가 일치하지 않습니다. 왜 그랬는지는 기억나지 않지만 본질은 변하지 않는다. 분명히 이런 식으로 나는 시장에서 프로세스의 준정상성을 포착하고 학습률에 미치는 영향을 반영하고 싶었습니다.

다음은 동일한 훈련 세트에서 10개 이상의 실험을 평균한 결과입니다(왼쪽 그림).

초기화가 0인 가중치의 경우 통계적 확산이 없음을 알 수 있습니다.

쌀. 오른쪽은 12개의 입력, 은닉층에 5개의 뉴런, 출력에 1개의 뉴런이 있고 120개 샘플의 훈련 세트가 있는 네트워크 아키텍처용으로 구축되었습니다. 귀하의 사례를 복제합니다. 통계는 50개의 독립적인 수치 실험에서 수집되었습니다. 또한 모든 것이 올바르게 작동합니다.

아니요, 시가의 첫 번째 차이를 입력으로 사용했습니다(컨텍스트에서 명확하다고 생각했습니다). 평균이 0인 것은 분명합니다. 다음 차이의 진폭과 부호를 예측했습니다.

정리에 관해서는, 나는 그것을 좋아했다. 그러나 그것은 특별한 경우로 우리 네트워크와 관계가 있습니다!

무한대가 되는 훈련 샘플의 길이에 대한 퇴화 사례를 증명했습니다. 실제로 이 경우 MO가 0인 CV를 나타내는 입력 데이터 벡터의 경우 가중치가 0입니다. 통합 CV에 대한 내일의 최상의 예측은 오늘의 현재 값입니다! 그러나 훈련된 가중치는 평형을 이루고 오류의 제곱을 최소화하는 경향이 있으므로 유한 길이의 훈련 샘플만 취하면 됩니다. 이 진술을 확인하는 예로 SLAE(동일한 NS)의 경우를 들 수 있습니다. 이 경우 가중치는 고유하게 정의되고 훈련 세트의 학습 오류는 동일하게 0(미지수의 수는 방정식의 수와 동일)이고 가중치(미지수의 계수)는 분명히 동일하지 않습니다. 제로.

내 정리에 대한 귀하의 의견에 동의합니다. 실제로 훈련 샘플의 세트 수를 줄이면 가중치가 0에서 벗어나게 됩니다. 하지만 상관관계를 계산하기 위해 무한한 훈련 세트를 사용할 필요가 없기 때문에 정리는 네트워크에 적용할 수 있다고 생각합니다. 통계적 평균 R(m)=E{x[i]x[i+m]}은 사용 가능한 데이터의 합계(x[i]x[i+m])로 계산됩니다. 정리는 이러한 합계(상관관계)가 0과 크게 다를 경우에만 네트워크가 예측력을 가질 수 있다는 점에서 중요합니다. 그렇지 않으면 가중치가 0으로 수렴됩니다. 따라서 입력과 출력 간의 상관 관계가 0이 아닌 훈련 데이터를 찾는 것이 매우 중요합니다. 그러한 상관 관계가 작은 입력은 예측에서 네트워크에 도움이 되지 않기 때문에 폐기될 수 있습니다.

내가 이해하는 바와 같이 그래프의 학습 오류는 2 또는 세트 수로 나누어지지 않습니다. 바르게? 모든 것이 제대로 작동하는지 확인하기 위해 제 네트워크에서 귀하의 입력을 실행하고 싶습니다. 네트워크의 입력 및 출력에 제공되는 형식으로 파일에 저장하고 여기에 넣을 수 있습니까? 40개의 샘플이 있는 5-4-1 네트워크를 사용하여 데이터 양을 줄일 수 있습니다.

 

건설 카기의 어깨 분포와 다른 H 에 대한 트랜잭션 수


1. H = 1(하나의 스프레드)


2. H = 4


3. H = 15


 
gpwr >> :

내 정리에 대한 귀하의 의견에 동의합니다. 실제로 훈련 샘플의 세트 수를 줄이면 가중치가 0에서 벗어납니다. 하지만 상관관계를 계산하기 위해 무한한 훈련 세트를 사용할 필요가 없기 때문에 정리는 네트워크에 적용할 수 있다고 생각합니다. 통계적 평균 R(m)=E{x[i]x[i+m]}은 사용 가능한 데이터의 합계(x[i]x[i+m])로 계산됩니다. 정리는 이러한 합계(상관관계)가 0과 크게 다를 경우에만 네트워크가 예측력을 가질 수 있다는 점에서 중요합니다. 그렇지 않으면 가중치가 0으로 수렴됩니다. 따라서 입력과 출력 간의 상관 관계가 0이 아닌 훈련 데이터를 찾는 것이 매우 중요합니다. 그러한 상관 관계가 작은 입력은 예측에서 네트워크에 도움이 되지 않기 때문에 폐기될 수 있습니다.

내가 이해하는 바와 같이 그래프의 학습 오류는 2 또는 세트 수로 나누어지지 않습니다. 바르게? 모든 것이 제대로 작동하는지 확인하기 위해 제 네트워크에서 귀하의 입력을 실행하고 싶습니다. 네트워크의 입력 및 출력에 제공되는 형식으로 파일에 저장하고 여기에 넣을 수 있습니까? 40개의 샘플이 있는 5-4-1 네트워크를 사용하여 데이터 양을 줄일 수 있습니다.

에포크 수를 1000으로 늘리고 가중치 단계가 빠르게 사라지지 않도록 iProp+ 매개변수를 조정했습니다. 또한 훈련 오류를 2*에포크 수로 나누는 것도 제거했습니다. Neutron에 가까운 더 즐거운 결과를 얻었습니다. 무작위 가중치를 사용한 학습 오류는 가중치가 0일 때보다 2-3배 작습니다. 이는 입력과 출력 사이에 상관 관계가 있음을 나타냅니다. 그러나 나는 여전히 Epoch 4에서 Epoch 70까지 학습 오류가 거의 변하지 않는 것을 좋아하지 않습니다. 학습 알고리즘을 개선해야 합니다. 대부분의 상용 NS 패키지는 iProp+를 사용하므로 이 알고리즘을 신뢰합니다. 남은 것은 느리고 복잡한 ML과 BFGS뿐입니다.


 
gpwr >> :

내 정리에 대한 귀하의 의견에 동의합니다.


당신은 수학에 매우 친숙하기 때문에 시장 VR에서 네트워크 입력의 최적 차원에 대한 정리를 한 번 더 증명해 보십시오.

 
paralocus >> :

당신은 수학에 매우 친숙하기 때문에 시장 VR에서 네트워크 입력의 최적 차원에 대한 정리를 한 번 더 증명해 보십시오.

노력하겠습니다.

 
gpwr писал(а) >>

내 정리에 대한 귀하의 의견에 동의합니다. 실제로 훈련 샘플의 세트 수를 줄이면 가중치가 0에서 벗어납니다. 하지만 상관관계를 계산하기 위해 무한한 훈련 세트를 사용할 필요가 없기 때문에 정리는 네트워크에 적용할 수 있다고 생각합니다. 통계적 평균 R(m)=E{x[i]x[i+m]}은 사용 가능한 데이터의 합계(x[i]x[i+m])로 계산됩니다. 정리는 이러한 합계(상관관계)가 0과 크게 다를 경우에만 네트워크가 예측력을 가질 수 있다는 점에서 중요합니다. 그렇지 않으면 가중치가 0으로 수렴됩니다. 따라서 입력과 출력 간의 상관 관계가 0이 아닌 훈련 데이터를 찾는 것이 매우 중요합니다. 그러한 상관 관계가 작은 입력은 예측에서 네트워크에 도움이 되지 않기 때문에 폐기될 수 있습니다.

판독값 사이에는 비선형 상관 관계도 있습니다. 2계층 비선형 NN에 의해 포착되고 선형 판별자에 의해 포착되지 않아 극한 정리를 증명했습니다.

내가 이해하는 바와 같이 그래프의 학습 오류는 2 또는 세트 수로 나누어지지 않습니다. 바르게? 모든 것이 제대로 작동하는지 확인하기 위해 제 네트워크에서 귀하의 입력을 실행하고 싶습니다. 네트워크의 입력 및 출력에 제공되는 형식으로 파일에 저장하고 여기에 넣을 수 있습니까? 40개의 샘플이 있는 5-4-1 네트워크를 사용하여 데이터 양을 줄일 수 있습니다.

아래는 제가 사용한 입력 파일입니다.

파일:
dif.zip  14 kb
 
Neutron >> :

판독값 사이에는 비선형 상관 관계도 있습니다. 2계층 비선형 NN에 의해 포착되고 선형 판별자에 의해 포착되지 않아 극한 정리를 증명했습니다.

아래는 제가 사용한 입력 파일입니다.

고맙습니다. 비선형 상관관계에 대해서는 할 말이 많습니다. 이에 대한 생각은 조금 있다가 포스팅하겠습니다. 그 동안 '소녀 - swots'에 대한 흥미로운 결론에 흥미를 느꼈습니다. 훈련이 덜 된 네트워크("소녀는 삼위일체")가 샘플 외 데이터에 대해 더 정확한 예측을 보여준다는 사실이 저를 놀라게 합니다. 학습되지 않은 상태의 분산이 학습된 상태의 분산보다 훨씬 큽니다. 그리고 학습된 상태가 엔트로피의 전역 최소값(오차의 제곱)이면 전역 최소값이 하나만 있기 때문에 이러한 상태의 분산은 0입니다. 네트워크에는 다양한 미전달 상태가 있기 때문에 동일한 입력 데이터에 대해 다양한 예측이 있을 것입니다. 차트에서 확인할 수 있습니다. 일반적으로 흥미롭지만 놀라운 결론입니다.

 

나는 여기에 완전한 이해가 없습니다.

진술( Aleksandr Aleksandrovich Ezhov , Sergey Aleksandrovich Shumsky "Neurocomputing" )에 따르면 일반화 오류가 최소화되는 최적의 길이가 있습니다. Popt=w^2/d , 여기서 d 는 NN 입력의 차원이고 w 는 NN의 모든 구성 가능한 매개변수의 수. 따라서 이 관점에서 신경망 의 P<Popt가 훈련 샘플을 "기억"하면 신경망 이 과훈련된 것입니다. P>Popt 변형 도 좋지 않습니다. 더 긴 길이에서는 판독값 간의 상관 관계가 감소하는 것과 같은 시장 추세의 변화 가능성이 더 커집니다.

반면에 NN은 과대 평가된 훈련 에포크 수에서 "끌어당길" 수 있으며 결과적으로 일반화 오류가 다시 커지기 시작하거나 끌리지 않습니다... 일반적으로 여기에서 수치를 수행해야 합니다. 그 자체로 매우 자원 집약적인 통계 세트로 실험합니다! 하지만 해야 합니다. 훈련 벡터의 최적 길이에 대한 위 조건의 증명인 상황을 상당히 용이하게 합니다. gpwr , 땜질하고 싶은 욕망이 있습니까?