진술( Ezhov Alexander Alexandrovich , Shumsky Sergey Alexandrovich "Neurocomputing" )에 따르면 일반화 오류가 최소화되는 최적의 길이가 있습니다. Popt=w^2/d, 여기서 d는 NN 입력의 차원이고 w는 NN의 모든 구성 가능한 매개변수의 수입니다. 따라서 이 관점에서 신경망의 P<Popt가 훈련 샘플을 "기억"하면 신경망이 과훈련된 것입니다. P>Popt 변형도 좋지 않습니다. 더 긴 길이에서는 판독값 간의 상관 관계가 감소하는 것과 같은 시장 추세의 변화 가능성이 더 커집니다.
반면에 NN은 과대 평가된 훈련 에포크 수에서 "끌어당길" 수 있으며 결과적으로 일반화 오류가 다시 커지기 시작하거나 끌리지 않습니다... 일반적으로 여기에서 수치를 수행해야 합니다. 그 자체로 매우 자원 집약적인 통계 세트로 실험합니다! 하지만 해야 합니다. 훈련 벡터의 최적 길이에 대한 위 조건의 증명인 상황을 상당히 용이하게 합니다. gpwr, 땜질하고 싶은 욕망이 있습니까?
그래프를 보면
그러면 몇 가지 질문이 생깁니다. 제가 알기로는 원 안의 빨간 선은 가중치의 무작위 초기값이 다른 여러 통계적 실험에 대한 평균 학습 오차입니다. 원이 있는 파란색 선은 훈련되지 않은 데이터의 평균 예측 오차입니다. 바르게? 가는 선은 확산 범위를 나타냅니다. 이제 질문
1. 하단의 파란색 가는 선이 하단의 빨간색 가는 선과 일치합니까? 즉, 학습 오류가 가장 작은 통계 실험에서 샘플 외 예측의 정확도가 향상됩니까?
2. 학습 오차의 퍼짐이 0으로 좁혀지지 않기 때문에 학습이 전역 최소값에 도달하지 않음을 의미합니다.
저는 지금 이 질문에 매우 괴로워합니다. 훈련되지 않은 샘플에 대한 예측이 더 정확할 것이라는 희망으로 전역 최소값에 도달하는 학습 알고리즘을 찾을 가치가 있습니까? 나는 그리드를 실행하고 내가 그녀의 훈련을 중단한 위치에 따라 그녀의 예측이 얼마나 일관성이 없는지 확인합니다. 동일한 Epoch 수를 1000으로 설정하더라도 동일한 훈련 샘플에 대한 서로 다른 실행에서 예측이 다릅니다. 예측의 절반은 가격이 오르고 나머지 절반은 내려갑니다. 나는 그것을 좋아하지 않는다. 매우 오랜 시간 동안 훈련하면 네트워크가 전역 최소값에 더 가까워지고 다른 실행에서 예측이 동일합니다.
최적의 샘플 수는 생각하겠습니다. 간단하지 않습니다. 시장의 통계와 그 분포가 얼마나 빨리 변하고 있는지 알아야 합니다. 샘플 수의 증가는 네트워크가 촉수가 있는 소를 식별한 상황으로 이어질 것이며, 이를 판별하는 과정에서 소를 거북이로 변경했다. 결과적으로 네트워크는 그 앞에 발굽이있는 뿔이있는 거북이라는 결론에 도달합니다. 그러나 예를 들어 네트워크가 소의 뿔만 느낄 수 있도록 샘플 수가 줄어들면 소, 엘크, 염소, 사슴 등 다양한 옵션이 제공됩니다.
샘플 수의 증가는 네트워크가 촉수가 있는 소를 식별한 상황으로 이어질 것이며, 이를 판별하는 과정에서 소를 거북이로 변경했다. 결과적으로 네트워크는 그 앞에 발굽이있는 뿔이있는 거북이라는 결론에 도달합니다. 그러나 예를 들어 네트워크가 소의 뿔만 느낄 수 있도록 샘플 수가 줄어들면 소, 엘크, 염소, 사슴 등 다양한 옵션이 제공됩니다.
+5 전적으로 동의합니다.
여전히 Yezhev와 Shumsky를 스크롤합니다. 증거에 대한 아이디어가 나올 수도 있습니다.
원이 있는 파란색 선은 훈련되지 않은 데이터의 평균 예측 오차입니다. 바르게?
바르게.
1. 하단의 파란색 가는 선이 하단의 빨간색 가는 선과 일치합니까? 즉, 학습 오류가 가장 작은 통계 실험에서 샘플 외 예측의 정확도가 향상됩니까?
자원 집약도를 고려하여 전일제 실험을 수행하지 않았습니다. 그러나 나는 그것이 필요하다는 데 동의하고 스스로 그것을 수행하도록 강요할 것입니다.
PS gpwr , 나는 5년 전에 존재를 증명할 수 있었고 하나의 출력 뉴런이 있는 2층 비선형 NN에 대해 수정된 ORO 알고리즘을 구현할 수 있었던 두 미국인의 작업에 대한 링크를 인터넷에서 만났습니다. 따라서 특별한 형태의 활성화 함수(그리고 네트워크의 컴퓨팅 성능은 특정 유형에 의존하지 않음)를 사용하면 새 알고리즘의 학습률이 100배 이상입니다! 기존 ORO를 능가합니다. 이런 일을 겪었습니까?
여전히 Yezhev와 Shumsky를 스크롤합니다. 증거에 대한 아이디어가 나올 수도 있습니다.
바르게.
자원 집약도를 고려하여 전일제 실험을 수행하지 않았습니다. 그러나 나는 그것이 필요하다는 데 동의하고 스스로 그것을 수행하도록 강요할 것입니다.
PS gpwr , 나는 5년 전에 존재를 증명할 수 있었고 하나의 출력 뉴런이 있는 2층 비선형 NN에 대해 수정된 ORO 알고리즘을 구현할 수 있었던 두 미국인의 작업에 대한 링크를 인터넷에서 만났습니다. 따라서 특별한 형태의 활성화 함수(그리고 네트워크의 컴퓨팅 성능은 특정 유형에 의존하지 않음)를 사용하면 새 알고리즘의 학습률이 100배 이상입니다! 기존 ORO를 능가합니다. 이런 일을 겪었습니까?
그들은 정확합니다. 첫 번째와 세 번째 그림. 후자에 대한 작은 통계와 전자에 대한 작은 H 통계의 관점에서 관심이 없습니다. 그리고 여기 두 번째 사진이 있습니다. 대표:
Kagi 분포(왼쪽 그림)의 경우 분할 단계 H 보다 작은 크기의 팔 길이가 없다는 것을 알 수 있습니다( paralocus , 예를 들어 측정 분할 단계는 점이 아니라 스프레드로... ) 길이가 증가함에 따라 팔 길이의 출현 빈도가 기하급수적 으로 감소합니다. 많은 거래의 경우 +/-H 전치사 길이 발생 빈도의 거의 선반과 같은 분포를 볼 수 있으며 H 보다 큰 길이로 이동할 때 기하급수적으로 감소합니다. 그림에서 볼 수 있듯이 오른쪽에. 나는 NN에 대한 입력 데이터의 그러한 표현( H 로 정규화됨)이 거의 이상적이라고 생각합니다. 왜냐하면 정규화 및 센터링의 "교활한" 절차가 필요하지 않습니다(MO는 동일하게 0임). 사실, Kagi 표현의 최적성에 대한 질문은 여전히 열려 있습니다. 여기서 문제는 결국 포괄적인 방식으로 해결되어야 하며, 함께 두 번째로 중요한 블록은 MM입니다. 재투자가 없는 TS의 경우 Kagi 고장이 정말 최적입니다.
고맙습니다. MM은 여전히 나에게 낯설다. 1랏으로 모은 돈을 몇 번이고 재투자를 시도하다 큰 손실을 입었다. 이 스레드의 시작 부분에서 어깨와 관련하여 MM에 대해 썼습니다. 그러나 레버리지는 거래자가 규제합니까? 제 생각에는 레버리지 = 100이면 충분합니다. 위험을 줄이기 위해 쌍만 선택할 수 있습니다. 나는 AUDUSD를 선호합니다 - 나는 또한 당신의 게시물을 감시했습니다. 글쎄, 일반적으로 (나를 위해) 이것에 대해 이야기 할 시간이 아직 오지 않았습니다. 이제 두 개의 레이어를 만들 것입니다. 오늘은 코딩을 하고 내일은 무슨 일이 일어났는지 보여줄 것입니다.
실제로 MT 테스터는 여러 입력(MA, 확률 및 기타 TA 표시기)이 있는 블랙박스이며 셀 수 있는 조정 가능한 매개변수(MA 기간, 최적 진폭 등) 및 이 모든 것을 혼합하기 위한 "교활한" 알고리즘이 있습니다. 자신 안에. 출구에는 매도/매수 또는 거래 중지 주문이 있습니다. 차량의 이익을 극대화하는 조건에서 과거 데이터에 대한 최적의 매개 변수를 선택할 수 있는 최적화 절차가 있습니다. 뭔가 생각나지 않나요? 그것이 전부입니다. 처리를 위한 교활한(비선형) 알고리즘과 함께 TA 표시기가 본질적으로 다층 퍼셉트론 활성화의 비선형 함수라고 생각하면 우리는 모두 여기에 있습니다. 우리 자신의 신경망을 구축하고 교육하는 것과 같은 일을 하고 있습니다! 그러나 이 사실은 명확하지 않으며, 그래서 전략 테스터와 작업하는 데 많은 문제(피팅, 찾은 최적의 불안정성 등)가 있습니다. 포럼에서 많은 존경받는 사람들이 종종 국회에 대해 회의감을 표명하지만 실제로는 여가 시간 내내 똑같은 일을하고 다른 것은없는 것 같습니다! 생각한다.
이것이 사실이라면 분명히 AI 용어의 언어로 전환해야 합니다. 그토록 오랜 세월 동안 우리를 괴롭혔던 것들로부터 많은 것이 명백해질 것입니다. 예를 들어, 테스터를 히스토리에 맞추는 것은 단순히 길이가 충분하지 않거나(바 수가 아닌 TS 이벤트에서 측정됨) 조정 가능한 매개변수의 과도한 수입니다. 불충분한 수익성 - 선형 가격 변환이 있는 지표가 사용됨(시장 이벤트 간의 비선형 상관 관계가 활용되지 않음) 등 중요하지 않은 또 다른 순간 - NS 이론에서 네트워크의 계산 능력이 특정 유형의 비선형성에 의존하지 않는다는 것이 입증되었습니다. 이로부터 가격 계열을 처리하기 위한 교활하고 중요하지 않은 지표와 알고리즘을 TS에 넣는 것은 거의 의미가 없으며, 이는 TS의 예측 속성에 눈에 띄게 영향을 줄 수 없습니다. 반면에 일반화 오류(NN 관점에서)를 최소화하는 것이 매우 중요하며 이를 위해서는 최적의 과거 데이터 길이와 지표 수를 올바르게 선택하면 충분합니다!
요컨대, 우리 모두는 기꺼이 같은 것에 묶여 있으며 전략 테스터 를 연마하거나 자체 네트워크를 작성하는 것은 중요하지 않습니다. 우리가 정확히 무엇을 하고 왜 하는지 이해하는 것이 중요합니다.
추신 : 나는 합성에서 약간 외로운 퍼셉트론 칙을 운전했습니다.
학습 과정에서 뉴런이 자신감 있게 전역 최소값(왼쪽의 빨간색 그림)으로 이동하는 방법을 명확하게 볼 수 있습니다. 이는 다양한 값을 사용한 실험에 대한 학습 과정을 특징짓는 분산이 0으로 감소(가는 선)에 의해 입증됩니다. 가중치의 초기 초기화. 반면, 일반화 오류(예측 능력의 역수)는 학습의 특정 순간부터 다시 커지기 시작하며, 이는 뉴런을 다시 학습하는 과정을 나타내며, 지식을 일반화하는 능력을 잃는다. 무화과에. 동일한 데이터가 오른쪽에 표시되지만 오류 축에 표시됩니다. 훈련에 대한 최적이 잘 표시되어 있습니다.
Оптимальным каги-разбиением тикового ВР с порогом Н, следует считать такое разбиение, при котором имеется минимальное количество следующих друг за другом одноцветных плеч ряда транзакций. При этом средняя длина плеча равна величине средней взятки.
저것들. 실제로 당신이 쓴 내용이 밝혀졌습니다. 테이크는 중지와 같습니다! 여기에 한 가지 미묘한 점이 있습니다.
수신된 일련의 트랜잭션 분포가 연속된 숄더의 50% 이상이 다른 색상을 갖는 것과 같은 경우 NS가 전혀 다른 이유는 무엇입니까?
나는 여기에 완전한 이해가 없습니다.
진술( Ezhov Alexander Alexandrovich , Shumsky Sergey Alexandrovich "Neurocomputing" )에 따르면 일반화 오류가 최소화되는 최적의 길이가 있습니다. Popt=w^2/d, 여기서 d는 NN 입력의 차원이고 w는 NN의 모든 구성 가능한 매개변수의 수입니다. 따라서 이 관점에서 신경망의 P<Popt가 훈련 샘플을 "기억"하면 신경망이 과훈련된 것입니다. P>Popt 변형도 좋지 않습니다. 더 긴 길이에서는 판독값 간의 상관 관계가 감소하는 것과 같은 시장 추세의 변화 가능성이 더 커집니다.
반면에 NN은 과대 평가된 훈련 에포크 수에서 "끌어당길" 수 있으며 결과적으로 일반화 오류가 다시 커지기 시작하거나 끌리지 않습니다... 일반적으로 여기에서 수치를 수행해야 합니다. 그 자체로 매우 자원 집약적인 통계 세트로 실험합니다! 하지만 해야 합니다. 훈련 벡터의 최적 길이에 대한 위 조건의 증명인 상황을 상당히 용이하게 합니다. gpwr, 땜질하고 싶은 욕망이 있습니까?
그래프를 보면
그러면 몇 가지 질문이 생깁니다. 제가 알기로는 원 안의 빨간 선은 가중치의 무작위 초기값이 다른 여러 통계적 실험에 대한 평균 학습 오차입니다. 원이 있는 파란색 선은 훈련되지 않은 데이터의 평균 예측 오차입니다. 바르게? 가는 선은 확산 범위를 나타냅니다. 이제 질문
1. 하단의 파란색 가는 선이 하단의 빨간색 가는 선과 일치합니까? 즉, 학습 오류가 가장 작은 통계 실험에서 샘플 외 예측의 정확도가 향상됩니까?
2. 학습 오차의 퍼짐이 0으로 좁혀지지 않기 때문에 학습이 전역 최소값에 도달하지 않음을 의미합니다.
저는 지금 이 질문에 매우 괴로워합니다. 훈련되지 않은 샘플에 대한 예측이 더 정확할 것이라는 희망으로 전역 최소값에 도달하는 학습 알고리즘을 찾을 가치가 있습니까? 나는 그리드를 실행하고 내가 그녀의 훈련을 중단한 위치에 따라 그녀의 예측이 얼마나 일관성이 없는지 확인합니다. 동일한 Epoch 수를 1000으로 설정하더라도 동일한 훈련 샘플에 대한 서로 다른 실행에서 예측이 다릅니다. 예측의 절반은 가격이 오르고 나머지 절반은 내려갑니다. 나는 그것을 좋아하지 않는다. 매우 오랜 시간 동안 훈련하면 네트워크가 전역 최소값에 더 가까워지고 다른 실행에서 예측이 동일합니다.
최적의 샘플 수는 생각하겠습니다. 간단하지 않습니다. 시장의 통계와 그 분포가 얼마나 빨리 변하고 있는지 알아야 합니다. 샘플 수의 증가는 네트워크가 촉수가 있는 소를 식별한 상황으로 이어질 것이며, 이를 판별하는 과정에서 소를 거북이로 변경했다. 결과적으로 네트워크는 그 앞에 발굽이있는 뿔이있는 거북이라는 결론에 도달합니다. 그러나 예를 들어 네트워크가 소의 뿔만 느낄 수 있도록 샘플 수가 줄어들면 소, 엘크, 염소, 사슴 등 다양한 옵션이 제공됩니다.
샘플 수의 증가는 네트워크가 촉수가 있는 소를 식별한 상황으로 이어질 것이며, 이를 판별하는 과정에서 소를 거북이로 변경했다. 결과적으로 네트워크는 그 앞에 발굽이있는 뿔이있는 거북이라는 결론에 도달합니다. 그러나 예를 들어 네트워크가 소의 뿔만 느낄 수 있도록 샘플 수가 줄어들면 소, 엘크, 염소, 사슴 등 다양한 옵션이 제공됩니다.
+5 전적으로 동의합니다.
여전히 Yezhev와 Shumsky를 스크롤합니다. 증거에 대한 아이디어가 나올 수도 있습니다.
원이 있는 파란색 선은 훈련되지 않은 데이터의 평균 예측 오차입니다. 바르게?
바르게.
1. 하단의 파란색 가는 선이 하단의 빨간색 가는 선과 일치합니까? 즉, 학습 오류가 가장 작은 통계 실험에서 샘플 외 예측의 정확도가 향상됩니까?
자원 집약도를 고려하여 전일제 실험을 수행하지 않았습니다. 그러나 나는 그것이 필요하다는 데 동의하고 스스로 그것을 수행하도록 강요할 것입니다.
PS gpwr , 나는 5년 전에 존재를 증명할 수 있었고 하나의 출력 뉴런이 있는 2층 비선형 NN에 대해 수정된 ORO 알고리즘을 구현할 수 있었던 두 미국인의 작업에 대한 링크를 인터넷에서 만났습니다. 따라서 특별한 형태의 활성화 함수(그리고 네트워크의 컴퓨팅 성능은 특정 유형에 의존하지 않음)를 사용하면 새 알고리즘의 학습률이 100배 이상입니다! 기존 ORO를 능가합니다. 이런 일을 겪었습니까?
+5 전적으로 동의합니다.
여전히 Yezhev와 Shumsky를 스크롤합니다. 증거에 대한 아이디어가 나올 수도 있습니다.
바르게.
자원 집약도를 고려하여 전일제 실험을 수행하지 않았습니다. 그러나 나는 그것이 필요하다는 데 동의하고 스스로 그것을 수행하도록 강요할 것입니다.
PS gpwr , 나는 5년 전에 존재를 증명할 수 있었고 하나의 출력 뉴런이 있는 2층 비선형 NN에 대해 수정된 ORO 알고리즘을 구현할 수 있었던 두 미국인의 작업에 대한 링크를 인터넷에서 만났습니다. 따라서 특별한 형태의 활성화 함수(그리고 네트워크의 컴퓨팅 성능은 특정 유형에 의존하지 않음)를 사용하면 새 알고리즘의 학습률이 100배 이상입니다! 기존 ORO를 능가합니다. 이런 일을 겪었습니까?
나는 ORO의 여러 변형을 발견했습니다.
QuickProp - 1988, 더 빠른 수렴을 위해 2차 도함수 추가
RProp - Resilient back-Propagation - 1993, Riedmiller, German, 알고리즘의 본질은 기울기를 해당 부호로 대체하는 것입니다.
iRProp - 향상된 RProp - 2000, Igel, German, 동일한 RProp이지만 과거 에포크의 훈련 오류가 증가하면 네트워크가 한 걸음 뒤로 물러납니다.
SARProp - Simulated Annealing back-Propagation - 1998, Treadgold, Australian, 글로벌 수렴을 위해 이전 에포크의 오류가 증가할 때 특정 조건에서 임의의 단계 크기 추가
JRProp - Jacobi RProp, 2005, Anastasiadis, Greek from England, 동일한 iRProp이지만 오류가 증가한 약간 다른 반환 방법
GRProp, GJRProp - Global RProp/JRProp - 2005, Anastasiadis, 각 시대마다 가장 작은 가중치 단계가 선택되고 이상한 공식으로 대체됩니다.
나는 그들 모두를 시도했다. RProp, iRProp, JRProp은 거의 동일하게 작동합니다. SARProp 및 GRProp 전역 메서드는 작동하지 않습니다. 이러한 알고리즘에 대한 기사를 쉽게 찾을 수 있습니다.
여기 러시아어로 봐
http://masters.donntu.edu.ua/2005/kita/tkachenko/library/article01/index.htm
www.iis.nsk.su/preprints/pdf/063.pdf
고맙습니다. 확실히 살펴보겠습니다.
이 두 미국인은 단일 출력 NN 전용 고속 알고리즘을 고안했습니다. 그것은 고도로 전문화 된 것에 관한 것입니다.
2001i Pro 를 얻었습니다.
어제 올렸던 분포도에 대해 간단히 댓글을 달 수 있나요?
물론이죠.
그들은 정확합니다. 첫 번째와 세 번째 그림. 후자에 대한 작은 통계와 전자에 대한 작은 H 통계의 관점에서 관심이 없습니다. 그리고 여기 두 번째 사진이 있습니다. 대표:
Kagi 분포(왼쪽 그림)의 경우 분할 단계 H 보다 작은 크기의 팔 길이가 없다는 것을 알 수 있습니다( paralocus , 예를 들어 측정 분할 단계는 점이 아니라 스프레드로... ) 길이가 증가함에 따라 팔 길이의 출현 빈도가 기하급수적 으로 감소합니다. 많은 거래의 경우 +/-H 전치사 길이 발생 빈도의 거의 선반과 같은 분포를 볼 수 있으며 H 보다 큰 길이로 이동할 때 기하급수적으로 감소합니다. 그림에서 볼 수 있듯이 오른쪽에. 나는 NN에 대한 입력 데이터의 그러한 표현( H 로 정규화됨)이 거의 이상적이라고 생각합니다. 왜냐하면 정규화 및 센터링의 "교활한" 절차가 필요하지 않습니다(MO는 동일하게 0임). 사실, Kagi 표현의 최적성에 대한 질문은 여전히 열려 있습니다. 여기서 문제는 결국 포괄적인 방식으로 해결되어야 하며, 함께 두 번째로 중요한 블록은 MM입니다. 재투자가 없는 TS의 경우 Kagi 고장이 정말 최적입니다.
실제로 MT 테스터는 여러 입력(MA, 확률 및 기타 TA 표시기)이 있는 블랙박스이며 셀 수 있는 조정 가능한 매개변수(MA 기간, 최적 진폭 등) 및 이 모든 것을 혼합하기 위한 "교활한" 알고리즘이 있습니다. 자신 안에. 출구에는 매도/매수 또는 거래 중지 주문이 있습니다. 차량의 이익을 극대화하는 조건에서 과거 데이터에 대한 최적의 매개 변수를 선택할 수 있는 최적화 절차가 있습니다. 뭔가 생각나지 않나요? 그것이 전부입니다. 처리를 위한 교활한(비선형) 알고리즘과 함께 TA 표시기가 본질적으로 다층 퍼셉트론 활성화의 비선형 함수라고 생각하면 우리는 모두 여기에 있습니다. 우리 자신의 신경망을 구축하고 교육하는 것과 같은 일을 하고 있습니다! 그러나 이 사실은 명확하지 않으며, 그래서 전략 테스터와 작업하는 데 많은 문제(피팅, 찾은 최적의 불안정성 등)가 있습니다. 포럼에서 많은 존경받는 사람들이 종종 국회에 대해 회의감을 표명하지만 실제로는 여가 시간 내내 똑같은 일을하고 다른 것은없는 것 같습니다! 생각한다.
이것이 사실이라면 분명히 AI 용어의 언어로 전환해야 합니다. 그토록 오랜 세월 동안 우리를 괴롭혔던 것들로부터 많은 것이 명백해질 것입니다. 예를 들어, 테스터를 히스토리에 맞추는 것은 단순히 길이가 충분하지 않거나(바 수가 아닌 TS 이벤트에서 측정됨) 조정 가능한 매개변수의 과도한 수입니다. 불충분한 수익성 - 선형 가격 변환이 있는 지표가 사용됨(시장 이벤트 간의 비선형 상관 관계가 활용되지 않음) 등 중요하지 않은 또 다른 순간 - NS 이론에서 네트워크의 계산 능력이 특정 유형의 비선형성에 의존하지 않는다는 것이 입증되었습니다. 이로부터 가격 계열을 처리하기 위한 교활하고 중요하지 않은 지표와 알고리즘을 TS에 넣는 것은 거의 의미가 없으며, 이는 TS의 예측 속성에 눈에 띄게 영향을 줄 수 없습니다. 반면에 일반화 오류(NN 관점에서)를 최소화하는 것이 매우 중요하며 이를 위해서는 최적의 과거 데이터 길이와 지표 수를 올바르게 선택하면 충분합니다!
요컨대, 우리 모두는 기꺼이 같은 것에 묶여 있으며 전략 테스터 를 연마하거나 자체 네트워크를 작성하는 것은 중요하지 않습니다. 우리가 정확히 무엇을 하고 왜 하는지 이해하는 것이 중요합니다.
추신 : 나는 합성에서 약간 외로운 퍼셉트론 칙을 운전했습니다.
학습 과정에서 뉴런이 자신감 있게 전역 최소값(왼쪽의 빨간색 그림)으로 이동하는 방법을 명확하게 볼 수 있습니다. 이는 다양한 값을 사용한 실험에 대한 학습 과정을 특징짓는 분산이 0으로 감소(가는 선)에 의해 입증됩니다. 가중치의 초기 초기화. 반면, 일반화 오류(예측 능력의 역수)는 학습의 특정 순간부터 다시 커지기 시작하며, 이는 뉴런을 다시 학습하는 과정을 나타내며, 지식을 일반화하는 능력을 잃는다. 무화과에. 동일한 데이터가 오른쪽에 표시되지만 오류 축에 표시됩니다. 훈련에 대한 최적이 잘 표시되어 있습니다.
'테스터 연마'를 하다보니 비슷한 느낌이 들긴 했지만 이해가 안 가는 부분이... -:)
그러나 지금은 단순해 보이지만 더 많은 작업 아이디어가 넘쳐났습니다. 어제 내가 한 말:
Оптимальным каги-разбиением тикового ВР с порогом Н, следует считать такое разбиение, при котором имеется минимальное количество следующих друг за другом одноцветных плеч ряда транзакций. При этом средняя длина плеча равна величине средней взятки.
저것들. 실제로 당신이 쓴 내용이 밝혀졌습니다. 테이크는 중지와 같습니다! 여기에 한 가지 미묘한 점이 있습니다.
수신된 일련의 트랜잭션 분포가 연속된 숄더의 50% 이상이 다른 색상을 갖는 것과 같은 경우 NS가 전혀 다른 이유는 무엇입니까?
PS 오타 수정