트레이딩의 머신러닝: 이론, 모델, 실전 및 알고리즘 트레이딩 - 페이지 375

 

1) 데이터 세트를 훈련, 검증 및 테스트로 나누는 의미를 올바르게 이해하고 있습니까?

) 우리는 훈련에서 가르친다
b) 유효성 검사에서 오류를 확인하고 훈련 오류보다 훨씬 크면 오류가 같아질 때까지 1단계로 돌아갑니다(동일한 정도 - 전체 오류의 5%? 예: 훈련에 15%, 검증에 20%)
c) 테스트 하나를 확인합니다. 오류가 처음 두 세트와 동일한 경우(얼마나 비슷합니까?) 모델이 안정적이고 작업할 수 있으며 그렇지 않은 경우 잊어버릴 수 있습니다. 그리고 다른 예측 변수를 찾고 필터링 등을 변경합니다.

2) 그런데 훈련/검증/테스트 오류는 어느 수준을 목표로 해야 합니까? 15/20/20% 또는 아마도 5/10/15%? 또는 다른 사람?

3) 학습 예제를 혼합하는 것이 권장되는 이유를 잘 이해하지 못합니까? 어쨌든 우리는 각 예를 처리할 것입니다.

 
도서관 :

그런데 훈련/검증/테스트 오류는 어느 수준을 목표로 해야 할까요? 15/20/20% 또는 아마도 5/10/15%? 또는 다른 사람?

이전, 네, 그런 것입니다.

오류는 세부 사항에 따라 다릅니다. 예를 들어 MO 또는 NS가 거래 진입을 결정하면 50% 오류로 충분할 수 있습니다. 예를 들어 성공적인 거래에서 평균 2-3p의 이익을 얻고 실패한 거래에서 1p를 잃습니다. 이 경우 0.5점은 나쁜 확률이 아닙니다.

 
유리 아사울렌코 :

이전, 네, 그런 것입니다.

오류는 세부 사항에 따라 다릅니다. 예를 들어 MO 또는 NS가 거래 진입을 결정하면 50% 오류로 충분할 수 있습니다. 예를 들어 성공적인 거래에서 평균 2-3p의 이익을 얻고 실패한 거래에서 1p를 잃습니다. 이 경우 0.5점은 나쁜 확률이 아닙니다.

0.5는 어떻게 든 충분하지 않습니다 ... 그리고 우리는 어떤 가치를 위해 노력해야하며 실제로 달성 할 수있는 것은 무엇입니까 (국회의 다른 업무, 즉 무역이 아닌)?
그런 다음 최대 10%까지 훈련하고 싶지만 이것이 비현실적인 수치라면 제 시간과 프로세서 시간을 낭비하게 될 것입니다. 당신이 저지른 최고의 실수는 무엇이며 어느 수준에서 중단하고 개선을 찾지 않을 수 있습니까?
 
도서관 :
0.5는 어떻게 든 충분하지 않습니다 ... 그리고 우리는 어떤 가치를 위해 노력해야하며 실제로 달성 할 수있는 것은 무엇입니까 (국회의 다른 업무, 즉 무역이 아닌)?
그런 다음 최대 10%까지 훈련하고 싶지만 이것이 비현실적인 수치라면 제 시간과 프로세서 시간을 낭비하게 될 것입니다. 당신이 저지른 최고의 실수는 무엇이며 어느 수준에서 중단하고 개선을 찾지 않을 수 있습니까?

0.5로 충분하지 않습니까? 글쎄요.) 저는 이미 이 예를 들었습니다. 포커 플레이어가 이길 확률은 1/9-1/6이고 좋은 플레이어는 항상 이깁니다.

예, 그리고 내 모든 시스템은 ~ 0.5의 확률로 작동했으며 항상 검은색이었습니다. 내 정보에 따르면 많은 TS가 0.5에 가까운 확률로 작동합니다. 특히 이것은 자동 거래 회의에서 논의되었습니다.

"그리고 나서 10%까지 훈련하고 싶지만 이것이 비현실적인 수치라면" - 실제 또는 비현실은 특정 작업에 따라 다릅니다. 내가 국회에 MAshek를 건너는 방법을 가르쳤다고 가정해 봅시다. 그래서 신뢰도는 거의 100%입니다.))

 
유리 아사울렌코 :

0.5로 충분하지 않습니까? 글쎄요.) 저는 이미 이 예를 들었습니다. 포커 플레이어가 이길 확률은 1/9-1/6이고 좋은 플레이어는 항상 이깁니다.

예, 그리고 내 모든 시스템은 ~ 0.5의 확률로 작동했으며 항상 검은색이었습니다. 내 정보에 따르면 많은 TS가 0.5에 가까운 확률로 작동합니다. 특히 이것은 자동 거래 회의에서 논의되었습니다.

"그리고 나서 10%까지 훈련하고 싶지만 이것이 비현실적인 수치라면" - 실제 또는 비현실은 특정 작업에 따라 다릅니다. 내가 국회에 MAshek를 건너는 방법을 가르쳤다고 가정해 봅시다. 그래서 신뢰도는 거의 100%입니다.))

맞습니다. 예측 없이는 할 수 있습니다(50%). 테이크가 스톱보다 크면 됩니다. 사실, 아무것도 예측할 수 없습니다. 가격이 Forex에서 어디로 갈지는 아무도 모릅니다. 내부자, 꼭두각시 인형은 이것을 알 수 있습니다.

 
바실리 페레펠킨 :

사실, 무엇이든 예측하는 것은 불가능합니다. Forex 가격이 어디로 갈지는 아무도 모릅니다. 오직 내부인, 인형극가만이 이를 알 수 있습니다.

그것은 실제로 가능합니다. 0.5 예측과 함께 중지 이상을 취하십시오. 이것은 50/50과 전혀 동일하지 않으며 하나님이 그것을 당신의 영혼에 넣는 방법)) - 즉, 예측이 없습니다. 우리는 완전히 다른 동전을 던지고 있습니다.))
 
도서관 :

1) 데이터 세트를 훈련, 검증 및 테스트로 나누는 의미를 올바르게 이해하고 있습니까?

) 우리는 훈련에서 가르친다
b) 유효성 검사에서 오류를 확인하고 훈련 오류보다 훨씬 크면 오류가 같아질 때까지 1단계로 돌아갑니다(동일한 정도 - 전체 오류의 5%? 예: 훈련에 15%, 검증에 20%)
c) 테스트 하나를 확인합니다. 오류가 처음 두 세트와 동일한 경우(얼마나 비슷합니까?) 모델이 안정적이고 작업할 수 있으며 그렇지 않은 경우 잊어버릴 수 있습니다. 그리고 다른 예측 변수를 찾고 필터링 등을 변경합니다.

2) 그런데 훈련/검증/테스트 오류는 어느 수준을 목표로 해야 합니까? 15/20/20% 또는 아마도 5/10/15%? 또는 다른 사람?

3) 학습 예제를 혼합하는 것이 권장되는 이유를 잘 이해하지 못합니까? 어쨌든 우리는 각 예를 처리할 것입니다.


1) 전부는 아니며 이것이 중요합니다.

우리는 하나의 큰 파일을 가져옵니다. 우리는 두 개의 불평등한 부분으로 나눕니다.

우리는 당신이 설명한 방식으로 대부분을 공유합니다. 거의 같아야 하는 오류가 발생합니다.

그런 다음 파일의 두 번째 부분에서 모델을 확인합니다. 이 섹션의 오류는 다시 크게 다르지 않아야 합니다.

이것은 오버트레이닝(과적합)이 없다는 가장 중요한 증거입니다.


오류 크기? 이것은 모델 유형을 선택하여 줄일 수 있는 예측 변수 집합의 파생물인 특정 상수입니다.


예를 들어.

네 가지 오류가 모두 약 35%인 경우 모델을 선택하여 오류를 30%로 줄이십시오.


추신.

10% 미만의 오류는 과적합의 명백한 신호입니다. 그러한 오류가 있으면 백 번 다시 확인해야합니다.

 

유효성 검사 사이트가 있는 조기 중지 방법에 의해 ALGLIB 교육에서 발견됨:

조기 중지를 사용한 신경망 훈련(기본 알고리즘 - 정규화가 포함된 L-BFGS).
...
유효성 검사 세트 오류가 오랫동안 증가하면 알고리즘이 중지됩니다.
충분하거나 단계 크기가 충분히 작습니다(다음과 같은 작업이 있습니다.
검증 세트는 영원히 감소할 수 있습니다. 어떤 경우에도 솔루션
반환된 값은 최소 유효성 검사 세트 오류에 해당합니다.

코드로 판단하면 훈련 영역과 검증 영역의 오차를 비교하지 않고 검증 영역에서 최소 오차를 찾는다. 그리고 그 후 30번의 반복 후에 가장 좋은 것을 찾지 못하거나 모든 반복이 통과하면 멈춥니다.

하지만 이 방법이 평소보다 더 나은지/정확한지는 잘 모르겠습니다... 훈련 주기를 여러 번 늘리지 않는 한...

다음은 일어난 일입니다.

훈련(80%) 세그먼트의 평균 오류 = 0.535 nLearns=200 NGrad=142782 NHess=0 NCholesky=0 codResp=6
검증(20%) 영역의 평균 오차 = 0.298 nLearns=200 NGrad=142782 NHess=0 NCholesky=0 codResp=6
전체 사이트(교육 + 검증):
평균 학습 오차=0.497 nLearns=200 NGrad=142782 NHess=0 NCholesky=0 codResp=6
테스트(20%) 섹션의 평균 오차 = 0.132 nLearns=200 NGrad=142782 NHess=0 NCholesky=0 codResp=6

검증 사이트에 조정이 있었던 것 같습니다. 테스트 1은 일반적으로 성공적이지만 훈련 중이 아니었고 비교되지도 않았으며 분명히 우연의 일치였습니다.
앙상블은이 기능을 고려하고 분할은 2/3이고 두 섹션 사이에 모든 것이 혼합되어 있습니다. 나는 똑같이하려고 노력할 것입니다 ...
셔플:

훈련(60%) 세그먼트의 평균 오류 = 0.477 nLearns=10 NGrad=10814 NHess=0 NCholesky=0 codResp=6
검증(40%) 사이트의 평균 오류 =0.472 nLearns=10 NGrad=10814 NHess=0 NCholesky=0 codResp=6
전체 사이트(교육 + 검증):
평균 학습 오차=0.475 nLearns=10 NGrad=10814 NHess=0 NCholesky=0 codResp=6
테스트(20%) 영역의 평균 오차 = 0.279 nLearns=10 NGrad=10814 NHess=0 NCholesky=0 codResp=6

혼합으로 인해 교육 및 검증 영역에서 오류가 평준화되었습니다.

실제 거래에서 막대는 자체 순서에 따라 이동하고 1시간 및 1일 전의 막대와 혼합되지 않기 때문에 뭔가 잘못된 것 같습니다.
그리고 시장의 "특성"이 바뀌면 NN의 새로운 모델을 다시 배우거나 찾아야 합니다.

 
유리 아사울렌코 :
그것은 실제로 가능합니다. 0.5 예측과 함께 중지 이상을 취하십시오. 이것은 50/50과 전혀 동일하지 않으며 하나님이 그것을 당신의 영혼에 넣는 방법)) - 즉, 예측이 없습니다. 우리는 완전히 다른 동전을 던지고 있습니다.))
글쎄요, 저는 그것이 가능하다고 말합니다. 예를 들어 무작위로 열고 테이크를 스톱의 2배 이상으로 설정하면 그게 다입니다. 통계적으로 이익이 있을 것입니다. 예를 들어 100번의 거래에 10점을 더하고 100에서 5점을 빼면, 500포인트의 이익이 발생하면 예측이 필요하지 않습니다.
 
산산이치 포멘코 :


1) 전부는 아니며 이것이 중요합니다.

우리는 하나의 큰 파일을 가져옵니다. 우리는 두 개의 불평등한 부분으로 나눕니다.

우리는 당신이 설명한 방식으로 대부분을 공유합니다. 거의 같아야 하는 오류가 발생합니다.

그런 다음 파일의 두 번째 부분에서 모델을 확인합니다. 이 섹션의 오류도 크게 다르지 않아야 합니다.

이것은 오버트레이닝(과적합)이 없다는 가장 중요한 증거입니다.

4개의 플롯을 얻었습니까? 교육/검증/테스트1/테스트2 ?

얼마나 많은 훈련/검증 주기를 수행해야 합니까? 어디에서 이것에 대한 정보를 본 적이 없습니다 ... 총 1주기? - 그리고 그 직후에 우리는 예측자 세트 또는 네트워크 체계에서 무언가를 승인하거나 변경합니까? 보다 정확하게는 N개의 훈련 주기에 대해 하나의 최상의 훈련 주기가 표시됩니다.