트레이딩의 머신러닝: 이론, 모델, 실전 및 알고리즘 트레이딩 - 페이지 743

 
마이클 마르쿠카이테스 :

모든 데이터를 혼합하여 우리는 이 집합에서 진정한 잠재력을 추출하려고 노력하며 질서의 형태로 운이 좋은 우연의 일치가 아닙니다. 일반적으로 데이터를 혼합하면 실제로 그들이 할 수 있는 것이 무엇인지 알 수 있습니다. 이 데이터는 ... 이와 같은 것 ....

결론은 학습과 테스트를 시간별로 분리하지 않으면 모델이 과적합된다는 것입니다. 과장되었지만 본질적인 예를 보여줍니다. 변환 없이 절대 증분을 예측 변수로 사용합니다. 너비가 15인 슬라이딩 창을 사용합니다. 15개의 예측 변수 증분을 공급할 때마다 한 값씩 오른쪽으로 이동 합니다. 시간적으로 인접한 데이터 세트 행의 클래스는 다른 것보다 일치할 가능성이 더 높습니다. 즉, n번째 행의 클래스가 1인 경우 n + 1개의 행은 높은 확률로 1의 클래스를 갖습니다. 단 하나의 값에서 n번째. 그리고 14개의 일치하는 값이 있습니다.따라서 이러한 데이터 세트에서 첫 번째 라인을 기차에서 가져오고 테스트에서 두 번째 라인, 트레인에서 세 번째 라인 등을 취한다면 모델은 매우 잘 작동할 것입니다. 모델이 기차에서 훈련된 라인과 실제로 일치하는 라인 묶음. 모델의 OOS만 나쁠 것입니다(테스트를 포함하지 않는 실제 OOS를 의미하는 경우).
 
블라디미르 페레르벤코 :

모델을 사용하여 예측 변수를 평가 하는 것에 대해 이야기한다면 가장 발전된 패키지는 RandomUniformForest라고 생각합니다. 다양한 관점에서 예측 변수의 중요성에 대해 자세히 설명합니다. 공부를 추천합니다. 내 기사 중 하나에서 나는 그것에 대해 자세히 이야기했습니다.

나는 예측 변수의 모델 선택 사용을 포기했습니다. 사용된 모델의 기능에 의해 제한됩니다.

행운을 빕니다

나는 항상 완전히 다른 것에 대해 글을 씁니다. 모델을 구축할 때 가장 "편리한" 예측자는 목표와 거의 관련이 없는 것이라고 믿기 때문에 모델을 구축할 때 예측자를 사용하는 강도에는 관심이 없습니다. 변수, 이러한 예측 변수에서 항상 "편리한" 값을 찾을 수 있고 궁극적으로 예측 변수의 중요성은 모델을 구축할 때 모델의 "편의성"을 반영하기 때문에

저는 항상 예측력, 예측 변수가 목표 변수에 미치는 영향에 대해 글을 씁니다. 아이디어 중 하나가 위에서 표현되었습니다(상호 정보). 저는 이 점수에 대해 여러 번 제 생각을 표현했습니다. 이것은 수학적 아이디어입니다. 경제적 아이디어는 목표 변수보다 앞서 목표 변수에 대한 예측 변수를 선택할 수 있기 때문에 훨씬 더 효과적입니다.


다시 한 번: 모델에 대한 변수의 IMPORTANCE에는 관심이 없습니다. 대상 변수에 대한 예측 변수의 IMPACT에 관심이 있습니다.


추신.

당신이 추천한 패키지를 확인했습니다. 결과는 거의 동일합니다.

 
슬래셔111 :
결론은 학습과 테스트를 시간별로 분리하지 않으면 모델이 과적합된다는 것입니다. 과장되었지만 본질적인 예를 보여줍니다. 변환 없이 절대 증분을 예측 변수로 사용합니다. 너비가 15인 슬라이딩 창을 사용합니다. 15개의 예측 변수 증분을 공급할 때마다 한 값씩 오른쪽으로 이동 합니다. 시간적으로 인접한 데이터 세트 행의 클래스는 다른 것보다 일치할 가능성이 더 높습니다. 즉, n번째 행의 클래스가 1인 경우 n + 1개의 행은 높은 확률로 1의 클래스를 갖습니다. 단 하나의 값에서 n번째. 그리고 14개의 일치하는 값이 있습니다.따라서 이러한 데이터 세트에서 첫 번째 라인을 기차에서 가져오고 테스트에서 두 번째 라인, 트레인에서 세 번째 라인 등을 취한다면 모델은 매우 잘 작동할 것입니다. 모델이 기차에서 훈련된 라인과 실제로 일치하는 라인 묶음. 모델의 OOS만 나쁠 것입니다(테스트를 포함하지 않는 실제 OOS를 의미하는 경우).

아주 잘 표시되어 있습니다. 테스트 및 검증 학습을 위해 무작위 샘플과 함께 위에 게시한 그 놀라운 결과가 바로 이것이고 설명합니다. 그리고 다른 세트로 밝혀진 시간에 가까운 관찰을 제외하면 우리는 재난과 같은 모든 것을 얻습니다.

 
마이클 마르쿠카이테스 :

기억하세요. 2018년 1월 31일부터 지금까지 상승세를 타고 있는 모델을 받았지만, 2018년 5월 3일부터 현재까지 2주 동안 이 모델이 작동한 방식은 다음과 같습니다. 검사 결과.

40점에서 훈련을 받았고 이미 OOS에서 1.5개월 동안 일한 노파에게는 전혀 나쁘지 않습니다.

2018년 1월 31일부터 그녀의 전체 OOC가 있습니다.

아직도 적성에 맞는 것 같나요???? 스크린샷에서 OOS 사이트

글쎄, 정상적인 백 테스트는 어디에 있습니까? 3개월 만 에 상승세 에 접어들면 골절상을 입게 된다

매주 월요일 매수와 같은 간단한 헛소리를 하고 시장이 상승하는 한 그것이 당신의 것보다 더 나은 성과를 낼 것이라는 사실에 놀라십시오.

 

여기에서 재교육과 샘플 자체의 오류에 대한 모든 것을 확인합니다. 이것은 물론 통계 및 알고리즘이 하는 일을 이해하는 데 흥미롭습니다. 그러나 궁극적인 아이디어는 돈을 가져가는 것입니다. 그래서 테스트에서 즉시 예측 가능성을 확인하지 않는 이유는 무엇입니까? .... 내 테스트에서는 아마도 50/50으로 밝혀졌습니다. 그러나 대상 변수를 무스가 이익보다 적은 클래스로 몰았다는 사실 때문에 결과적으로 테스트에서 상당히 계획된 성장을 얻습니다. 그리고 그건 그렇고 테스트에서는 그냥 연속 포워드, 머신은 트레이딩 시작 전에 데이터에 대해 훈련을 받았고.... 그래서 트레이드 결과를 평가하는 것이 옳다고 생각합니다. 개인적으로 입력 예측 변수, 그 수 및 대상을 설명하는 실제 능력이 가장 중요하다고 덧붙이겠습니다.

여기 사진이 있습니다 시험

 
논의된 많은 접근 방식은 매우 구식이며 80년대 이후로 관련이 있었습니다...
 
아나톨리 자인치코프스키 :

여기에서 재교육과 샘플 자체의 오류에 대한 모든 것을 확인합니다. 이것은 물론 통계 및 알고리즘이 하는 일을 이해하는 데 흥미롭습니다. 그러나 궁극적인 아이디어는 돈을 가져가는 것입니다. 그렇다면 테스트에서 즉시 예측 가능성을 확인하지 않는 이유는 무엇입니까? .... 내 테스트에서 아마 50/50으로 밝혀졌지만, 대상 변수를 무스가 이익보다 적은 클래스로 몰았다는 사실 때문에 결과적으로 테스트에서 상당히 계획된 성장을 얻습니다. 그리고 그건 그렇고 테스트에서는 그냥 연속 포워드, 머신은 트레이딩 시작 전에 데이터에 대해 훈련을 받았고.... 그래서 트레이드 결과를 평가하는 것이 옳다고 생각합니다. 개인적으로 입력 예측 변수, 그 수 및 대상을 설명하는 실제 능력이 가장 중요하다고 덧붙이겠습니다.

재교육은 여전히 중요한 순간입니다. 예를 들어 부스팅(그라데이션 포레스트)에서 멋진 모델을 얻을 수 있지만 앞으로는 쇠퇴할 것이기 때문입니다.

 
예측 변수의 선택 은 중요하지만 숲은 그들 사이의 관계 요인을 모델링하는 방법을 모르기 때문에 이것은 어리석은 적합이며, 변수 관계의 형태가 변하는 스마트 모델링은 불행히도 매우 시간이 많이 걸립니다.
 
초월자 :

재교육은 여전히 중요한 순간입니다. 예를 들어 부스팅(그라데이션 포레스트)에서 멋진 모델을 얻을 수 있지만 앞으로는 쇠퇴할 것이기 때문입니다.

글쎄, 아무도 훈련 된 것을 영원히 사용한다고 말하지 않습니다. 다시 훈련하고 도로를 다시 칠 수 있는 기간이 있습니다)))

 
초월자 :
예측 변수의 선택은 중요하지만 숲은 그들 사이의 관계 요인을 모델링하는 방법을 모르기 때문에 이것은 어리석은 적합이며, 변수 관계의 형태가 변하는 스마트 모델링은 불행히도 매우 시간이 많이 걸립니다.

또한 이러한 연결은 수학적으로 찾을 수 없으며 여전히 멍청한 적합성 또는 시장 조사로 남아 있습니다. :)

뭉툭한 핏도 멋진데, 사실 일반화를 하자면

사유: