트레이딩의 머신러닝: 이론, 모델, 실전 및 알고리즘 트레이딩 - 페이지 102

 
알렉세이 버나코프 :

당신이하는 일에는 사이머스가 있습니다.

그러나 지연된 가져오기를 시도할 수도 있습니다. 클래식입니다. 훈련, 테스트, 검증.

그리고 절차를 더욱 복잡하게 만듭니다. 학습 및 테스트 측면에서 잘 수행되는 것으로 보이는 각 모델에 대해 이 모델을 X라고 부르고 백로그에서 유효성을 검사합니다. 이렇게 하면 훈련과 테스트만 사용하여 올바른 모델을 선택했는지 여부에 대한 아이디어를 얻을 수 있습니다. 다른 매개변수로 많은 모델을 만들고 가장 좋은 모델(10, 100, 1000)을 선택하십시오. 확인. "최상의" 측정항목이 향후 데이터에 반영되는지 여부를 이해할 수 있습니다. 그 후에야 전투에 참여하십시오.

하나의 확률 변수 값이 많은 경우 신뢰 구간 을 계산한 다음 "가까운 값" 대신 "신뢰 구간의 교차/일치"로 작동합니다.
 
mytarmailS :

어제 거래의 결과를 볼 수 있습니까?

그리고 이것은 오늘을 위한 것입니다. 물론 오류가 없는 것은 아니지만 결국에는 ....

 
마이클 마르쿠카이테스 :

그리고 이것은 오늘을 위한 것입니다. 물론 오류가 없는 것은 아니지만 결국에는 ....

나쁘지는 않지만 이 녹색 원은 무엇이며 화살표는 무엇을 의미합니까?

 
산산이치 포멘코 :
하나의 확률 변수 값이 많은 경우 신뢰 구간 을 계산한 다음 "가까운 값" 대신 "신뢰 구간의 교차/일치"로 작동합니다.

Sansan, 한 번 더 설명하겠습니다. 그리고 나는 그것이 모두에게 더 분명할 것이라고 생각합니다.

아래 표는 실험 로그입니다. 각 실험은 표에 기록됩니다. 변수는 J열 앞에 옵니다. 모델, 훈련 손실 함수, 도구, 예측 지평선, 모델 매개변수(GBM), 캐럿에서 아직 최적화되지 않았지만 루프에서도 최적화하는 매개변수: 교차 유효 폴드 수, 훈련을 위해 선택된 예측 변수 수, 무작위화 트리의 경우 불확실성의 회색 영역에 있는 것으로 예측의 쪼개지는 몫.

그런 다음 내 품질 메트릭이 있습니다. 교육(전체 어레이는 10년됨), 교차 검증 테스트 폴드 및 지연된 샘플에 대한 것입니다. 가장 흥미로운 열을 빨간색으로 표시했습니다.

더 멀리. 나는 지연된 샘플에 굉장한 플러스가 된 최고의 모델을 보여줄 수 있습니다. 그러나 그것은 힘든 핏입니다!

일관된 데이터와 적절한 훈련 방법이 주어지면 지연된 샘플에 대한 메트릭과 교차 검증(테스트)에 대한 메트릭 간의 관계를 얻을 것으로 예상합니다. 내가 무엇을 얻었는지 보자:

객관적으로 지연된 샘플(실제 거래 기간을 에뮬레이트함)에서 선택한 모델의 품질은 테스트(교차 검증 테스트 폴드)의 품질 메트릭과 거의 관련이 없습니다.

결론 친구: 다음과 같은 "모델은 테스트에서 더 나은 모델이어야 함" 휴리스틱을 사용하여 최상의 모델을 선택하면 미래에 모델이 어떻게 수행될지에 대한 확신이 전혀 없습니다.

이 정의는 다음 시나리오로 확장됩니다. 저는 "가장 좋은 모델은 지연된 샘플링에서 잘 수행될 것입니다"라는 경험적 방법을 기반으로 모델을 선택합니다. 친구 여러분, 그러한 선택은 또한 불확실성으로 이어질 것입니다. 물론 모든 것이 확률적이며 운이 좋을 수는 있지만 통계를 속일 수는 없습니다.

지연된 가져오기의 이점은 이것뿐입니다. 모델의 성능을 확인하고 최상의 모델을 선택하는 휴리스틱을 확인합니다.

추신: 결과를 개선하는 방법을 생각합니다. 좋은 방법으로, 당신은 타원형의 비스듬한 구름이 필요합니다. 그것에서 오른쪽 가장자리 등에서위원회를 가져올 수 있습니다. 평균적으로 작동합니다.

 

당신은 휴리스틱을 평가하기 위한 좋은 툴킷을 확실히 개발했습니다. 자신이 개발한 모델(위원회)을 훈련시키는 방식이 FX에 적합하지 않다는 것을 증명했는데, 그 다음은?

훈련 데이터 자체에 대한 결과, 테스트 결과, 지연된 샘플에 대한 결과 사이에 상관관계가 있도록 모델을 구축하는 방법을 개발해야 합니다.

비슷한 상황이 있습니다. 예를 들어 다양한 데이터 사전 처리 방법, 교육/예측을 위한 다양한 패키지, 예측 품질 평가를 위한 다양한 기능을 분류합니다. 이 모든 것이 중요하며 이 모든 것의 끝없는 조합이 있습니다. 나는 Occam의 면도날 법칙을 따르려고 노력합니다. 즉, 필요한 예측 변수가 적고 모델에 포함된 매개변수가 적을수록 좋습니다.

 

또한 내 주관적인 의견은 예측 변수를 사용하여 목표 값을 예측할 수 없다는 것입니다. 최소한 dat_train_final_experimental1.csv 파일로 작업 - gbm 매개변수를 맞출 때 피트니스 기능에 대해 긍정적인 결과를 얻을 수 없습니다. 즉, 내가 구축한 매개변수가 무엇이든, 모델이 무엇이든 교차 검증 결과는 저에게 적합하지 않습니다. 나는 그것을 증명할 수 없으며 개인적인 의견 일뿐입니다. 더 많은 예측 변수를 사용하고 모델을 작성할 때 그 수를 줄이십시오.

예를 들어 훈련 테이블의 각 막대에 대해 150개의 예측 변수, 총 100개의 막대, 총 15,000개의 예측 변수가 있습니다. 그런 다음 유전학을 사용하여 모델의 예측 변수와 매개변수를 반복하여 적합성 함수의 최상의 결과를 얻습니다. 따라서 목표 값과 실제로 어떤 종류의 연결이 있고 이를 기반으로 모델이 무언가를 예측할 수 있는 예측 변수가 정확히 선택됩니다. 선택이 끝나면 10-20개의 예측 변수만 남습니다. 피트니스 함수의 결과는 사용된 각 예측자에 대해 필연적으로 약간 감소합니다. 어제 포럼에서 피트니스 함수에 대한 대략적인 R 코드를 작성했는데 더 명확합니다.

 
mytarmails :

나쁘지는 않지만 이 녹색 원은 무엇이며 화살표는 무엇을 의미합니까?

녹색 점은 신호가 있음을 나타내며 녹색 점의 각 시리즈는 파란색 또는 빨간색 점으로 끝납니다. 이는 각각 매수 또는 매도 신호를 의미합니다. 글쎄, 화살표는 Reshetov 분류기의 작업으로 true 신호 또는 false 신호를 말합니다....

그건 그렇고 Sequenta가 공격을 받고 있습니다. 건강을 위해 사용하십시오 ....

파일:
 
트레이더 박사 :

또한 내 주관적인 의견은 예측 변수를 사용하여 목표 값을 예측할 수 없다는 것입니다.

더 잘 표현할 수 있을 것 같아요 -

훈련 샘플 자체에 대한 예측 결과는 평균적으로 테스트 샘플의 결과와 잘 상관되지 않습니다.

ForeCA 패키지가 있으며 여기에는 신호의 "예측 가능성"을 평가하는 Omega 함수가 포함되어 있습니다. 100%로 평가되면 신호가 일부 요구 사항을 충족하고 예측하기 쉽습니다. 0% 점수 - 신호가 노이즈일 뿐이며 예측할 수 없습니다.

나는 여전히 당신의 dat_test_features_experimental.RData 테이블을 가지고 있습니다. 여기서 마지막 열은 가격 인상입니다. 예를 들어 eurusd의 추정치는 0.83%입니다(83%가 아니라 0.83%, 1보다 작음). ForeCA에 따르면 이 시계열 을 예측하는 것은 불가능합니다. 내가 이 패키지를 정말로 신뢰하는 것은 아니지만 그 작성자가 뭔가를 분명히 이해하고 있다는 것을 듣고 싶습니다.

Omega(dat_test_features[dat_test_features[, 109 ] == "eurusd" , 110 ])

작업 시간은 기억나지 않지만 M1이라면 더 시도해야 할 충분한 이유가 있습니다(예: H1).

 
닥터 트레이더,

들었어. 나는 몇 시간의 지평선으로 일한다.

분에는 회귀가 좋지만 트랜잭션의 MO가 충분하지 않습니다. 시간당 절대 가격 차이는 약 8 포인트입니다. 거기 어딘가에 .... 알겠니? 65~70%의 추측 정확도가 필요합니다. 그리고 9시 53~53%면 퍼짐을 극복하기에 충분하다.
 
Dr.Trader :

...

ForeCA 패키지가 있으며 여기에는 신호의 "예측 가능성"을 평가하는 Omega 함수가 포함되어 있습니다. 100%로 평가되면 신호가 일부 요구 사항을 충족하고 예측하기 쉽습니다. 0% 점수 - 신호가 노이즈일 뿐이며 예측할 수 없습니다.

...

이 패키지에서 "예측 가능성"은 무엇을 의미합니까? 이것은 이전(이전) 값을 외삽(즉, 단어)할 수 있는 능력을 의미하는 것 같았습니다. 우리가 증분을 취하면 가장 널리 사용되는 도구이며 많은 뉘앙스를 가지고 매우 잘 개발되었습니다. ARIMA, 이 모델이 작동하지 않으면 다양한 ARCH입니다. 그리고 이러한 모델과 ForeCA 패키지를 비교해야 합니다.

일반적으로 원래 아이디어가 손실 된 것 같습니다. 저에게 이 초기 생각은 모델과 무관하게 목표 변수를 예측하는 데 사용되는 각 예측 변수의 능력을 결정하는 방법이 필요하다는 것이었습니다. "예측자/대상 변수" 링크에서 필수입니다. 그리고 우리가 소음을 걸러낼 때, 우리는 모델이나 그들의 위원회를 사용합니다. 하지만 소음을 걸러낸 후에만. 그리고 노이즈가 없다는 사실은 다른 샘플에 대한 모델의 성능 지표의 대략적인 불변성에 의해 결정됩니다. 예측 오차의 절대값이 아니라 성능 지표의 대략적인 동등성이라는 사실(동등성)은 모델의 과적합이 없다는 증거로 해석됩니다. 어떤 재교육도 우리의 전부가 아닙니다. 모델이 주어진 예측 변수 집합에 대해 재학습되면 다른 모든 것은 숫자 게임입니다. 과도하게 훈련되지 않은 모델만이 관심 대상입니다.