트레이딩의 머신러닝: 이론, 모델, 실전 및 알고리즘 트레이딩 - 페이지 1325

 
파르하트 구자이로프 :

위의 모든 것은 멋지고 매우 유익하지만 여기에 "학습 제어"가 있습니다. 그것은 무엇을 의미합니까 ???

저것들. 예를 들어, 2014년 데이터 샘플로 시스템을 교육한 다음 2015년 샘플을 제공하고 패턴의 확률을 보고 싶습니까? 그렇다면 아무것도 변경할 필요가 없으며 모든 것이 정확합니다. 컨트롤이 예상 결과에서 다른 결과를 제공한다는 점에서 여기서 문제가 발생하지 않습니다. 항상 그럴 것입니다.

나는 훈련을 위해 CatBoost 를 사용하는데 컨트롤(유효성 검사) 세트에 대한 훈련을 중지하는 기능이 있습니다. 동시에 훈련 샘플의 오류가 감소하고 제어 샘플에서 결과가 어떻게 변경되었는지 즉시 확인합니다. 결과가 주어진 트리 수에 대해 제어 샘플에서 개선되지 않으면 훈련이 중지되고 마지막 개선까지 모든 나무가 잘립니다. 예, 연대기는 다음과 같습니다. 저는 2014년을 가르치고 2015년부터 2018년까지의 훈련 제어를 가르치고 2018년의 결과를 확인합니다. 훈련 중에 감지된 패턴이 여전히 제시간에 작동을 멈출 수 있기 때문에 장소를 바꾸는 것이 가능하고 이치에 맞습니다. 실제로 응용 프로그램에 더 가까운 데이터에서 더 잘 배울 수 있습니다. 열린 질문입니다.

 
파르하트 구자이로프 :

귀하의 경우에 MO의 실제 적용을 진행한다면, 제 생각에는 다음과 같이 진행해야 합니다.

참 결과의 100% 확률을 얻는 것이 현실적이지 않기 때문에 예를 들어 참과 거짓 결과의 비율과 같은 간단한 방법을 따르십시오. 만약 그것이 50/50의 범위에 있다면 다시 다음을 수행해야 합니다. 50% 이익이 평균 100점이고 나머지 50% 손실이 평균 50점인 경우 이러한 결과가 귀하에게 제공하는 이익을 이해하면 귀하의 시스템이 이미 실용에 적합하다고 생각합니다.

표의 분류 정확도는 Precision 메트릭 지표입니다. 60%(최고 모델의 경우) 영역에서 올바른 항목이 얻어지고 테스터에서는 일부 위치가 손익분기점으로 당겨져야 하기 때문에 더 많을 것입니다. 이익실현 목표에 도달하지 못했습니다.

적용하기에는 너무 이르고 다음 단계를 준비해야 합니다. 식물 표본관에서 모델을 거르는 것입니다 :)

 
알렉세이 비아즈미킨 :

나는 훈련을 위해 CatBoost를 사용하는데 컨트롤(유효성 검사) 세트에 대한 훈련을 중지하는 기능이 있습니다. 동시에 훈련 샘플의 오류가 감소하고 제어 샘플에서 결과가 어떻게 변경되었는지 즉시 확인합니다. 결과가 주어진 트리 수에 대해 제어 샘플에서 개선되지 않으면 훈련이 중지되고 마지막 개선까지 모든 나무가 잘립니다. 예, 연대기는 다음과 같습니다. 저는 2014년을 가르치고 2015년부터 2018년까지의 훈련 제어를 가르치고 2018년의 결과를 확인합니다. 훈련 중에 감지된 패턴이 여전히 제시간에 작동을 멈출 수 있기 때문에 장소를 바꾸는 것이 가능하고 이치에 맞습니다. 실제로 응용 프로그램에 더 가까운 데이터에서 더 잘 배울 수 있다는 것은 열린 질문입니다.

예를 들어, 내가 나 자신에게서 발견한 것. 훈련에 관련된 데이터 배열이 클수록 시스템이 "긴장"됩니다. 특정 기간에 일부 모델은 긍정적인 결과를 제공하고 다른 기간 동안 동일한 모델은 부정적인 결과를 제공하기 때문에 결과에 대한 확률이 낮아집니다. 내가 말했듯이 시스템은 "단단"해지고 아마도 더 똑똑해질 수 있지만 이것이 스마트 시스템이 더 진정한 결과를 제공한다는 것을 의미하지는 않습니다. 비율이 같은 수준으로 유지될까봐 두렵습니다. 시스템은 현재 상황에 대한 자신의 관점을 덜 자주 알려줍니다.

 
알렉세이 비아즈미킨 :

boosting에 대한 강의는 같은 강사와 함께 더 최신이었습니다(catboost가 옵션으로 있는 python에서) - 아무것도 찾을 수 없습니다


흥미롭게도 GBM은 회귀 트리로 분류 문제를 해결합니다.

아는 사람? 박사 부스팅 방법(패키지)도 동일합니까?

 
알렉세이 비아즈미킨 :

그리고 결론은 무엇입니까? 최적의 크기는 검증 샘플의 60%-70%인 것 같습니다. 훈련은 모델 검증보다 더 작은 샘플에서 이루어져야 합니다. 그러나 고장을 30 %로 강조하지 않는 것은 불가능하며 결과도 모든면에서 나쁘지 않으며 실패는 40 %와 50 %에 매우 가깝습니다. 표본의 크기나 그 내용이 무엇에 더 영향을 미치는지, 그리고 이를 어떻게 설정해야 하는지조차 모르겠습니다...

60-70%가 좋고 30%가 좋다면 실수로 이 숫자를 칠 가능성이 있습니다.
두 번째로 모든 것이 동일하면 계산을 완전히 반복하려고 시도할 수 있습니다. 그러면 패턴으로 간주할 수 있습니다. (통계적 유의성을 높이려면 10회 반복해야 함).
 
파르하트 구자이로프 :

예를 들어, 나는 내 자신에게서 무엇을 발견했습니다. 훈련에 관련된 데이터 배열이 클수록 시스템이 "긴장"됩니다. 그것은 결과에 대한 확률이 낮습니다. 왜 그렇게 대답이 들리는 지 이유는 특정 기간에 일부 모델은 긍정적 인 결과를 제공하고 동일한 모델은 다른 기간 동안 부정적인 결과를 제공하기 때문에 결과적으로 시스템에 들어갑니다. 내가 말했듯이, 그것은 "단단하게" 되고 어쩌면 더 똑똑해질 수도 있지만 이것이 똑똑한 시스템이 더 진정한 결과를 제공한다는 것을 의미하지는 않습니다. 비율이 같은 수준으로 유지되는 것이 두렵습니다. 단지 시스템이 현재 상황에 대한 자신의 관점을 덜 자주 알려줍니다.

나는 거래에서 신호가 적을수록 좋지만 더 정확하고 모델을 독립적인 앙상블로 결합할 수 있다면 분류 정확도가 높은 수준으로 유지되고 완전성이 증가할 것이라고 생각합니다(1에 해당하는 이벤트 수). 가장 중요한 것은 샘플의 다른 분석으로 인해 옵션으로 다시 우수한 모델을 생성하도록 어떻게든 적응하는 것입니다.

 
도서관 :

흥미롭게도 GBM은 회귀 트리로 분류 문제를 해결합니다.

아는 사람? 박사 부스팅 방법(패키지)도 동일합니까?

그들은 나에게 알려진 사람들과 같은 일을 합니다(다른 곳에서 언급됨). 훈련 자체의 특성 때문에 달리 방법이 없다. 그렇기 때문에 앞서 답변에서 나무의 순서가 가중치에 영향을 줄 수 있다고 말한 이유이며 이것이 잎의 앙상블을 고려하고 단일 규칙으로 변환하는 것이 합리적입니다.

 
도서관 :
60-70%가 좋고 30%가 좋다면 실수로 이 숫자를 칠 가능성이 있습니다.
두 번째로 모든 것이 동일하면 계산을 완전히 반복하려고 시도할 수 있습니다. 그러면 패턴으로 간주할 수 있습니다. (통계적 유의성을 높이려면 10회 반복해야 함).

반복하는 방법? 저것들. 시드가 고정되어 있으므로 새 시드를 가져올 수 있습니다. 나중에 시도하겠습니다. 어떻게 되는지 봅시다.

한편, 표본당 200개 모델을 사용했는데, 이것도 꽤 많다.
 
고정되지 않은 시장에서 그러한 연구에서 어떤 결론도 도출할 수 없습니다.
 
막심 드미트리예프스키 :
고정되지 않은 시장에서 그러한 연구에서 어떤 결론도 도출할 수 없습니다.

그러면 샘플이 고정되고 훈련에 대한 분석이 변경되었지만 독립적인 평가에서는 동일하게 유지되었습니다.

생각을 넓혀주세요.

사유: