트레이딩의 머신러닝: 이론, 모델, 실전 및 알고리즘 트레이딩 - 페이지 2551

 
막심 드미트리예프스키 # :

그리고 CV의 결과를 가장 잘 활용하는 방법은 무엇입니까?

모델의 하이퍼파라미터(트리의 학습 깊이 또는 리프의 예제 수, 트리 수 등) 및 데이터세트(행 수, 기능 조합 가능)를 최적화하고 있습니다.

이 모든 옵션을 실행한 다음, 앞으로 나아가는 것의 최상의 전체 결과를 기반으로 모델 매개변수 및 데이터에 대한 최상의 옵션을 선택합니다. 제 생각에는 교차 검증이 더 나쁘고 앞으로 나아가는 것은 실제로 어떻게 될 것인지에 대한 사본입니다.

찾은 최상의 모델 매개변수를 가져온 다음 전체 데이터 세트에 대해 학습합니다.

모든 데이터 세트에서 - 비논리적입니다.
역사상 최고의 깊이는 무엇입니까-동일하고 계속 연구하십시오. M5의 50,000줄(거의 1년)에 대해 N번 훈련된 모델이 있습니다. 동일한 매개변수로 훈련되고 히스토리의 깊이만 차이가 나는 경우 모든 포워드의 합계에 대해 52%를 표시할 수 있습니다. 70,000 또는 30,000 라인에서 모든 포워드 합계의 50% 미만입니다.

그 이유는 동일한 예가 나뭇잎에 떨어지지 않기 때문입니다. 나무는 더 많거나 적은 잎을 가질 수 있습니다. 크기가 다른 데이터 세트의 경우 시트의 깊이나 예제 수를 변경해야 한다고 생각합니다.

 
도서관 # :

모델의 하이퍼파라미터(트리의 학습 깊이 또는 리프의 예제 수, 트리 수 등) 및 데이터세트(행 수, 기능 조합 가능)를 최적화하고 있습니다.

이 모든 옵션을 실행한 다음, 앞으로 나아가는 것의 최상의 전체 결과를 기반으로 모델 매개변수 및 데이터에 대한 최상의 옵션을 선택합니다. 제 생각에는 교차 검증이 더 나쁘고 앞으로 나아가는 것은 실제로 어떻게 될 것인지에 대한 사본입니다.

모든 데이터 세트에서 - 비논리적입니다.
역사상 최고의 깊이는 무엇입니까-동일하고 계속 연구하십시오. M5의 50,000줄(거의 1년)에 대해 N번 훈련된 모델이 있습니다. 동일한 매개변수로 훈련되고 히스토리의 깊이만 차이가 나는 경우 모든 포워드의 합계에 대해 52%를 표시할 수 있습니다. 70,000 또는 30,000 라인에서 모든 포워드 합계의 50% 미만입니다.

그 이유는 동일한 예가 나뭇잎에 떨어지지 않기 때문입니다. 나무는 더 많거나 적은 잎을 가질 수 있습니다. 크기가 다른 데이터 세트의 경우 시트의 깊이나 예제 수를 변경해야 한다고 생각합니다.

글쎄, 내 생각에 cv는 특정 모델의 견고성이 아니라 데이터 세트의 품질을 평가하는 데 필요합니다. k-폴드의 평균 오류가 허용 가능한 경우 이 데이터 세트에서 모델을 훈련할 수 있으며 또한 양호할 것입니다. cv에 사용된 모델에서 평균 매개변수를 빌릴 수 있습니다.
 
막심 드미트리예프스키 # :
글쎄, 내 생각에 cv는 특정 모델의 견고성이 아니라 데이터 세트의 품질을 평가하는 데 필요합니다. k-폴드의 평균 오류가 허용 가능한 경우 이 데이터 세트에서 모델을 훈련할 수 있으며 또한 양호할 것입니다. cv에 사용된 모델에서 평균 매개변수를 빌릴 수 있습니다.
우리는 항상 데이터 세트에서 다른 조각을 가져옵니다. 데이터 세트(행 및 기능의 수)와 모델 매개변수를 모두 최적화합니다.
 
Alexey Nikolaev # :

아마도 테스트의 각 관찰이 테스트와 관련하여 어떤 의미에서 이상값인지 확인하는 것이 가능합니다.

알고 보면 흥미로울 것입니다!

내 말은, 시장은 변동성이 크고 주기적이며, 이론상 모든 모델은 이벤트가 반복된다고 가정하면(그렇지 않으면 학습할 의미가 없음) 다양한 존재 기간 동안 높은 정확도를 가지며 테스트 사이트에서 그것은 단순히 또 다른 시장, 또 다른 물결이 있을 것입니다. 훈련은 가장 뚜렷한 패턴으로 수행되지만, 우리는 그것들이 그대로 안정적일 것이라고 믿을 권리가 있습니까!? 안정적인 패턴을 설명하는 예측 변수에 따라 달라지는 것은 모델의 품질이라고 생각하므로 샘플의 다른 부분에서 결과에 대해 일반적인 예에서 배워야 합니다.

 
mytarmailS # :
그것은 나무 모델을 통해 가능합니다 ..
모델을 규칙으로 확장하고 필요한 통계에 따라 규칙을 분석합니다(반복성은 다른 것입니다..). 규칙이 새 데이터에 나타나는지 확인하십시오.

"intrees"를 5줄의 코드로 패키징하고 이동

나는 오랫동안 이것을 잎사귀로 해왔지만 이것은 옳지 않습니다. 그것은 표본에서 비정형적인 예를 식별하는 것을 허용하지 않습니다.

 
블라디미르 페레르벤코 # :

패키지   노이즈 필터R. 기사 를 확인하십시오.

나는 기사를 보았고, 내가 이해한 대로 이 패키지는 중요한 결과를 제공하지 않습니다. 약 3% 증가하지만 이것도 흥미롭습니다. 작동 방식을 설명할 수 있습니까?

 
도서관 # :
데이터 세트에서 항상 다른 조각을 가져옵니다. 데이터 세트(행 및 기능의 수)와 모델 매개변수를 모두 최적화합니다.

현재 시간별 촛불의 목표 색상/유형이 있다는 것을 잊으셨습니까?

 
Alexey Nikolaev # :

소음 예측기로 모든 것이 다소 명확하다면 소음 예에서는 그다지 많지 않습니다. 나는 그것들을 정의하는 방법에 대해 더 알고 싶습니다(물론 R에는 항상 기사에 대한 링크가 있지만 이론상 사용된 패키지/함수의 이름이 아닙니다). 항상 시장에 진입하려는 욕구는 실수로 간주되기 때문에 분류할 때 "거래 금지" 등급이 있어야 한다는 것이 분명합니다. 그러나 이 클래스를 다소 형식적인 형태로 올바르게 설명하는 방법은 매우 명확하지 않습니다.

노이즈 예제 처리를 위한 세 가지 옵션: 삭제, 다시 마크업(마크업 수정) 및 별도의 클래스로 노이즈 예제 분리. 내 경험에 따르면 샘플의 약 25%는 "노이즈"입니다. 품질 향상은 모델 및 데이터 준비에 따라 약 5%입니다. 가끔 신청합니다.

예측 변수를 사용할 때 또 다른 문제인 드리프트가 있습니다. 그리고 이 문제는 테스트와 운영 모두에서 식별되고 고려되어야 합니다. 응용 프로그램에 기사의 번역이 있으며 (인터넷에서 다른 사람을 찾으십시오) 방랑자 패키지가 있습니다. 그는 유일한 사람이 아닙니다. 그러나 결론은 예측 변수를 선택할 때 중요성뿐만 아니라 드리프트도 고려해야 한다는 것입니다. 강한 드리프트는 버리거나 변형해야 하며 약한 드리프트는 테스트 및 작업 시 고려(정확)해야 합니다.

행운을 빕니다

파일:
Drift1.zip  2238 kb
 
Aleksey Vyazmikin # :

현재 시간별 촛불의 목표 색상/유형이 있다는 것을 잊으셨습니까?

양초의 색상은 30%의 오차가 있어도 물이 샐 수 있습니다. 우리는 우리가 그것으로부터 얼마나 많은 이익을 얻을지 모릅니다 .. 일반적으로 색상은 느린 가격 움직임(야간)에서 잘 추측되며 1개의 추측되지 않은 강한 일일 양초는 10개의 작은 밤 비용이 될 수 있습니다. 양초의 색상을 추측하면 다시 임의의 출력이 발생한다고 생각합니다(임의의 크기로 인해).
그래서 TP, SL로 분류를 했습니다. 동일하다면 성공적인 거래의 52%가 이미 수익성이 있는 것입니다. TP=2*SL인 경우. 그러면 성공한 사람들의 33%가 수익을 올릴 것입니다. 내가 얻은 가장 좋은 것은 2년 동안 TP=SL과의 성공적인 거래의 52-53%였습니다. 그러나 일반적으로 고정되지 않은 TP/SL로 회귀로 전환하는 것을 이미 생각하고 있습니다. 더 정확하게는 회귀에 대한 분류를 만드는 것입니다.
 

나는 몇 년 동안 포럼에 참여하지 않았지만 상황은 여전히 있습니다. 노래에서와 같이 : "당신은 그대로 남아 있었고, 대초원의 독수리, 대담한 Cossack ...".

통계는 공리이기 때문에 논의되지 않는 공리로 시작합니다.


쓰레기 인, 쓰레기 아웃.


원칙적으로 쓰레기로 사탕을 만드는 수학적 방법은 없고 존재할 수도 없습니다. PREDICTION 교사의 예측 변수 집합 있거나 전혀 없습니다 .

그리고 모델은 다양한 교차 검증 및 기타 계산 능력이 있는 변태뿐만 아니라 실제로 어떤 역할도 하지 않습니다.


추신.

그건 그렇고, 모델에서 예측 변수의 "중요도"는 교사의 예측 능력과 아무 관련이 없습니다.

사유: