트레이딩의 머신러닝: 이론, 모델, 실전 및 알고리즘 트레이딩 - 페이지 86

 
마이클 마르쿠카이테스 :

글쎄, 그가 혼합하고 반으로 나눴다고 가정 해 봅시다. 훈련 및 테스트 샘플에는 두 클래스의 수가 같은 것으로 나타났습니다. 맞습니까?

샘플에서 두 클래스의 예제 수가 동일하지 않으면 테스트 파트에서 동일하지 않습니다. 예시는 대표성이 없는 클래스에 대해서만 반으로 나뉩니다. 그 중 절반은 교육 부분에, 나머지 절반은 테스트 부분에 속합니다. 교육 부분에서는 가장 대표적인 클래스와 덜 대표되는 클래스의 예제 수가 정확히 동일합니다. 그리고 샘플의 training 부분에 속하지 않은 가장 대표적인 클래스의 나머지 예제들은 test 부분에 속하게 될 것이다.

결론은 초기 버전에서는 밸런싱이 전혀 없었다는 것입니다. 그곳에서 샘플은 PRNG와 혼합되어 두 부분으로 나뉘었습니다. 예제의 절반은 훈련, 절반은 테스트였습니다. 그런 다음 두 클래스의 예가 매우 불균형한 샘플을 발견했습니다. 대표성이 높은 클래스는 일반화 능력에서 우수한 결과를 보인 반면, 대표성이 낮은 클래스는 주춧돌 아래에 위치함을 알 수 있다. 나는 그러한 분노를 없애기 위해 분리기 알고리즘에 균형을 추가해야 했습니다.

 
그리고 아닙니다 ... 모든 것이 정상입니다 .... 잘못된 경보 :-)
 
산산이치 포멘코 :
예측 변수 목록에서 잡음 예측 변수가 지워지지 않았기 때문에 모델이 다시 훈련되었습니다. 이것은 튜토리얼이며 의도적입니다. 그래서 확신해요

나는 그것에 대해 생각했다.
숲은 데이터를 기억하며, 이는 사실이며 나무가 커질수록 기억할 "메모리 용량"이 더 많아집니다. 그러나 충분히 많은 수의 트리가 있어도 여전히 100% 정확도를 달성할 수 없다면 훈련 데이터에 충돌하는 예가 있습니다. 예측 변수의 값이 완전히 동일하지만 클래스가 다른 일부 훈련 예제 세트. 이러한 데이터는 훈련 데이터에서도 100% 예측할 수 없습니다. 모델은 완전히 학습할 수도 없고 단순히 데이터가 충분하지 않아 재학습 가능성이 줄어듭니다.
훈련 예제의 불일치는 오류 때문이 아니라 100% 정확도를 달성할 수 있는 일부 예측 변수가 특별히 제거되었다는 사실 때문입니다. 그러나 그것 없이는 새로운 데이터에 대한 예측이 더 좋아질 것입니다.
이를 기반으로 하는 매우 흥미로운 규칙은 모델의 훈련 및 교차 검증 전에도 일부 세트를 버리기 위해 예측자 세트의 예비 추정을 위한 간단한 방법을 만들 수 있다는 것입니다.

 

안녕하세요!

1) 그가 말한 것에서 무언가를 시도한 사람이 있습니까? 어떤 결과가 있습니까?

2) R에서 직접 테스트 전략을 시도한 사람이 있습니까? R-ke에서 거래를 시뮬레이션해야 합니다. 이는 매우 원시적이지만 중지 및 기타 작은 작업이 있습니다. 이 작업을 가능한 한 간단하고 빠르게 수행할 수 있는 일종의 도구가 있습니까?

 
유리 레셰토프 :

기록 데이터 형태의 실제 볼륨은 어디에서 얻을 수 있습니까? MetaTrader는 "볼륨"이라고 하는 틱 카운터만 제공합니다. 또한 다른 주방에서 이러한 카운터의 값은 크기에 따라 다를 수 있습니다.

...

티크의 양은 주방마다 다를 뿐만 아니라 주방에서도 다릅니다. 때때로 당신은 계단을 직접 볼 수 있습니다. 여기에 빽빽한 시내가 있었고 bam은 희박했습니다.

이것은 거래 내부의 틱 필터가 변경되었기 때문입니다.

여기 흥미로운 질문이 있습니다. 실제 부피와 틱 부피 사이에 상관 관계가 있고, 틱 부피와 막대 크기 사이에도 상관 관계가 있습니다. 이것은 실제 부피와 막대 크기 사이에 상관 관계가 있음을 의미합니까?

 
니콜라이 뎀코 :

이것은 실제 부피와 막대 크기 사이에 상관 관계가 있음을 의미합니까?

틀림없이
 
mytarmailS :
틀림없이
볼륨과 막대 사이의 조합은 무엇을 의미합니까? 볼륨이 높을 수 있으며 수염뿐만 아니라 양초의 몸체가 없습니다. 양은 적고 양초는 커졌다....다 시장 상황에 따라 좌우된다....
 
마이클 마르쿠카이테스 :
볼륨과 막대 간의 조합 은 무엇을 의미합니까? 볼륨이 높을 수 있으며 수염 뿐만 아니라 양초의 몸체가 없을 수 있습니다. 거래량은 적고 양초는 커졌다....다 시장 상황에 달려 있다....

:)

대답, 나는 우리가 선물인 유동성이 높은 시장에 대해 이야기하고 있다고 가정했습니다. 통화 시장, 여기에서 아무도 주식을 거래하지 않는다고 생각합니다.

http://prntscr.com/c10p51

그림에. 크기 100, 변동성 대 거래량의 상관 관계, 내가 기억하는 한 0.6보다 큰 값은 이미 상당한 양의 상관 관계로 간주됩니다.

Скриншот
Скриншот
  • prnt.sc
Снято с помощью Lightshot
 
mytarmailS :

누군가가 관심을 가질 것입니다. 거래를 시뮬레이션하고 quantstrat 라는 거래 시스템을 구축할 수 있는 패키지를 찾았습니다.

http://www.rinfinance.com/agenda/2013/workshop/Humme+Peterson.pdf

다시 게시할 수 있습니다.

및 또 다른 유용한 링크 http://www.r-programming.org/papers

아니면 이 패키지는 누구에게도 관심이 없는 것입니까? 관심이 없다면 왜? 누가 어떻게, 어디서 모델을 테스트하는지 궁금합니다.

 
mytarmailS :

다시 게시할 수 있습니다.

및 또 다른 유용한 링크 http://www.r-programming.org/papers

아니면 이 패키지는 누구에게도 관심이 없는 것입니까? 관심이 없다면 왜? 누가 어떻게, 어디서 그들의 모델을 테스트하는지 궁금합니다.

모든 패키지(모델)는 두 가지 범주로 나눌 수 있습니다.

  • 기본적으로 맞는
  • 기본적으로 부적합합니다.

"원칙적으로 적합한" 패키지의 효과는 거의 동일하며 차이점은 중요하지 않습니다.

모든 문제는 모델에 있는 것이 아니라 예측 변수 집합과 예비 준비에 있습니다. 특정 예측 변수 집합을 사용하면 NOT 과적합 모델을 구축하는 능력과 오류의 크기는 모델의 변화에 거의 의존하지 않습니다. 따라서 "원칙적으로 적합한"모델에서 가장 간단하고 빠른 모델을 선택해야합니다.

추신.

내 자신의 경험에서. 나에게 있어 TS 구축의 복잡성 중 75% 이상이 특정 대상 변수에 대해 그러한 집합을 선택할 수 있는 경우 예측 변수를 선택하는 것입니다.

사유: