트레이딩의 머신러닝: 이론, 모델, 실전 및 알고리즘 트레이딩 - 페이지 43

 
결합기 :
그리고 Sanych의 길을 따르면 이미 낮은 확률로 탐내는 1 %를 칠 확률을 크게 줄일 수 있다고 생각합니까?

각 지표에는 몇 가지 추가 정보가 포함되어 있으며 1%만이 아니라 모든 정보가 유용합니다. RSI의 경우 ">0.99에서 구매, <0.01에서 판매"와 같은 전략이 전혀 없습니다. 이것은 불행한 예입니다.

예를 들어 지표를 가져와 이를 기반으로 Expert Advisor를 만들고 최상의 결과를 위해 매개변수를 최적화할 수 있습니다. 그러나 그러한 고문은 미래에 항상 병합됩니다. EA가 누출되는 것을 방지하려면 다양한 조건의 복잡한 논리에 따라 표시기 값을 확인하는 수십 개의 표시기가 필요합니다(더 적을 수도 있지만 나에게는 쉽지 않음). 예를 들어 MA(20)>MA(16)이면 RSI>0.3이면 매수합니다. 그리고 MA(20)<MA(16)이면 rsi가 아니라 stochastic을 보십시오. 논리는 이와 비슷해야 하지만 훨씬 더 복잡하고 화려해야 합니다. 랜덤 포레스트 모델은 이러한 논리를 구축할 수 있으며 이는 매우 좋습니다.

지표의 모든 값은 모델을 구축하는 데 중요합니다. 모델 자체는 결정 및 구매/판매에 대한 이러한 값의 임계값과 다른 지표의 값에서 구현 조건을 결정합니다.

 
트레이더 박사 :

각 지표에는 몇 가지 추가 정보가 포함되어 있으며 1%만이 아니라 모든 정보가 유용합니다.

오컴의 면도날 원리를 아시나요?

 

표시기에 특정 범위의 값 이 있는 경우 이 범위의 모든 값은 무언가를 말하고 고유한 추가 의미를 갖습니다. 단순히 지표의 상한선과 하한선에서 1%를 취하여 그 안에서만 거래하기로 결정하는 것은 권장하지 않습니다. 물론 시도할 수는 있지만 수익성이 없는 것으로 판명되었으며 전략에 더 많은 조건을 추가하려면 더 많은 다른 지표를 다시 수집해야 합니다. 즉, 많은 다른 지표를 사용하여 RSI 값의 전체 범위에서 거래할 수 있습니다. 또는 다른 지표의 도움으로 특정 범위의 RSI 값에서만 거래할 수 있습니다. 나는 두 번째 방법이 나에게 어떤 이점을 줄 것인지 알지 못합니다.

그러나 처음에는 수십 개의 지표가 있고 모두 수백 가지의 지연 또는 매개변수 옵션이 있는 경우 그 중 일부를 제거해야 합니다. 여기에서 Occam의 면도날이 완전히 작동합니다. 덕분에 거의 9000개의 예측 변수 중 100개만 남았습니다(다양한 지연(시프트)가 있는 12개의 지표). 그리고 이러한 나머지 예측 변수는 최소 60%의 정확도로 예측을 제공합니다.

 
트레이더 박사 :

노이즈 예측자가 많을수록 그 중 하나가 유용한 데이터와 유사할 가능성이 높아집니다.

선험적 재교육, Sanych가 자랑하는 부재

 
결합기 :

노이즈 예측자가 많을수록 그 중 하나가 유용한 데이터와 유사할 가능성이 높아집니다.

선험적 재교육, Sanych가 자랑하는 부재

소음 예측기를 희생하면서 나는 다소 부정확했습니다.

나는 노이즈 예측자를 제거하는 알고리즘을 가지고 있다고 자랑스럽게 여기고 있습니다. 그러나 이것은 100% 잡음 과 100% 비잡음 예측자가 없다는 점에서 완전히 정확하지 않습니다. 내가 본 모든 예측 변수(수백, 다른 사람들의 10세트 이상)는 부분적으로 시끄럽거나 부분적으로 시끄럽지 않습니다. 언제나. 나는 다른 사람을 보지 못했습니다. 아래에서 숫자로 설명하겠습니다.

이제 우리는 무엇을 위해 싸우고 있습니까?

내 알고리즘에서 순수하게 노이즈 예측자를 사용하면 클래스 예측 정확도가 약 50%인 확률을 얻습니다. 즉, 동전을 던집니다. 게다가 순전히 잡음 예측자에 대해 학습할 때 거의 항상 매우 좋은 결과를 얻고 시간 샘플에서 빼면 이 50%를 얻는다는 사실에 의미가 있습니다.

나는 각 예측자가 "잡음"의 추상적 가치를 가지고 있습니다. 이 값이 0에서 1이면 소음과 완전한 절망입니다. 1에서 2까지라면 가능하지만 사용하지 않는 것이 좋습니다. 3 이상으로 측정해야 합니다. 6 이상을 본 적이 없습니다.

따라서 "잡음이 3 이상인 예측 변수를 선택했다고 가정해 보겠습니다. 모델을 구축하면 다양한 예측 변수 집합에 대해 25%에서 35%의 오류가 발생합니다. 모든 유형의 샘플(훈련-테스트-검증 - 모두 무작위 혼합, 샘플 외 - 엄격하게 막대가 도착한 순서대로) 대략 같음(예: 32-30-33-35% 오류를 개선할 수 없음(예: 두 번) 동일한 특정 예측 변수 집합에 대해 즉, 모델 오류의 값은 특정 예측 변수 집합에 의해 결정됩니다. 오류의 크기가 마음에 들지 않으면 다른 예측 변수 집합이 필요합니다. 오류.

내가 받은 오류는 물론 약간 크지만 샘플 외부에서 교육 및 테스트 중에 오류가 거의 동일하다는 것이 중요합니다. 그러나 나는 가장 중요한 결론을 내립니다. 이 예측 변수 집합은 모델의 과적합을 생성하지 않습니다. 미래에는 거의 동일한 예측 오류가 발생할 것입니다. . 이것은 랜덤 포레스트, ada, SVM의 다양한 변형에서 테스트되었습니다. 다른 모델은 시도하지 않았습니다.

 
결합기 :

노이즈 예측자가 많을수록 그 중 하나가 유용한 데이터와 유사할 가능성이 높아집니다.

선험적 재교육, Sanych가 자랑하는 부재

안드레이. 이것은 분명히 받아들여집니다. 모든 결론은 검증에 의해 이루어집니다. 순수한 노이즈 예측기가 수천 개의 추측되고 독립적인 관찰을 생성할 가능성은 매우 작고 무시할 수 있습니다. 결론은 나와 함께 올바른 통계 테스트를 통해 확인됩니다.

잡음에서 예측 변수를 선택하면 효과가 있습니다.
 
Vladimir Perervenko : 2. rminer 의 lforecast 기능 - 입력으로 1-ahead 예측을 반복적으로 사용하여 다단계 예측을 수행합니다. 몇 단계 앞서 예측하는 것에 대해 말하면, 확실히 회귀를 의미합니까?

예, 나 자신을 모릅니다)) 예측을 위한 예측 변수가 있는 행렬을 사용하여 몇 단계 앞서 예측할 수 있는 도구가 필요합니다. 예측을 만드는 방법은 그다지 중요하지 않습니다. 회귀는 시계열 자체를 다음과 같이 취합니다. 입력, 이것은 나에게 적합하지 않습니다. 예측자가 있는 행렬을 가져와야 합니다...

나는 "iforecast"함수를 보았고, 회귀에 대한 시계열을 입력으로 사용합니다. 이것이 아닌가요, 아니면 내가 뭔가를 잘못 이해 했습니까?

 
트레이더 박사 :

각 지표에는 몇 가지 추가 정보가 포함되어 있으며 1%만이 아니라 모든 정보가 유용합니다. RSI의 경우 ">0.99에서 구매, <0.01에서 판매"와 같은 전략이 전혀 없습니다. 이것은 불행한 예입니다.

그래, 무슨 농담을 하는 거지? 제가 과장해서 썼습니다(저는 할 수 없을 정도로 단순화하고 있습니다) 그리고 두 번 썼습니다 :) 아니면 시스템에 대한 135개의 규칙이 있는 실제 예를 들면 더 좋을까요? 내가 설명하고 싶은 것은 하나의 규칙으로 충분하다는 사실에도 불구하고
 

선택의 주제 계속

제 질문은: 우리는 값의 범위 가 10인 예측 변수(많은 것 중 하나)가 있습니다.

예측 변수를 X1,X2....X10 범위로 나누겠습니다.

어떤 식으로든 예측자에서 각 범위의 중요도를 계산해 보겠습니다.

우리는 특정 중요도 표를 얻을 것입니다 (이것은 하위 예측자로 분할된 것처럼 모두 하나의 예측자임을 기억하십시오)

X1 = 0.5%

X2 = 0.01%

X3 = 0.003%

X4 = 0.0033%

X5 = 0.0013%

X6 = 0.0039%

X7 = 0.0030%

X8 = - 0.0000%

X9 = - 0.0001%

X10 \u003d - 0.00002%

하나의 "X1" 범위만 실제로 강력한 영향을 미치고 나머지 영향은 음수이거나 음수에서 반 단계 떨어져 있으며 이러한 X2....X7 범위가 새로운 데이터에 더..

문제 :

뭐가 더 나아? 전체 양수 범위 X1...X7을 그대로 두거나 의심의 여지가 없는 범위, 즉 X1만 남겨둡니다.

그리고 이것은 하나의 예측 변수에 의한 선택이라는 것을 다시 한 번 상기시켜 드리겠습니다. 하지만 이렇게 200개의 예측 변수를 지우면? 어떤 데이터에서 알고리즘이 지워진 데이터의 새 데이터를 더 잘 인식할 수 있습니까?

누가 이것에 대해 생각합니까?

 
mytarmails :

선택의 주제 계속

제 질문은: 우리는 값의 범위 가 10인 예측 변수(많은 것 중 하나)가 있습니다.

예측 변수를 X1,X2....X10 범위로 나누겠습니다.

어떤 식으로든 예측자에서 각 범위의 중요도를 계산해 보겠습니다.

우리는 특정 중요도 표를 얻을 것입니다 (이것은 하위 예측자로 분할된 것처럼 모두 하나의 예측자임을 기억하십시오)

X1 = 0.5%

X2 = 0.01%

X3 = 0.003%

X4 = 0.0033%

X5 = 0.0013%

X6 = 0.0039%

X7 = 0.0030%

X8 = - 0.0000%

X9 = - 0.0001%

X10 \u003d - 0.00002%

하나의 "X1" 범위만 실제로 강력한 영향을 미치고 나머지 영향은 음수이거나 음수에서 반 단계 떨어져 있으며 이러한 X2....X7 범위가 새로운 데이터에 더..

문제 :

뭐가 더 나아? 전체 양수 범위 X1 ... X7을 그대로 두거나 의심의 여지가 없는 범위, 즉 X1만 남겨둡니다.

그리고 이것은 하나의 예측 변수에 의한 선택이라는 것을 다시 한 번 상기시켜 드리겠습니다. 하지만 이렇게 200개의 예측 변수를 지우면? 어떤 데이터에서 알고리즘이 지워진 데이터의 새 데이터를 더 잘 인식할 수 있습니까?

누가 이것에 대해 생각합니까?

그리고 당신은 시도 할 수 있습니다. 때로는 분포의 꼬리가 제거되고 때로는 도움이됩니다.
사유: