트레이딩의 머신러닝: 이론, 모델, 실전 및 알고리즘 트레이딩 - 페이지 185

 
유리 레셰토프 :
말도 안되는 소리 하지 마세요. jPrediction은 잡음이 있거나 중요하지 않은 예측 변수에 대해 훈련된 모델로 끝나지 않도록 입력 차원 축소 알고리즘을 구현합니다. 저것들. 예측 변수의 다양한 조합이 있는 모델 집합에서 선택하며, 그 중에서 일반화 능력이 가장 우수한 모델만 남습니다.

가상의 상황...

우리는 100개의 잠재적인 예측변수를 가지고 있습니다. 설명의 단순성을 위한 지표로 두십시오.

이 모든 예측 변수에 수익성 있는 상황이 하나만 있다는 것을 처음에 알고 있다고 상상해 보십시오. RSI가 90을 넘고 스토캐스틱이 0 아래로 떨어졌을 때 (물론 상한선에서 발생한 상황 ) 이 상황은 다음과 같은 가격 하락을 제공합니다. 90%의 확률 , 다른 모든 예측 변수 는 완전 잡음이고, RSI 및 확률론의 예측 변수에 있는 다른 모든 상황 도 완전 잡음이며, 거기에는 수백, 수백 가지의 다양한 상황이 있습니다....

즉, 유용한 신호의 약 0.01%에서 잡음의 99.9%가 있습니다.

어떤 기적에 의해 MO가 98개의 예측 변수를 모두 제거하고 RSI와 스토캐스틱 2개만 남겨 둡니다.

RSI에는 수백 가지의 상황적 RSI>0, RSI>13, RSI<85, RSI=0, RSI<145, ............... 그리고 수백, 수백, sochastics에는 없습니다. 적은 상황에서 작업은 단 하나 의 상황입니다. MO가 모든 가격 변동을 인식하도록 훈련하면 MO는 RSI 및 스토캐스틱에서 사용할 수 있는 모든 가능한 상황과 이러한 상황의 확률을 고려 하여 모델을 구축합니다. 작동은 거의 0이지만 MO는 이것이 실제 소음이고 하나의 작업 상황이 수백 개의 다른 솔루션 중에서 단순히 손실된다는 사실에도 불구하고 이를 고려하고 그에 따라 일종의 모델을 구축해야 합니다. 여기 재교육 중입니다 ....

결국 어떻게 된거야???

 

그들은 모든 것을 섞었습니다.

서로 다른 독립적인 문제가 있습니다. 그러나 그것들은 집을 위한 벽돌과 같습니다. 오직 모두가 함께 거래 시스템을 제공할 것입니다.

1. 예측변수의 준비 . 이 단계에서 상당히 많은 수의 목표와 해당 도구가 있습니다. 나는 의도적으로이 단계의 모든 문제를 소음을 제거하는 방향으로 왜곡했습니다. 주어진 SPECIFIC 대상 변수에 대해 예측하는 예측자를 찾습니다. 이상형을 설명하겠습니다. 유전에 관한 기사에서 가져옴. 그러나 내 자신의 예에서.

대상 변수 "무슬림"(순도)을 사용합니다. 예측 변수는 "바지"와 "스커트"의 두 가지 값이 있는 "옷"입니다. "바지" 값이 있는 예측자 "의류" 값 중 일부는 클래스 "남성"을 고유하게 예측하고 두 번째 부분은 여성을 예측합니다. "매수/매도" 목표 변수에 대한 RSI와 같은 이상적인 예측 변수도 있습니다. 우리 모두는 지표가 종종 거짓말을 한다는 것을 알고 있지만 그것의 일부는 한 클래스를 예측하고 일부는 다른 클래스를 예측합니다. 따라서 일부는 한 클래스를 예측하고 일부는 다른 클래스를 예측하는 예측자를 찾아야 합니다. 또한 교차점이 작을수록(가양성) 예측 변수가 더 좋습니다. 예측 변수를 교차 없이 두 부분으로 나눌 수 있는 이상적인 "바지/스커트"입니다. 그러나 그것은 무슬림에게만 작동하지만 유럽인에게는 작동합니다....

알고리즘 방법(예: RSA, 클래식은 아니지만 개선 포함)이 있지만 예측자의 내용으로 시작해야 합니다. 실질적인 고려 사항에 기초하여 처음에는 토성의 고리, 커피 찌꺼기 등을 버리는 것이 필요합니다. 동시에 이러한 예측 변수의 NOT 상관 관계가 중요합니다. 예를 들어, 견적의 일부 파생 상품을 가져옵니다. 모두 견적에서 가져온 것이지만 미결제약정, 거래량 ... 그런 다음 어떤 이유로 다른 통화 쌍, 거시 경제학은 논의되지 않습니다 ...

2. 모델 맞추기. 이것은 별도의 문제이며 사용된 모델의 도움으로 첫 번째 문제를 해결하는 것은 불가능합니다. 여기서 혼란은 많은 모델 알고리즘에 내장된 예측자 선택 알고리즘이 있다는 사실로 인해 발생합니다. 나는 개인적으로 첫 번째 문제를 해결할 내장 알고리즘을 모른다.

Reshetov는 자신이 그러한 내장 알고리즘을 가지고 있다고 주장합니다. 그러나 그는 자신의 알고리즘에 따라 재교육이 없다는 증거를 제시하지 않았습니다.

첫 번째 단계가 필요합니다. 그러나 배제하지 않고 내장된 예측자 선택 알고리즘의 사용을 제안하기도 합니다. 그러나 이러한 알고리즘은 첫 번째 단계에서 "커피 찌꺼기"를 제거해야 합니다.

3. 이진-삼항 분류기. Reshetov는 항상 그렇듯이 삼항 분류기에 대한 이해와 문제를 혼동했습니다. 삼항은 목표 변수가 3개의 값을 갖는 경우이며 일반적으로 말해서 임의의 수의 정성적(명목형, 범주형) 값입니다. Reshetov는 핸디캡에 매우 바람직한 작동 신호를 수신하는 2개의 바이너리를 가지고 있습니다. 이 신호는 "매수/운용/매도"라는 삼항 신호를 갖습니다. 저는 분류를 위해 이진 목표 변수를 사용하고 거래를 위해 두 가지 이진 분류 결과에서 세 가지 신호를 얻습니다. 정확히 Reshetov와 같습니다.

4. 여러 모델의 결과를 거래 신호로 결합하는 것은 별개의 문제입니다. Reshetov가 제안한 솔루션이 있습니다. 그러나 지점에서 다른 솔루션이 제안되었습니다. 위에서 Dik은 클래스를 얻은 값을 고려할 것을 제안했습니다. 특히 분류 알고리즘이 클래스가 파생된 클래스의 PROBABILITY 값을 반환한다는 것을 기억하는 경우 이 문제를 자세히 알아볼 수 있습니다. 여러 모델의 결과를 하나의 결과로 덤프할 때 이러한 확률을 고려하는 것이 좋습니다. 이러한 확률을 반으로 나누지 않고 분류 오류를 줄이는 알고리즘이 있습니다.

5. 모델의 최종 평가. 이것은 내가 Burnakov와 이해에 도달하는 데 실패한 것입니다. 우리는 모델을 가져 와서 "샘플 외부"로 실행하고 "아웃"은 훈련, 테스트, 교차 검증이 수행된 시간 간격 외부로 이해됩니다... 이 단계는 건설적이지 않습니다. 해야 할 일을 말합니다. 이 단계에서 평결이 통과됩니다: 보관 또는 폐기. "던짐"의 이유는 너무 큰 오류가 아니라 이전 단계와 비교한 가변성입니다. 모델이 너무 적합하고 희망이 없으며 위험하기 때문에 버리십시오. 이 단계를 극복한 경우 테스터로 이동하여 "유지 - 버리기"에서 동일한 결과를 얻습니다.

 
mytarmailS :

가상의 상황...

...

그러면 MO는 가능한 모든 상황을 고려 하여 모델을 구축할 것입니다 ...

모든 가격 움직임을 인식하도록 MO를 훈련하고 있으므로 MO ...

...

그러나 MO는 이것이 실제 소음이고 수백 가지 다른 솔루션 중에서 하나의 작업 상황이 단순히 손실된다는 사실에도 불구하고 이를 고려하고 이를 기반으로 하는 일종의 모델을 구축해야 합니다. .

jPrediction 은 가능한 모든 상황을 고려할 필요가 없습니다 . 당신이 쓴 것보다 훨씬 쉽게 작동합니다.

예측 변수의 순차 선택 원칙(당신이 발명하려는 조합의 완전한 열거가 아님)은 109페이지의 내 메시지에 있습니다.

기억상실증이 있는 경우 110페이지 에서 예측 변수 선택 절차를 이미 지정했음을 알려드립니다.

 

산산이치 포멘코 :

Reshetov는 항상 그렇듯이 삼항 분류기에 대한 이해와 문제를 혼동했습니다 .

...

분류를 위해 이진 목표 변수를 사용하고 거래를 위해 두 개의 이진 분류 결과에서 세 개의 신호를 얻습니다. 정확히 Reshetov 와 같습니다 .


글쎄, 이 레셰토프는 악당이 아닌가?

그는 이 문제를 너무 혼란스러워서 이제는 Fomenko조차 Reshetov와 똑같은 일을 해야 합니다.

Shurik Shurikovich, 선반에서 파이를 가져 가라. 결국, 당신은 무와 나쁜 사람 인 Reshetov를 비판하는 분야에서 정직하게 자격이 있습니다.

 
유리 레셰토프 :

jPrediction 은 가능한 모든 상황을 고려할 필요가 없습니다 . 당신이 쓴 것보다 훨씬 쉽게 작동합니다.

예측 변수의 순차 선택 원칙(당신이 발명하려는 조합의 완전한 열거가 아님)은 109페이지의 내 메시지에 있습니다.

기억상실증이 있는 경우 110페이지 에서 예측 변수 선택 절차를 이미 지정했음을 알려드립니다.

MO (any)가 정상적으로 표지판을 선택할 수없는 이유를 알려 드리겠습니다. 녹색에 대해 알려주십시오 ...

 
mytarmailS :

MO (any)가 정상적으로 표지판을 선택할 수없는 이유를 알려 드리겠습니다. 녹색에 대해 알려주십시오 ...

jPrediction은 일반적으로 예측자를 선택합니다. 아마도 가장 이상적인 방법은 아니지만 적용된 문제의 경우 정상입니다. 아마도 완벽의 한계에 아직 도달하지 않았으며 추가 연구의 가능성이 있습니까? 가장 중요한 것은 긍정적인 결과가 있고 이미 더 멀리 춤을 출 수 있다는 것입니다.

결론은 기계 학습 방법(ML 분야뿐만 아니라)에 자신의 편향을 투영 필요가 없다는 것입니다.

무언가가 당신을 위해 작동하지 않지만 다른 사람들은 똑같이한다면 이것이 정상적인 방법이 없다는 것을 의미하지는 않습니다. 이것은 단지 개인적인 편견에 대해 이러한 가장 일반적인 방법을 사용하지 않거나 잘못 사용한다는 것을 의미합니다.

 
유리 레셰토프 :

글쎄, 이 레셰토프는 악당이 아닌가?

그는 이 문제를 너무 혼란스러워서 이제는 Fomenko조차 Reshetov와 똑같은 일을 해야 합니다.

Shurik Shurikovich, 선반에서 파이를 가져 가라. 결국, 당신은 무와 나쁜 사람 인 Reshetov를 비판하는 분야에서 정직하게 자격이 있습니다.

진정해.

당신과 나는 같은 혈통이기 때문에 나는 당신을 개인적으로 불쾌하게 할 생각조차 한 적이 없습니다.

그러나 당신의 "담장"은 의심할 여지 없이 나에게 관심이 있습니다.

요점은 이것입니다. 바이너리의 예에서.

한 클래스의 확률이 0.49이고 두 번째 클래스의 확률이 각각 0.51이라고 가정합니다. 그것은 두 개의 클래스 또는 "펜스"입니까?

 
유리 레셰토프 :

구현에서 가장 원시적이지만 가장 멍청하고 가장 유망하지 않은 삼항 자전거: 3개의 출력이 있는 ANN입니다. 그러한 출력 각각에 고유한 분류 임계값이 있는 경우 3개가 아니라 8개의 잠재적으로 가능한 상태를 얻게 되며 그 중 3개만 모호하지 않고(값은 3개 출력 중 하나만 임계값보다 높음) 5개는 해석(임계값 위의 값은 출력 중 하나보다 크거나 세 개의 출력 모두에서 임계값 미만임).

분류의 경우 모든 것이 훨씬 간단하며 더 큰 값으로 출력을 취하는 것이 일반적입니다. 3개의 출력에 대한 결과가 (0.1;0.3;0.2)이면 가장 높은 값 = 0.4이고 출력 번호 2가 활성화됩니다.
거래 모델은 다음과 같은 논리를 가질 수 있습니다.
첫 번째 출구에서 가장 큰 값 -> 롱 포지션,
두 번째 출구에서 가장 큰 값 -> 모든 거래를 종료하고 거래하지 않음,
세 번째 출구에서 가장 높은 값 -> 숏 포지션.
그게 다야 임계값, 상태 등이 없습니다.

그리고 이것은 전혀 자전거가 아니라 두 개 이상의 클래스가 필요할 때 분류를 위해 뉴런에서 자주 사용되는 방법이므로, 예를 들어 이미지를 분류할 때 적어도 수십 개의 클래스를 사용할 수 있습니다.
두 클래스의 경우 중간에 임계값이 있는 하나의 출구로 충분합니다.
 

트레이더 박사 :

거래 모델은 다음과 같은 논리를 가질 수 있습니다.


  • 첫 번째 출구에서 가장 큰 값 -> 롱 포지션,
  • 두 번째 출구에서 가장 큰 값 -> 모든 거래를 종료하고 거래하지 않음,
  • 세 번째 출구에서 가장 높은 값 -> 숏 포지션.


그게 다야 임계값, 상태 등이 없습니다.

또한 옵션입니다. 그런 사소한 접근이 정상적인 일반화 능력을 주는 것은 사실이 아니지만. 때로는 단순함이 훔치는 것보다 더 나쁩니다. 저것들. 경험적으로 확인해야합니다. 부검이 표시됩니다.
 
산산이치 포멘코 :

한 클래스의 확률이 0.49이고 두 번째 클래스의 확률이 각각 0.51이라고 가정합니다. 그것은 두 개의 클래스 또는 "펜스"입니까?

아이스크림 때문에.

죄송하지만 질문이 무엇입니까, 그러한 답변입니다.

저것들. 나는 유머를 이해하지 못했습니다. 결정을 내리기 위해서는 분류기의 출력 값을 임계값과 같은 것과 비교해야 하기 때문입니다. 그리고 문제의 공식화에서 어떤 이유로 비교 가능한 값이 알려지지 않고 분류에 필요하지 않은 값만 알려지기 때문에 설명을하는 것이 좋을 것입니다.

사유: