트레이딩의 머신러닝: 이론, 모델, 실전 및 알고리즘 트레이딩 - 페이지 2552

 
블라디미르 페레르벤코 # :

예측 변수를 사용할 때 또 다른 문제인 드리프트가 있습니다.

드리프트는 내가 이해하는 것과 같은 고정되지 않은 것입니까?

진입 가격을 취하는 모델을 훈련하고 출력이 가격과 상관관계가 있는 최대 고정 급수라면 어떻게 될까요? 즉, 가격의 고정 아날로그를 만든 다음 추가로 작업하고 표지판을 만들고 모델을 훈련시키는 방법은 무엇입니까? 비슷한 것을 시도 했습니까?

 
블라디미르 페레르벤코 # :

예측 변수를 사용할 때 또 다른 문제인 드리프트가 있습니다. 그리고 이 문제는 테스트와 운영 모두에서 식별되고 고려되어야 합니다. 응용 프로그램에 기사의 번역이 있으며 (인터넷에서 다른 사람을 찾으십시오) 방랑자 패키지가 있습니다. 그는 유일한 사람이 아닙니다. 그러나 결론은 예측 변수를 선택할 때 중요성뿐만 아니라 드리프트도 고려해야 한다는 것입니다. 강한 드리프트는 버리거나 변형해야 하며 약한 드리프트는 테스트 및 작업 시 고려(정확)해야 합니다.

나는 비정상(무질서)이 모든 것을 크게 복잡하게 만든다는 데 동의합니다. 불행히도 스팸 예제보다 훨씬 더 복잡합니다. 그러나 반드시 고려해야 합니다.

 
도서관 # :
양초의 색상은 30%의 오차가 있어도 물이 샐 수 있습니다. 우리는 우리가 그것으로부터 얼마나 많은 이익을 얻을지 모릅니다 .. 일반적으로 색상은 느린 가격 움직임(야간)에서 잘 추측되며 1개의 추측되지 않은 강한 일일 양초는 10개의 작은 밤 비용이 될 수 있습니다. 양초의 색상을 추측하면 다시 임의의 출력이 발생한다고 생각합니다(임의의 크기로 인해).
그래서 TP, SL로 분류를 했습니다. 동일하다면 성공적인 거래의 52%가 이미 수익성이 있는 것입니다. TP=2*SL인 경우. 그러면 성공한 사람들의 33%가 수익을 올릴 것입니다. 내가 얻은 가장 좋은 것은 2년 동안 TP=SL과의 성공적인 거래의 52-53%였습니다. 그러나 일반적으로 고정되지 않은 TP/SL로 회귀로 전환하는 것을 이미 생각하고 있습니다. 더 정확하게는 회귀에 대한 분류를 만드는 것입니다.

네, 그렇습니다. 그러한 목표는 변동성을 고려하지 않기 때문에 그다지 효과적이지 않은 것으로 보입니다.

선택을 준비하기 위해 거의 모든 바에서 포지션이 열린다는 것을 정확히 이해하고 있습니까?

 
SanSanych Fomenko # :

원칙적으로 쓰레기로 사탕을 만드는 수학적 방법은 없고 존재할 수도 없습니다. PREDICTION 교사의 예측 변수 집합 있거나 전혀 없습니다 .

그리고 모델은 다양한 교차 검증 및 기타 계산 능력이 있는 변태뿐만 아니라 실제로 어떤 역할도 하지 않습니다.


추신.

그건 그렇고, 모델에서 예측 변수의 "중요도"는 교사의 예측 능력과 아무 관련이 없습니다.

당신은 깊이 착각하고 있습니다. "올바른" 예측 변수를 독립적으로 선택할 수 있는 모델을 구축하기 위한 이상적인 방법은 없습니다. 또는 그들은 나에게 알려져 있지 않습니다.

시장을 설명하는 것이 이상적일 수도 있고 이상적이지 않을 수도 있지만 샘플 및 예측 변수의 분석을 사용하면 훈련이 수행되는 데이터를 엿보기에도 불구하고 모델의 결과를 크게 개선할 수 있습니다.

문제는 모델을 적용할 때 예측 변수를 효율적으로 선택하고 변칙적 변화를 제어하는 방법입니다.

 
블라디미르 페레르벤코 # :

노이즈 예제 처리를 위한 세 가지 옵션: 삭제, 다시 마크업(마크업 수정) 및 별도의 클래스로 노이즈 예제 분리. 내 경험에 따르면 샘플의 약 25%는 "노이즈"입니다. 품질 향상은 모델 및 데이터 준비에 따라 약 5%입니다. 가끔 신청합니다.

예측 변수를 사용할 때 또 다른 문제인 드리프트가 있습니다. 그리고 이 문제는 테스트와 운영 모두에서 식별되고 고려되어야 합니다. 부록에는 기사의 번역이 있고(인터넷에서 다른 것을 찾아보세요), 드리프트 패키지가 있습니다. 그는 유일한 사람이 아닙니다. 그러나 결론은 예측 변수를 선택할 때 중요성뿐만 아니라 드리프트도 고려해야 한다는 것입니다. 강한 드리프트는 버리거나 변형해야 하며 약한 드리프트는 테스트 및 작업 시 고려(정확)해야 합니다.

행운을 빕니다

내가 이해하는 한, 기사의 저자는 창에 대한 예측자 값의 분포를 정확하게 분석하고 크게 다르면 이상 신호를 보낼 것을 제안합니다. 내가 올바르게 이해했다면 예에서 1000개의 표시기가 있는 창을 사용합니다. 이것은 큰 창이지만 분명히 통계적으로 정당합니다. 문제는 중요한 변화를 감지하기 위해 두 분포를 비교하는 데 어떤 메트릭이 사용되는지입니다.

또한, 그러한 생각, 변화 자체는 다른 예측자에 의해 예측될 수 있습니다. 이자율의 변화로 인해 몇 주 동안 전 세계적인 추세 변화가 있다고 가정해 보겠습니다. 모든 샘플에서 그러한 변화는 거의 없습니다. 3과 모델이 있더라도 단순히 이러한 예측 변수를 선택하지 않을 수 있지만 두 예측 변수를 결합하면 "변칙적" 변경을 해석할 수 있습니다. 따라서 나는 표류 자체가 예측 변수를 버리는 이유가 아니라 그것을 설명하는 요소를 찾는 이유라는 결론에 도달했습니다. 해당 예측자를 찾고 결합하여 새 예측자를 생성합니다.

차례로 내 방법에 대해 간단히 이야기하겠습니다. 예측자를 "양자"(세그먼트)로 분석하고 예측 능력을 통해 양자의 이진 응답을 평가합니다. 과거에 대한 이러한 추정치를 줄임으로써 별도의 예측 변수로 사용될 수 있고 기본 예측 변수를 선택하는 데 사용할 수 있는 우수한 양자 세트를 선택할 수 있습니다. 이 접근 방식은 또한 결과를 향상시킵니다. 따라서 대조군 샘플에 대한 quanta의 동작 안정성 평가 및 선택은 CatBoost에서 모델을 훈련한 결과를 크게 향상시키며 여기에서 이것을 사용하는 것이 허용되는지 아니면 이미 자기기만인지 생각합니다.

 
Aleksey Vyazmikin # :

글쎄요, 그렇습니다. 그러한 목표는 변동성 을 고려하지 않기 때문에 그다지 효과적이지 않은 것으로 보입니다.

동의한다. 밤에는 트랜잭션이 몇 시간 동안 정지되며 낮에는 5분 안에 완료될 수 있습니다. 그래서 분류에 회귀 모델을 첨부하는 방법을 생각하고 있습니다. "이마"에서 숫자 0,1,2를 예측하는 것은 작동하지 않습니다. 우리는 더 똑똑한 것이 필요합니다.

선택을 준비하기 위해 거의 모든 바에서 포지션이 열린다는 것을 정확히 이해하고 있습니까?

예, 예상되는 매수/매도 클래스가 있는 경우. 아직 수업이 있습니다 - 기다려야합니다.

 
도서관 # :

동의한다. 밤에는 트랜잭션이 몇 시간 동안 정지되며 낮에는 5분 안에 완료될 수 있습니다. 그래서 분류에 회귀 모델을 첨부하는 방법을 생각하고 있습니다. 이마의 숫자 0,1,2를 예측하는 것은 작동하지 않습니다. 우리는 더 똑똑한 것이 필요합니다.

로지스틱 회귀
 
SanSanych Fomenko # :

나는 몇 년 동안 포럼에 참여하지 않았지만 상황은 여전히 있습니다. 노래에서와 같이 : "당신은 그대로 남아 있었고, 대초원의 독수리, 대담한 Cossack ...".

통계는 공리로 시작하며 공리이므로 논의되지 않습니다.


쓰레기 인, 쓰레기 아웃.


원칙적으로 쓰레기로 사탕을 만드는 수학적 방법은 없고 존재할 수도 없습니다. PREDICTION 교사의 예측 변수 집합 있거나 전혀 없습니다 .

그리고 모델은 다양한 교차 검증 및 기타 계산 능력이 있는 변태뿐만 아니라 실제로 어떤 역할도 하지 않습니다.


추신.

그건 그렇고, 모델에서 예측 변수의 "중요도"는 교사의 예측 능력과 아무 관련이 없습니다.

Sukhov 동지처럼 "당연히 고통받는 것이 낫습니다"라고 생각하는 사람들이 항상 있습니다.)

특정 모델보다 적합한 예측 변수를 찾는 것이 더 중요하다는 데 동의합니다. 그리고 ML 알고리즘의 힘에만 의존하지 않고 무엇보다도 주제 영역의 연구에서 진행하여 구축하는 것이 좋습니다(그리고 막대에서 해석할 수 없는 방식으로 예측자를 구성).

예측 변수보다 덜 중요한 것은 손실 함수이며, 이는 주제 영역과 해결되는 문제에 잘 맞아야 합니다.

 
AMO로 작업을 호출하여 패턴 검색이 가능한지 조차 모르겠습니다. 오히려 목표 재미에 대한 일반적인 근사/조정입니다.
AMO는 영리한 것을 생각해 낼 수 있습니까?
 
mytarmailS # :
AMO는 영리한 것을 생각해 낼 수 있습니까?

아니요, 그것은 암기된 역사 데이터베이스입니다. 나무의 잎은 무엇입니까? 과거의 10-20-100-1000 예제/문자열, 어떻게 든 유사하게 선택되었습니다. 시트의 답변: 분류의 경우 - 가장 빈번한 클래스의 % 또는 가장 빈번한 클래스의 경우 회귀의 경우 모든 값의 산술 평균입니다.

또한 숲이라면 숲에 있는 모든 나무의 가치를 평균합니다. 부스트되면 모든 트리의 값을 합산합니다(각 후속 트리는 가장 정확한 답을 얻기 위해 이전의 모든 합을 조정합니다.)
사유: