트레이딩의 머신러닝: 이론, 모델, 실전 및 알고리즘 트레이딩 - 페이지 3117

 
Maxim Dmitrievsky #:

이 모든 것은 이전 글에서 여러 번 설명한 바 있습니다. 매수/매도에 대해 훈련된 첫 번째 모델은 새로운 데이터로 테스트됩니다. 잘못된 경우는 거래하지 않는 클래스에, 나머지는 거래하는 클래스에 넣습니다. 두 번째 분류기가 이에 대해 훈련됩니다. 두 가지 모델을 얻습니다. 하나는 방향을 예측하고 다른 하나는 거래 여부를 예측합니다. 하나의 모델을 통해 거래 임계값을 설정하면 유연성을 확보할 수 있습니다. 두 모델은 서로를 통해 개선될 수 있기 때문입니다. 지난 글에서 원래 방법을 설명했습니다. 그런 다음 수정된 로직으로 전환했습니다.

그건 그렇고, 이것은 분명히 다른 방식으로 서로를 개선 할 수 있기 때문에 열린 질문입니다.

그런 다음 비슷한 방식으로 수행하는 코줄 추론을 발견했습니다.

모르겠어요.

그리고 두 번째 모델에서 이러한 필터링을 사용하는 것이 있습니까?

 
mytarmailS #:

모르겠습니다.

두 번째 모델에 의한 필터링이 무슨 소용이 있을까요?

새 데이터에서 더 낫습니다.

 
Maxim Dmitrievsky #:

새로운 데이터에서 더 나은

와 같이 처음에 단일 모델에 확률 임계값을 설정하는 것이 좋습니다.

> 0.7 매수

< 0.3 매도

그러면 테스트와 훈련 모두에서 더 좋아지고 자연스럽게 거래가 줄어들 것입니다...

두 번째 모델이 정말 뭔가를 제공하나요? 궁금합니다...

테스트, 비교가 있었나요?

 
Maxim Dmitrievsky 방향을 예측하는 기본 모델과 (거래 또는 거래하지 않을) 당첨 확률을 예측하는 메타 모델로 구성된 하나의 이론적 TS로 가상의 상황을 제시해 보겠습니다:

첫 번째 모델을 기본 모델이라고 부르며, 피처 공간을 검은색 선으로 매수/매도로 나눕니다. 두 번째 모델은 전체 피처 공간을 거래/거래하지 않음(빨간색 선)으로 나누는 메타 모델입니다.

이제 두 개의 메타 모델이 있고 각 메타 모델이 매수/매도 클래스의 서로 다른 특징 공간을 거래/비거래로 개별적으로 나누는 또 다른 변형을 상상해 보겠습니다(빨간색 선 두 개).

순전히 이론적으로 생각해 볼 수 있는 질문은 두 번째 옵션이 더 나은지 여부입니다. 그리고 더 낫다면 그 이유는 무엇인가요. 의견을 말씀해 주세요.

그러한 "개입"의 효과를 어떻게 결정할 수 있는지에 대한 요청, 아마도 Alexei Nikolaev에게도 요청할 것입니다. 결국 우리는 코너별로 비교 / 평가 / 배포 할 수있는 두 가지 메타 모델의 두 가지 확률 분포를 얻을 수 있습니다.

이것은 문제에 대한 모호한 설명입니다.

우리는 첫 번째 모델보다 두 번째 확률 모델을 더 신뢰하고 두 번째 모델을 첫 번째 모델에 대한 필터로 사용한다는 것이 밝혀졌습니다.

또는 상황을 "AND" 연산, 즉 결과의 교차로 취급합니다.


막다른 길이고, 이미 해본 일이죠.


외부적으로도 방향을 제시한다면 그것은 방향의 확률을 정규화한 결과이기 때문에 방향을 제시하는 모델을 만나지 못했습니다. 그렇기 때문에 두 개 또는 여러 개의 모델, 즉 첫 번째 수준의 결과를 두 번째 수준의 일부 분류 알고리즘에서 예측자로 사용하는 "모델 앙상블"이라는 R의 표준 접근 방식이 제안되는 이유입니다. 그런데 범주형 변수가 너무 마음에 들면 분류기의 입력에도 범주형 변수를 입력할 수 있습니다. 신뢰 수준별로 모델 결과의 순위를 매길 수 있는 경우 가중치로 조정할 수 있습니다. 즉, 두 번째 레벨은 첫 번째 레벨 모델 분류의 결과를 예측 변수로 사용하는 분류기입니다. 이 접근 방식은 0.5 이외의 정규화를 통해 얻은 불균형 클래스에 매우 흥미롭습니다(예: 분류기 결과를 확률로 0.4와 0.6 값을 가진 사분위수로 나눈 경우). 중간은 시장에서 제외됩니다.

 
mytarmailS #:

초기 단일 모델에서 다음과 같은 확률 임계값을 설정한 경우

> 0.7 구매

< 0.3 매도

그러면 테스트와 훈련 모두에서 더 좋아지고 자연스럽게 거래가 줄어들 것입니다....

두 번째 모델은 정말 뭔가를 제공합니까? 궁금합니다 ...

테스트, 비교가 있었습니까?

교차 검증을 통해 첫 번째 모델을 훈련시키고 잘못된 예측을 모두 거래하지 않도록 두 번째 모델에 넣었다고 상상해보십시오. 첫 번째 모델이 특정 장소에서는 더 자주 틀린 반면, 어떤 장소에서는 항상 잘 거래된다는 통계적 유의성이 이미 있습니다. 그런 다음 두 번째 모델에서 이를 걸러낼 수 있습니다. 하나의 모델을 통해 이미 더 어렵습니다. 이러한 튜닝에는 다른 변형이 있습니다.
 
Maxim Dmitrievsky #:
교차 검증을 통해 첫 번째 모델을 학습시키고 모든 잘못된 예측을 두 번째 모델에 거래 없음으로 입력했다고 가정해 보겠습니다. 이미 첫 번째 모델이 특정 위치에서 틀릴 가능성이 더 높다는 통계적 유의성을 가지고 있으며, 이는 두 번째 모델에서 걸러낼 수 있습니다. 하나의 모델을 통해 이미 더 어렵습니다. 이런 종류의 튜닝에는 다른 변형이 있습니다.

그럴듯하게 들리네요.

 
mytarmailS #:

그럴듯하게 들리네요.

두 번째 모델도 틀렸다고 해도 이 경우에는 첫 번째 모델의 오류를 어떻게든 수정할 수 있습니다. 코줄 추론에서는 접근 방식이 더 엄격하게 정당화됩니다. 완벽하게 엄격하게 입증되었다고 말하고 싶습니다.

https://en.wikipedia.org/wiki/Frisch%E2%80%93Waugh%E2%80%93Lovell_theorem

 
Forester #:
시도해보지 않았습니다. 직관적으로) 하지만 마르크스가 말했듯이 연습은 진리의 기준입니다. 실제로 효과가 있다면 좋습니다).

저는 두 번째 옵션으로 전환하려고 합니다.

 
СанСаныч Фоменко #:

문제에 대한 모호한 설명.

첫 번째 모델보다 두 번째 확률 모델을 더 신뢰하는 것으로 밝혀졌으며, 두 번째 모델은 첫 번째 모델의 필터로 사용됩니다.

또는 상황을 "AND" 연산, 즉 결과의 교차로 해석합니다.


막다른 길, 우리는 이미 겪었습니다.


외부적으로도 방향을 제시하는 모델은 방향의 확률을 정규화한 결과이기 때문에 방향을 제시하는 모델을 만나지 못했습니다. 그렇기 때문에 두 개 또는 여러 개의 모델, 즉 첫 번째 수준의 결과를 두 번째 수준의 일부 분류 알고리즘에서 예측자로 사용하는 "모델 앙상블"이라는 R의 표준 접근 방식이 제안되는 이유입니다. 그런데 범주형 변수가 너무 마음에 들면 분류기의 입력에 입력할 수도 있습니다. 신뢰도 수준별로 모델 결과의 순위를 매길 수 있다면 가중치로 조정할 수 있습니다. 즉, 두 번째 레벨은 첫 번째 레벨 모델 분류의 결과를 예측 변수로 사용하는 분류기입니다. 이 접근 방식은 0.5 이외의 정규화를 통해 얻은 불균형 클래스에 매우 흥미롭습니다(예: 분류기 결과를 확률로 0.4와 0.6 값을 가진 사분위수로 나눈 경우). 중간은 시장에서 제외됩니다.

앙상블은 의미는 가깝지만 구현은 멀리 떨어져 있습니다. 제안된 접근 방식은 다양한 방식으로 사용하여 다양한 결과를 얻을 수 있기 때문에 매우 유연합니다.

저도 앙상블을 사용해봤지만 효과가 없었습니다.

 
Maxim Dmitrievsky #:
교차 검증을 통해 첫 번째 모델을 학습시키고 모든 잘못된 예측을 두 번째 모델에 거래 없음으로 입력했다고 가정해 보겠습니다. 이미 첫 번째 모델이 특정 위치에서 틀릴 가능성이 더 높다는 통계적 유의성을 가지고 있으며, 이는 두 번째 모델에서 걸러낼 수 있습니다. 하나의 모델을 통해 이미 더 어렵습니다. 이러한 튜닝에는 여전히 다른 변형이 있습니다.

오류 필터링에 대한 개념이 전혀 명확하지 않습니다.

모델이 50/50을 예측하면 나쁜 50을 버리고 나머지는 100 %를 예측한다는 것이 밝혀 졌습니까? 그건 슈퍼러닝일 뿐 다른 것은 아닙니다.


분류 오류는 동일한 값의 예측자가 어떤 경우에는 정확하게 예측하고 다른 경우에는 정확하게 예측하지 못한다는 사실에서 발생하며, 이는 예측자와 대상 변수 간의 "관계의 강도"를 필터링하는 단계에서만 제거 할 수있는 문제이며 예측자를 필터링하고이 비용을 감수하여 분류 오류를 10 % 줄이는 것은 완전히 불가능합니다.

사유: