트레이딩의 머신러닝: 이론, 모델, 실전 및 알고리즘 트레이딩 - 페이지 3145

 
Aleksey Nikolayev 분할점 검색 알고리즘과 시계열의 변경점 탐지가 유사하기 때문일 수 있습니다. 두 경우 모두 일반적으로 단일 샘플을 최대로 다른 두 개의 하위 샘플로 분할합니다.

추가. 공백, 시간은 사실상 null 기능입니다.

 
Maxim Dmitrievsky #:
인과 관계 숲을 살펴볼 수도 있다는 것을 이해합니다. 그건 그렇고, 나는 그것을 연구하지 않았고 누군가가 그것을 알아낼 것이라면 그것에 대한 실험에 대해 읽는 것이 흥미로울 것입니다.
나는 Sanych의 접근 방식을 이해하지 못합니다 :) 그는 RMS 오류를보고 있습니다. 또는 슬라이딩 창에서 RMS.

아니요. 내 스코는 "예측 능력"편차입니다. 모델 자체의 추정과는 관련이 없습니다.

 
СанСаныч Фоменко #:

아니요, 제 스코는 '예측 능력'의 편차에 관한 것입니다. 모델 자체의 평가와는 아무런 관련이 없습니다.

질문자님뿐만 아니라 모든 MOSH 직원의 문제입니다.)
교차 검증은 일반적입니다.
어떤 이유로 당신은 단지 당신이 뭔가 다른 일을하고 있다고 생각합니다.

MO를 통해 추정하면 비슷한 추정치를 얻을 수 있습니다. 잘 작동하기 때문에 직접 만든 견적보다 나쁘지 않습니다.

제 결론은 귀하의 설명을 기반으로 한 것입니다.
 

유익한 기능을 선택하는 비슷한 실험을 하는 과정에서 모든 방법을 시도해 보았습니다. 어렵지 않았습니다. 상관 관계, 상호 정보 및 knn에서 시작하여 OLS 및 SVM을 거쳐 포리스트, 부스팅 및 신경망 (심층 신경망은 건드리지 않았습니다)에 이르기까지. 결과는 부스팅이 가장 좋았습니다. OLS가 2위를 차지했습니다.

그 이유는 매우 간단합니다. 부스팅을 하나의 분할로 하나의 트리로 줄이면 상호 정보, 샘플 또는 순열 엔트로피 및 부분적으로 OLS를 평가할 수 있습니다.
 
СанСаныч Фоменко #:

아니요, 제 스코는 '예측 능력'의 편차에 관한 것입니다. 모델 자체의 평가와는 관련이 없습니다.

모델의 매개 변수가 단계마다 매우 많이 점프 할 수 있습니까? 즉, 각 단계에서 좋은 "예측력"에도 불구하고 원하는 의존성이 매우 다르게 배열되어 있으며 지속적으로 변화하고 있습니다. 그렇다면 이는 일종의 오버트레이닝일 수 있습니다.

 
Maxim Dmitrievsky #:
인과 관계 숲을 살펴볼 수도 있다는 것을 이해합니다. 그건 그렇고, 나는 그것을 연구하지 않았지만 누군가가 그것을 이해한다면 그것에 대한 실험에 대해 읽는 것이 흥미로울 것입니다.

동일한 무작위 숲인 것 같지만 인과적 해석이 있습니다. 그래서 당신은 숲의 대중화 자이자 이제 인과 숲의 대중화 자로서 당신의 손에 카드를 가지고 있습니다).

하지만 아직 트레이딩에 인과관계를 적용하는 방법을 이해하지 못했습니다. 인터넷 검색을 해봐도 직접적인 적용 사례는 찾을 수 없었고, 주식이 외환에 미치는 영향 연구와 같은 간접적인 적용 사례만 찾을 수 있었습니다.

 
Aleksey Nikolayev #:

같은 무작위 숲인 것 같지만 인과적 해석이 있습니다. 따라서 우리 사이에서 숲과 인과적 해석의 대중화자인 여러분이 카드를 손에 쥐고 있는 셈입니다.)

하지만 아직 트레이딩에 인과관계를 적용하는 방법을 이해하지 못했습니다. 인터넷 검색을 해봐도 직접적인 적용 사례는 찾을 수 없었고, 주식이 외환에 미치는 영향 연구와 같은 간접적인 적용 사례만 찾을 수 있었습니다.

미지의 것을 다룰 때는 많은 정신적 노력이 필요합니다 :) Google에는 그런 것이 없으며 최근까지 명확한 일반 매뉴얼도 없었습니다.
 
Aleksey Nikolayev #:

단계마다 모델의 매개 변수가 매우 많이 점프할 수 있나요? 즉, 각 단계에서 "예측 가능성"이 좋더라도 원하는 의존성이 매우 다르게 배열되고 지속적으로 변화하고 있습니다. 그렇다면 이는 일종의 오버트레이닝일 수 있습니다.

제 경우에는 질문에 답할 수 없습니다. 모델은 각 단계에서 재학습되고 있으며 당연히 기능 세트는 단계마다 다를 수 있습니다.

분류 오류는 20%에서 10%까지 다양합니다. 25%는 발생한 적이 없습니다.

 
Maxim Dmitrievsky #:

유익한 기능을 선택하는 비슷한 실험을 하는 과정에서 모든 방법을 시도해 보았습니다. 어렵지 않았습니다. 상관 관계, 상호 정보 및 knn에서 시작하여 OLS 및 SVM을 거쳐 포리스트, 부스팅 및 신경망 (심층 신경망은 건드리지 않았습니다)에 이르기까지. 결과는 부스팅이 가장 좋았습니다. OLS가 2위를 차지했습니다.

그 이유는 매우 간단합니다. 부스팅을 하나의 분할로 하나의 트리로 줄이면 상호 정보, 샘플 또는 순열 엔트로피 및 부분적으로 OLS를 평가할 수 있습니다.

위의 알고리즘 중 어느 것도 예측력을 제공하지 않으며, 알고리즘이 피처를 얼마나 자주 사용하는지 보여주는 중요도를 어리석게 계산하는 수백 개의 MO 알고리즘도 마찬가지입니다: MO 알고리즘에 쓰레기를 공급하면 모든 MO 알고리즘이 해당 쓰레기의 중요도를 계산합니다.

 
СанСаныч Фоменко #:

위의 알고리즘 중 어느 것도 예측력을 제공하지 않으며, 알고리즘에서 기능이 얼마나 자주 사용되는지 보여주는 중요도를 어리석게 계산하는 수백 개의 MO 알고리즘도 마찬가지입니다: MO 알고리즘에 쓰레기를 입력하면 모든 MO 알고리즘이 해당 쓰레기의 중요도를 계산합니다.

분류/회귀 오류를 제공합니다. 이 이상한 게임은 충분히 돌고 도는 것 같아요 :) 그리고 빠져나갈 수 있는 문이 있습니다.