트레이딩의 머신러닝: 이론, 모델, 실전 및 알고리즘 트레이딩 - 페이지 188

 

jPrediction 11 출시

하나의 사소한 결함을 수정했습니다(CSV의 쉼표는 숫자의 점으로 대체되지 않음). 모델에 대한 중요한 예측 변수를 선택하기 위한 알고리즘이 개선되었습니다.

메인 페이지의 첫 번째 메시지인 내 웹사이트(프로필에 표시됨)에서 업데이트를 다운로드할 수 있습니다.

 

그리고 나는 또한 예측 변수의 선택에 대해 쓰고 싶었습니다 ...

주요 실험 외에도 하나의 거래소 자산에 대해 조금 더 분석합니다.

나는 또한 기능에 추가한 일반 볼륨이 있습니다.

그런 다음 일반적인 선형 모델(OLS 회귀) [Target ~ Predictor]을 다른 출력(그 중 11개)에 대해 개별적으로 각 예측기에 적용했습니다.

계산된 f-stat.models. 결과는 다음 그림입니다.

그리고 놀랍게도 볼륨과 관련된 모든 예측 변수 블록이 불필요한 것으로 판명되었습니다. 또한, 가격 증분의 자기 상관에 기반한 예측 변수도 불필요한 것으로 나타났습니다.

또한 출력변수의 시차가 클수록 유의성이 떨어지는 것을 알 수 있다.

그런 다음 F 임계값(0.01 수준)으로 모든 노이즈를 걸러냈습니다.

다음과 같이 밝혀졌습니다.

이것은 불행히도 가능한 상호 작용을 고려하지 않은 것입니다 ...

그러나 일부 입력의 경우 선형 모델의 중요성이 나쁘지 않습니다.

 
알렉세이 버나코프 :


예측변수의 중요성을 하나씩 분석하지 않으려고 한다. 여기에 좋은 예가 있습니다.

두 가지 예측 변수가 있습니다. 시각적으로 한 번에 두 가지 분석으로 작업하는 것이 매우 쉽고 두 번째 목표가 모델에서 찾을 수 있는 명확한 클러스터를 형성하는 것이 분명합니다. 이 예측자를 하나씩 사용하면 예측에서 각각 쓸모가 없습니다.

그림은 순전히 가상입니다. 그러나 Forex에 관해서는 좋은 예측자가 어떻게든 그곳에서 유사한 클러스터를 형성한다는 여러 징후로 판단할 수 있습니다. 2개가 아니라 30개의 예측자가 필요합니다.
 
그리고 다시 Reshetov는 당신 모두를 능가했습니다. 11번째 버전은 그냥 역병입니다. 이전 버전 10에서는 더 많은 수의 입력을 사용하는 예측자가 일반화 능력을 증가시키지 않고 재학습해야 하는 방식이었으나, 이제는 모델에서 예측변수가 증가함에 따라 모델의 일반화 능력이 전체도 증가하지만 그러한 모델의 작업은 더 길고 더 오래 지속되므로 낮은 Yura는 당신에게 절하지만 나머지는 계속 진행되어 바퀴를 재발명할 수 있습니다. 행운을 빕니다!!!!
 
마이클 마르쿠카이테스 :

...

이전 버전 10에서는 더 많은 수의 입력을 사용하는 jPrediction이 일반화 능력을 증가시키지 않고 재학습해야 하는 방식이었지만, 이제는 모델의 예측 변수가 증가하여 모델 전체의 일반화 능력 또한 증가하지만 그러한 모델의 작업은 더 오래 지속됩니다 ...

피드백을 주셔서 감사합니다!

내가 가지고 있는 샘플에서 버전 11을 테스트하면서 비슷한 결론에 도달했습니다. 독립적인 연구(실험의 재현)를 통해 이 가설적 결론을 확인할 필요가 있었습니다. 결국, 모든 사람은 다른 작업을 가지고 있습니다. 따라서 일부 작업의 경우 분류자가 반대 결과를 줄 수 있는 잠재적 위험이 있었습니다. 또한 새 버전에서 중요한 예측 변수를 선택하는 시간이 눈에 띄게 늘어났습니다. 이는 모든 사람이 좋아하지 않을 수도 있습니다.

모델 훈련 시간은 품질(일반화 능력)을 저하시키지 않고 잠재적으로 줄일 수 있습니다. 이것은 이미 기술의 문제입니다. 가장 중요한 것은 제 시간에 건설적인 피드백을 이해하는 것입니다. 이 방향으로 jPrediction을 개선할 가치가 있습니까, 아니면 방향이 잘못되어 롤백해야 합니까? 그렇지 않으면 유망하지 않은 기능에 시간과 노력을 투자해야 합니다.

 
마법사_ :

...

나 자신은 사용된 데이터에 대해 받습니다 - 92.3%(oos).

...

진심으로 축하해주세요! (거짓말이 아니라면).

그리고 그것이 공개 영역이 아니라 당신과 함께 있는 어딘가에 있다는 사실을 유감스럽게 생각합니다.

jPrediction에 대한 귀하의 "주장"을 증명하거나 반증하는 것이 불가능하기 때문에 폐쇄 액세스에 대해 논의하는 것은 무의미합니다.

 

방금 그 주제에 관한 기사 를 우연히 발견했는데, 그것이 특히 국회의 팬들에게 흥미로울 것이라고 생각했습니다.

저에게는 샘플 IN 과 샘플 OUT의 예측 오차를 비교하는 기사의 끝 부분이 흥미롭게 보였습니다. 이것은 이러한 오류의 상관 관계를 통해 수행됩니다. 내 용어로 이것은 상관관계가 높으면(기사 0.8에서) 모델이 과적합되지 않음을 의미합니다.

Predictability in Network Models
Predictability in Network Models
  • Jonas Haslbeck - r
  • www.r-bloggers.com
Network models have become a popular way to abstract complex systems and gain insights into relational patterns among observed variables in almost any area of science. The majority of these applications focuses on analyzing the structure of the network. However, if the network is not directly observed (Alice and Bob are friends) but estimated...
 
트레이더 박사 :

예측변수의 중요성을 하나씩 분석하지 않으려고 한다. 여기에 좋은 예가 있습니다.

두 가지 예측 변수가 있습니다. 시각적으로 한 번에 두 가지 분석으로 작업하는 것이 매우 쉽고 두 번째 목표가 모델에서 찾을 수 있는 명확한 클러스터를 형성하는 것이 분명합니다. 이 예측자를 하나씩 사용하면 예측에서 각각 쓸모가 없습니다.

그림은 순전히 가상입니다. 그러나 Forex에 관해서는 좋은 예측자가 어떻게든 그곳에서 유사한 클러스터를 형성한다는 여러 징후로 판단할 수 있습니다. 2개가 아니라 30개의 예측자가 필요합니다.

일반적으로 이 모든 것이 사실입니다. 추가 정보 내용은 경계 입력 정보의 합계를 초과하여 상호 작용에 나타납니다.

의사 결정 트리, 배깅 및 모델 상호 작용을 쉽게 향상시킵니다. 즉, 추가 노력 없이. 선형 모델에는 많은 문제가 있습니다. OLS 회귀는 예측변수의 발생 순서를 고려합니다... 예측변수의 탐욕적 교대 추가는 원칙적으로 작동하지만 탐욕으로 인해 단측 모델로 판명됩니다. 숲과 나무도 마찬가지입니다.

그러나 수십 개의 예측 변수를 포함하는 것에 대해서는 신중할 것입니다. 30개 변수의 상호작용을 상상하십니까? 트리의 경우 최소 30의 깊이가 됩니다. 와일드 과적합 없이 이것을 모델링하려면 엄청난 양의 데이터가 필요합니다...

실제로는 최대 3-5까지의 상호 작용 깊이로 이미 충분합니다.

 
알렉세이 버나코프 :

일반적으로 이 모든 것이 사실입니다. 추가 정보 내용은 경계 입력 정보의 합계를 초과하여 상호 작용에 나타납니다.

의사 결정 트리, 배깅 및 모델 상호 작용을 쉽게 향상시킵니다. 즉, 추가 노력 없이. 선형 모델에는 많은 문제가 있습니다. OLS 회귀는 예측변수의 발생 순서를 고려합니다... 예측변수의 탐욕적 교대 추가는 원칙적으로 작동하지만 탐욕으로 인해 단측 모델로 판명됩니다. 숲과 나무도 마찬가지입니다.

그러나 수십 개의 예측 변수를 포함하는 것에 대해서는 신중할 것입니다. 30개 변수의 상호작용을 상상하십니까? 트리의 경우 최소 30의 깊이가 됩니다. 와일드 과적합 없이 이것을 모델링하려면 엄청난 양의 데이터가 필요합니다...

실제로는 최대 3-5까지의 상호 작용 깊이로 이미 충분합니다.

나에게 예측 변수의 상호 작용은 매우 의심스러운 일입니다. 질문이 너무 많아요...

그리고 OLS에 여전히 상호 작용이 있다면 이는 상상할 수 없는 일입니다. 그것을 가지고 종이에 주의 깊게 OLS가 적용되는 모든 조건을 적는다면. 그리고 나서 종이에 쓰여진 모든 것을 금융 시계열 의 현실과 비교하십시오.

추신.

데이터 마이닝에 대한 거의 모든 책을 가져 가면 상관 관계가 있는 예측 변수를 제거하는 절차가 반드시 설명됩니다.

 
산산이치 포멘코 :

데이터 마이닝에 대한 거의 모든 책을 가져 가면 상관 관계가 있는 예측 변수를 제거하는 절차가 반드시 설명됩니다.

데이터마이닝에 관한 거의 모든 책을 가져 와서 읽은 내용을 시장에 적용하면 그것이 작동하지 않는다는 것을 알게 될 것입니다.... 이러한 잘 정립된 고정 관념으로 지옥에 갈 수 있습니까?
사유: