트레이딩의 머신러닝: 이론, 모델, 실전 및 알고리즘 트레이딩 - 페이지 91

 

내가 올바르게 이해한다면 예측 가능한 BP와 그렇지 않은 BP를 선택할 수 있는 패키지

http://www.gmge.org/2012/05/foreca-forecastable-component-analysis/

http://www.gmge.org/2015/01/may-the-forec-be-with-you-r-package-foreca-v0-2-0/

ForeCA: Forecastable Component Analysis
  • 2012.05.22
  • Georg
  • www.gmge.org
Forecastable component analysis (ForeCA) is a novel dimension reduction (DR) technique to find optimally forecastable signals from multivariate time series (published at JMLR). ForeCA works similar to PCA or ICA, but instead of finding high-variance or statistically independent components, it finds forecastable linear combinations. ForeCA is...
 
마법사_ :
그리고 원하는 모든 사람. z1 아카이브에는 두 개의 파일 train 및 test가 포함되어 있습니다. Target의 경우 기차에서 모델을 빌드하고 테스트에 적용하고 결과를 %로 배치합니다(성공적으로 예측
사례) 두 샘플 모두(열차 = xx%, 테스트 = xx%). 방법과 모델은 말할 필요가 없고 숫자만 있으면 됩니다. 모든 데이터 조작이 허용됩니다.
및 추출 방법.

1. 모든 예측 변수는 예측적이지 않습니다. 예외 없이 모두 노이즈입니다.

2. rf, ada, SVM의 세 가지 모델이 구축됩니다. 결과는 다음과 같습니다.

RF

전화:

randomForest(수식 = TFC_Target ~ .,

데이터 = crs$dataset[crs$sample, c(crs$input, crs$target)],

ntree = 500, mtry = 3, 중요도 = TRUE, 바꾸기 = FALSE, na.action = randomForest::na.roughfix)


랜덤 포레스트 유형: 분류

나무 수: 500

아니요. 각 분할에서 시도된 변수 수: 3


오류율의 OOB 추정치: 49.71%

혼란 매트릭스:

[0, 0] (0, 1] 클래스 오류

[0, 0] 197 163 0.4527778

(0, 1] 185 155 0.5441176

에이다

전화:

ada(TFC_Target ~ ., 데이터 = crs$dataset[crs$train, c(crs$input,

crs$target)], 제어 = rpart::rpart.control(최대 깊이 = 30,

cp = 0.01, minsplit = 20, xval = 10), iter = 50)


손실: 지수 방법: 이산 반복: 50


데이터에 대한 최종 혼동 행렬:

최종 예측

참값(0.1] [0.0]

(0.1] 303 37

[0.0] 29,331


기차 오류: 0.094


Out-Of-Bag 오류: 0.157 반복 = 50

SVM

SVM 모델 요약(ksvm을 사용하여 구축):


"ksvm" 클래스의 벡터 머신 객체 지원


SV 유형: C-svc(분류)

매개변수: 비용 C = 1


가우스 방사형 기저 커널 함수.

초매개변수: 시그마 = 0.12775132444179


서포트 벡터 수 : 662


목적 함수 값 : -584.3646

훈련 오류: 0.358571

확률 모델이 포함되어 있습니다.


소요시간: 0.17초

테스트 세트에서 (당신의 것이 아니라 덜컥거리는 의미에서)

test.csv [validate](개수)의 Ada Boost 모델에 대한 오류 행렬:


예측

실제(0.1] [0.0]

[0.0] 33 40

(0.1] 35 42


test.csv [validate](비율)의 Ada Boost 모델에 대한 오류 행렬:


예측

실제(0.1] [0.0] 오류

[0.0] 0.22 0.27 0.55

(0.1] 0.23 0.28 0.45


전체 오차: 50%, 평균 클래스 오차: 50%


래틀 타임스탬프: 2016-08-08 15:48:15 사용자

===================================================== =====================

test.csv [validate](개수)의 Random Forest 모델에 대한 오류 행렬:


예측

실제[0,0](0,1]

[0.0] 44 29

(0.1] 44 33


test.csv [validate](비율)의 Random Forest 모델에 대한 오류 행렬:


예측

실제[0,0](0,1] 오류

[0.0] 0.29 0.19 0.40

(0.1] 0.29 0.22 0.57


전체 오차: 49%, 평균 클래스 오차: 48%


래틀 타임스탬프: 2016-08-08 15:48:15 사용자

===================================================== =====================

test.csv [validate](개수)의 SVM 모델에 대한 오류 행렬:


예측

실제[0,0](0,1]

[0.0] 41 32

(0.1] 45 32


test.csv [validate](비율)의 SVM 모델에 대한 오류 행렬:


예측

실제[0,0](0,1] 오류

[0.0] 0.27 0.21 0.44

(0.1] 0.30 0.21 0.58


전체 오차: 51%, 평균 클래스 오차: 51%


래틀 타임스탬프: 2016-08-08 15:48:15 사용자

랜덤포레스트에 대한 ROC 분석

위 사항을 확인합니다.

결론.

당신의 예측 변수는 절망적입니다.

 
Alexey Burnakov : 즉, 우리는 당신이 얼굴이 파랗게 질 때까지 기차에서 최고의 모델을 훈련시킵니다. 2~3개의 모델이 있을 수 있습니다. 그런 다음 테스트를 위한 일회성 테스트입니다.
예, 이것은 조건에 명시된 것과 정확히 같습니다(기차에서 모델 구축, 테스트 시 적용).
 
mytarmailS :

내가 올바르게 이해한다면 예측 가능한 BP와 그렇지 않은 BP를 선택할 수 있는 패키지

나는 그것을 읽었고 설명으로 판단하면 이것은 매우 좋은 패키지입니다(ForeCA, R 저장소에도 있으므로 github에서 다운로드할 필요가 없습니다). 주요 기능은 데이터의 "예측 가능성"을 평가하는 것입니다.
여기에 더해 중요한 것은 데이터의 차원을 줄이는 데 사용할 수 있습니다. 즉, 사용 가능한 예측 변수 중에서 이 패키지는 놀랍도록 좋은 예측 가능성으로 두 개의 새 예측 변수를 만듭니다. 동시에 쓰레기 등을 제거합니다. 주요 구성 요소의 방법과 다소 유사하지만 구성 요소 대신 자체적으로 제공합니다.

매우 간단하다면 이 패키지에 많은 예측 변수(가격, 지표, 델타, 모든 종류의 쓰레기 등)가 있는 테이블을 제공합니다. ForeCA는 원래 테이블을 대체할 새 테이블을 발행합니다. 이 새 테이블을 사용하여 예측 모델(gbm, rf, nnet 등)을 훈련합니다.
조금 더 복잡하면 교환에 대한 편향이 있는 원자력 데이터 변환 을 위한 또 다른 패키지입니다.

모든 것이 훌륭하게 들리고, 너무 많아도 여전히 확인해야 합니다.

 
mytarmailS :

내가 올바르게 이해한다면 예측 가능한 BP와 그렇지 않은 BP를 선택할 수 있는 패키지

http://www.gmge.org/2012/05/foreca-forecastable-component-analysis/

http://www.gmge.org/2015/01/may-the-forec-be-with-you-r-package-foreca-v0-2-0/

매우 궁금합니다.

패키지가 설치되고 설명서를 사용할 수 있습니다.

누군가 시도하고 결과를 게시할 수 있습니까?

 
트레이더 박사 :

설명으로 판단하여 읽었습니다. 이것은 매우 좋은 패키지입니다(ForeCA, R 저장소에도 있으므로 github에서 다운로드할 필요가 없습니다). 주요 기능은 데이터의 "예측 가능성"을 평가하는 것입니다.
여기에 더해 중요한 것은 데이터의 차원을 줄이는 데 사용할 수 있습니다. 즉, 사용 가능한 예측 변수 중에서 이 패키지는 놀랍도록 좋은 예측 가능성으로 두 개의 새 예측 변수를 만듭니다. 동시에 쓰레기 등을 제거합니다. 주요 구성 요소의 방법과 다소 유사하지만 구성 요소 대신 자체적으로 제공합니다.

매우 간단하다면 이 패키지에 많은 예측 변수(가격, 지표, 델타, 모든 종류의 쓰레기 등)가 있는 테이블을 제공합니다. ForeCA는 원래 테이블을 대체할 새 테이블을 발행합니다. 이 새 테이블을 사용하여 예측 모델(gbm, rf, nnet 등)을 훈련합니다.
조금 더 복잡하면 교환에 대한 편향이 있는 원자력 데이터 변환을 위한 또 다른 패키지입니다.

모든 것이 훌륭하게 들리고, 너무 많아도 여전히 확인해야 합니다.

사전 선택이 필요하지 않습니까?

얘들아, 받아!

 
산산이치 포멘코 :

결론.

당신의 예측 변수는 절망적입니다.

Ok))) 그러나 약관을 주의 깊게 읽으십시오 -
"두 샘플(train = xx%, test = xx%)에 대한 결과를 %(성공적으로 예측된 사례)로 배치합니다. 방법 및 모델은 음성으로 표시할 필요가 없으며 숫자만 표시됩니다."
더 많은 결과를 기다리고 있습니다. Mihail Marchukajtes가 어떤 결론을 내릴 수 있는지 궁금합니다.
 
마법사_ :
Ok))) 그러나 약관을 주의 깊게 읽으십시오 -
"두 샘플(train = xx%, test = xx%)에 대한 결과를 %(성공적으로 예측된 사례)로 배치합니다. 방법 및 모델은 음성으로 표시할 필요가 없으며 숫자만 표시됩니다."
더 많은 결과를 기다리고 있습니다. Mihail Marchukajtes가 어떤 결론을 내릴 수 있는지 궁금합니다.

테스트는 필요하지 않습니다!

모델을 학습시킬 수 없습니다! 빈 공간을 테스트할 수 없습니다.

 
해볼게..... 방금 봤어....
 
트레이더 박사 :

읽어보니 설명으로 보아 아주 좋은 패키지입니다(ForeCA, ..............

나는 이 "예측 가능성"이 어떻게 계산되는지 이해하지 못하며 목표가 고려되지 않은 경우에 의미가 있습니까?