트레이딩의 머신러닝: 이론, 모델, 실전 및 알고리즘 트레이딩 - 페이지 37

 
유리 레셰토프 :



R에 통합하는 것이 더 나을 수 있습니까?

사람들은 더 많은 일을 할 수 있을 것이고 R을 사용하는 mt5 브리지는

 
트레이더 박사 :

나는 이것을 시도한 적이 없지만 기술적으로 목표 변수를 pca 모델에 포함시켜 예측 변수로 고려하는 것이 가능합니다. 그런 다음 새 데이터에서 해당 값을 각각 알 수 없으며 pca는 이러한 누락된 값을 채울 수 있습니다.

나는 구성 요소의 머리를 예측하려고 시도했지만 흥미로운 것을 얻지 못했습니다.

이 "Rssa"에 대한 매우 훌륭하고 잘 문서화된 패키지를 사용해 볼 수도 있습니다.

 
트레이더 박사 :

아니요, 모든 것이 좋습니다. 사용된 예측 변수는 각 주요 구성 요소에 대해 알려져 있으므로 주요 구성 요소에서 사용되지 않는 예측 변수를 안전하게 필터링할 수 있습니다.

사용하지 않는다는 것은 무엇을 의미합니까? PCA는 선형 변환입니다. 제거 가능한 치수는 다른 것들의 선형 조합으로 얻을 수 있는 치수입니다. 이는 주성분의 선형 결합으로 모든 예측 변수를 얻을 수 있음을 의미합니다. 95% 간격을 취하면 스케일로 인해 어리석게도 좋은 예측자를 잃을 가능성이 높으며 100% 미만의 간격은 손실 데이터 압축에만 사용되며 그렇지 않으면 0인 구성 요소만 항상 잘립니다.

 
mytarmailS :
젠장, 나는이 "NA"-shki가 날짜에 던져진 것이 우연이 아니라고 생각했지만 설명서를 읽었습니다. 신경망이있는 PCA가 분명히 있지만 사이트의이 사람이 어떻게되었는지 여전히 명확하지 않습니다. 수업을 잘 나누면서 이 아름다운 사진을 얻었습니다.

거기다 사진의 본질이 다른데... 기사 자체가 분류가 아니라 군집화에 관한 것이다. 데이터가 있으며 어떻게 든 그룹으로 나눌 필요가 있습니다. 즉, 얼마나 많은 그룹이 나올지조차 알 수 없습니다 - 2, 3, 10 ... 저자는 PCA의 처음 두 구성 요소 그래프를 사용합니다. 여기서 중요도는 한 그룹의 점이 서로 얼마나 가까운가입니다. 다른. 색상은 이미 비교 분석이며 계산되지 않고 단순히 테이블에서 가져온 이미 알려진 대상 변수에서 할당됩니다. 포인트 그룹도 색상별로 올바르게 분포되어 있으면 모든 것이 정상이고 방법이 작동하는 것 같으면 다른 데이터에서 시도해 볼 수 있습니다. 그러나 기사에는 알려진 분류와의 클러스터링 및 비교 만 실제로 제로 예측이 있습니다.

제 지난 포스팅 링크의 글을 이용하여 비슷한 그래프를 그릴 수 있습니다. 결과적으로 다음과 같은 그래프를 얻을 수 있습니다. http://i0.wp.com/www.win-vector.com/dfiles/YAwarePCA_files/Figure-html/scaledplotest-1.png 아름다운 클러스터링은 여기에서 작동하지 않았습니다. , 기타 초기 데이터. 그러나 iris 테이블을 소스 데이터로 사용하면 귀하가 제공한 기사의 그래프와 유사한 것을 얻을 수 있습니다.

 
결합기 :
PCA는 원래 원래 시리즈의 차원을 줄이기 위한 것이었습니다. 그게 다야 예측 변수를 선택하는 데 사용하는 것은 망상적인 넌센스입니다.
내가 링크 를 준 기사의 내용을 반박할 수 있습니까? 현재 Dr.Trader : 이 자료를 사용하려고 했습니다. 매우 구체적으로 사용하십시오. 결과는 부정적입니다. 어쩌면 또한 자세히 말할 수 있습니까?
Principal Components Regression, Pt. 3: Picking the Number of Components | R-bloggers
Principal Components Regression, Pt. 3: Picking the Number of Components | R-bloggers
  • Nina Zumel
  • www.r-bloggers.com
In our previous note we demonstrated Y-Aware PCA and other y-aware approaches to dimensionality reduction in a predictive modeling context, specifically Principal Components Regression (PCR). For our examples, we selected the appropriate number of principal components by eye. In this note, we will look at ways to select the appropriate number...
 
mytarmailS :

R에 통합하는 것이 더 나을 수 있습니까?

사람들은 더 많은 일을 할 수 있을 것이고 R을 사용하는 mt5 브리지는

Dr.Trader가 libVMR의 이전 버전을 R로 이식하려고 할 때 이미 중단되었고 큰 핵 기계에 대한 메모리가 충분하지 않고 작은 기계에 대한 전체 성능(사이클 수 100배 감소) 그렇다면 같은 갈퀴를 가장 많이 밟고 싶은 사람은 없을까?


따라서 당분간 이러한 작업을 R로 이식하는 것에 대해 말을 더듬지 않는 것이 좋습니다. 이 잔소리는 당기지 않을 것입니다.

 
유리 레셰토프 :

Dr.Trader가 libVMR의 이전 버전을 R로 이식하려고 할 때 이미 중단되었고 큰 핵 기계에 대한 메모리가 충분하지 않고 작은 기계에 대한 전체 성능(사이클 수 100배 감소) 그렇다면 같은 갈퀴를 가장 많이 밟고 싶은 사람은 없을까?


따라서 당분간 이러한 작업을 R로 이식하는 것에 대해 말을 더듬지 않는 것이 좋습니다. 이 잔소리는 당기지 않을 것입니다.

"R"에 대한 패키지를 만들려고 했습니다.

70% 어딘가에 "R"이 "외국" 언어(C ++, C, fortran, java ...)로 작성된 패키지로 구성되어 있으므로 처리 속도가 저하되지 않아야 합니다.

동일한 유명한 "h2o" 패키지가 완전히 Java로 작성되었습니다.

 
mytarmailS :

"R"에 대한 패키지를 만들려고 했습니다.

70% 어딘가에 "R"이 "외국" 언어(C ++, C, fortran, java ...)로 작성된 패키지로 구성되어 있으므로 처리 속도가 저하되지 않아야 합니다.

동일한 유명한 "h2o" 패키지가 완전히 Java로 작성되었습니다.

몰랐다. Java에서 패키지를 만드는 방법에 대한 지침을 찾으려고 노력할 것입니다.
 
유리 레셰토프 :


더 구체적으로 보고서 파일에서:

/**
* 샘플 외의 모델링 품질:
*
* 트루포지티브: 182
* 트루네거티브: 181
* 거짓양성: 1
* 거짓음성: 1
* 통계가 있는 샘플 중 총 패턴: 365
* 샘플 외의 총 오류: 2
* 일반화 능력의 민감도: 99.4535519125683%
* 일반화 능력의 특이도: 99.45054945054946%
* 일반화 능력: 98.90410136311776%
* Reshetov의 표시기: 8.852456238401455
*/

죄송합니다. 믿기지 않습니다. 너무 심각 합니다. 실험을 반복하시겠습니까? 다른 아카이브를 첨부했는데 다른 기간의 데이터가 있습니다. 모델 훈련은 train.csv에 있어야 하고 test_notarget.csv에서 테스트해야 합니다. test_notarget.csv 파일에 대해 예측된 결과에 관심이 있습니다. 테스트 파일에는 솔직히 대상 변수가 없습니다. 그러나 내부에는 test.csv 테스트에 대한 결과가 포함된 또 다른 암호로 보호된 아카이브가 있으며, 예상 결과에 대해 비교를 위해 암호를 제공합니다.

파일:
forex_test.zip  2699 kb
 
결합기 :

사용하지 않는다는 것은 무엇을 의미합니까? PCA는 선형 변환입니다. 제거 가능한 치수는 다른 것들의 선형 조합으로 얻을 수 있는 치수입니다. 이는 주성분의 선형 결합으로 모든 예측 변수를 얻을 수 있음을 의미합니다. 95% 간격을 취하면 스케일로 인해 어리석게도 좋은 예측자를 잃을 가능성이 높으며 100% 미만의 간격은 손실 데이터 압축에만 사용되며 그렇지 않으면 0인 구성 요소만 항상 잘립니다.

제가 정확하지 않았지만 정확하게 이해하셨습니다. 결론은 95%의 정확도에 충분한 구성 요소를 취하고 나머지는 모두 버리는 것입니다. 예: 예측자가 10000개 있다고 가정해 보겠습니다. 이는 100%의 정확도를 보장하기 위해 10000개의 구성 요소를 생성할 수 있음을 의미합니다. 그런 다음 9900개의 구성 요소를 버리고 100개를 남길 수 있지만 정확도는 100%에서 95%로 5%만 떨어집니다. 나머지 100개의 구성 요소를 분석하고 사용되지 않는 예측 변수를 제거하는 작업이 남아 있습니다. 목표 변수를 예측하고 손실 없이 원본 데이터를 재생성하지 않는 것이 중요하기 때문에 여기서 5%의 손실은 끔찍하지 않습니다.
사유: