트레이딩의 머신러닝: 이론, 모델, 실전 및 알고리즘 트레이딩 - 페이지 30

 
산산이치 포멘코 :

2. 비디오 참조:

미안하지만, 학력이 낮은 대학원생의 흔한 자움...

그들이 말했듯이, 내가 샀던 것에 대해, 나는 그것을 위해 판다. 질문을 받았는데 자세한 답변이 있는 영상을 주셨어요. 강사는 똑똑하지 않고 학습의 통계 이론에 침을 뱉고 있습니다.

Vapnik VN 통계 학습 이론 을 참조하십시오. 뉴욕: 존 와일리, 1998

산산이치 포멘코 :

1. 표본에서 하나 이상의 정보 예측 변수가 제거된 경우 일반화 능력의 현저한 저하


저를 믿으세요. 불행히도 이것은 아무것도 증명하지 못합니다. 또한 예측 변수 집합이 불량한 경우(잡음이 많음) 이 효과는 더 강할수록 더 많은 잡음이 발생합니다. 이것은 매우 간단하게 설명됩니다. 노이즈가 많을수록 알고리즘이 "편리한" 값을 선택하기가 더 쉽습니다.

그들이 말했듯이 맛과 색상 ...

산산이치 포멘코 :

당신의 파일에 대해.

1. 데이터에 6개의 분류 모델을 구축할 수 없었습니다. 오류가 50% 이상입니다. 원하는 경우 결과를 여기에 게시할 수 있습니다.

정보 주셔서 감사합니다. 결과는 너무 명확합니다. 완전한 부재입니다.

산산이치 포멘코 :

2. 이 결과의 이유는 예측 변수 집합이 매우 좋지 않기 때문입니다. 대상 변수와 관련이 없는 예측 변수. 예측 변수 6, 7, 8은 어느 정도 예측력이 있지만 매우 적습니다. 나는 그러한 예측자와 함께 일하지 않습니다. 나머지는 그냥 소음입니다.

글쎄요. 소음이 없으면 어떤 바보라도 올바르게 분류할 수 있습니다. 소음이 있고 적당한 양입니다. 유용한 정보도 제공됩니다. 예를 들어, 다음은 이전 libVMR 3.01 의 결과입니다.

/**
* 샘플 외의 모델링 품질:
*
* 트루포지티브: 245
* 트루네거티브: 113
* 거짓양성: 191
* 거짓음수: 73
* 통계가 있는 샘플 중 총 패턴: 622
* 샘플 외의 총 오류: 264
* 일반화 능력의 민감도: 56.19266055045872%
* 일반화 능력의 특이도: 60.752688172043015%
* 일반화 능력: 16.94534872250173%
* Reshetov의 표시기: 0.1075044213677977

*/

저것들. 일반화 능력에서 정보를 거의 17% 선택했습니다.

신형이 훨씬 성능이 좋습니다.

 
알렉세이 버나코프 :
교차 검증을 사용하여 구성 요소 수를 선택합니다. 그런 다음 가장 좋은 교차 검증 값이 검증 세트에 대해 테스트됩니다.

다시 말하지만, 그것은 잘 나오지 않았습니다. 20개의 구성 요소를 가져갈 것입니다. 왜냐하면 min(trainwinrate.validate1winrate, validate2winrate)은 다른 숫자에 비해 가장 큰 구성 요소입니다. 그리고 나는 ~ 55 %의 전면 테스트 결과를 얻었습니다. 그보다 더 나빴습니다. 이상한 모델이 나왔습니다. 승률이 50%를 약간 넘고(Forex에는 적합하지 않음) 교차 검증이 작동하지 않으며 예측 변수의 중요성을 뽑을 수 없습니다. 프린트해서 벽에 걸어두시면 됩니다 :)


 
유리 레셰토프 :

* 트루포지티브: 245

* 트루네거티브: 113
* 거짓양성: 191
* 거짓음수: 73

즉, test.csv의 승률이 57.6%라는 거죠? 예측 변수를 제거하고 뉴런을 훈련시키는 방법을 시도하고 내일 결과에 대해 쓸 것입니다.
 
트레이더 박사 :

다시 말하지만, 그것은 잘 나오지 않았습니다. 나는 20개의 구성 요소를 취할 것입니다. 왜냐하면 min(trainwinrate.validate1winrate, validate2winrate)은 다른 숫자에 비해 가장 큰 구성 요소입니다. 그리고 나는 ~ 55 %의 전면 테스트 결과를 얻었습니다. 그보다 더 나빴습니다. 이상한 모델이 나왔습니다. 승률이 50%를 약간 넘고(Forex에는 적합하지 않음) 교차 검증이 작동하지 않으며 예측 변수의 중요성을 뽑을 수 없습니다. 프린트해서 벽에 걸어두시면 됩니다 :)


데이터가 거의 없으면 교차 검증이 좋지 않은 결과를 줄 수 있습니다. 머신 러닝은 여전히 수만 번의 관찰입니다. 교차 검증이 나쁘면 모델 전체가 이와 같습니다.
 

이것은 나의 큰 실험의 결과입니다. Windows의 오류로 인해 코드가 중단되어 모든 문자에 대해 재학습하지 않았습니다. 하지만 지금은 그것으로 충분합니다. 유로화에 좋은 결과.

매개변수를 지정하지 않고 발견된 최대값만 표시했습니다. 이미 좋은 결과가 있습니다. GBM 튜닝의 미묘함이 도움이 됩니다.

 

512분 앞서 유로화를 예측하면 거래당 1.5핍을 얻을 수 있습니다. 맞나요? 그리고 스프레드도 고려됩니까? 이 기간 동안의 최대 손실액을 아는 것도 중요합니다. 이 기간 동안의 손실액이 모두 200핍인 경우 어드바이저를 10핍으로 교환하는 것은 의미가 없습니다. 거래를 평가하려면 샤프 비율을 사용하는 것이 좋지만 R에서는 이것을 본 적이 없습니다. 처음에는 회복 계수로 자신을 제한할 수 있습니다: (총 이익) / (전체 시간 동안 최대 자기 자본 손실) .

예를 들어 신호 1이 있다고 가정해 보겠습니다. 해당 연도에 상인은 1000%를 벌었지만 그의 최대 손실은 50%였습니다. 그리고 동시에 작가가 1년에 600%만 벌었지만 그의 최대 수익인 신호2가 있습니다. 감소율은 25%였다. 거래자 1이 (이익 면에서) 더 나은 것처럼 보일 수 있지만 실제로는 그렇지 않습니다. 그는 단지 두 배의 위험을 감수할 뿐입니다. 첫 번째 신호의 회복 계수는 1000/50 = 20, 두 번째 신호는 600/25 = 24입니다. 따라서 두 번째 신호에 가입하는 것이 좋으며 위험을 두 배로 늘리고 싶다면 위험을 50% 보증금의.

실험에서 위험을 평가하는 것도 중요합니다. 모델이 시간에 따른 가격 급등에 반응하여 수익을 올릴 수 있고 손절매를 잡을 위험이 있는 큰 손실을 입지 않기 때문에 작은 간격으로 거래하는 것이 훨씬 더 유리할 수 있습니다.

 
알렉세이 버나코프 :

동료 여러분, 시간이 되시면 기사 아래에 질문을 해도 될까요? https://habrahabr.ru/company/aligntechnology/blog/303750/

그리고 Habr은 전혀 침묵합니다!

Habr은 침묵하지 않습니다 - Habr은 읽습니다.
너도밤나무가 많다.
 
트레이더 박사 :

512분 앞서 유로화를 예측하면 거래당 1.5핍을 얻을 수 있습니다. 맞나요? 그리고 스프레드도 고려됩니까? 이 기간 동안의 최대 손실액을 아는 것도 중요합니다. 이 기간 동안의 손실액이 모두 200핍인 경우 어드바이저를 10핍으로 교환하는 것은 의미가 없습니다. 거래를 평가하려면 샤프 비율을 사용하는 것이 좋지만 R에서는 이것을 본 적이 없습니다. 처음에는 회복 계수로 자신을 제한할 수 있습니다: (총 이익) / (전체 시간 동안 최대 자기 자본 손실) .

예를 들어 신호 1이 있다고 가정해 보겠습니다. 해당 연도에 상인은 1000%를 벌었지만 그의 최대 손실은 50%였습니다. 그리고 동시에 작가가 1년에 600%만 벌었지만 그의 최대 수익인 신호2가 있습니다. 감소율은 25%였다. 거래자 1이 (이익 면에서) 더 나은 것처럼 보일 수 있지만 실제로는 그렇지 않습니다. 그는 단지 두 배의 위험을 감수할 뿐입니다. 첫 번째 신호의 회복 계수는 1000/50 = 20, 두 번째 신호는 600/25 = 24입니다. 따라서 두 번째 신호에 가입하는 것이 좋으며 위험을 두 배로 늘리고 싶다면 위험을 50% 보증금의.

실험에서 위험을 평가하는 것도 중요합니다. 모델이 시간에 따른 가격 급등에 반응하여 수익을 올릴 수 있고 손절매를 잡을 위험이 있는 큰 손실을 입지 않기 때문에 작은 간격으로 거래하는 것이 훨씬 더 유리할 수 있습니다.

예, 스프레드가 1인 1.5 펀트입니다.

다른 모든 지표를 함께 평가할 것입니다. 훈련된 모델의 MT4에 올빼미를 배치합니다.

불행히도 R에서는 49개의 무작위 샘플이 있기 때문에 Sharpe 및 기타 유사한 것을 계산할 수 없습니다. 중첩될 때 트랜잭션 순서가 복원되지 않습니다.

결과는 특히 eurusd에 대한 13,000 트랜잭션에 대해 제공됩니다.
 
Dr.Trader :
즉, test.csv의 승률이 57.6%라는 거죠? 예측 변수를 제거하고 뉴런을 훈련시키는 방법을 시도하고 내일 결과에 대해 쓸 것입니다.

이기는 것이 아니라 가격의 미래 방향에 대한 정확한 예측의 수입니다. 테스트 세트의 분류기는 두 가지 값 중 하나를 생성합니다. 양수 - 미래 가격 인상이 예상됨, 음수 - 미래 가격 하락이 예상됩니다. 그가 어떤 테스트 케이스를 정확하게 예측했다면, 그에게 True가 주어집니다. 그가 실수했다면 False.

일반화 능력의 민감도: 56.19266055045872% - 미래 가격 상승이 올바르게 예측됨: 100% * TP / (TP + FP) = 100% * 245 / (245 + 191) = 100% * 2451 / 436 = 560%

일반화 능력의 특수성: 60.752688172043015% - 미래 가격 하락이 정확히 예측됨: 100% * TN / (TN + FN) = 100% * 113 / (113 + 73) = 100% * 113 / 186 = 60.75262

 
유리 레셰토프 :

이기는 것이 아니라 가격의 미래 방향에 대한 정확한 예측의 수입니다. 테스트 세트의 분류기는 두 가지 값 중 하나를 생성합니다. 양수 - 미래 가격 인상이 예상됨, 음수 - 미래 가격 하락이 예상됩니다. 그가 어떤 테스트 케이스를 정확하게 예측했다면, 그에게 True가 주어집니다. 그가 실수를 했다면 False.

일반화 능력의 민감도: 56.19266055045872% - 미래 가격 상승이 올바르게 예측됨: 100% * TP / (TP + FP) = 100% * 245 / (245 + 191) = 100% * 2451 / 436 = 560%

일반화 능력의 특수성: 60.752688172043015% - 미래 가격 하락이 정확히 예측됨: 100% * TN / (TN + FN) = 100% * 113 / (113 + 73) = 100% * 113 / 186 = 60.75262

Yuri, 데이터에 대한 첫 번째 테스트:

방법 loss_function cv_folds 가방_프랙 model_params AUC_cv 정확도_기차 정확도_검증
GBM 베르누이 4 0.4 0.015_|_7_|_70_|_600 0.429659 0.590361 0.50501
GBM 베르누이 4 0.6 0.02_|_5_|_110_|_600 0.485727 0.586345 0.51503

훈련을 위한 두 가지 다른 매개변수 값 세트. 교차 검증에서 AUC가 주각 아래에 있다는 점은 주목할 만합니다.

일반적으로 테스트에서 51.5%의 정확도가 우리가 얻은 최고입니다.

어떻게 60%가 되는지 모르겠습니다.

사유: