트레이딩의 머신러닝: 이론, 모델, 실전 및 알고리즘 트레이딩 - 페이지 1012

 
알렉세이 판필로프 :

매우 흥미롭지만 예측 능력의 측정에 대해 자세히 알려주실 수 있습니까?

그리고 무엇보다 측정 방법은?

나는 작성하고, 그래프를 제공하고, 코드를 배치했습니다. 장인들은 이 1000페이지에 모든 것을 묻었습니다...

반복하기에는 너무 게으르다. 여기서 vtreat가 가장 많이 사용되며 저는 사용하지 않습니다. 가장 중요한 것은이 주제에 대해 생각하고 다른 모든 것을 버리는 것입니다.

 
알렉세이 비아즈미킨 :

그래서 ZZ에 어떤 설정이 있어야 하는지에 대한 질문을 제기하지 않았습니까?

ZZ 매개변수는 각 악기와 기간에 따라 다릅니다. 예를 들어 EURUSD M15의 경우 좋은 초기 값은 15핍(4자리)입니다. 또한 사용 중인 예측 변수에 따라 다릅니다. 좋은 결과를 위해서는 예측 변수와 ZZ 매개 변수를 함께 최적화해야 합니다. 따라서 비모수 예측 변수를 사용하는 것이 바람직하며 수명이 크게 단순화됩니다. 이 용량에서 디지털 필터 는 좋은 결과를 보여줍니다. 앙상블과 계단식을 사용하여 평균 정확도 = 0.83을 얻었습니다. 이것은 매우 좋은 결과입니다. 내일 확인을 위해 프로세스가 설명된 기사를 보내드리겠습니다.

행운을 빕니다

 
블라디미르 페레르벤코 :

ZZ 매개변수는 각 악기와 기간에 따라 다릅니다. 예를 들어 EURUSD M15의 경우 좋은 초기 값은 15핍(4자리)입니다. 또한 사용 중인 예측 변수에 따라 다릅니다. 좋은 결과를 위해서는 예측 변수와 ZZ 매개 변수를 함께 최적화해야 합니다. 따라서 비모수 예측 변수를 사용하는 것이 바람직하며 수명이 크게 단순화됩니다. 이 용량에서 디지털 필터 는 좋은 결과를 보여줍니다. 앙상블과 계단식을 사용하여 평균 정확도 = 0.83을 얻었습니다. 이것은 매우 좋은 결과입니다. 내일 확인을 위해 프로세스가 설명된 기사를 보내드리겠습니다.

행운을 빕니다

매우 흥미 롭습니다. 우리는 기다립니다.

 
성배 :

입찰 행을 공유하고 2004를 묻는다면 현재 날짜까지 시도 할 것입니다 나는 보통 1-3 년 동안 공부하고 20-30 %를 테스트합니다

데이터 세트, lern 및 테스트는 물론 dukas의 초기 행

아름다운 곡선 :) 그러나 누군가의 흥미를 끌 것 같지는 않습니다. 어떤 종류의 소프트웨어인지, 이 곡선을 어떻게 계산했는지는 분명하지 않습니다. 귀하의 데이터세트에서 52% 이상의 정확도를 얻었습니다. 그런데 거기에 있는 마커가 기능보다 먼저 소진되어 집에서 잘라냈습니다. 나중에 백테스터에서 분류기의 결과를 실행할 수 있도록 학습자와 테스트를 받은 가격 인하를 더 추가해야 합니다.

추신: 실제로 모든 테스트 수익률 곡선과 분류/회귀 품질에 대한 보고서는 대중에게 아무 것도 증명할 수 없습니다. 얼마 전 폐쇄된 알고리즘 거래자 그룹에서 흥미로운 아이디어가 스쳐지나갔고 예를 들어 C ++ dll에서 구운 기성 모델을 교환하기 위한 인터페이스에 동의했습니다. 학습자는 일부 json을 입력으로 사용하고 과거 행 팩을 사용하고 새로운 데이터(촛불, 틱, 타칸 등)로 이벤트를 보완하지만 예측을 뱉어냅니다. 간단히 말해서, 아이디어의 본질은 데이터가 있을 때 테스터에서 미래가 올 때 확인할 수 있는 표준화된 "블랙 박스"를 교환하는 것입니다. 이것이 모델이 작동하는지 여부를 이해하는 유일한 방법입니다. 음, 웹 API를 사용할 수도 있지만 이를 위해 vpn을 유지하는 것은 치질입니다. 특히 모델이 많은 경우. 따라서 이 모든 수치는 정확도, 샤프 비율 등입니다. 의미는 없지만 의식적으로 맞지 않는 방법은 100,500가지가 있으며 의식적으로 많은 사람이 이것을 이해하지 못할 수 있으므로 더 확실한 증거가 필요합니다.

 
막심 드미트리예프스키 :

분류가 있으면 상대 분류 오류 또는 로그 손실(교차 엔트로피)을 통해 평가할 수 있으며 회귀라면 rmse가 적합합니다. 기차에서 오차 차이를 측정하고 테스트하고 가장 작은 차이를 얻을 수도 있습니다.

기차, 검증 및 테스트에서 예측된 클래스에 따라 거의 동일한 분할이 있도록 설정만 선택됩니다.

이 모든 이유 때문에 숲은 얕은 나무로도 쉽게 재 훈련 될 수 있으며 나무가 시트를 청소하도록 만들어지면 더 큰 확률로 재 훈련이있을 것입니다.

그리고 그것을 피하는 방법? 자, 여기서 다시 "쓰레기 속의 쓰레기"가 시작됩니다. 일반적으로 자연계에는 쓰레기가 아닌 예측자가 전혀 존재하지 않습니다.

이론적으로 ROC_AUC가 취해지며 예측자에 가치 있는 것이 있으면 값이 가로축을 따라 증가하는 것을 멈춰야 합니다. 그런데 여기저기 찾아보니 하나도 없었습니다.

엄격하게 직선이 위쪽으로 그려집니다.

그러나 다른 한편으로 어떤 지표도 역사에 따라 그런 방식으로 시장을 이끌지 않을 것입니다. 물론 그렇습니다)

SVM을 희생시키면서 그것은 너무 길어서 여러 번 테스트를 시작했지만 어떻게 든 특별히 감명을 받지 못했고 속도가 느려지고 완전히 탐색할 수 없었습니다.

 
forexman77 :

기차, 검증 및 테스트에서 예측된 클래스에 따라 거의 동일한 분할이 있도록 설정만 선택됩니다.

이 모든 이유 때문에 숲은 얕은 나무로도 쉽게 재 훈련 될 수 있으며 나무가 시트를 청소하도록 만들어지면 더 큰 확률로 재 훈련이있을 것입니다.

그리고 그것을 피하는 방법? 자, 여기서 다시 "쓰레기 속의 쓰레기"가 시작됩니다. 일반적으로 자연계에는 쓰레기가 아닌 예측자가 전혀 존재하지 않습니다.

이론적으로 ROC_AUC가 취해지며 예측자에 가치 있는 것이 있으면 값이 가로축을 따라 증가하는 것을 멈춰야 합니다. 그런데 여기저기 찾아보니 하나도 없었습니다.

엄격하게 직선이 위쪽으로 그려집니다.

그러나 다른 한편으로 어떤 지표도 역사에 따라 그런 방식으로 시장을 이끌지 않을 것입니다. 물론 그렇습니다)

유효한 경우. 섹션 오류가 기차에서와 동일하면 모든 것이 작동해야 합니다. 당신이하지 않는 것이 분명합니다

 
막심 드미트리예프스키 :

유효한 경우. 섹션 오류가 기차에서와 동일하면 모든 것이 작동해야 합니다. 당신이하지 않는 것이 분명합니다

글쎄, 정확히 같지는 않습니다. 닫습니다. 그것들이 완전히 동일하다면, 이 나무는 깊이가 세 개로, 그는 그림을 주었습니다.

깊이 15가 선택되어 테스트를 다소 보여줍니다.

약 20분 후에 클래스 구분을 게시하겠습니다.

 

깊이 3:

[[ 8010 7122 ]
 [ 7312 8410 ]]
трайн наоборот

[[ 8026 7105 ]
 [ 7209 8512 ]]
трайн 

[[ 5538 5034 ]
 [ 5117 5395 ]]
предсказание по обученной модели на трайн, эти данные не участвовали в обучении.
Поясню данные для теста берутся не из не использованных выборок, это данные, которые вообще не доступны для
алгоритма в процессе обучения(находятся вне временного промежутка участка обучения).

깊이 15:

[[ 7667 7464 ]
 [ 7227 8494 ]]
трайн наоборот

[[ 14430    702 ]
 [   661 15061 ]]
трайн 

[[ 5405 5167 ]
 [ 4958 5554 ]]
тест

동시에 15의 깊이가 분명히 재훈련으로 이어지지만 포워드가 더 좋습니다. 또한 내가 가지고 있는 다른 모델에도 있습니다. 과적합이 강하지 않을 때.

포워드:

열 다섯

원하는 클래스의 레이블을 음수보다 4~6% 더 예측하는 것으로 나타났습니다.

 
제냐 :

아름다운 곡선 :) 그러나 누군가의 흥미를 끌 것 같지는 않습니다. 어떤 종류의 소프트웨어인지, 이 곡선을 어떻게 계산했는지는 분명하지 않습니다. 귀하의 데이터세트에서 52% 이상의 정확도를 얻었습니다. 그런데 거기에 있는 마커가 기능보다 먼저 소진되어 집에서 잘라냈습니다. 나중에 백테스터에서 분류기의 결과를 실행할 수 있도록 학습자와 테스트를 받은 가격 인하를 더 추가해야 합니다.

추신: 실제로 모든 테스트 수익률 곡선과 분류/회귀 품질에 대한 보고서는 대중에게 아무 것도 증명할 수 없습니다. 얼마 전 폐쇄된 알고리즘 거래자 그룹에서 흥미로운 아이디어가 스쳐지나갔고 예를 들어 C ++ dll에서 구운 기성 모델을 교환하기 위한 인터페이스에 동의했습니다. 학습자는 일부 json을 입력으로 사용하고 과거 행 팩을 사용하고 새로운 데이터(촛불, 틱, 타칸 등)로 이벤트를 보완하지만 예측을 뱉어냅니다. 간단히 말해서, 아이디어의 본질은 데이터가 있을 때 테스터에서 미래가 올 때 확인할 수 있는 표준화된 "블랙 박스"를 교환하는 것입니다. 이것이 모델이 작동하는지 여부를 이해하는 유일한 방법입니다. 음, 웹 API를 사용할 수도 있지만 이를 위해 vpn을 유지하는 것은 치질입니다. 특히 모델이 많은 경우. 따라서 이 모든 수치는 정확도, 샤프 비율 등입니다. 의미는 없지만 의식적으로 맞지 않는 방법은 100,500가지가 있으며 의식적으로 많은 사람이 이것을 이해하지 못할 수 있으므로 더 확실한 증거가 필요합니다.

거기에는 훈련 및 테스트 데이터 샘플의 시작 부분에 기능의 튜플이 감소하고 있으며 계산하기에 충분한 기록이 없었고 알고리즘이 이를 제어하지 않았으므로 올바른 작업을 위해 삭제해야 합니다.

그리고 비밀이 아니라면 이 그룹은 어디에 있으며 그곳을 볼 수 있습니까?

 
forexman77 :

깊이 3:

깊이 15:

동시에 15의 깊이가 분명히 재훈련으로 이어지지만 포워드가 더 좋습니다. 또한 내가 가지고 있는 다른 모델에도 있습니다. 과적합이 강하지 않을 때.

포워드:

열 다섯


각 바처럼 거래 수를 줄여야 할 것 같습니다.

사유: