트레이딩의 머신러닝: 이론, 모델, 실전 및 알고리즘 트레이딩 - 페이지 2382

 
예브게니 가브릴로비 :

무작위로? 즉, 여기에 명시된 대로? 무작위 표본 테스트 50%

예, sklearn 문서에서 읽을 수 있습니다.

시즌 버전에서 동일하게(동영상에서와 같이) 확인했습니다.. 별로 개선되지 않은 것 같습니다

 
도서관 :

당신은 일부 표준/고대 교차 검증에 대해 쓰고 있습니다.
첫째, 줄을 섞을 필요는 없지만 0-90 교육 90-100 테스트, 10-100 교육, 0-10 테스트, 20-100-10 교육 10-20 테스트와 같이 블록으로 가져옵니다. , 등.
둘째, 프라도의 조언에 따르면 기차와 테스트 사이에 공간(가지치기)을 남겨두어 기차와 테스트에서 이웃한 사례가 작업에 들어가지 않도록 해야 한다. 테스트의 10-100개 예제 옆에 있는 기차의 예제는 힌트/피프입니다. https://dou.ua/lenta/articles/ml-vs-financial-math/에서 더 많은 것을 읽으십시오.
또는 다음 그림이 있습니다.

20% 또는 원하는 대로 할 수 있습니다.

마지막으로 교차 유효성 검사 대신 앞으로 걷기를 사용할 수 있습니다. 테스트 섹션을 원으로 가져 가지 않고 앞에서만 수행합니다.

여기에서 말하는 모든 것은 이미 실험에서 사용하고 있습니다.

샘플을 조각으로 나누는 이러한 트릭의 목적은 무엇입니까? 전체 샘플에 고유한 패턴이 덜 시끄럽게 되는 조각을 찾는 것입니다. 분류를 촉진하는 노이즈가 적고 규칙이 더 명확할수록 모델이 더 좋아집니다. 예, 그러한 방법에는 생명권이 있지만 목표와 관련된 예측 변수가 많을수록 더 무작위적이며 표본 크기가 예측 변수의 많은 조합을 수용할 수 있을 만큼 충분히 클 때 사용하는 것이 좋습니다. 가능한 한 그들 사이에서, 그리고 예측변수가 많을수록 더 많은 샘플이 있어야 합니다. 내 샘플은 20,000행(100%)을 거의 초과하지 않으며 이미 2,000개 이상의 예측 변수가 있으며 모든 조합이 샘플 자체에 포함되지 않고 모델에서 고려되지 않을 것이 분명합니다. 따라서 항상 회수율은 + -50% 이하입니다.

따라서 내 이진화 방법은 다른 접근 방식을 기반으로 합니다. 예측자 그리드의 각 양자는 시간의 안정성과 대상에 대한 성향을 평가한 다음 선택한 예측자 양자를 하나의 이진 예측자로 결합하여 잡음이 많은 양자/분할을 제거합니다. 예측 변수가 발생하면 대부분의 예측 변수가 선택되지 않습니다. 선택 결과를 기반으로 이러한 이진화 샘플이 이미 구축되고 있으므로 모든 교육 영역에서 유사한 예측 변수 동작을 갖게 되며 이는 역사상 유사한 이벤트가 발생하는 경우 모델의 안정성에 기여해야 합니다. .

 
알렉세이 비아즈미킨 :

여기에서 말하는 모든 것은 이미 실험에서 사용하고 있습니다.

샘플을 조각으로 나누는 이러한 트릭의 목적은 무엇입니까? 전체 샘플에 고유한 패턴이 덜 시끄럽게 되는 조각을 찾는 것 입니다.

아니오 - 모든 테스트 조각에 대한 모델의 평균 지표(오차 등)를 찾습니다. 또는 대차 대조표.

초기 문자열을 테스트로 사용할 수 있다면 교차 검증이 효과적입니다.
앞으로 나아가는 것, 아마도 더 이상은 아닐 것입니다. 20,000줄은 테스트를 앞두고 있기 때문에 여러 조각으로 나누기가 어렵습니다.

당신은 비정형적인 계획을 가지고 있으므로 실제로 조언 할 수 없습니다)
 
도서관 :

아니오 - 모든 테스트 조각에 대한 모델의 평균 지표(오차 등)를 찾습니다. 또는 대차 대조표.

따라서 이를 위해서는 연결이 우세한 영역, 향후 안정적일 영역, 중요한 예측 변수 및 대상을 식별해야 합니다.

도서관 :

초기 문자열을 테스트로 사용할 수 있다면 교차 검증이 좋습니다.

앞으로 나아가는 것, 아마도 더 이상은 아닐 것입니다. 20,000줄은 테스트를 앞두고 있기 때문에 여러 조각으로 나누기가 어렵습니다.

당신은 비정형적인 계획을 가지고 있어서 정말로 조언할 수 없습니다)

초기 행을 사용하는 것은 샘플의 60%만큼 을 평가하는 데 사용되었기 때문에 허용되지 않습니다. 여기에서 전체 평가 절차는 별도의 부분으로 수행되지만 요점은 전 세계적으로 존재하지 않습니다.

Lasso 방법은 CatBoost 보다 더 나은 결과를 보여주었습니다. 물론 나중에 다른 샘플에서 비교할 것이지만 분명히 이 방법을 사용하면 퍼센트 단위가 10-20%인 매우 희소한 이진 예측자를 일반화할 수 있습니다. 소득 창출을 위해 작동하게 하는 방법은 다음과 같습니다. 질문입니다.

 
알렉세이 비아즈미킨 :

개선은 L2 정규화를 감소시키지 않았습니다. 그래서 올가미가 더 좋습니다.

글쎄, 얼마나 더 나은지 .. 거기에 나쁜 것이 무엇이고 그 차이는 몇 퍼센트입니다.

 
막심 드미트리예프스키 :

글쎄, 얼마나 더 나은지 .. 거기에 나쁜 것이 무엇이고 그 차이는 몇 퍼센트입니다.

4%의 정확도는 돈의 측면에서 많은 것입니다. 수익성과 짝짓기를 증가시킬 것입니다. 기대!

 
10년 동안 evra 5min을 가지고 있는 사람, skinte txt 또는 csv pl.
 
브라우저에서 렌더링된 신경망 예측. 지표 + 진입점을 표시하려는 시도가 있습니다.
내 프로필에 있는 링크.
 
mytarmailS :
10년 동안 evra 5min을 가지고 있는 사람, skinte txt 또는 csv pl.

터미널 다운로드가 제공되지 않습니까?

 
막심 드미트리예프스키 :

터미널 다운로드가 제공되지 않습니까?

10년 동안 M5 견적 테스트 ... 그런 역도 마찬가지인데 가계에 문제가 될 때까지 단말기를 숨길 필요가 있습니다.

사유: