트레이딩의 머신러닝: 이론, 모델, 실전 및 알고리즘 트레이딩 - 페이지 1308

 
도서관 :

ISO는 모든 것에 대해 공개되지 않습니다.) 이 경우 MO 협정에서 2번째 섹션이 어떻게 호출되는지에 집중할 수 있습니다.

당신이 사용하는 캣버스트에서는 테스트를 작성했지만 유효성 검사에 사용되는 설명을 작성합니다. 다른 패키지 XGBoost, Darch에서는 즉시 유효성 검사를 작성합니다.

초기에는 테스트 세트와 트레이닝 세트가 있었고, 교차 검증 방식이 등장했고, 이러한 샘플을 검증 세트라고 부르기 시작했습니다(사실 트레이닝과 테스트는 이에 대해 교차 트레이닝됨). 이제 훈련을 중지하기 위해 샘플이 필요한 부스팅이 나타났습니다. 테스트용이라고 하며 학습 결과를 확인하는 데 사용하기 때문에 유효성 검사이기도 하지만 교차 유효성 검사와 달리 훈련하지 않습니다.

제 말은, 다른 학습 방법은 다른 방식으로 샘플링을 사용할 수 있습니다. 검증은 샘플 유형보다 더 많은 작업입니다...

 
블라디미르 페레르벤코 :

검증 세트는 훈련에 포함됩니다. 그것에 따르면 훈련 중에 모델의 매개 변수가 조정됩니다. 일부 패키지는 검증 세트가 필요하지 않습니다. 이 경우 훈련 세트는 훈련 중에 fit() 함수 자체에서 일정 비율로 훈련/유효하게 분할됩니다. 그러나 스스로에게 물어보는 것이 좋습니다.

테스트 세트에서 훈련된 모델의 품질이 확인되고 모델은 훈련 중에 이 데이터를 보지 않아야 합니다.

그러므로 이것들은 모두 같은 것이므로 혼동하지 마십시오.

행운을 빕니다

좋아, 그렇게 될거야. 다양한 ML 방법을 만드는 데 관련된 수백 명의 사람들의 진술에 대한 통계가 없습니다. 논쟁하고 싶지 않습니다. 처음에는 마음속으로 개념을 분리하는 것이 얼마나 편리한지에 대해 이야기했기 때문입니다. 다른 사람들에게는 편리하지 않으므로 내 개념을 혼자 남겨두십시오.

 
알렉세이 비아즈미킨 :

좋아, 그렇게 될거야. 다양한 ML 방법을 만드는 데 관련된 수백 명의 사람들의 진술에 대한 통계가 없습니다. 논쟁하고 싶지 않습니다. 처음에는 마음속으로 개념을 분리하는 것이 얼마나 편리한지에 대해 이야기했기 때문입니다. 다른 사람들에게는 편리하지 않으므로 내 개념을 혼자 남겨두십시오.

예, 주제는 이미 꽤 스팸 처리되었으며 이제 모두가 자신의 용어를 발명해야 합니다. :)

특히 데이터 샘플의 이름에 대해서는 논쟁의 여지가 없다고 생각합니다. 그것들의 형성 및 사용 방법에는 여러 가지가 있으며 IMHO라는 한 가지 사실만 중요하게 남아 있습니다. 이 데이터는 학습 과정에 참여(샘플 내)하거나 참여하지 않았습니다(샘플 외).
모든 IS 샘플은 어떻게든 모델을 맞추는 데 사용되며 OOS는 품질을 평가하는 데만 사용되기 때문입니다.


그리고 명확한 이해를 위해 훈련에 사용된 모든 샘플이 IS를 백테스트로, OOS를 포워드로 나타내는 테스터에게 익숙한 형식으로 결과를 제시하는 것이 논리적이라고 생각합니다.

 
이반 네그레쉬니 :

예, 주제는 이미 꽤 스팸 처리되었으며 이제 모두가 자신의 용어를 발명해야 합니다. :)

특히 데이터 샘플의 이름에 대해서는 논쟁의 여지가 없다고 생각합니다. 그것들의 형성 및 사용 방법에는 여러 가지가 있으며 IMHO라는 한 가지 사실만 중요하게 남아 있습니다. 이 데이터는 학습 과정에 참여(샘플 내)하거나 참여하지 않았습니다(샘플 외).
모든 IS 샘플은 어떻게든 모델을 맞추는 데 사용되며 OOS는 품질을 평가하는 데만 사용되기 때문입니다.


그리고 명확한 이해를 위해 훈련에 사용된 모든 샘플이 IS를 백테스트로, OOS를 포워드로 나타내는 테스터에게 익숙한 형식으로 결과를 제시하는 것이 논리적이라고 생각합니다.


개인적으로 훈련에 참여하지 않은 샘플은 일반적으로 참여한 샘플보다 훨씬 작고 찢어진 그래프에서는 시각적으로 아무것도 명확하지 않기 때문에 별도의 그래프로 표시하는 것이 좋습니다.

 
그건 그렇고, Catbust에는 교차 검증이 있습니다. 그런 다음 "테스트"키는 거기에 필요하지 않지만 하나의 샘플이 사용되며 다른 방식으로 부분으로 나뉩니다.
 
알렉세이 비아즈미킨 :
그건 그렇고, Catbust에는 교차 검증이 있습니다. 그런 다음 "테스트"키는 거기에 필요하지 않지만 하나의 샘플이 사용되며 다른 방식으로 부분으로 나뉩니다.

과학자들은 그런 것들을 가지고 일하지만 신경망 에서 무슨 일이 일어나고 있는지 이해하지 못합니다. 숲에서는 더욱 그렇습니다. 모든 것이 정확히 어떻게 그리고 어떤 이유로 그것이 밝혀진 대로, 어디서, 어떤 순간에, 왜 변하는지, 우리는 그들의 권위를 신뢰하고 더 높은 권력에 의존하여 그들의 모델을 적용할 수 있습니다.

 
케샤 뿌리 :

과학자들은 그러한 것들로 작업하지만 신경망에서 일어나는 일, 특히 숲에서 일어나는 일을 이해하지 못합니다. 어떻게, 어떤 이유로 모든 것이 정확히 밝혀진 대로 존재하고, 어떤 순간에 무엇이 어떻게 변하는지, 우리는 그들의 권위를 신뢰하고 더 높은 권력에 의존하여 그들의 모델을 적용할 수 있을 뿐입니다.

당신은 분명히 숲 / 나무를 다루지 않았습니다. 그들의 결정은 인간이 쉽게 해석합니다. 몇 페이지에 있는 트리 구축 알고리즘에 대한 기본 기사는 이에 대해 설명합니다.
 
알렉세이 비아즈미킨 :

좋아, 그렇게 될거야. 다양한 ML 방법을 만드는 데 관련된 수백 명의 사람들의 진술에 대한 통계가 없습니다. 논쟁하고 싶지 않습니다. 처음에는 마음속으로 개념을 분리하는 것이 얼마나 편리한지에 대해 이야기했기 때문입니다. 다른 사람들에게는 편리하지 않으므로 내 개념을 혼자 남겨두십시오.

완고함은 인내에 가깝습니다. 그들이 MO에서 아이디어를 성공적으로 구현하는 데 도움이 되기를 바랍니다. 연구자에게 이것은 유용한 특성입니다. ;-)

추신 : "식물 표본 상자"-나무, 숲, 그루터기, 정글에서 방법 모음을 보충하십시오.
 
도서관 :

추신 : "식물 표본 상자"-나무, 숲, 그루터기, 정글에서 방법 모음을 보충하십시오.

))) Lesopoval 또는 Sawmill에 전화하겠습니다.

 
케샤 뿌리 :

과학자들은 그러한 것들로 작업하지만 신경망에서 일어나는 일, 특히 숲에서 일어나는 일을 이해하지 못합니다. 어떻게, 어떤 이유로 모든 것이 정확히 밝혀진 대로 존재하고, 어떤 순간에 무엇이 어떻게 변하는지, 우리는 그들의 권위를 신뢰하고 더 높은 권력에 의존하여 그들의 모델을 적용할 수 있을 뿐입니다.

나는 부분적으로 동의한다. 지금은 빠른 계산의 시대이며, 초기 사람들이 컴퓨터에 접근하기 전에 종이에 계산을 했다면 이제는 정보의 양과 처리 방법이 너무 커서 정보에 집중하지 않는 것이 종종 더 편리합니다. 과정이지만 결과에 따라.

사유: