트레이딩의 머신러닝: 이론, 모델, 실전 및 알고리즘 트레이딩 - 페이지 1301

 
알렉세이 비아즈미킨 :

모델 평가가 익숙하지 않은 샘플에 적용될 때 성능에 영향을 줍니까?

자, 그럼 뭐해? 다양한 모델을 만들고 어떤 것이 가장 잘 작동하는지 확인하십시오.

그렇다면 "잎"은 어디에 있습니까? 최고의 잎을 선택하는 것 등은 무엇입니까?

나는 당신이 주기적으로 쓰는 것을 이해하기 위해 입력하려고합니다

또는 각 행이 하나의 시트에 해당하는 경우
 
막심 드미트리예프스키 :

자, 그럼 뭐해? 다양한 모델을 만들고 어떤 것이 가장 잘 작동하는지 확인하십시오.

그렇다면 "잎"은 어디에 있습니까? 최고의 잎을 선택하는 것 등은 무엇입니까?

나는 당신이 주기적으로 쓰는 것을 이해하기 위해 입력하려고합니다

모델 자동 선택에 대한 대화였던 것 같은데, 잘 알려진 기준과 공식을 통해 두 가지 방법으로 흥미로운 모델을 선택할 수 있다고 설명했습니다. 이러한 테이블은 각 샘플에 대해 형성되며, 3개의 열 - 필터가 일치하면 모델이 선택됨) 또는 독립 샘플에 대한 작업에서 모델에서 원하는 것을 이해할 때 기계 학습을 사용할 수 있지만 이것을 달성하는 방법을 모릅니다. 따라서 두 번째 방법의 경우 모델의 다른 메트릭 지표가 예측 변수가 되고 모델이 이에 대해 학습되며, 이미 ML을 사용하여 유사한 데이터에서 적합한 모델을 선택합니다. 그 해에 비슷한 훈련을 한 경험이 있어 긍정적인 결과를 보여 평가의 정확도는 좋은데 완성도가 좋지 않아 표본의 다양성이 부족하다고 판단하여 작업을 연기 더 나은 시간까지. 이제 다양한 샘플이 생성되고 있으며 이 작업으로 돌아갈 수 있습니다. 주요 아이디어는 기존 풀에서 최고를 선택하는 것이 아니라 MO이든 고정 지표이든 절대적인 기준에 따라 최고를 선택하는 것입니다.

Leaves는 이미 선택한 모델에서 작동합니다.

각 라인은 별도의 모델입니다.
 
알렉세이 비아즈미킨 :

모델 자동 선택에 대한 대화였던 것 같은데, 잘 알려진 기준과 공식을 통해 두 가지 방법으로 흥미로운 모델을 선택할 수 있다고 설명했습니다. 이러한 테이블은 각 샘플에 대해 형성되며, 3개의 열 - 필터가 일치하면 모델이 선택됨) 또는 독립 샘플에 대한 작업에서 모델에서 원하는 것을 이해할 때 기계 학습을 사용할 수 있지만 이것을 달성하는 방법을 모릅니다. 따라서 두 번째 방법의 경우 모델의 다른 메트릭 지표가 예측 변수가 되고 모델이 이에 대해 학습되며, 이미 ML을 사용하여 유사한 데이터에서 적합한 모델을 선택합니다. 그 해에 비슷한 훈련을 한 경험이 있어 긍정적인 결과를 보여 평가의 정확도는 좋은데 완성도가 좋지 않아 표본의 다양성이 부족하다고 판단하여 작업을 연기 더 나은 시간까지. 이제 다양한 샘플이 생성되고 있으며 이 작업으로 돌아갈 수 있습니다. 주요 아이디어는 기존 풀에서 최고를 선택하는 것이 아니라 MO이든 고정 지표이든 절대적인 기준에 따라 최고를 선택하는 것입니다.

Leaves는 이미 선택한 모델에서 작동합니다.

즉, 파일에서와 같이 n-모델을 사용하고 해당 메트릭을 NN에 대한 예측 변수로 사용하고 출력은 무엇입니까?

경험에 대한 피드백이 있습니까? 이러한 지표가 있는 유형은 모델이 작동하지만 그렇지 않을 것입니다.

그런 다음 이 쓰레기를 통해 새 모델을 필터링합니까? 음, NS가 MO 모델을 선택한 다음 자체적으로

 
막심 드미트리예프스키 :

즉, 파일에서와 같이 n-모델을 사용하고 해당 메트릭을 NN에 대한 예측 변수로 사용하고 출력은 무엇입니까?

경험에 대한 피드백이 있습니까? 이러한 지표가 있는 유형은 모델이 작동하지만 그렇지 않을 것입니다.

그런 다음 이 쓰레기를 통해 새 모델을 필터링합니까? 음, NS가 MO 모델을 선택한 다음 자체적으로

실험할 때 테스트 샘플에 대해 유사한 메트릭을 가져오고 그 결과를 시험(훈련과 무관) 샘플에 대상으로 넣었습니다. 목표는 이익, 드로다운(매수 및 매도 거래에 대해 별도로) 및 모델 자체의 지표에서 나온 다른 것이었습니다. 정확히 기억나지는 않습니다. 이제 테스트 샘플의 데이터에 훈련 샘플에서 더 많은 메트릭 지표를 추가해야 하며(그때는 Katbust에 대해 상당히 다른 결과를 가질 수 있다는 것을 몰랐습니다) 대상으로 실험해야 합니다. 더.

결과 모델에는 모델이 포함된 다른 샘플의 결과가 제공되었으며, 주요 결과는 수익성이 없는 모델의 우수한 필터링이었습니다.
 
알렉세이 비아즈미킨 :

실험할 때 테스트 샘플에 대해 유사한 메트릭을 가져오고 그 결과를 시험(훈련과 무관) 샘플에 대상으로 넣었습니다. 목표는 이익, 드로다운(매수 및 매도 거래에 대해 별도) 및 모델 자체의 지표에서 나온 다른 것이었습니다. 정확히 기억나지는 않습니다. 이제 테스트 샘플의 데이터에 훈련 샘플에서 더 많은 메트릭 지표를 추가해야 하며(그때는 Katbust에 대해 상당히 다른 결과를 가질 수 있다는 것을 몰랐습니다) 대상으로 실험해야 합니다. 더.

매우 이상하고 화려한 솔루션, 나는 그런 것을 본 적이 없으며 그것에 대해 뭐라 말하기가 어렵습니다.

하지만 그것이 작동한다면 좋은
 
막심 드미트리예프스키 :

매우 이상하고 화려한 솔루션, 나는 그런 것을 본 적이 없으며 그것에 대해 뭐라 말하기가 어렵습니다.

하지만 그것이 작동한다면 좋은

아이디어는 모델의 구조, 테스트 및 훈련 샘플에서의 동작에 따라 실제 작업에서 동작에 대한 특정 기대치를 설정할 수 있다는 것입니다.

이 방향은 매우 흥미롭지만 시간과 자원이 필요합니다. 반면에 예측변수를 공개적으로 교환하기 위해 여기에서 집합적으로 개발하는 것이 가능합니다.

미래의 작업에 대해 모델에서 아무 것도 말할 수 없다면 모든 ML은 시간 낭비입니다. 우연의 문제입니다 ...

 
알렉세이 비아즈미킨 :

아이디어는 모델의 구조, 테스트 및 교육 샘플에서의 동작에 따라 실제 작업에서 동작에 대한 특정 기대치를 설정할 수 있다는 것입니다.

이 방향은 매우 흥미롭지만 시간과 자원이 필요합니다. 반면에 예측변수를 공개적으로 교환하기 위해 여기에서 집합적으로 개발하는 것이 가능합니다.

미래의 작업에 대해 모델에서 아무 것도 말할 수 없다면 모든 ML은 시간 낭비입니다. 우연의 문제입니다 ...

시간이 지남에 따라 결과의 확산이 증가하므로 이를 고려해야 합니다. 모델이 새 트랜잭션에서 즉시 고장나는 경우에만 적합합니다. 그렇지 않으면 압축을 시도할 수 있습니다. 개선하는 가장 쉬운 방법은 정규화(catbust의 그라디언트 단계) 또는 단순히 재훈련을 하지 않는 것입니다.

사람들이 거래하는 방식을 보세요 - 온갖 종류의 마틴게일 헛소리. MO는 이미 일종의 이점을 제공합니다.

나는 지금 베이지안 모델의 복잡한 평가에 대해 쓰지 않습니다. 왜냐하면 나 자신이 이것을 사용하는 방법을 완전히 이해하지 못했기 때문에 여전히 연구하고 잘라야 할 것이 많이 있기 때문입니다.
 
막심 드미트리예프스키 :

시간이 지남에 따라 결과의 확산이 증가하므로 이를 고려해야 합니다. 모델이 새 트랜잭션에서 즉시 고장난 경우에만 적합합니다. 그렇지 않으면 압착을 시도할 수 있습니다.

나머지는 사람들이 거래하는 방식을 보세요 - 온갖 종류의 마틴게일 헛소리. MO는 이미 일종의 이점을 제공합니다.

어제 저는 Catboost가 나뭇잎(바이너리 트리)에서 노이즈를 생성한다는 것을 보여주었습니다. 이 노이즈는 제거할 수 있고 모델이 개선되었습니다. 나는 이 방향으로 조금 더 실험하여 필터링을 증가시켰고, 특정 임계값 이후에 역설적인 일이 발생한다는 것을 발견했습니다. 개선은 독립 샘플에서 중단되지만 테스트 및 훈련 샘플에서는 계속됩니다. 저것들. 실제로 모델은 가중치가 낮은 연결, 실제로 피팅에 따라 계속 작동하는 것으로 나타났으며 여기서 가중치가 올바르게 분포되지 않았거나 모델이 재훈련되어 실수로 백색 잡음(완전히 잡음은 아니지만 이진 트리의 덜 중요한 지표)에서 작동합니다. 짧은 시험 샘플에서 이러한 연결이 어디에서 왔는지 살펴보고 그 중요성을 확인할 수도 있다고 생각합니다.

 
알렉세이 비아즈미킨 :

어제 저는 Catboost가 나뭇잎(바이너리 트리)에서 노이즈를 생성한다는 것을 보여주었습니다. 이 노이즈는 제거할 수 있고 모델이 개선되었습니다. 나는 이 방향으로 조금 더 실험하여 필터링을 증가시켰고, 특정 임계값 이후에 역설적인 일이 발생한다는 것을 발견했습니다. 개선은 독립 샘플에서 중단되지만 테스트 및 훈련 샘플에서는 계속됩니다. 저것들. 실제로 모델은 가중치가 낮은 연결, 실제로 피팅에서 계속 작동하는 것으로 나타났습니다. 여기서 가중치가 올바르게 분포되지 않았거나 모델이 재학습되어 우발적으로 백색 잡음에 대해 작동하는 문제가 발생합니다(글쎄 , 덜 중요한 지표 이진 트리에서 노이즈가 아님). 짧은 시험 샘플에서 이러한 연결이 어디에서 왔는지 살펴보고 그 중요성을 확인할 수도 있다고 생각합니다.

어느 방향으로 파지 않는지 - 도처에 일부 환상적 "패턴"이 있을 것이며, 모든 현상에서 찾을 수 있습니다.

무엇보다도 많은 수의 "예측자"에 만족합니다. 따옴표는 어디에서 왔습니까? 90%는 쓰레기다.

 
막심 드미트리예프스키 :

나는 나무와 나뭇잎에 올라가지 않고 .. 모델 자체의 수준에서 모든 것을 할 수 있습니다.

어느 방향으로 파지 않는지 - 도처에 일부 환상적 "패턴"이 있을 것이며, 모든 현상에서 찾을 수 있습니다.

그래서 그냥 알려진 방식으로 작업

그리고 저는 수동 튜닝에서 영감을 얻었습니다. 저는 수동 마법에 대한 믿음을 잃었습니다.

리프 가중치에 대한 정확한 알고리즘은 모르지만 링크 자체뿐만 아니라 발견된 링크의 순서에 따라 달라진다고 생각합니다. 부스팅의 새 트리가 버그를 수정하면 버그 수정의 델타에 가중치가 주어지지만 새 링크는 수정 자체보다 더 가치가 있을 수 있습니다. 이상적으로는 연결과 해당 가중치를 다시 확인하고 결정과 관련된 이진 트리의 수를 확인해야 합니다. 총 확률이 0.5인 트리가 12개 있는 경우 연결이 약한 것일 수 있습니다. 반면에 나무 자체의 크기를 고려해야 합니다(저는 현재 잎에서 짧은 규칙을 감지하기 위해 깊이 4를 사용하고 있습니다). 귓가에 맴도는 생각, 답이 필요 없는 ...

사유: