트레이딩의 머신러닝: 이론, 모델, 실전 및 알고리즘 트레이딩 - 페이지 2799

 
elibrarius #:

Busting은 모든 열과 모든 예제에서 가장 좋은 분할을 검색합니다. 즉, 가장 좋은 조각을 사용합니다.
Schuch. 숲은 각 트리에 대해 절반의 조각과 절반의 예제(비율은 구성 가능)를 취한 다음 20~100개의 트리에서 평균을 구합니다. 200개의 칩 중 정보성 칩이 5개만 있는 경우 일부 트리에는 정보성 칩이 포함되지 않습니다(트리당 평균 2.5개 정보성 칩). 그리고 정보 트리의 일부를 노이즈 트리로 평균화합니다.
산발적 포레스트는 정보 칩이 많은 경우(고전적인 예시/ MO 문제에서처럼) 잘 작동합니다.

버스팅은 모든 칩을 검사하기 때문에 가장 유익한 칩을 찾아서 사용합니다. 따라서 버스팅의 로직에 따라 가장 좋은 칩을 스스로 선택하게 됩니다. 하지만 버스 팅에는 자체적인 문제도 있습니다.

저는 바우스팅에 대해 동의할 수 없습니다.

버스팅은 강력한 상관관계(예측력)를 가진 피처를 찾아낼 수 있습니다. 상관관계의 크기가 일정하다면 모든 것이 괜찮습니다. 특성 자체의 추정을 포기하고, 버스팅에서는 연관성 크기의 가변성을 추적할 수 없으며, 제 데이터에 따르면 연관성 추정의 SD는 10%에서 120까지 다양할 수 있습니다(제 특성에서). 바우스팅을 통해 무엇을 얻을 수 있을까요? 결국, 변동성이 더 큰 특성을 샘플링해야 합니다.

 
СанСаныч Фоменко #:

가치 평가 자체는 상대적인 것입니다.

사진을 반복해서 보여드리겠습니다.

나쁘고 절망적입니다.


다행히도 여러 개가 있다면 예측 오류가 30% 정도라고 말할 수 있습니다.


그리고 훈련 세트에서 칩이 쓰레기를 선호 할 수 있으므로 쓰레기를 제거해야 최적의 값을 찾기가 더 쉽습니다.

클래스 분할에서 상호 정보가 많을수록 분포가 덜 겹치는 것은 논리적으로 당연합니다.

분포는 여전히 새로운 데이터에서 떠돌아다닐 것입니다.

저는 이러한 조작에 크게 의존하지 않고 시도해 볼 아이디어로만 사용합니다.
 
elibrarius #:

버스팅은 모든 열과 모든 예제에서 가장 좋은 분할을 검색합니다. 즉, 가장 좋은 조각을 사용합니다.
Schuch. 숲은 각 나무에 대해 절반의 조각과 절반의 예제(비율은 구성 가능)를 취한 다음 20~100개의 나무에서 평균을 찾습니다. 200개의 칩 중 정보성 칩이 5개만 있는 경우 일부 트리에는 정보성 칩이 포함되지 않습니다(트리당 평균 2.5개 정보성 칩). 그리고 정보 트리의 일부를 노이즈 트리로 평균화합니다.
산발적 포레스트는 정보 칩이 많은 경우(고전적인 예시/ MO 문제에서처럼) 잘 작동합니다.

버스팅은 모든 칩을 검사하기 때문에 가장 유익한 칩을 찾아서 사용합니다. 따라서 버스팅의 로직에 따라 가장 좋은 칩을 스스로 선택하게 됩니다. 하지만 버스팅에도 나름의 문제가 있습니다.

논리적으로
 
Maxim Dmitrievsky #:
클래스로 나눌 때 상호 정보가 많을수록 분포가 겹치는 부분이 줄어드는 것은 논리적입니다.

분포는 여전히 새 데이터에 떠 있습니다.

저는 이러한 조작에 크게 의존하지 않을 것이며, 단지 시도해 볼 아이디어일 뿐입니다.

sd의 가변성을 눈치채지 못하셨나요?

 
СанСаныч Фоменко #:

부스팅에 동의할 수 없습니다.

부스팅은 강력한 상관관계(예측력)를 가진 특징을 찾아낼 수 있습니다. 관계의 크기가 일정하다면 모든 것이 괜찮습니다. 특성 자체의 추정을 포기하고 부스팅에서는 연관성 크기의 가변성을 추적할 수 없으며, 제 데이터에 따르면 연관성 추정치의 SD는 10%에서 120까지 다양할 수 있습니다(제 특성에서). 바우스팅을 통해 무엇을 얻을 수 있을까요? 결국, 변동성이 더 큰 특성을 샘플링해야 합니다.

모든 MO 모델은 패턴을 찾습니다. 부스팅은 훈련에서 가장 적합한 특성을 자동으로 선택합니다.

시장 데이터와 같이 변동성이 있는 경우에는 추가적인 작업을 수행해야 합니다. 저는 워킹 포워드를 실험해 보았습니다. 하지만 결과만 보여줄 뿐 표지판 선택에는 영향을 미치지 않습니다. 그리고 패턴이 없거나 패턴이 변경되는 경우 미래에 어떤 기능이 작동할지 예측할 수 없습니다. 유일한 기회는 즉시 변경되지 않고 패턴이 한동안 작동한다는 것입니다.

 
Aleksey Vyazmikin #:

부스팅이 전능하지 않다는 것을 증명하는 샘플을 사용하여 스레드를 만들었습니다.

부스팅 문제가 아니라 데이터 가변성 문제라고 생각합니다. 데이터에 대한 훈련을 해보겠습니다.
 
elibrarius #:
부스트 문제가 아니라 데이터 가변성 문제인 것 같습니다. 데이터로 훈련해 보겠습니다.

물론 알고리즘 자체가 아니라 데이터가 문제입니다.

한번 시도해 보시고 어떤 결과가 나오는지 확인해 보세요!

이 샘플은 훈련이 어렵다는 점에서 비교적 독특해서 훈련 외에는 무언가가 작동합니다.

아직 실험 중입니다.

 
Aleksey Vyazmikin #:

이 샘플은 훈련 외에는 작동하는 것을 훈련하기 어렵다는 점에서 비교적 독특합니다.

어떻게 독특한가요? 시장 데이터는 일반적으로 트레이닝 외에는 사용할 수 없습니다. 몇 가지 질문을 드렸습니다.

 
elibrarius #:

고유한 데이터인가요? 교육 외에는 시장 데이터는 일반적으로 작동하지 않습니다. 몇 가지 질문을 드렸습니다.

글쎄요, 작동하지 않고 보통은 작동하지만 잘 작동하지는 않습니다.

여기서 특이한 점은 CatBoost 모델이 모든 예시를 0.5 미만의 확률에 할당하는 것을 선호하기 때문에 목표 "1"을 분류하지 않으며 0에서 0.5 사이의 값도 잘 분포되지 않는다는 것입니다 - 스레드에 모델 스크린샷이 있습니다.

 
Aleksey Vyazmikin #:

여기서 특이한 점은 CatBoost 모델이 모든 예시를 0.5 미만의 확률로 할당하는 것을 선호하기 때문에 목표 "1"을 분류하지 않으며 0에서 0.5 사이의 값도 매우 잘 분포되지 않는다는 것입니다 - 스레드에 모델의 스크린샷이 있습니다.

여기서 특이한 점은 클래스의 불균형이 심한 것 같습니다. 100개의 예에 대해 한 클래스의 레이블이 5개이고 다른 클래스의 레이블이 95개라면 어떻게 모델이 첫 번째 클래스에 대해 0.5 이상의 확률을 줄 수 있습니까? 이것은 모델에 대한 질문이 아니라 데이터 세트의 작성자에게 질문하는 것입니다...?

사유: