트레이딩의 머신러닝: 이론, 모델, 실전 및 알고리즘 트레이딩 - 페이지 2800

 
mytarmailS #:

특이한 점은 클래스 간 불균형이 심하다는 것인데, 100개의 예제에서 한 클래스의 점수가 5점이고 다른 클래스의 점수가 95점이라면 어떻게 모델이 첫 번째 클래스에 0.5 이상의 확률을 줄 수 있을까요? 모델에 대한 질문이 아니라 데이터 세트 작성자에게 질문하는 것이 맞습니다.

일등석이 30%가 넘습니다. 그리고 네, 그럴 수 있습니다. 저는 문제가 없다고 봅니다. 드물기는 하지만 '0'보다 '1'을 예측할 가능성이 더 높은 하나의 규칙 목록을 찾는 것으로 충분합니다.

게다가 아무도 클래스의 균형을 맞춰 데이터 세트를 변경하는 것을 막지 않습니다.
 
Aleksey Vyazmikin #:

퍼스트 클래스가 30%가 넘어요. 그리고 네, 어쩌면 문제가 없을 수도 있습니다. 드물기는 하지만 '0'보다 '1'을 예측할 가능성이 더 높은 하나의 규칙 목록을 찾는 것으로 충분합니다.

게다가 클래스의 균형을 맞춰서 데이터 집합을 변경할 수 있는 사람은 아무도 없습니다.

캣버스트에 대해 불평하셨는데, 캣버스트는 트리\규칙\리스트가 아닙니다.

 
NS만 밸런싱이 필요합니다. 나무 모델은 밸런싱이 필요하지 않습니다.
 
mytarmailS #:

캣버스터에 대해 불만을 제기하셨는데, 캣버스터는 나무가 아닙니다.

불만은 알고리즘에 대한 것이 아니라 이미 씹은 데이터를 공급하는 것이 더 낫다는 사실에 대한 불만입니다.

이전에 당신은 어떻게 든 그것을 이해했습니다 ...

거래, 자동 거래 시스템 및 테스트 거래 전략에 대한 포럼.

트레이딩의 기계 학습 : 이론, 모델, 실습 및 알고리즘 트레이딩

mytarmailS, 2016.10.29 11:22 오후.

가상의 상황....

설명의 편의를 위해 100개의 잠재적 예측 변수가 있는데 이를 지표라고 가정해 보겠습니다.

이 모든 예측 변수에서 수익성 있는 상황이 하나만 있다는 것을 처음에 알고 있다고 가정하면, RSI가 90을 넘고 스토캐스틱이 0 이하가 된 경우입니다 (물론 천장에서의 상황), 이 상황은 90 %의 확률로 가격 하락을 제공하고 다른 모든 예측자는 완전한 노이즈이며 예측자 RSI 및 확률론의 다른 모든 상황도 완전한 노이즈이며 수백 가지의 다른 상황이 있습니다....

따라서 99.9%의 잡음에 0.01%의 유용한 신호가 있습니다.

어떤 기적이 일어나서 MO가 98개의 예측 변수를 모두 제거하고 RSI와 확률적 두 개만 남았다고 가정해 보겠습니다.

RSI에는 수백 가지 상황 RSI>0, RSI>13, RSI<85, RSI=0, RSI<145, ............. 그래서 수백, 수백, 확률론에서는 상황이 적지 않고, 모든 가격 변동을 인식하도록 MO를 훈련시키기 때문에 작업 상황은 하나뿐이며, MO는 RSI와 확률론에 존재하는 모든 가능한 상황을 고려하여 모델을 구축하고 이러한 상황에서 작동 할 확률은 거의 0이지만 MO는 실제 소음이라는 사실에도 불구하고이를 고려하고 일부 모델을 구축해야하며 하나의 작업 상황이 수백 개의 다른 솔루션 사이에서 길을 잃을 것입니다. 재교육입니다.....

그럼, 마침내 어떻게 얻었나요?


모델 표현과 목표 비율이 어떤 관련이 있는지 정당화하십시오. 저는 모델을 현대화된 시트, 즉 규칙으로 표현할 수 있다고 말하고 있습니다.

 
elibrarius #:
NS만 밸런싱이 필요합니다. 트리 모델에는 밸런싱이 필요하지 않습니다.

알고리즘 내부의 카운터가 작동하고 할당된 대상의 수를 결정하기 때문입니다...

 
Aleksey Vyazmikin #:

여기서 특이한 점은 CatBoost 모델이 모든 예시를 0.5 미만의 확률로 할당하는 것을 선호하기 때문에 목표인 '1'을 분류하지 않으며 0과 0.5 사이의 값도 잘 분포되지 않는다는 점입니다.

목표인 5개 레이블("A")과 95개 레이블("B")의 예가 100개 있는 경우.

이 모델은 0.5보다 큰 레이블 "A"에 대한 확률을 제공할 수 없습니다.

일부 개별 규칙에서는 가능하지만, 게시물에서 catbust라고 했는데 이것은 단일 규칙이 아니라 모델 (규칙 예측의 합계) 이기 때문에 그 합이 그렇게 높은 확률을 갖지 않습니다.


모델이 마크 "A"라고 확신하더라도. "B"의 규칙이 훨씬 더 크기 때문에 마크 "A"의 규칙 확률의 합이 "B"의 규칙 확률의 합에 의해 재정의됩니다.

 
elibrarius #:
NS만 밸런싱이 필요합니다. 나무 모델은 밸런싱이 필요하지 않습니다.

https://stats.stackexchange.com/questions/340854/random-forest-for-imbalanced-data

random forest for imbalanced data?
random forest for imbalanced data?
  • 2018.04.16
  • MSilvy MSilvy 139 1 1 silver badge 8 8 bronze badges
  • stats.stackexchange.com
I have a dataset where yes=77 and no=16000, a highly imbalanced dataset. My plan was to identify the most important variables influencing the response variable using random forest and then develop a logistic regression model using the selected variable. I am planning to use...
 
mytarmailS #:

대상 100개 예시당 5개 마크("A")와 95개 마크("B")가 있는 경우

이면 모델은 0.5보다 큰 레이블 "A"에 대한 확률을 제공할 수 없습니다.

일부 개별 규칙에서는 가능하지만 게시물에 catbust라고 되어 있고 이것은 단일 규칙이 아닌 모델 (규칙 예측의 합계) 이며 합계는 그렇게 높은 확률을 갖지 않습니다.


모델이 마크 "A"라고 확신하더라도. "B"의 규칙이 훨씬 더 크기 때문에 마크 "A"의 규칙 확률의 합이 "B"의 규칙의 합보다 과대 예측될 것입니다.

이 모든 것은 예측자와 모델의 트리 수에 따라 달라집니다.

저는 훈련을 위해 CatBoost 모델을 고집하지 않습니다.

 

https://www.mql5.com/ru/blogs/post/723619

16000개 중 77개는 너무 적습니다. 77개의 예는 대표성을 갖기 어렵습니다.
유일한 방법은 트리를 아주 깊이 연구하는 것입니다.

Нужна ли деревьям и лесам балансировка по классам?
Нужна ли деревьям и лесам балансировка по классам?
  • www.mql5.com
Я тут читаю: Флах П. - Машинное обучение. Наука и искусство построения алгоритмов, которые извлекают знания из данных - 2015 там есть несколько страниц посвященных этой теме. Вот итоговая: Отмеченный
 
elibrarius #:

https://www.mql5.com/ru/blogs/post/723619

16000개 중 77개는 너무 적습니다. 77개의 예는 대표성을 갖기 어렵습니다.
유일한 방법은 나무를 아주 깊이 연구하는 것입니다.

책은 어때요?