혼돈에 패턴이 있을까요? 찾아보겠습니다! 특정 샘플의 예에 대한 머신 러닝. - 페이지 22

 
Aleksey Vyazmikin #:
하지만 이 모델을 얻었습니다

.

시험에서 가장 좋은 모델이 미래에 수익성이 있기를 바랄 필요는 없습니다. 평균 또는 대다수가 수익성이 있어야 합니다.

테스터 옵티마이저에서와 마찬가지로 최고의 모델은 99%의 시간 동안 앞으로 자두가 될 것입니다.

 
elibrarius #:

분할은 양자까지만 이루어집니다. 양자 내부의 모든 것은 동일한 값으로 간주되며 더 이상 분할되지 않습니다.

요점은 각 분할이 양자 테이블에 따라 발생하는 다음 분할의 샘플을 줄이지 만 매번 메트릭이 변경된다는 것입니다.

모델을 훈련할 때 각 분할 후에 새로운 양자 테이블을 만드는 알고리즘이 있습니다.

엘리바리우스 #:

나는 당신이 양자에서 무언가를 찾고있는 이유를 이해하지 못합니다. 주요 목적은 계산 속도를 높이는 것입니다 (2 차 목적은 더 이상 분할이 없도록 모델을로드 / 일반화하는 것이지만 플로트 데이터의 깊이를 제한 할 수도 있습니다) 나는 그것을 사용하지 않고 플로트 데이터에 대한 모델을 수행합니다. 65000개의 부품에 대해 수량화를 수행했는데 결과는 수량화하지 않은 모델과 완전히 동일합니다.

분명히 효율성이 보이기 때문에 사용하는 것입니다. 정량화의 요점은 데이터를 일반화하여 범주형 특징을 만드는 것이므로 전체 샘플의 2~5% 정도는 정량화하는 것이 바람직하다고 봅니다. 실험이 완료되지 않았기 때문에 모든 예측 변수에 대해 이것이 사실이 아닐 수도 있습니다.

엘리바리우스 #:

데이터를 두 섹터로 나누는 1 분할이 있을 것입니다. 하나는 모두 0이고 다른 하나는 모두 1입니다. 퀀타라는 것이 무엇인지 모르겠지만 퀀타는 양자화 후 얻은 섹터의 수라고 생각합니다. 아마도 말씀하신 것처럼 분할의 수일 것입니다.

네, 분할에 대해 당신이 옳습니다. 나는 오히려 웃었습니다. 일반적으로 CatBoost에는 양자 테이블이라는 개념이 있으며 정확히 분할이 있으며 나 자신은 세그먼트 (두 개의 좌표)를 사용하며 아마도 양자 또는 양자 세그먼트라고 할 수 있습니다. 나는 실제 용어를 모르지만 나 자신을 위해 그렇게 부릅니다.

 
elibrarius #:

시험에서 가장 좋은 모델이 미래에 수익성이 있기를 바랄 필요는 없습니다. 평균 또는 대부분이 수익성이 있어야 합니다.

테스터 옵티마이저에서와 마찬가지로 최고의 모델은 99%의 시간 동안 앞으로 매화가 될 것입니다.

이제 목표는 우리가 열망할 수 있는 잠재력을 이해하는 것입니다. 저는 이러한 모델에 대해서는 거래하지 않을 것입니다.

그리고 분할 선택의 변동성이 줄어들어 선택되는 모델의 수가 늘어날 것으로 예상합니다.

 
Aleksey Vyazmikin #:

그리고 분할 선택의 변동성이 줄어들어 선별되는 모델의 수가 더 늘어날 것으로 예상합니다.

제가 틀린 것으로 밝혀졌습니다. 모델 수는 79개에 불과하고, 평균 수익은 -1379입니다.

 
elibrarius #:

시험에서 가장 좋은 모델이 미래에 수익성이 있기를 바랄 필요는 없습니다. 평균 또는 대부분이 수익성이 있어야 합니다.

테스터 옵티마이저에서와 마찬가지로 최고의 모델은 99%의 시간 동안 앞으로 매화가 될 것입니다.

그건 그렇고, 나는 훈련 중이 아닌 다른 것, 즉 이전에 잘라낸 샘플을보기로 결정했습니다.

다음은이 데이터 (2014-2018)에서 동일한 모델이 어떻게 보이는지입니다.

잔액

적어도 45도 자두는 나쁘지 않다고 생각합니다. 즉, 여전히 좋은 모델이 계속 좋을 것으로 기대할 수 있을까요?

 
Aleksey Vyazmikin #:

그건 그렇고, 여기에서는 훈련에 참여하지 않은 다른 샘플, 즉 앞서 잘라낸 샘플을 살펴보기로 했습니다.

이 데이터(2014~2018년)에서도 동일한 모델이 다음과 같이 보입니다.

적어도 45도 자두는 나쁘지 않다고 생각합니다. 즉, 여전히 좋은 모델이 계속 좋을 것으로 기대할 수 있을까요?

아마도)

 
elibrarius #:

아마도)

아아, 나는 모든 모델 (기차 및 시험 샘플에서 3000 개 이상의 수익을 올린 모델)을 확인했습니다. 39 개는 새롭고 오래된 샘플에서 18 개 (46 %)만 수익성있는 결과를 보여주었습니다. 이것은 확실히 1/3 이상이지만 여전히 충분하지 않습니다.

이것은 일반 시험 샘플과 폐기된 샘플(2014~2018년) 사이의 선택된 모델의 잔액 차이입니다.

 
Aleksey Vyazmikin #:

아아, 나는 모든 모델 (기차 및 시험 샘플에서 3000 개 이상의 수익을 올린 모델)을 확인했습니다. 39 개는 새로운 오래된 샘플에서 18 개 (46 %)만 수익성있는 결과를 보여주었습니다. 이것은 확실히 1/3 이상이지만 여전히 충분하지 않습니다.

이것은 일반 시험 샘플과 폐기 된 샘플 (2014-2018) 사이의 선택된 모델의 잔액 차이입니다.

일반적으로 아직 50/50도 아닙니다 (수익 측면에서). 이미 목표와 관련된 새로운 기능을 생각해 내기가 어렵다면 목표를 변경해야 할까요?
 
elibrarius #:
일반적으로 50/50조차도 아직 (수익 측면에서) 잘 풀리지 않습니다. 목표와 관련된 새로운 기능을 생각해 내기가 어렵다면 목표를 변경해야 할까요?

새로운 예측자를 발명 할 수 있고 여전히 아이디어가 있지만 탐욕의 원칙을 고려하여 훈련이이를 기반으로 할 것인지는 확실하지 않습니다.... 아마도 우리는 알려진 알고리즘을 자체적으로 변형하기 위해 모델 훈련에 대한 접근 방식을 변경해야 할 것입니다.

목표는 변경할 수 있지만 어떤 아이디어가 있나요?

 

여기서 설명한 여섯 번째 단계의 샘플을 가져와 시험과 테스트를 바꿨습니다.

실제로 훈련은 동일한 규칙에 따라 동일한 씨앗으로 수행되었지만 연대순으로 나중에 다른 샘플이 새 나무 생성을 중지하는 역할을했습니다.

결과적으로 테스트 (이전 시험) 샘플의 평균 수익 값은 -730.5입니다. 테스트 샘플에 대한 연대순 훈련 동안 평균 값은 982.5이고 시험 (이전 시험) 샘플의 평균 잔액 값은 922.49 포인트 였고 초기 변형에서는 -1114.27 포인트 였음을 상기시켜 드리고자합니다.

그림 1 시험 샘플로 사용했을 때 원래 시험 샘플의 밸런스 분포 히스토그램.

그림 2 시험 샘플로 사용했을 때 테스트 샘플의 잔액 분포 히스토그램.

샘플을 시간순으로 배열했을 때 모델의 트리 평균값은 11.47, 두 샘플의 순서를 변경했을 때 모델의 트리 평균값은 9.11로, 즉 샘플이 바뀐 후 패턴이 덜 명확해져 설명에 필요한 트리 수가 줄어든다고 할 수 있습니다.

동시에 실제로 샘플링을 중지하는 제어로 인해 패턴의 질적 수준이 높아졌고 위에서 언급했듯이 평균적으로 더 많은 수익성이 높아졌습니다.

한편으로 실험은 샘플에 수년간 지속되는 유사한 패턴이 포함되어 있지만 동시에 일부는 덜 뚜렷해 지거나 이벤트 결과의 부정적인 영역으로 확률이 이동한다는 것을 확인했습니다. 이전에 예측 변수 자체뿐만 아니라 모델에서의 사용도 학습 결과에 영향을 미친다는 사실이 밝혀진 바 있습니다.

결과적으로 우리가 가진 것은

1. 대표성이 없는 샘플.

2. 모델을 구축할 때 안정적인 패턴을 '가릴' 수 있는 임의의 패턴 또는 모델 구축 방법 자체가 충분히 신뢰할 수 없는 경우.

3. 샘플 영역에 대한 모델 결과의 의존성(이전 샘플 열차는 시험 역할에서 좋은 결과를 보임).