I'm currently using XGBoost on a data-set with 21 features (selected from list of some 150 features), then one-hot coded them to obtain ~98 features. A few of these 98 features are somewhat redundant, for example: a variable (feature) $A$ also appears as $\frac{B}{A}$ and $\frac{C}{A}$. My questions are : From what I understand, the model is...
CatBoost는 분할 또는 트리 구축의 각 반복에서 예측자의 수를 무작위로 선택하는데, 이는 설정에 따라 다르며, 상관관계가 강한 예측자가 무작위로 들어갈 확률이 더 높다는 것을 의미합니다.
예측자를 무작위로 선택하는 것이 확실한가요? 저는 캣버스팅이 아니라 기본 캣버스팅 예제의 코드를 보고 있었어요. 모든 예측자가 거기서 사용되었습니다. 즉, 가장 좋은 것이 사용됩니다. 상관관계가 있는 것은 그 옆에 있지만 약간 더 나쁩니다. 그러나 다른 분할 수준이나 보정 트리에서는 상관 관계가있는 다른 예측자가 더 좋을 수 있습니다.
그렇다면 이 과잉의 요점은 무엇일까요?
상관관계가 0.9보다 큰 특성을 필터링하기 위해서입니다.
0.8보다 큰 상관관계를 가진 특성을 걸러내는 것입니다.
상관관계가 0.7보다 큰 특징을 걸러냅니다.
상관관계가 0.6보다 큰 특징을 걸러냅니다.
....
..
한 번만 상영하면 끝나는데 무슨 소용이 있는지 모르겠네요.
"한 번만"이란 무슨 뜻입니까? 샘플이 많기 때문에 체계적인 접근 방식이 필요합니다. 유용하다면 즉시 작동하고 더 빨리 작동 할 수 있도록 MQL5에서 수행 할 것입니다.
========================================
게다가 나무는 상관 관계에 신경 쓰지 않는 것으로 알려져 있습니다.
모델을 가져 와서 훈련하고 모델에서 중요한 기능을 선택하고 걱정하지 마세요....
당신은 말도 안되는 일을하지 않고, 당신과 다른 사람들의 시간을 낭비하지 않습니다.
CatBoost는 분할 또는 트리 구축의 각 반복에서 예측자의 수를 무작위로 선택합니다 - 설정에 따라 다르며, 이는 상관 관계가 강한 예측자가 무작위로 들어갈 가능성이 더 높다는 것을 의미합니다(즉, 그 자체가 아니라 그들이 전달하는 정보에 따라).
저는 지금 포럼 스레드에서도 이 방법이 해당 샘플에 적합한지 알아보기 위해 이 작업을 하고 있습니다.
적어도 이 접근 방식을 사용하면 모델을 더 다양하게 만들 수 있어 샘플에서 더 많은 상황을 설명할 수 있고 모델 패키지를 더 많이 사용할 수 있을 것으로 기대합니다.
현재 포럼 스레드에서 해당 샘플에적합한지 확인하는 작업을 하고 있습니다.
그렇지 않습니다.
의미가 없습니다.
그 샘플이 절망적이라고 생각하세요?
CatBoost는 분할 또는 트리 구축의 각 반복에서 예측자의 수를 무작위로 선택하는데, 이는 설정에 따라 다르며, 상관관계가 강한 예측자가 무작위로 들어갈 확률이 더 높다는 것을 의미합니다.
네, 그리고 부스트 제작자는 이 사실을 모릅니다.
그들은 또한 상관 관계로 징후를 걸러 낼 수 있다는 것을 모릅니다))) 그들이 어떻게 알겠습니까, 그 방법은 50 년 밖에되지 않았습니다))))
당신은 정말로 당신이 그들보다 더 많이 알고 있다고 믿습니까?
그 샘플이 절망적이라고 생각하십니까?
물론... 부스트는 모든 것을 고려합니다.
그리고 저를 힘들게하지 마십시오. 아마도 당신보다 어릴 것입니다.)
그 샘플이 희망이 없다고 생각하시나요?
https://datascience.stackexchange.com/questions/12554/does-xgboost-handle-multicollinearity-by-itself
의사 결정 트리는 본질적으로 다중 선형성에 영향을 받지 않습니다. 예를 들어, 99% 상관 관계에 있는 두 함수 ,
함수가 두 개 있는 경우, 트리는 파티션 결정을 내릴 때 그 중 하나만 선택합니다. 다른 모델(
과 같은 다른 모델은 두 함수를 모두 사용합니다.
부스팅 트리는 별도의 의사 결정 트리를 사용하기 때문에 다중 공선성의 영향을 받지 않습니다.
========
이 접근 방식을 사용하여 각 함수의 중요성을 평가하고 최종 모델에 가장 적합한 함수만 유지할 수 있습니다.
실제로 제가 앞서 말씀드린 것은 다음과 같습니다.
네, 그런 부스트의 제작자는 그걸 몰라요....
그들은 또한 상관 관계로 징후를 걸러 낼 수 있다는 것을 모릅니다)) 어떻게 알 수 있습니까, 그 방법은 50 년 밖에되지 않았습니다))).
여러분은 정말 그들보다 더 많이 알고 있다고 생각하시나요?
그렇습니다. 부스트는 이 모든 것을 고려합니다.
그리고 그런 소리 하지 마세요. 전 아마 당신보다 어리겠죠.)
모델의 결과를 분석해 보면 시간 지연이 조금 있더라도 상관관계가 높은 예측 변수, 예를 들어 시간 기반 예측 변수를 포착하는 것을 볼 수 있습니다.
저는 그들이 모든 것을 완벽하게 잘 알고 있다고 생각하지만, 수십 년 된 진부한 표현에 대해서는 말하지 않아야 한다고 생각합니다....
"당신"또는 "당신"에 대해-모욕적 인 메시지를 전달하지 않고 건설적인 대화를 방해하지 않는다면 모든 사람이 그에게 편리한대로 대담 자에게 전화하는 것이 더 낫다고 생각합니다.
https://datascience.stackexchange.com/questions/12554/does-xgboost-handle-multicollinearity-by-itself
의사 결정 트리는 본질적으로 다중 선형성에 영향을받지 않습니다. 예를 들어 두 가지 기능이있는 경우,
함수가 두 개 있는 경우 트리는 분할 여부를 결정할 때 그 중 하나만 선택합니다. 다른 모델,
로지스틱 회귀와 같은 다른 모델은 두 함수를 모두 사용합니다.
부스팅 트리는 별도의 의사 결정 트리를 사용하기 때문에 다중 공선성의 영향을 받지 않습니다.
========
이 접근 방식을 사용하여 각 기능의 중요성을 평가하고 최종 모델에 가장 적합한 기능만 유지할 수 있습니다.
실제로 제가 앞서 말씀드린 것은 다음과 같습니다.
그게 문제입니다, 그것은 선택할 것입니다 - 예 하나,하지만이 선택은 몇 번이나 통과 할 것입니다....
CatBoost는 xgboost와 약간의 차이가 있으며 샘플마다 다른 결과가 있으며 평균적으로 CatBoost는 더 빠르고 더 좋지만 항상 그런 것은 아닙니다.
또한 유사한 예측 변수를 그룹화하고 그중에서 최상의 옵션을 선택하는 나만의 방법이 있으며 상관 관계 형태의 대조군이 필요합니다...
CatBoost는 분할 또는 트리 구축의 각 반복에서 예측자의 수를 무작위로 선택하는데, 이는 설정에 따라 다르며, 상관관계가 강한 예측자가 무작위로 들어갈 확률이 더 높다는 것을 의미합니다.
예측자를 무작위로 선택하는 것이 확실한가요? 저는 캣버스팅이 아니라 기본 캣버스팅 예제의 코드를 보고 있었어요. 모든 예측자가 거기서 사용되었습니다. 즉, 가장 좋은 것이 사용됩니다. 상관관계가 있는 것은 그 옆에 있지만 약간 더 나쁩니다. 그러나 다른 분할 수준이나 보정 트리에서는 상관 관계가있는 다른 예측자가 더 좋을 수 있습니다.