이것이 CatBoost에 대한 샘플을 양자화하는 방법입니다. 이러한 경계를 따라 열거/훈련이 발생합니다.
내 실험에 따르면 각 예측자에 대해 개별적으로 그리드를 선택해야 하며 품질 향상이 관찰 되지만 CatBoost는 이를 수행할 수 없으며 그리드를 구축하는 방법을 모르고 그리드를 구축하고 csv에 업로드해야 합니다. , 그런 다음 대상의 동작을 평가하기 위해 반복합니다. 이것은 매우 유망한 기능이라고 생각하지만 코드는 MQL로 번역되어야 합니다.
그리고 UniformAndQuantiles 에 따르면 이론은 알지만 실생활에서는 어떻게 되는지, 즉 우리가 이 방법으로 양자화하는 영역과 그런 방법으로 영역을 결정하는 방법을 이해하지 못합니다. 나는 여기에서 이해가 안 되거나 한 가지 방법으로 중간까지, 그리고 다른 방법으로 이해할 수 없지만 이것은 미친 짓입니다.
양자화하는 동안 목표와 값 집합 간의 관계를 평가하는 방법을 모릅니다. 그리드는 가능한 경우 모든 예측 변수에 대해 주어진 수의 세그먼트로 분할되며 항상 필요한 것은 아닙니다. 그러나 CatBoost 는 내가 사용하는 제공된(별도 준비된) 양자화 그리드와 함께 작동할 수 있습니다.
양자화하는 동안 목표와 값 집합 간의 관계를 평가하는 방법을 모릅니다. 그리드는 가능한 경우 모든 예측 변수에 대해 주어진 수의 세그먼트로 분할되며 항상 필요한 것은 아닙니다. 그러나 CatBoost는 내가 사용하는 제공된(별도 준비된) 양자화 그리드와 함께 작동할 수 있습니다.
고유하면 비뚤어집니다. 예를 들어, 100개 행만 있고 그 중 10개는 고유하며 그 중 2개는 45개 행이고 8개는 1입니다. 5개 퀀트로 나누기 - 5x1만 선택되고 가장 대표적인 2개( 45개)는 건너뜁니다.
다양한 접근 방식은 다양한 예측 변수에서 다르게 효율적으로 작동하므로 최상의 선택 방법을 이해하기 위해 다양한 알고리즘을 사용하고 싶습니다. 코드를 MT5로 번역할 수 있다면 연구를 공유하겠습니다.
균일한 분포를 사용하면 이해할 수 있습니다. 시작 부분에 고유한 값의 배열을 만들고 잘라냅니다.
그러나 그리드를 분할하는 다른 방법이 있습니다.
균일 - 우리는 단순히 값의 범위를 나눕니다. 예를 들어 열의 값은 0에서 100, 양자 단계 = 100/255 = 0.39이지만 행이 아니라 값입니다. 저것들. 0.0.39,0.78 .... 99.61
그런 다음 열에 실제로 존재하는 값을 찾아 중복을 제거할 수 있습니다.UniformAndQuantiles - 방법 1에서 255/2 = 127 quant의 절반을 찾고 방법 2에서 128을 찾아 하나의 배열로 결합합니다.
나머지 3 가지 방법은 복잡합니다. 나는 보지 않았습니다.
이것이 CatBoost에 대한 샘플을 양자화하는 방법입니다. 이러한 경계를 따라 열거/훈련이 발생합니다.
내 실험에 따르면 각 예측자에 대해 개별적으로 그리드를 선택해야 하며 품질 향상이 관찰 되지만 CatBoost는 이를 수행할 수 없으며 그리드를 구축하는 방법을 모르고 그리드를 구축하고 csv에 업로드해야 합니다. , 그런 다음 대상의 동작을 평가하기 위해 반복합니다. 이것은 매우 유망한 기능이라고 생각하지만 코드는 MQL로 번역되어야 합니다.
1) 이렇게 됩니다. 별도의 열 을 가져와서 정렬하고 quanta로 나눕니다.
2) 그것이 바로 그가 하는 일입니다. 당신이 생각하는 것은 무엇입니까?
균일 - 우리는 단순히 값의 범위를 나눕니다. 예를 들어 열의 값은 0에서 100, 양자 단계 = 100/255 = 0.39이지만 행이 아니라 값입니다. 저것들. 0.0.39,0.78 .... 99.61
그런 다음 열에 실제로 존재하는 값을 찾아 중복을 제거할 수 있습니다.UniformAndQuantiles - 방법 1에서 255/2 = 127 quant의 절반을 찾고 방법 2에서 128을 찾아 하나의 배열로 결합합니다.
나머지 3 가지 방법은 복잡합니다. 나는 보지 않았습니다.
복잡하고 흥미롭습니다. :)
그리고 UniformAndQuantiles 에 따르면 이론은 알지만 실생활에서는 어떻게 되는지 이해가 되지 않습니다. 나는 여기에서 이해가 안 되거나 한 가지 방법으로 중간까지, 그리고 다른 방법으로 이해할 수 없지만 이것은 미친 짓입니다.
올바른 파티션을 선택하면 결과에 큰 영향을 미칩니다.
다음은 리콜에 대한 예입니다 - 최대 50% 퍼짐 - 이것은 저에게 필수적입니다.
512 단위로 테두리를 8에서 512로 늘리면 히스토그램이 잘못되었지만 내 이름이 이것을 약간 방해합니다.
그리드 선택을 실험하는 동안 논리를 따르기 위해 다른 그리드가 필요하고 적합하지 않은 다른 예측 변수가 있다는 것은 이미 분명합니다.
65535 퀀트를 사용하고 걱정하지 마십시오. 계산은 가능한 한 정확할 것입니다.
복잡하고 흥미롭습니다. :)
그리고 UniformAndQuantiles 에 따르면 이론은 알지만 실생활에서는 어떻게 되는지, 즉 우리가 이 방법으로 양자화하는 영역과 그런 방법으로 영역을 결정하는 방법을 이해하지 못합니다. 나는 여기에서 이해가 안 되거나 한 가지 방법으로 중간까지, 그리고 다른 방법으로 이해할 수 없지만 이것은 미친 짓입니다.
예
1) 이렇게 됩니다. 별도의 열 을 가져와서 정렬하고 quanta로 나눕니다.
2) 그것이 바로 그가 하는 일입니다. 당신이 생각하는 것은 무엇입니까?
양자화하는 동안 목표와 값 집합 간의 관계를 평가하는 방법을 모릅니다. 그리드는 가능한 경우 모든 예측 변수에 대해 주어진 수의 세그먼트로 분할되며 항상 필요한 것은 아닙니다. 그러나 CatBoost 는 내가 사용하는 제공된(별도 준비된) 양자화 그리드와 함께 작동할 수 있습니다.
65535 퀀트를 사용하고 걱정하지 마십시오. 계산은 가능한 한 정확할 것입니다.
아니, 의미가 있는 모델이 아닌 심플한 핏이 될 것이다!
예
아주 이상한.
양자화하는 동안 목표와 값 집합 간의 관계를 평가하는 방법을 모릅니다. 그리드는 가능한 경우 모든 예측 변수에 대해 주어진 수의 세그먼트로 분할되며 항상 필요한 것은 아닙니다. 그러나 CatBoost는 내가 사용하는 제공된(별도 준비된) 양자화 그리드와 함께 작동할 수 있습니다.
당신은 방법을 알고 있습니까?