그림 13을 보면 하나를 제외하고 사용 가능한 거의 모든 예측자가 사용되었지만 이것이 문제의 근원인지 의심스럽습니다. 그렇다면 사용 여부가 아니라 모델을 구축할 때의 사용 순서가 문제일까요?
네, 맞습니다. 동일한 예측자로 두 개의 모델을 훈련하지만 하나는 하나의 예측자에 대해, 다른 하나는 다른 예측자에 대해 첫 번째 분할이 있는 경우 각 변형에 대한 전체 기본 트리가 상당히 달라집니다.
또 다른 질문은 동일한 데이터 세트에 대한 부스팅이 첫 번째 분할을 다르게 만드는 이유는 무엇일까요? 열 수에 대한 계수가 포리스트에서처럼 !=1인가요? 포리스트에서는 무작위성을 위한 것입니다. 하지만 ==1이어야 한다고 생각합니다. 그런 다음 다른 옵션: 모델에 대한 다른 시드? 같은 것으로 시도해보고 결과가 같으면 씨앗이 수익성있는 모델을 수익성이 없게 만들 수 있다는 것이 매우 나쁘다고 생각합니다.
제가 알기로는 난수 생성기 카운터를 특정 값으로 설정하고이 생성기는 적어도 "최상의 트리를 선택하는 메트릭의 무작위화가 있습니다." 그리고 제가 알기로는 -- 임의 강도 매개 변수 (저에게는 1)에서 가져온 계수를 사용하는 난수 생성기와 계수를 사용하는 일종의 난수 생성기를 사용합니다.
공식은 다음과 같습니다:
점수 += 랜덤_강도 * 랜드(0, 레노프그라드 * q)
여기서 q는 반복이 증가함에 따라 감소하는 승수입니다. 따라서 랜덤은 마지막에 가까워질수록 감소합니다.
"
그러나 그들은 또한 하위 샘플을 사용하여 트리를 만들 수 있다고 썼지 만 샘플 "-- 부스팅 유형 일반"의 전체 적용 모드를 사용합니다.
또한 모델을 사용하지 않는 훈련 후 열을 제거하면 동일한 시드로 모델을 얻을 수 없습니다-명확하지 않습니다.
" 수익은 특정 시점의 가격 변동 델타와 같습니다."가 이 차트에 어떻게 적용되나요? " ?
그리고 이 문구 "이미 지나간 롱테일 ...."은 제가 어떤 형태의 교육을 제공한다는 뜻으로 받아들여야 하나요? 하지만 저는 그렇게 하지 않으며, 여기 포럼에서 가격 변화의 분포 밀도를 모델링할 때 일반적으로 꼬리는 히스토그램에 있는 것과는 전혀 다른 의미로 사용됩니다. 오히려 여기서 우리는 위험에 대해 이야기하는 것이 아니라 예측 변수의 유의성 구조와 그 의존성을 이해하는 것보다 우연히 모델을 구축하는 것이 더 어렵다는 사실에 대해 이야기해야합니다.
" 수익은 특정 시점의 가격 변동 델타와 같습니다."는 이 차트와 어떤 관련이 있나요? " ?
그리고 이 문구 "이미 통과한 롱테일 ...."은 제가 어떤 형태의 트레이닝을 제공한다는 뜻으로 받아들여야 하나요? 하지만 저는 그렇게 하지 않으며, 여기 포럼에서 꼬리는 일반적으로 가격 변화의 분포 밀도를 모델링 할 때 사용되며 히스토그램에서 제가 가지고있는 것은 전혀 아닙니다. 오히려 여기서 우리는 위험에 대해 이야기하는 것이 아니라 예측 변수의 유의성 구조와 그 의존성을 이해하는 것보다 우연히 모델을 구축하는 것이 더 어렵다는 사실에 대해 이야기해야합니다.
저는 혼돈 속에 패턴이 있다는 사실에 반응하고 있었습니다.
어떤 논리/접근법/공식/이론 등을 사용하든 이런 종류의 히스토그램만 있을 뿐입니다. 적용했지만 다른 패턴을 찾을 수 없습니다.
내가 알기로는 무작위 생성기 카운터를 특정 값으로 설정하지만이 생성기는 적어도 "가장 좋은 트리가 선택되는 메트릭의 무작위화가 있습니다." 그리고 그것은 일종의 무작위 생성기와 계수를 사용하는데, 내가 알기로는 -- 임의 강도 매개 변수 (1이 있음)에서 가져온 계수를 사용합니다.
공식은 다음과 같습니다:
점수 += 랜덤 강도 * 랜드(0, 레노프그라드 * q)
여기서 q는 반복이 증가함에 따라 감소하는 승수입니다. 따라서 랜덤은 마지막에 가까워질수록 감소합니다.
즉, 정제 트리가 최고가 아니라 무작위로 더 나빠질 수 있다는 것이 밝혀졌습니다. 따라서 매화에서 수익성까지 모델의 확산. 분포 차트로 판단하면 더 많은 소모 모델이 있습니다. 즉, 평균을 내면 평균 결과는 수익성이 없습니다.
무작위 강도 = 0을 시도해야 하나요? 무작위로 나쁜 트리가 아닌 더 나은 정제 트리로 모델을 만들면 그 이후에는 시드 변경이 모델을 변경하지 않기를 바랍니다. 가장 좋은 모델이 자두라면 10000개의 무작위 모델에서 무작위로 가장 좋은 모델을 검색하는 것이 실제 자두를 찾는 방법입니다.
또는 숲에서와 같이 무작위로 선택된 몇 가지 모델의 평균을 구할 수도 있습니다. 가장 좋은 것은 재훈련할 수 있기 때문입니다.
수익은 특정 시점의 가격 변동률의 델타와 같습니다.
아직 놀라운 것은 없습니다.
우리는 이미 롱테일을 통과했습니다 ....
수익은 특정 시점의 가격 변동률의 델타와 같습니다.
아직 놀라운 것은 없습니다.
우리는 이미 롱테일을 통과했습니다 ....
방금 왜 그렇게 썼나요? 그래요, 여백에 생각을 표시할 수 있는 주제는 없습니다....
그림 13을 보면 하나를 제외하고 사용 가능한 거의 모든 예측자가 사용되었지만 이것이 문제의 근원인지 의심스럽습니다. 그렇다면 사용 여부가 아니라 모델을 구축할 때의 사용 순서가 문제일까요?
네, 맞습니다. 동일한 예측자로 두 개의 모델을 훈련하지만 하나는 하나의 예측자에 대해, 다른 하나는 다른 예측자에 대해 첫 번째 분할이 있는 경우 각 변형에 대한 전체 기본 트리가 상당히 달라집니다.
또 다른 질문은 동일한 데이터 세트에 대한 부스팅이 첫 번째 분할을 다르게 만드는 이유는 무엇일까요? 열 수에 대한 계수가 포리스트에서처럼 !=1인가요? 포리스트에서는 무작위성을 위한 것입니다. 하지만 ==1이어야 한다고 생각합니다.
그런 다음 다른 옵션: 모델에 대한 다른 시드? 같은 것으로 시도해보고 결과가 같으면 씨앗이 수익성있는 모델을 수익성이 없게 만들 수 있다는 것이 매우 나쁘다고 생각합니다.
방금 왜 그렇게 썼나요? 네, 여백에 생각을 표시하는 데는 어떤 주제도 사용할 수 없습니다....
그래프에 대해
네, 맞습니다. 동일한 예측자로 두 모델을 학습시키되 하나는 한 예측자에 따라, 다른 하나는 다른 예측자에 따라 분할하는 경우 각 변형의 전체 기본 트리가 상당히 달라집니다.
이는 분할을 선택할 때 욕심 방식에 결함이 있다는 것을 다시 한 번 증명합니다. 저는 나뭇잎을 선택할 때 직접 실험해 보았고 같은 결론에 도달했습니다.
질문은 다른 것입니다. 동일한 데이터 집합으로 부스팅을 하면 첫 번째 분할이 달라지는 이유는 무엇인가요? 열 수에 대한 계수가 포레스트에서처럼 !=1인가요? 포레스트에서는 무작위성을 위한 것입니다. 하지만 저는 ==1이어야 한다고 생각합니다.
내가 알기로는 평가를 위해 열의 일부를 선택하는 아날로그가 있지만 모든 열을 강제하도록 설정했습니다.
그런 다음 다른 옵션 : 모델에 대한 다른 시드? 같은 것으로 시도해보고 결과가 같으면 씨앗이 수익성있는 모델을 수익성이 없게 만들 수 있다는 것이 매우 나쁘다고 생각합니다.
시드는 결과를 수정합니다. 즉, 모든 것이 동일합니다.
그런데 컷버스트에서 Seed는 무엇을 무작위화하나요?
제가 알기로는 난수 생성기 카운터를 특정 값으로 설정하고이 생성기는 적어도 "최상의 트리를 선택하는 메트릭의 무작위화가 있습니다." 그리고 제가 알기로는 -- 임의 강도 매개 변수 (저에게는 1)에서 가져온 계수를 사용하는 난수 생성기와 계수를 사용하는 일종의 난수 생성기를 사용합니다.
공식은 다음과 같습니다:
점수 += 랜덤_강도 * 랜드(0, 레노프그라드 * q)
여기서 q는 반복이 증가함에 따라 감소하는 승수입니다. 따라서 랜덤은 마지막에 가까워질수록 감소합니다.
"
그러나 그들은 또한 하위 샘플을 사용하여 트리를 만들 수 있다고 썼지 만 샘플 "-- 부스팅 유형 일반"의 전체 적용 모드를 사용합니다.
또한 모델을 사용하지 않는 훈련 후 열을 제거하면 동일한 시드로 모델을 얻을 수 없습니다-명확하지 않습니다.
그래프가 작성됩니다.
" 수익은 특정 시점의 가격 변동 델타와 같습니다."가 이 차트에 어떻게 적용되나요? " ?
그리고 이 문구 "이미 지나간 롱테일 ...."은 제가 어떤 형태의 교육을 제공한다는 뜻으로 받아들여야 하나요? 하지만 저는 그렇게 하지 않으며, 여기 포럼에서 가격 변화의 분포 밀도를 모델링할 때 일반적으로 꼬리는 히스토그램에 있는 것과는 전혀 다른 의미로 사용됩니다. 오히려 여기서 우리는 위험에 대해 이야기하는 것이 아니라 예측 변수의 유의성 구조와 그 의존성을 이해하는 것보다 우연히 모델을 구축하는 것이 더 어렵다는 사실에 대해 이야기해야합니다.
" 수익은 특정 시점의 가격 변동 델타와 같습니다."는 이 차트와 어떤 관련이 있나요? " ?
그리고 이 문구 "이미 통과한 롱테일 ...."은 제가 어떤 형태의 트레이닝을 제공한다는 뜻으로 받아들여야 하나요? 하지만 저는 그렇게 하지 않으며, 여기 포럼에서 꼬리는 일반적으로 가격 변화의 분포 밀도를 모델링 할 때 사용되며 히스토그램에서 제가 가지고있는 것은 전혀 아닙니다. 오히려 여기서 우리는 위험에 대해 이야기하는 것이 아니라 예측 변수의 유의성 구조와 그 의존성을 이해하는 것보다 우연히 모델을 구축하는 것이 더 어렵다는 사실에 대해 이야기해야합니다.
저는 혼돈 속에 패턴이 있다는 사실에 반응하고 있었습니다.
어떤 논리/접근법/공식/이론 등을 사용하든 이런 종류의 히스토그램만 있을 뿐입니다. 적용했지만 다른 패턴을 찾을 수 없습니다.
이는 다시 한 번 분할을 선택하는 욕심 방식에 결함이 있다는 것을 증명합니다. 저도 나뭇잎을 선택할 때 직접 실험해 본 결과 같은 결론에 도달했습니다.
욕심 없이? 각 분할에 대해 다른 하나를 계산하고 한 번에 한 쌍을 선택할 수 있지만 귀하의 경우 5000 회 이상의 계산 기간이 늘어납니다. 100개의 모델을 평균화하는 것이 더 쉽습니다.
그러나 그들은 또한 하위 샘플을 사용하여 트리를 구축 할 수 있다고 말하지만 샘플 "-- 부스팅 유형 일반"의 전체 적용 모드를 사용합니다.
무작위성의 영향을 줄이려면 그것이 옳습니다. 그렇지 않으면 숲에서와 같이 20-100개의 모델에 대한 평균을 내야 합니다.
내가 알기로는 무작위 생성기 카운터를 특정 값으로 설정하지만이 생성기는 적어도 "가장 좋은 트리가 선택되는 메트릭의 무작위화가 있습니다." 그리고 그것은 일종의 무작위 생성기와 계수를 사용하는데, 내가 알기로는 -- 임의 강도 매개 변수 (1이 있음)에서 가져온 계수를 사용합니다.
공식은 다음과 같습니다:
점수 += 랜덤 강도 * 랜드(0, 레노프그라드 * q)
여기서 q는 반복이 증가함에 따라 감소하는 승수입니다. 따라서 랜덤은 마지막에 가까워질수록 감소합니다.
즉, 정제 트리가 최고가 아니라 무작위로 더 나빠질 수 있다는 것이 밝혀졌습니다.
따라서 매화에서 수익성까지 모델의 확산.
분포 차트로 판단하면 더 많은 소모 모델이 있습니다. 즉, 평균을 내면 평균 결과는 수익성이 없습니다.
무작위 강도 = 0을 시도해야 하나요? 무작위로 나쁜 트리가 아닌 더 나은 정제 트리로 모델을 만들면 그 이후에는 시드 변경이 모델을 변경하지 않기를 바랍니다. 가장 좋은 모델이 자두라면 10000개의 무작위 모델에서 무작위로 가장 좋은 모델을 검색하는 것이 실제 자두를 찾는 방법입니다.
또는 숲에서와 같이 무작위로 선택된 몇 가지 모델의 평균을 구할 수도 있습니다. 가장 좋은 것은 재훈련할 수 있기 때문입니다.
저는 혼돈에 패턴이 있다는 사실에 반응한 것입니다.
어떤 논리/접근법/공식/이론 등을 적용하든 이런 종류의 히스토그램이 있을 뿐입니다. 적용했지만 다른 패턴을 찾을 수 없습니다.
패턴이 있는데 찾을 수 없다는 게 무슨 뜻일까요? 아니면 무작위성에 규칙성이 있다는 뜻인가요?