Maxim Dmitrievsky #: 이상값 제거를 포함하여 많은 불일치가 발생합니다. 계산에 따라 다르지만 일반적으로 데이터 세트 크기의 10%에 달합니다. 이상값이 발견되면 무엇을 삭제하고 어떻게 모델이 거래되나요? )
변환도 같은 상황입니다.
전처리를 고전적으로 수행하면 원시 데이터보다 결과가 더 나빠집니다.
또는 메트릭의 무작위적인 개선이 시스템적인 것으로 전달됩니다.
교과서와 기사를 읽은 후 그렇게 할 수 있는 것은 아무것도 없습니다. 이것은 별도의 단계이며 학습이라고 합니다. 통계에 대한 체계적인 지식 없이는 MOE에서 할 일이 없습니다.
목표를 달성하기 위해 항상 할 필요가 있습니다.
우리가 중간 목표를 취하는 경우 - 예측자의 최대 예측 능력을 취하면 다음과 같이하십시오:
1. 이상값을 제거하는 것은 의무입니다. 사 분위수의 0.5 %보다 큰 값이 이상값으로 간주되면 이상값은 1 % 미만입니다. 그건 그렇고, 이것은 미래에 트리거 된 중지의 비율입니다. 우리는 거래 시스템 자체를 개발하며 디지털 한계가 있습니다.
2. 전처리는 필수이지만 다시 어떤 종류에 따라 다릅니다. 예측자의 예측 능력에 대해 이야기하고 있다면 예측 능력을 높이는 기울기를 수정할 수 없습니다. 이것이 한 예입니다. 일반적으로 전처리 알고리즘을 사용하여 예측력에 미치는 영향을 평가합니다. 여기에 정답이 있습니다.
3. 항상 MO의 의미를 명심하세요. 제 생각에는 몇 가지 패턴을 검색하는 것입니다. 예를 들어 5000개의 막대에는 몇 개의 패턴이 포함되어 있을까요? 또는 어떤 창 값에서 패턴 수를 늘리면 오류가 줄어들지 않나요? 또는 어떤 고정 된 창에서 패턴 수의 어떤 값에서 오류가 떨어지지 않습니까?
RF에 대한 답변.
1. 창을 1500 바 이상으로 늘리는 것은 의미가 없습니다.
2. 오차와 패턴 수 (트리) 사이의 관계를 그래프에서 명확하게 볼 수 있습니다:
최소 50. 일반적으로 100에서 200까지. 창을 최대 5000까지 늘릴 때 그래프는 변경되지 않습니다.
항상 목표와 목표 달성을 위한 기준을 명확하게 공식화해야 합니다. 다른 모든 것은 어쩌구 저쩌구입니다.
교과서와 기사를 읽은 후 그렇게 할 수있는 것은 없습니다. 그것은 별도의 단계이며 공부라고합니다. 통계에 대한 체계적인 지식 없이는 교육부에서 할 수 있는 일이 없습니다.
목표를 달성하기 위해 항상 할 필요가 있습니다.
우리가 중간 목표를 취하는 경우 - 예측자의 최대 예측 능력을 취하면:
1. 이상값을 제거하는 것은 의무입니다. 사 분위수의 0.5 %보다 큰 값이 이상값으로 간주되면 이상값은 1 % 미만입니다. 그건 그렇고, 이것은 미래에 트리거 된 중지의 비율입니다. 우리는 거래 시스템 자체를 개발하고 있으며 디지털 제약이 있습니다.
2. 전처리는 필수이지만 다시 어떤 종류에 따라 다릅니다. 예측자의 예측 능력에 대해 이야기하고 있다면 예측 능력을 높이는 기울기를 수정할 수 없습니다. 이것이 한 예입니다. 일반적으로 전처리 알고리즘을 사용하여 예측력에 미치는 영향을 평가합니다. 여기에 답이 있습니다.
3. 항상 MO의 의미를 명심하세요. 제 생각에는 몇 가지 패턴을 검색하는 것입니다. 예를 들어 5000개의 막대에는 몇 개의 패턴이 포함되어 있나요? 또는 어떤 창 값에서 패턴 수를 늘리면 오류가 줄어들지 않습니까? 또는 어떤 고정 된 창에서 패턴 수의 어떤 값에서 오류가 더 이상 떨어지지 않습니까?
RF에 대한 답변입니다.
1. 창을 1500 바 이상으로 늘리는 것은 의미가 없습니다.
2. 오류와 패턴(트리) 수 사이의 관계를 그래프에서 명확하게 볼 수 있습니다:
최소 50. 일반적으로 100에서 200까지. 창을 최대 5000까지 늘려도 그래프는 변하지 않습니다.
항상 목표와 목표 달성을위한 기준을 명확하게 공식화해야합니다. 다른 모든 것은 어쩌고 저쩌고.
격리 숲을 통해 배출량을 감지하고 삭제했지만 훈련 결과는 변경되지 않았습니다. 배출량에 대한 훈련을 시도했지만 변경 사항이 없습니다. 모델(캣버스트)이 배출량에 대해 신경 쓰지 않는다는 인상을 받았습니다. 마치 이상 징후 검색을 통해 잘 인식되지만 제거할 필요는 없는 것처럼요.
Maxim Dmitrievsky #: 격리 포리스트를 통해 배출을 감지하고 삭제했지만 훈련 결과는 변경되지 않았습니다. 배출량에 대한 훈련을 시도했지만 결과가 없습니다. 모델(캣버스트)이 배출에 대해 신경 쓰지 않는다는 인상을 받았습니다. 이상값 검색을 통해 잘 인식되지만 제거할 필요가 없는 것처럼 보입니다.
이상값은 예측력에 큰 영향을 미치고, 예측력의 안정성은 예측 오차의 안정성에 영향을 미칩니다.
로컬 의사 결정 트리라는 아이디어가 떠올랐습니다. 이것은 KNN 또는 국부 회귀(비고정성에도 잠재적으로 적합)의 아날로그와 같은 것입니다. 이 아이디어는 관심 지점이 포함된 상자(최소 주어진 수의 K 포인트까지)만 상자로 나누고 나머지 상자는 신경 쓰지 않는다는 것입니다. 클래스 간의 경계가 날카롭고 포인트가 그러한 경계에 가까운 경우 KNN 또는 국부 회귀보다 더 좋을 수 있습니다.
접근 방식이 전혀 의미가 있는지 궁금합니다.
비교할 수없는 것을 비교하고있는 것 같습니다-스케일링은 스케일링 (원하는 경우 다차원도 가능, 거리가 적합하다면)이고 필터링-노이즈는 파생 상품 (1 차 및 2 차)으로 할 수있는 것 같습니다.-- 또는 라벨링된 데이터의 공분산 행렬을 통해 클래스 차이(라벨링)의 유의성을 증명하고 확인된 유의성을 관심 대상의 분류에 더 활용하는 대신 완전히 비지도 방식으로 벡터 행렬로 전환할 수도 있습니다...
비교할 수없는 것을 비교하고있는 것 같습니다-스케일링은 스케일링 (원하는 경우 거리가 적합한 한 다차원 일 수도 있음) 및 필터링 노이즈-파생 상품 (1 차 및 2 차)으로 할 수있는 것 같습니다.-- 또는 라벨링된 데이터의 공분산 행렬을 통해 클래스 차이(라벨링)의 유의성을 증명하고 확인된 유의성을 관심 대상의 분류에 더 활용하는 대신 완전히 비지도 방식으로 벡터 행렬로 전환할 수도 있습니다...
이상값 제거를 포함하여 많은 불일치가 발생합니다. 계산에 따라 다르지만 일반적으로 데이터 세트 크기의 10%에 달합니다. 이상값이 발견되면 무엇을 삭제하고 어떻게 모델이 거래되나요? )
교과서와 기사를 읽은 후 그렇게 할 수 있는 것은 아무것도 없습니다. 이것은 별도의 단계이며 학습이라고 합니다. 통계에 대한 체계적인 지식 없이는 MOE에서 할 일이 없습니다.
목표를 달성하기 위해 항상 할 필요가 있습니다.
우리가 중간 목표를 취하는 경우 - 예측자의 최대 예측 능력을 취하면 다음과 같이하십시오:
1. 이상값을 제거하는 것은 의무입니다. 사 분위수의 0.5 %보다 큰 값이 이상값으로 간주되면 이상값은 1 % 미만입니다. 그건 그렇고, 이것은 미래에 트리거 된 중지의 비율입니다. 우리는 거래 시스템 자체를 개발하며 디지털 한계가 있습니다.
2. 전처리는 필수이지만 다시 어떤 종류에 따라 다릅니다. 예측자의 예측 능력에 대해 이야기하고 있다면 예측 능력을 높이는 기울기를 수정할 수 없습니다. 이것이 한 예입니다. 일반적으로 전처리 알고리즘을 사용하여 예측력에 미치는 영향을 평가합니다. 여기에 정답이 있습니다.
3. 항상 MO의 의미를 명심하세요. 제 생각에는 몇 가지 패턴을 검색하는 것입니다. 예를 들어 5000개의 막대에는 몇 개의 패턴이 포함되어 있을까요? 또는 어떤 창 값에서 패턴 수를 늘리면 오류가 줄어들지 않나요? 또는 어떤 고정 된 창에서 패턴 수의 어떤 값에서 오류가 떨어지지 않습니까?
RF에 대한 답변.
1. 창을 1500 바 이상으로 늘리는 것은 의미가 없습니다.
2. 오차와 패턴 수 (트리) 사이의 관계를 그래프에서 명확하게 볼 수 있습니다:
최소 50. 일반적으로 100에서 200까지. 창을 최대 5000까지 늘릴 때 그래프는 변경되지 않습니다.
항상 목표와 목표 달성을 위한 기준을 명확하게 공식화해야 합니다. 다른 모든 것은 어쩌구 저쩌구입니다.
교과서와 기사를 읽은 후 그렇게 할 수있는 것은 없습니다. 그것은 별도의 단계이며 공부라고합니다. 통계에 대한 체계적인 지식 없이는 교육부에서 할 수 있는 일이 없습니다.
목표를 달성하기 위해 항상 할 필요가 있습니다.
우리가 중간 목표를 취하는 경우 - 예측자의 최대 예측 능력을 취하면:
1. 이상값을 제거하는 것은 의무입니다. 사 분위수의 0.5 %보다 큰 값이 이상값으로 간주되면 이상값은 1 % 미만입니다. 그건 그렇고, 이것은 미래에 트리거 된 중지의 비율입니다. 우리는 거래 시스템 자체를 개발하고 있으며 디지털 제약이 있습니다.
2. 전처리는 필수이지만 다시 어떤 종류에 따라 다릅니다. 예측자의 예측 능력에 대해 이야기하고 있다면 예측 능력을 높이는 기울기를 수정할 수 없습니다. 이것이 한 예입니다. 일반적으로 전처리 알고리즘을 사용하여 예측력에 미치는 영향을 평가합니다. 여기에 답이 있습니다.
3. 항상 MO의 의미를 명심하세요. 제 생각에는 몇 가지 패턴을 검색하는 것입니다. 예를 들어 5000개의 막대에는 몇 개의 패턴이 포함되어 있나요? 또는 어떤 창 값에서 패턴 수를 늘리면 오류가 줄어들지 않습니까? 또는 어떤 고정 된 창에서 패턴 수의 어떤 값에서 오류가 더 이상 떨어지지 않습니까?
RF에 대한 답변입니다.
1. 창을 1500 바 이상으로 늘리는 것은 의미가 없습니다.
2. 오류와 패턴(트리) 수 사이의 관계를 그래프에서 명확하게 볼 수 있습니다:
최소 50. 일반적으로 100에서 200까지. 창을 최대 5000까지 늘려도 그래프는 변하지 않습니다.
항상 목표와 목표 달성을위한 기준을 명확하게 공식화해야합니다. 다른 모든 것은 어쩌고 저쩌고.
격리 포리스트를 통해 배출을 감지하고 삭제했지만 훈련 결과는 변경되지 않았습니다. 배출량에 대한 훈련을 시도했지만 결과가 없습니다. 모델(캣버스트)이 배출에 대해 신경 쓰지 않는다는 인상을 받았습니다. 이상값 검색을 통해 잘 인식되지만 제거할 필요가 없는 것처럼 보입니다.
이상값은 예측력에 큰 영향을 미치고, 예측력의 안정성은 예측 오차의 안정성에 영향을 미칩니다.
그리고 모델 자체의 경우, 특히 훈련 샘플을 샘플에서 얻은 경우 모델에 따라 다릅니다.
로컬 의사 결정 트리라는 아이디어가 떠올랐습니다. 이것은 KNN 또는 국부 회귀(비고정성에도 잠재적으로 적합)의 아날로그와 같은 것입니다. 이 아이디어는 관심 지점이 포함된 상자(최소 주어진 수의 K 포인트까지)만 상자로 나누고 나머지 상자는 신경 쓰지 않는다는 것입니다. 클래스 간의 경계가 날카롭고 포인트가 그러한 경계에 가까운 경우 KNN 또는 국부 회귀보다 더 좋을 수 있습니다.
접근 방식이 전혀 의미가 있는지 궁금합니다.
비교할 수없는 것을 비교하고있는 것 같습니다-스케일링은 스케일링 (원하는 경우 다차원도 가능, 거리가 적합하다면)이고 필터링-노이즈는 파생 상품 (1 차 및 2 차)으로 할 수있는 것 같습니다.-- 또는 라벨링된 데이터의 공분산 행렬을 통해 클래스 차이(라벨링)의 유의성을 증명하고 확인된 유의성을 관심 대상의 분류에 더 활용하는 대신 완전히 비지도 방식으로 벡터 행렬로 전환할 수도 있습니다...
가설, 여러분, 가설은 계산의 방법이 아니라 증명(또는 반박)의 대상입니다 ....
비교할 수없는 것을 비교하고있는 것 같습니다-스케일링은 스케일링 (원하는 경우 거리가 적합한 한 다차원 일 수도 있음) 및 필터링 노이즈-파생 상품 (1 차 및 2 차)으로 할 수있는 것 같습니다.-- 또는 라벨링된 데이터의 공분산 행렬을 통해 클래스 차이(라벨링)의 유의성을 증명하고 확인된 유의성을 관심 대상의 분류에 더 활용하는 대신 완전히 비지도 방식으로 벡터 행렬로 전환할 수도 있습니다...
가설, 여러분, 가설은 계산의 방법이 아니라 증명(또는 반박)의 대상입니다 ....
아무것도 이해하지 못했지만 매우 흥미 롭습니다.
이상값은 예측 능력에 큰 영향을 미치며, 예측 능력의 안정성은 예측 오류의 안정성을 좌우합니다.
그리고 모델 자체의 경우, 특히 훈련 샘플을 샘플에서 얻은 경우 모델에 따라 다릅니다.
랜덤 포레스트에서 예측 능력과 특징 중요도를 결정하는 방법 간의 R2 값은 얼마인가요?
안녕하세요
질문이 있습니다. 해시를 예측 변수로 사용하는 것이 현실적인가요?
예를 들어
LlLCmywDpe8dj_j8t8DWwoMjaIhTLnOedRh6KET7R7k
여기서 대상은
1.04입니다.
어떻게든 숫자나 다른 형식으로 변환하는 것이 합리적일까요?
안녕하세요.
해시를 예측 변수로 사용하는 것이 현실적인가요?
다음과 같이
LlLCmywDpe8dj_j8t8DWwoMjaIhTLnOedRh6KET7R7k
여기서 대상은
1.04입니다.
어떻게든 숫자나 다른 형태로 변환하는 것이 합리적일까요?
256개 항목 표기법의 숫자입니다(문자열이 ANSI로 인코딩된 경우). 해시는 길이가 고정되어 있으므로 0에서 255까지의 숫자 벡터로 표현할 수 있습니다.
비트코인을 해독하고 싶으신가요?)
따라서 256개 항목으로 구성된 레코드의 숫자입니다(문자열이 ANSI로 인코딩된 경우). 해시는 길이가 고정되어 있으므로 0에서 255까지의 숫자 벡터로도 표현할 수 있습니다.
비트코인을 해독하고 싶으신가요?)
이봐,문자열 유형이 ANSI 인코딩을잊을 정도로 편안하게 만드는 방법
아니, 비트코인이 아니라 온라인 경품 행사 :))))
랜덤 포레스트에서 예측 능력과 특징 중요도를 결정하는 방법 간의 R2 값은 얼마인가요?
여러 번 설명했습니다.