나는 이러한 모든 요소의 조합에 기대고 있습니다. 사실은 교차 검증에서도 정확도가 55-60%이며 예측 범위의 성장에 따라 떨어집니다. 이는 예측 변수가 훈련 샘플에 대한 정보도 거의 제공하지 않는다는 것을 의미합니다.
이제 테스트의 정확도가 높지만 검증 중에 급격히 떨어지는 것을 보았을 때 실험이 올바르게 빌드된 동안 종속성은 고정적이지 않습니다.
이미 썼다, 나는 반복할 것이다.
예측 변수 선택 작업은 주문을 포함하여 여러 번 수행되었습니다. 결과는 아래에 제시되어 있습니다
그래서.
최소 50개, 바람직하게는 100개 이상의 특정 예측 변수 집합을 사용합니다.
내가 다룬 모든 예측 변수 세트(즉, 일반화하는 척하지 않음)는 두 부분으로 나눌 수 있습니다.
대상 변수 와 관련된 예측 변수의 일부
목표 변수 와 관련이 없는 예측 변수의 일부 - 노이즈
나는 "태도"를 매우 조심스럽게 쓰고 아주 의도적으로 어떤 용어도 사용하지 않습니다.
예측 변수의 예:
mashka - 대상 변수 ZZ와 관련이 없습니다.
당나귀에서 가격의 편차는 목표 변수와 관련이 있습니다 33
대상 변수를 지정한다는 점에 유의하십시오. 다른 대상 변수의 경우 모든 것이 그 반대일 수 있습니다.
원래 예측자 세트에 이 두 예측자 세트를 포함하는 문제는 표준 IMPORTANCE 도구가 작동하지 않는다는 것입니다. 따라서 몇 가지 도구가 필요하며 노이즈 예측자를 대략적으로 제거할 수 있는 도구를 개발하여 사용하고 있습니다. 여기에는 확실성이 없다는 점에 유의해야 합니다. 알고리즘은 실제 예측 변수와 명목 예측 변수를 별도로 수량화합니다. 2 미만(일부 상대 값) - 노이즈가 확실합니다. 2에서 3까지 : 당신은 그것을 사용할 수 있지만, 그것은하지 않는 것이 좋습니다 ....
잡음의 문제는 잡음 예측자가 비잡음 예측자를 압도한다는 것입니다. 예를 들어, 알고리즘 randomforest, ada, svm은 어떤 이유로 이러한 노이즈 예측자에 대한 모델을 더 많이 구축합니다.
노이즈 예측자를 걸러내고 내 세트에는 약 80%(!)가 있었고 나머지 예측자 목록을 가져와서 R의 도구를 여기에 적용하여 변수의 중요성을 결정하기 시작했습니다. 모델을 훈련하는 데 사용되는 실제 예측자의 수는 NOT 노이즈 예측자의 약 절반입니다. 원래 세트의 약 10%.
나는 창에서 예측자의 중요성을 정의합니다. 기간이 이동함에 따라 기본 20%의 예측 변수 목록이 항상 변경됩니다. 저것들. 모델을 구축할 때 12-15개의 예측변수를 사용하지만 인용문 뒤에 창이 이동할 때는 다릅니다.
그리고 무엇 때문에 모든 소란?
그러나 사실은 노이즈에서 예측자 세트를 정리하면 과도하게 훈련 되지 않은 모델이 생성된다는 것입니다.
숫자로.
전체 예측 변수 세트에서 예측 오류가 3% -5%인 모델을 구축할 수 있습니다! 또한 샘플을 부분으로 나누는 알고리즘, 이른바 "샘플 외"-OOV가 이 결과를 확인합니다. 이것은 항상 원본 샘플을 여러 부분으로 나누고 결과에 매우 만족하는 raatle에서 매우 명확하게 볼 수 있습니다.
하지만.
원본 샘플에 노이즈 예측자가 있는 경우 실제 "샘플 제외", 즉 예를 들어 2015년 6월 1일부터 2016년 1월 1일까지의 훈련을 위한 샘플을 가져온 다음 샘플에서 계산하면 1월 1일 이후에는 3% -5% 대신 50%와 70% 모두에서 오류가 발생할 수 있습니다! 또한 "표본 외"의 시작이 1월 1일부터 멀수록 결과는 더 나빠집니다.
모델 초과
노이즈 예측기의 초기 세트를 지우면 결과는 다음과 같으며 randomforest, ada SVM 및 기타 여러 모델에 대해 동일합니다. 예측 오류는 모든 세트에서 약 30%입니다. 예측 변수의 중요성을 결정하기 위해 R 도구를 사용하면 오류를 약 25%로 더 줄일 수 있습니다. 목표 변수 33에 대해서는 이 결과를 개선할 수 없었습니다.
예측 변수 선택 작업은 주문을 포함하여 여러 번 수행되었습니다. 결과는 아래에 제시되어 있습니다
그래서.
최소 50개, 바람직하게는 100개 이상의 특정 예측 변수 집합을 사용합니다.
내가 다룬 모든 예측 변수 세트(즉, 일반화하는 척하지 않음)는 두 부분으로 나눌 수 있습니다.
대상 변수 와 관련된 예측 변수의 일부
목표 변수 와 관련이 없는 예측 변수의 일부 - 노이즈
나는 "태도"를 매우 조심스럽게 쓰고 아주 의도적으로 어떤 용어도 사용하지 않습니다.
예측 변수의 예:
mashka - 대상 변수 ZZ와 관련이 없습니다.
당나귀에서 가격의 편차는 목표 변수와 관련이 있습니다 33
대상 변수를 지정한다는 점에 유의하십시오. 다른 대상 변수의 경우 모든 것이 그 반대일 수 있습니다.
원래 예측자 세트에 이 두 예측자 세트를 포함하는 문제는 표준 IMPORTANCE 도구가 작동하지 않는다는 것입니다. 따라서 몇 가지 도구가 필요하며 노이즈 예측자를 대략적으로 제거할 수 있는 도구를 개발하여 사용하고 있습니다. 여기에는 확실성이 없다는 점에 유의해야 합니다. 알고리즘은 실제 예측 변수와 명목 예측 변수를 별도로 수량화합니다. 2 미만(일부 상대 값) - 노이즈가 확실합니다. 2에서 3까지 : 당신은 그것을 사용할 수 있지만, 그것은하지 않는 것이 좋습니다 ....
잡음의 문제는 잡음 예측자가 비잡음 예측자를 압도한다는 것입니다. 예를 들어, 알고리즘 randomforest, ada, svm은 어떤 이유로 이러한 노이즈 예측자에 대한 모델을 더 많이 구축합니다.
노이즈 예측자를 걸러내고 내 세트에는 약 80%(!)가 있었고 나머지 예측자 목록을 가져와서 R의 도구를 여기에 적용하여 변수의 중요성을 결정하기 시작했습니다. 모델을 훈련하는 데 사용되는 실제 예측자의 수는 NOT 노이즈 예측자의 약 절반입니다. 원래 세트의 약 10%.
나는 창에서 예측자의 중요성을 정의합니다. 기간이 이동함에 따라 기본 20%의 예측 변수 목록이 항상 변경됩니다. 저것들. 모델을 구축할 때 12-15개의 예측변수를 사용하지만 인용문 뒤에 창이 이동할 때는 다릅니다.
그리고 무엇 때문에 모든 소란?
그러나 사실은 노이즈에서 예측자 세트를 정리하면 과도하게 훈련 되지 않은 모델이 생성된다는 것입니다.
숫자로.
전체 예측 변수 세트에서 예측 오류가 3% -5%인 모델을 구축할 수 있습니다! 또한 샘플을 부분으로 나누는 알고리즘, 이른바 "샘플 외"-OOV가 이 결과를 확인합니다. 이것은 항상 원본 샘플을 여러 부분으로 나누고 결과에 매우 만족하는 raatle에서 매우 명확하게 볼 수 있습니다.
하지만.
원본 샘플에 노이즈 예측자가 있는 경우 실제 "샘플 제외", 즉 예를 들어 2015년 6월 1일부터 2016년 1월 1일까지의 훈련을 위한 샘플을 가져온 다음 샘플에서 계산하면 1월 1일 이후에는 3% -5% 대신 50%와 70% 모두에서 오류가 발생할 수 있습니다! 또한 "out of sample"의 시작이 1월 1일부터 멀수록 결과는 더 나빠집니다.
모델 초과
노이즈 예측기의 초기 세트를 지우면 결과는 다음과 같으며 randomforest, ada SVM 및 기타 여러 모델에 대해 동일합니다. 예측 오류는 모든 세트에서 약 30%입니다. 예측 변수의 중요성을 결정하기 위해 R 도구를 사용하면 오류를 약 25%로 더 줄일 수 있습니다. 목표 변수 33에 대해서는 이 결과를 개선할 수 없었습니다.
고맙습니다.
생각의 흐름은 분명합니다. 위에서 나는 훈련 샘플의 여러 부분에서 예측 변수의 중요성을 계산한 다음 목록을 비교하고 반복되는 것을 선택할 기회를 직접 보았습니다.
나는 수동 선택에 대해 아무 말도 할 수 없으며 즉시 기계의 도움을 사용하는 것을 선호합니다.
추신: 의사결정 숲의 변수의 중요성 외에도 상호 정보 기능을 기반으로 한 고유한 방법을 적용하려고 합니다. 그럼 결과를 보여드리겠습니다.
"최상의" 조합을 어떻게 정의합니까?
기본적인 문제는 예측자 목록 문제입니다. 예측 변수 목록을 입증했으면 다른 모든 항목으로 이동할 수 있습니다.
고맙습니다. 나는 또한 새로운 예측자를 추가하는 쪽으로 기울고 있습니다.
사용하는 예측 변수의 수가 충분하지 않다고 생각하십니까?
나는 확실히 모른다.
나는 확실히 모른다.
이미 썼다, 나는 반복할 것이다.
예측 변수 선택 작업은 주문을 포함하여 여러 번 수행되었습니다. 결과는 아래에 제시되어 있습니다
그래서.
최소 50개, 바람직하게는 100개 이상의 특정 예측 변수 집합을 사용합니다.
내가 다룬 모든 예측 변수 세트(즉, 일반화하는 척하지 않음)는 두 부분으로 나눌 수 있습니다.
나는 "태도"를 매우 조심스럽게 쓰고 아주 의도적으로 어떤 용어도 사용하지 않습니다.
예측 변수의 예:
대상 변수를 지정한다는 점에 유의하십시오. 다른 대상 변수의 경우 모든 것이 그 반대일 수 있습니다.
원래 예측자 세트에 이 두 예측자 세트를 포함하는 문제는 표준 IMPORTANCE 도구가 작동하지 않는다는 것입니다. 따라서 몇 가지 도구가 필요하며 노이즈 예측자를 대략적으로 제거할 수 있는 도구를 개발하여 사용하고 있습니다. 여기에는 확실성이 없다는 점에 유의해야 합니다. 알고리즘은 실제 예측 변수와 명목 예측 변수를 별도로 수량화합니다. 2 미만(일부 상대 값) - 노이즈가 확실합니다. 2에서 3까지 : 당신은 그것을 사용할 수 있지만, 그것은하지 않는 것이 좋습니다 ....
잡음의 문제는 잡음 예측자가 비잡음 예측자를 압도한다는 것입니다. 예를 들어, 알고리즘 randomforest, ada, svm은 어떤 이유로 이러한 노이즈 예측자에 대한 모델을 더 많이 구축합니다.
노이즈 예측자를 걸러내고 내 세트에는 약 80%(!)가 있었고 나머지 예측자 목록을 가져와서 R의 도구를 여기에 적용하여 변수의 중요성을 결정하기 시작했습니다. 모델을 훈련하는 데 사용되는 실제 예측자의 수는 NOT 노이즈 예측자의 약 절반입니다. 원래 세트의 약 10%.
나는 창에서 예측자의 중요성을 정의합니다. 기간이 이동함에 따라 기본 20%의 예측 변수 목록이 항상 변경됩니다. 저것들. 모델을 구축할 때 12-15개의 예측변수를 사용하지만 인용문 뒤에 창이 이동할 때는 다릅니다.
그리고 무엇 때문에 모든 소란?
그러나 사실은 노이즈에서 예측자 세트를 정리하면 과도하게 훈련 되지 않은 모델이 생성된다는 것입니다.
숫자로.
전체 예측 변수 세트에서 예측 오류가 3% -5%인 모델을 구축할 수 있습니다! 또한 샘플을 부분으로 나누는 알고리즘, 이른바 "샘플 외"-OOV가 이 결과를 확인합니다. 이것은 항상 원본 샘플을 여러 부분으로 나누고 결과에 매우 만족하는 raatle에서 매우 명확하게 볼 수 있습니다.
하지만.
원본 샘플에 노이즈 예측자가 있는 경우 실제 "샘플 제외", 즉 예를 들어 2015년 6월 1일부터 2016년 1월 1일까지의 훈련을 위한 샘플을 가져온 다음 샘플에서 계산하면 1월 1일 이후에는 3% -5% 대신 50%와 70% 모두에서 오류가 발생할 수 있습니다! 또한 "표본 외"의 시작이 1월 1일부터 멀수록 결과는 더 나빠집니다.
모델 초과
노이즈 예측기의 초기 세트를 지우면 결과는 다음과 같으며 randomforest, ada SVM 및 기타 여러 모델에 대해 동일합니다. 예측 오류는 모든 세트에서 약 30%입니다. 예측 변수의 중요성을 결정하기 위해 R 도구를 사용하면 오류를 약 25%로 더 줄일 수 있습니다. 목표 변수 33에 대해서는 이 결과를 개선할 수 없었습니다.
이미 썼다, 나는 반복할 것이다.
예측 변수 선택 작업은 주문을 포함하여 여러 번 수행되었습니다. 결과는 아래에 제시되어 있습니다
그래서.
최소 50개, 바람직하게는 100개 이상의 특정 예측 변수 집합을 사용합니다.
내가 다룬 모든 예측 변수 세트(즉, 일반화하는 척하지 않음)는 두 부분으로 나눌 수 있습니다.
나는 "태도"를 매우 조심스럽게 쓰고 아주 의도적으로 어떤 용어도 사용하지 않습니다.
예측 변수의 예:
대상 변수를 지정한다는 점에 유의하십시오. 다른 대상 변수의 경우 모든 것이 그 반대일 수 있습니다.
원래 예측자 세트에 이 두 예측자 세트를 포함하는 문제는 표준 IMPORTANCE 도구가 작동하지 않는다는 것입니다. 따라서 몇 가지 도구가 필요하며 노이즈 예측자를 대략적으로 제거할 수 있는 도구를 개발하여 사용하고 있습니다. 여기에는 확실성이 없다는 점에 유의해야 합니다. 알고리즘은 실제 예측 변수와 명목 예측 변수를 별도로 수량화합니다. 2 미만(일부 상대 값) - 노이즈가 확실합니다. 2에서 3까지 : 당신은 그것을 사용할 수 있지만, 그것은하지 않는 것이 좋습니다 ....
잡음의 문제는 잡음 예측자가 비잡음 예측자를 압도한다는 것입니다. 예를 들어, 알고리즘 randomforest, ada, svm은 어떤 이유로 이러한 노이즈 예측자에 대한 모델을 더 많이 구축합니다.
노이즈 예측자를 걸러내고 내 세트에는 약 80%(!)가 있었고 나머지 예측자 목록을 가져와서 R의 도구를 여기에 적용하여 변수의 중요성을 결정하기 시작했습니다. 모델을 훈련하는 데 사용되는 실제 예측자의 수는 NOT 노이즈 예측자의 약 절반입니다. 원래 세트의 약 10%.
나는 창에서 예측자의 중요성을 정의합니다. 기간이 이동함에 따라 기본 20%의 예측 변수 목록이 항상 변경됩니다. 저것들. 모델을 구축할 때 12-15개의 예측변수를 사용하지만 인용문 뒤에 창이 이동할 때는 다릅니다.
그리고 무엇 때문에 모든 소란?
그러나 사실은 노이즈에서 예측자 세트를 정리하면 과도하게 훈련 되지 않은 모델이 생성된다는 것입니다.
숫자로.
전체 예측 변수 세트에서 예측 오류가 3% -5%인 모델을 구축할 수 있습니다! 또한 샘플을 부분으로 나누는 알고리즘, 이른바 "샘플 외"-OOV가 이 결과를 확인합니다. 이것은 항상 원본 샘플을 여러 부분으로 나누고 결과에 매우 만족하는 raatle에서 매우 명확하게 볼 수 있습니다.
하지만.
원본 샘플에 노이즈 예측자가 있는 경우 실제 "샘플 제외", 즉 예를 들어 2015년 6월 1일부터 2016년 1월 1일까지의 훈련을 위한 샘플을 가져온 다음 샘플에서 계산하면 1월 1일 이후에는 3% -5% 대신 50%와 70% 모두에서 오류가 발생할 수 있습니다! 또한 "out of sample"의 시작이 1월 1일부터 멀수록 결과는 더 나빠집니다.
모델 초과
노이즈 예측기의 초기 세트를 지우면 결과는 다음과 같으며 randomforest, ada SVM 및 기타 여러 모델에 대해 동일합니다. 예측 오류는 모든 세트에서 약 30%입니다. 예측 변수의 중요성을 결정하기 위해 R 도구를 사용하면 오류를 약 25%로 더 줄일 수 있습니다. 목표 변수 33에 대해서는 이 결과를 개선할 수 없었습니다.
고맙습니다.
생각의 흐름은 분명합니다. 위에서 나는 훈련 샘플의 여러 부분에서 예측 변수의 중요성을 계산한 다음 목록을 비교하고 반복되는 것을 선택할 기회를 직접 보았습니다.
나는 수동 선택에 대해 아무 말도 할 수 없으며 즉시 기계의 도움을 사용하는 것을 선호합니다.
추신: 의사결정 숲의 변수의 중요성 외에도 상호 정보 기능을 기반으로 한 고유한 방법을 적용하려고 합니다. 그럼 결과를 보여드리겠습니다.
잡음의 문제는 잡음 예측자가 비잡음 예측자를 압도한다는 것입니다. 예를 들어, 알고리즘 randomforest, ada, svm은 어떤 이유로 이러한 노이즈 예측자에 대한 모델을 더 많이 구축합니다.