이산화 는 경계를 결정하는 다양한 방법을 사용하여 값을 섹션으로 나누어 연속 변수를 이산 변수로 변환하는 프로세스입니다.
두 그룹의 분리 방법으로 구분할 수 있습니다. 즉, 대상과 연결되지 않은 정량적, 대상 범위의 일치를 고려한 것입니다.
첫 번째 메서드 그룹은 cut2()::Hmisc 함수 에 의해 거의 완전히 다루어집니다. 샘플을 미리 정해진 수의 사이트로 나눌 수 있으며 특정 경계, 사분위수, 각 사이트에 최소한의 예가 있는 동일한 빈도 사이트로 나눌 수 있습니다.
두 번째 방법 그룹은 변수를 대상 수준과 관련된 섹션으로 나누기 때문에 더 흥미롭습니다. 이러한 메서드를 구현하는 여러 패키지를 살펴보겠습니다.
이산화. 이 패키지는 감독된 이산화 알고리즘 세트입니다. 또한 이산화 알고리즘의 "하향식" 또는 "상향식" 구현 측면에서 그룹화할 수 있습니다. 우리의 dataSet 을 예로 사용하여 그들 중 일부를 살펴보겠습니다."
최소 기술 길이 원칙을 사용하여 이산화를 기술하는 이산화::mdlp() 함수를 사용합니다. 이 함수는 중지 규칙으로 최소 설명 길이를 갖는 엔트로피 기준을 사용하여 데이터 행렬의 연속 속성을 이산화합니다. 우수한 분할이지만 길다. 테스트 세트를 이산화하기 위해 base::findinterval()을 사용합니다. 이 기사에는 기능과 예제가 있습니다. 이것은 이산화를 위한 유일한 패키지가 아닙니다. Navsidku: glmdisc, smbinning, cutpointr(바이너리 대상용), woeBinning 및 기타. 다음은 CRAN의 패키지입니다. 좋은 MOB 패키지가 있습니다 - Github에서 설치하십시오. 나는 이것들을 테스트했고 그들은 작동합니다. 이산화 결과(woe, bin, raw...)를 얻고자 하는 형식에 따라 다릅니다.
В предыдущей части статьи мы рассмотрели различные аспекты получения и подготовки входных данных и целевой переменной. Для воспроизведения скриптов этой статьи вам необходимо либо выполнить все скрипты первой части, либо загрузить результат вычислений первой части статьи из приложения в RStudio. 1. Разработка признаков Разработка признаков —...
Мы продолжаем строить ансамбли. Теперь к bagging-ансамблю, созданному ранее, добавим обучаемый объединитель — глубокую нейросеть. Одна нейросеть объединяет 7 лучших выходов ансамбля после обрезки. Вторая принимает на вход все 500 выходов ансамбля, обрезает и объединяет их. Нейросети будем строить с Глубокие нейросети (Часть VI). Ансамбль...
가장 중요한 것은 모델이 아니지만 중요합니다. 예측자와 그 준비(전처리)가 중요합니다. 데이터를 더 잘 준비할수록 모델이 더 단순해집니다.
행운을 빕니다
물론, 나는 모든 것을주의 깊게 읽고 코드를 분석 할 것이라고 믿습니다. 특히 지금은 할 일이없고 시간이 많습니다. 그러나 내가 이것에 대해 일주일을 보내기 전에 " 위의 방법은 실제 시장에서 이러한 결과를 제공합니다 ... "와 같은 문구로 시작하는 기사와 몇 개의 차트 또는 표에 연결할 수 있습니다.
예브게니 듀카 : 물론, 나는 모든 것을주의 깊게 읽고 코드를 분석 할 것이라고 믿습니다. 특히 지금은 할 일이없고 시간이 많습니다. 그러나 내가 이것에 대해 일주일을 보내기 전에 " 위의 방법은 실제 시장에서 이러한 결과를 제공합니다 ... "와 같은 문구로 시작하는 기사와 몇 개의 차트 또는 표에 연결할 수 있습니다.
Мы продолжаем строить ансамбли. Теперь к bagging-ансамблю, созданному ранее, добавим обучаемый объединитель — глубокую нейросеть. Одна нейросеть объединяет 7 лучших выходов ансамбля после обрезки. Вторая принимает на вход все 500 выходов ансамбля, обрезает и объединяет их. Нейросети будем строить с Глубокие нейросети (Часть VI). Ансамбль...
시도해 주셔서 감사합니다.
어떤 ZZ를 사용하셨나요? 범위가 다른 두 개의 레이블이 지정된 ZZ를 보내주실 수 있습니까?
이제 분할을 그룹화하여 더 적은 수의 조합이 있을 것입니다.
제발...
절대적으로 200 또는 300입니다.
균형에 ZZ? 어떤 밴드에 관심이 있는지 알려주세요
아니면 약간의 R을 배울 수 있습니까? ;)
5줄의 코드로 원하는 것을 얻었습니다.
이 방법이 더 좋습니다. 중간 불필요한 쓰레기가 적습니다.
행운을 빕니다
이 방법이 더 좋습니다. 중간 불필요한 쓰레기가 적습니다.
행운을 빕니다
감사합니다 Vladimir, 나는 이것이 가능한지조차 몰랐습니다))) !! 나는 R을 사랑하고 항상 즐겁게 놀람을 줍니다!
데이터를 이산화하고 이 이산화를 새 데이터로 전송하는 방법을 언제 보여주실 건가요? :)
글쎄, 나는 당신에게 기사에 대한 링크를 주었다. 여기 그녀가 있습니다.
"이산화" 패키지가 사용됩니다.
이산화 는 경계를 결정하는 다양한 방법을 사용하여 값을 섹션으로 나누어 연속 변수를 이산 변수로 변환하는 프로세스입니다.
두 그룹의 분리 방법으로 구분할 수 있습니다. 즉, 대상과 연결되지 않은 정량적, 대상 범위의 일치를 고려한 것입니다.
첫 번째 메서드 그룹은 cut2()::Hmisc 함수 에 의해 거의 완전히 다루어집니다. 샘플을 미리 정해진 수의 사이트로 나눌 수 있으며 특정 경계, 사분위수, 각 사이트에 최소한의 예가 있는 동일한 빈도 사이트로 나눌 수 있습니다.
두 번째 방법 그룹은 변수를 대상 수준과 관련된 섹션으로 나누기 때문에 더 흥미롭습니다. 이러한 메서드를 구현하는 여러 패키지를 살펴보겠습니다.
이산화. 이 패키지는 감독된 이산화 알고리즘 세트입니다. 또한 이산화 알고리즘의 "하향식" 또는 "상향식" 구현 측면에서 그룹화할 수 있습니다. 우리의 dataSet 을 예로 사용하여 그들 중 일부를 살펴보겠습니다."
최소 기술 길이 원칙을 사용하여 이산화를 기술하는 이산화:: mdlp() 함수를 사용합니다. 이 함수는 중지 규칙으로 최소 설명 길이를 갖는 엔트로피 기준을 사용하여 데이터 행렬의 연속 속성을 이산화합니다. 우수한 분할이지만 길다. 테스트 세트를 이산화하기 위해 base::findinterval()을 사용합니다. 이 기사에는 기능과 예제가 있습니다. 이것은 이산화를 위한 유일한 패키지가 아닙니다. Navsidku: glmdisc, smbinning, cutpointr(바이너리 대상용), woeBinning 및 기타. 다음은 CRAN의 패키지입니다. 좋은 MOB 패키지가 있습니다 - Github에서 설치하십시오. 나는 이것들을 테스트했고 그들은 작동합니다. 이산화 결과(woe, bin, raw...)를 얻고자 하는 형식에 따라 다릅니다.
노력하다.
행운을 빕니다
이산화 결과(woe, bin, raw...)를 얻고자 하는 형식에 따라 다릅니다.
나는 당신이 원하는 것을 좋아했습니다)))) 그러나 이것이 옳다는 것을 의미하지는 않습니다) Gruuuus ...........
글쎄, 나는 당신에게 기사에 대한 링크를 주었다. 여기 그녀가 있습니다.
"이산화" 패키지가 사용됩니다.
아니요, 그들은하지 않았습니다 :)
다른 패키지를 살펴보고 기사를 읽었지만 이산화할 때 새 데이터로 작업하는 방법을 찾지 못했습니다. 어쨌든 잘 보이지 않았을 것입니다.
글쎄, 나는 당신에게 기사에 대한 링크를 주었다. 여기 그녀가 있습니다.
논문 도 많고 연구도 흥미롭지만 실제적인 결과에 대한 요약은 없나요?
저것들. 이 모든 것이 실제 시장에서 얼마나 효과가 있습니까?
논문 도 많고 연구도 흥미롭지만 실제적인 결과에 대한 요약은 없나요?
저것들. 이 모든 것이 실제 시장에서 얼마나 효과가 있습니까?
공장. 내 말을 믿어?
모든 코드가 게시되었습니다. 만들고, 시도하십시오.
가장 중요한 것은 모델이 아니지만 중요합니다. 예측자와 그 준비(전처리)가 중요합니다. 데이터를 더 잘 준비할수록 모델이 더 단순해집니다.
행운을 빕니다
공장. 그것을 위해 내 말을 받아 ?
모든 코드가 게시되었습니다. 만들고, 시도하십시오.
가장 중요한 것은 모델이 아니지만 중요합니다. 예측자와 그 준비(전처리)가 중요합니다. 데이터를 더 잘 준비할수록 모델이 더 단순해집니다.
행운을 빕니다
그러나 내가 이것에 대해 일주일을 보내기 전에 " 위의 방법은 실제 시장에서 이러한 결과를 제공합니다 ... "와 같은 문구로 시작하는 기사와 몇 개의 차트 또는 표에 연결할 수 있습니다.
물론, 나는 모든 것을주의 깊게 읽고 코드를 분석 할 것이라고 믿습니다. 특히 지금은 할 일이없고 시간이 많습니다.
그러나 내가 이것에 대해 일주일을 보내기 전에 " 위의 방법은 실제 시장에서 이러한 결과를 제공합니다 ... "와 같은 문구로 시작하는 기사와 몇 개의 차트 또는 표에 연결할 수 있습니다.
글쎄, 거의 모든 두 번째 기사는 새로운 데이터에 대한 테스트로 끝납니다.
거기 여기있다