도서관 : 한 달 동안 무언가를 실행한다면 - 무정전 전원 공급 장치를 사용하여 컴퓨터에 전원을 공급하고 2 계산 후에 어떻게 든 조명을 껐습니다)) 그리고 GPU 옵션을 너무 많이 기다리지 마십시오. 코드를 다시 작성하는 데 시간이 더 오래 걸리는 것 같으며 작성자가 하지 않은 경우 다른 사람이 이 작업의 끝에 도달할 가능성은 거의 없습니다.
따라서 작성자는 모든 것을 병렬화했으므로 이제 실행하기만 하면 됩니다. 그래서 3일 동안 최대값을 런칭한 후 9개의 입력이 있는 모델을 얻었습니다. 지금은 솔직히 말해서 기록입니다. 특히 나는 그렇게 오랫동안 최적화하기를 열망하지 않습니다. 그러나 그들이 말했듯이. 시장이 요구합니다. 따라서 전원을 찾고 누군가 옵티마이저에서 데이터 세트를 최적화할 수 있는 기회가 있고 20-30과 같은 코어에서도 매우 감사할 것입니다.
분명히 귀하의 알고리즘은 최적이 아닌 온화하게 말하면 준최적인 Knn과 같은 무차별 대입 알고리즘을 안전하게 사용할 수 있다는 것입니다. 알고리즘이 Knn보다 느리게 작동하면 아마도 나쁠 것입니다. ML 알고리즘 또는 잘못 구성되었습니다. 이러한 데이터 세트에서 전체 교육 주기와 전체 세트를 실행하는 데 1초 이상 걸리지 않아야 합니다.
팬츄럴 : 분명히 귀하의 알고리즘은 최적이 아닌 온화하게 말하면 준최적인 Knn과 같은 무차별 대입 알고리즘을 안전하게 사용할 수 있다는 것입니다. 알고리즘이 Knn보다 느리게 작동하면 아마도 나쁠 것입니다. ML 알고리즘 또는 잘못 구성되었습니다. 이러한 데이터 세트에서 전체 교육 주기와 전체 세트를 실행하는 데 1초 이상 걸리지 않아야 합니다.
위에서 설명했습니다. 각 사단은 1000 에포크 등으로 훈련됩니다. 뉴런에 대한 일회성 훈련에 막혔습니다. 최적화 프로그램의 핵심은 데이터 세트를 계산하여 적합성에 대해 의문의 여지가 없도록 하는 것입니다. 즉, 그는 비유적으로 말해서 이 파일을 위아래로 비틀고 당신은 여전히 그것을 하나의 뉴런에 대한 일회성 훈련과 비교합니다. 임호. 이것은 본질적으로 뉴런을 훈련하는 것 외에도 모든 종류의 최적화와 전처리가 일어나고 훈련 자체가 수백 번 시작되는 AI 시스템입니다. 혹시라도....
위에서 설명했습니다. 각 사단은 1000 에포크 등으로 훈련됩니다. 뉴런에 대한 일회성 훈련에 막혔습니다. 최적화 프로그램의 핵심은 데이터 세트를 계산하여 적합성에 대해 의문의 여지가 없도록 하는 것입니다. 즉, 그는 비유적으로 말해서 이 파일을 위아래로 비틀고 당신은 여전히 그것을 하나의 뉴런에 대한 일회성 훈련과 비교합니다. 임호. 이것은 본질적으로 뉴런을 훈련하는 것 외에도 모든 종류의 최적화와 전처리가 일어나고 훈련 자체가 수백 번 시작되는 AI 시스템입니다. 혹시라도....
네, 저는 일반적으로 이 모든 훈련에 반대합니다. 하지만 당신의 부대는 분명히 어떤 종류의 넌센스를 생각해 냈습니다. 저도 이해합니다.
library (vtreat)
sourceTable <- read.table( "BuySell.csv" , sep= ";" , header = TRUE , stringsAsFactors = FALSE )
#Эта строка кода относится только к конкретно этому файлу.
#В этом csv первая колонка и первая строка специально заполнены для конкретной модели, и тут не нужны. Удалить.
#для обычных csv файлов такую команду выполнять не нужно.
sourceTable <- sourceTable[- 1 ,- 1 ]
#число колонок
sourceTable_ncol <- ncol(sourceTable)
#Оценка для классификации, только для двух классов.
#Outcometarget должен быть равен значению одного из классов.
#На выбор или эта функция designTreatmentsC, или designTreatmentsN, или designTreatmentsZ (ниже, закоменчены)
#Взаимная корреляция предкиторов учитывается только в designTreatmentsC, и у повторяющихся или похожих предикторов оценка будет понижаться
set.seed( 0 )
treats <- designTreatmentsC(dframe = sourceTable,
varlist = colnames(sourceTable)[-sourceTable_ncol],
outcomename = colnames(sourceTable)[sourceTable_ncol],
outcometarget = 1 ,
verbose = FALSE
)
# #оценка для регрессии или если больше двух классов
# sourceTable[,sourceTable_ncol] <- as.numeric(sourceTable[,sourceTable_ncol])
# set.seed( 0 )
# treats <- designTreatmentsN(dframe = sourceTable,
# varlist = colnames(sourceTable)[-sourceTable_ncol],
# outcomename = colnames(sourceTable)[sourceTable_ncol],
# verbose = FALSE# )
# #Оценка предикторов без учёта цели.
# set.seed( 0 )
# treats <- designTreatmentsZ(dframe = sourceTable,
# varlist = colnames(sourceTable)[-sourceTable_ncol],
# verbose = FALSE# )
#
#табличка только с названием колонки и её оценкой важности
resultTable <- treats$scoreFrame[,c( "varName" , "sig" )]
#сортировка
resultTable <- resultTable[order(resultTable$sig),]
#согласно общему правилу, оценка предиктора (sig) должна быть меньше 1 /<общее число предикторов>
#чем оценка меньше, тем лучше
resultTable$testPassed <- resultTable$sig < 1 /(sourceTable_ncol- 1 )
#для создания модели и прогноза лучше использовать только те предкторы у которых testPassed == TRUE
resultTable
도서관 : MLP는 추측의 95 %에서 밝혀졌습니다 ... 당신이 올바른 자전거를 타고 있지 않은 것 같습니다) 불쾌하지 않습니다. 나는 또한 내 자신의 자전거를 만들지만 수십 년 동안 입증된 MLP를 기반으로 합니다.
그리고 다시 alglib에서 결정 트리를 시도하면 MLP보다 더 빠르고 정확도가 더 좋은 것으로 간주됩니다. Diplerning은 또한 더 빠르게 계산하지만 더 이상 alglib에 없습니다.
가장 중요한 것은 속도/품질 비율, 계산할 때 일주일, 또는 심지어 하루 또는 심지어 한 시간을 기다리는 요점이 무엇인지 .. 그래서 최적의 조합을 결코 찾을 수 없습니다) 모델은 몇 초 동안 훈련되어야합니다. 그런 다음 유전을 사용하여 매개변수 또는 예측자를 자동 선택하면 이것이 진정한 AI이고 그렇지 않으면 쓰레기입니다)
한 달 동안 무언가를 실행한다면 - 무정전 전원 공급 장치를 사용하여 컴퓨터에 전원을 공급하고 2 계산 후에 어떻게 든 조명을 껐습니다))
그리고 GPU 옵션을 너무 많이 기다리지 마십시오. 코드를 다시 작성하는 데 시간이 더 오래 걸리는 것 같으며 작성자가 하지 않은 경우 다른 사람이 이 작업의 끝에 도달할 가능성은 거의 없습니다.
따라서 작성자는 모든 것을 병렬화했으므로 이제 실행하기만 하면 됩니다. 그래서 3일 동안 최대값을 런칭한 후 9개의 입력이 있는 모델을 얻었습니다. 지금은 솔직히 말해서 기록입니다. 특히 나는 그렇게 오랫동안 최적화하기를 열망하지 않습니다. 그러나 그들이 말했듯이. 시장이 요구합니다. 따라서 전원을 찾고 누군가 옵티마이저에서 데이터 세트를 최적화할 수 있는 기회가 있고 20-30과 같은 코어에서도 매우 감사할 것입니다.
마이클 마르쿠카이테스 :
공부 일, 주
분명히 귀하의 알고리즘은 최적이 아닌 온화하게 말하면 준최적인 Knn과 같은 무차별 대입 알고리즘을 안전하게 사용할 수 있다는 것입니다. 알고리즘이 Knn보다 느리게 작동하면 아마도 나쁠 것입니다. ML 알고리즘 또는 잘못 구성되었습니다. 이러한 데이터 세트에서 전체 교육 주기와 전체 세트를 실행하는 데 1초 이상 걸리지 않아야 합니다.
위에서 설명했습니다. 각 사단은 1000 에포크 등으로 훈련됩니다. 뉴런에 대한 일회성 훈련에 막혔습니다. 최적화 프로그램의 핵심은 데이터 세트를 계산하여 적합성에 대해 의문의 여지가 없도록 하는 것입니다. 즉, 그는 비유적으로 말해서 이 파일을 위아래로 비틀고 당신은 여전히 그것을 하나의 뉴런에 대한 일회성 훈련과 비교합니다. 임호. 이것은 본질적으로 뉴런을 훈련하는 것 외에도 모든 종류의 최적화와 전처리가 일어나고 훈련 자체가 수백 번 시작되는 AI 시스템입니다. 혹시라도....
위에서 설명했습니다. 각 사단은 1000 에포크 등으로 훈련됩니다. 뉴런에 대한 일회성 훈련에 막혔습니다. 최적화 프로그램의 핵심은 데이터 세트를 계산하여 적합성에 대해 의문의 여지가 없도록 하는 것입니다. 즉, 그는 비유적으로 말해서 이 파일을 위아래로 비틀고 당신은 여전히 그것을 하나의 뉴런에 대한 일회성 훈련과 비교합니다. 임호. 이것은 본질적으로 뉴런을 훈련하는 것 외에도 모든 종류의 최적화와 전처리가 일어나고 훈련 자체가 수백 번 시작되는 AI 시스템입니다. 혹시라도....
MLP는 추측의 95 %에서 밝혀졌습니다 ... 당신이 올바른 자전거를 타고 있지 않은 것 같습니다) 불쾌하지 않습니다.
오류가 있습니다.
테이블의 맨 첫 번째 열은 행 번호이며 이 열은 예측에 사용할 수 없지만 어떤 이유로 jPrediction에만 필요합니다.
대상은 행의 전반부가 클래스 0이고 행의 후반부가 클래스 1이도록 분포됩니다. 따라서 뉴런은 행 번호가 228보다 작으면 이것이 클래스 0이고 그렇지 않으면 단순히 기억할 것입니다. 1등급이다.
오류가 있습니다.
테이블의 맨 첫 번째 열은 행 번호이며 이 열은 예측에 사용할 수 없지만 어떤 이유로 jPrediction에만 필요합니다.
대상은 행의 전반부가 클래스 0이고 행의 후반부가 클래스 1이도록 분포됩니다. 따라서 뉴런은 행 번호가 228보다 작으면 이것이 클래스 0이고 그렇지 않으면 단순히 기억할 것입니다. 1급이다.
그건 그렇고, 그렇습니다. 숫자에 불과한 줄 몰랐습니다.
그것 없이는 유지할 입력: 4,50,53,59,61,64,92,98,101,104,
훈련(60.0%) 세그먼트의 평균 오류 = 0.269(26.9%) nLearns=2 NGrad=7376 NHess=0 NCholesky=0 codResp=2
검증(20.0%) 사이트의 평균 오류 = 0.864(86.4%) nLearns=2 NGrad=7376 NHess=0 NCholesky=0 codResp=2
테스트(20.0%) 영역의 평균 오차 = 0.885(88.5%) nLearns=2 NGrad=7376 NHess=0 NCholesky=0 codResp=2
분명히 과잉입니다. 따라서 입력에 대한 다른 선별 작업을 수행해야 합니다.
입력의 무게로 제거할 수 있습니까? 주제의 첫 번째 게시물에서 작업을 위해 어떻게 했습니까?
여기에 첨부한 R 스크립트를 다시 작성하여 이름과 열 수를 결정하도록 하려고 합니다. 하지만 R에 대한 지식은 충분하지 않습니다.
여기에서 이름과 열 수를 결정하도록 첨부한 R 스크립트를 다시 작성하려고 합니다. 하지만 R에 대한 지식은 충분하지 않습니다.
나는 그 당시에 R을 배우기 시작했을 때 스크립트가 거의 완전히 래틀(R의 데이터 마이닝을 위한 시각적 환경)에서 생성되었습니다. 그래서 모든 경우에 대해 매우 복잡하고 조정되었습니다.
이것
로 교체해야 합니다
그리고 그것은 정상과 같아야 합니다.
일반적으로 잘못된 접근 방식이 있으며 이러한 방식으로 입력의 중요성을 결정할 필요는 없습니다. 웬일인지 그 당시에는 효과가 있었지만 다시는 도움이되지 않았습니다.
예측 변수의 중요성을 다음과 같이 정의하는 것이 좋습니다.
중요도 평가 결과는 다음과 같다. 표에서 예측 변수가 높을수록 좋습니다. VVolum6, VDel1, VVolum9, VQST10만 테스트를 통과했습니다.
래틀에서는 이 4개의 예측 변수에 대해 한 번에 6개의 모델을 구축할 수 있으며 SVM은 검증 및 테스트 데이터에서 약 55%의 정확도를 보여줍니다. 나쁘지 않다.
MLP는 추측의 95 %에서 밝혀졌습니다 ... 당신이 올바른 자전거를 타고 있지 않은 것 같습니다) 불쾌하지 않습니다.
나는 또한 내 자신의 자전거를 만들지만 수십 년 동안 입증된 MLP를 기반으로 합니다.
그리고 다시 alglib에서 결정 트리를 시도하면 MLP보다 더 빠르고 정확도가 더 좋은 것으로 간주됩니다. Diplerning은 또한 더 빠르게 계산하지만 더 이상 alglib에 없습니다.
가장 중요한 것은 속도/품질 비율, 계산할 때 일주일, 또는 심지어 하루 또는 심지어 한 시간을 기다리는 요점이 무엇인지 .. 그래서 최적의 조합을 결코 찾을 수 없습니다) 모델은 몇 초 동안 훈련되어야합니다. 그런 다음 유전을 사용하여 매개변수 또는 예측자를 자동 선택하면 이것이 진정한 AI이고 그렇지 않으면 쓰레기입니다)