Ticarette makine öğrenimi: teori, pratik, ticaret ve daha fazlası - sayfa 163

 
San Sanych Fomenko :

1) Rastgele orman algoritmaları yazarının ilk yayınlarına bakarsanız, o zaman yazar oldukça ciddi bir şekilde rf'nin yeniden eğitime eğilimli olmadığını belirtti ve birçok örnek verdi. Randomforest paketinin kendisi, en ufak bir fazlalık şüphesini bile ortadan kaldıracak şekilde oluşturulmuştur.

Bununla birlikte, en yeniden eğitilebilir algoritma rastgele ormandır. Şahsen yandı.


2) Makine öğrenimi ile ilgili yayınların büyük çoğunluğu ikinci dosyanın herhangi bir analogu üzerinde test edilmemiştir. Nedeni banal. Algoritmalar zaman serilerine UYGULANMAZ. Ve bir numaralı dosyanın rastgele bölünmesinin oldukça yeterli olduğu ortaya çıktı. Ve bu, örneğin el yazısı metni tanırken geçerlidir.

1) Hem orman hem de GBM ve diğer yöntemler yeniden eğitilir. Katlama verilerinin arka planına karşı görünmez ve çok gürültülü olanlarda çok fark edilir.

2) Evet, farklı bir zaman aralığında ek örnekler üzerinde iç içe çapraz doğrulamanın başlatılmasını tartışan yayınlar var.

 
Alexey Burnakov :

2) Evet, farklı bir zaman aralığında ek örnekler üzerinde iç içe çapraz doğrulamanın başlatılmasını tartışan yayınlar var.

sakıncası yoksa link
 
San Sanych Fomenko :
sakıncası yoksa link


Tartışmalardan biri: http://stats.stackexchange.com/questions/65128/nested-cross-validation-for-model-selection

Orada: /go?link=https://stats.stackexchange.com/questions/103828/use-of-nested-cross-validation

Tartışmalarda makalelere bağlantılar var.

İlginç makalelerden biri: http://www.andrewng.org/portfolio/preventing-overfitting-of-cross-validation-data/

Adından da anlaşılacağı gibi, çapraz doğrulama doğrulama kıvrımlarında model değerlendirme aşamasında gerçekleşen yeniden eğitimden bahsediyoruz. Buna göre, çapraz doğrulamaya ek olarak, halihazırda seçilmiş olan modeli değerlendirmek için başka bir örneğe ihtiyaç vardır.

Nested cross validation for model selection
Nested cross validation for model selection
  • stats.stackexchange.com
How can one use nested cross validation for model selection? From what I read online, nested CV works as follows: There is the inner CV loop, where we may conduct a grid search (e.g. running K-fold for every available model, e.g. combination of hyperparameters/features) There is the outer CV loop, where we measure the performance of the model...
 

Kısacası (zaten bunun hakkında yazdı):

Çapraz doğrulama yoluyla seçilen model, başka bir gecikmeli örnekle yeniden doğrulanmalıdır.

Ayrıca, iç içe çapraz doğrulama, n k-katlı çapraz doğrulamanın (farklı veriler üzerinde) oluşturulmasını ve ardından n ertelenmiş numunede (her seferinde farklı verilerde) sonraki doğrulamayı ifade eder.

Ve hatta hepsi bu kadar değil. Gecikmeli numunelerin üst katmanında, örneğin bu gecikmiş numunelerden elde edilen verilere dayalı bir model komitesi gibi bir yeniden seçim yapılırsa, komitenin başka bir gecikmiş numune üzerinde doğrulanması gerekir.

İdeal olarak, bu süreç:

k-fold кроссвалидация 

-------------------------------- повторилась n раз

------------------------------------------------------------- на полученных данных сформирован комитет

------------------------------------------------------------------------------------------------------------------------ комитет валидирован на еще одной выборке из будущего 

Sonuçların DAĞILIMINI en üst düzeyde ALMAK için bir kez değil, m kez tekrarlamanız gerekir. Bu, seçim yanlılığını pratik bir minimuma indirir.

Ama aynı zamanda beklenen değer, örneğin EF önemli ölçüde düşebilir... Ağrı.

 
Alexey Burnakov :

farklı bir zaman aralığında ek örnekler üzerinde iç içe çapraz doğrulamanın tanıtılması.

Ben de benzer bir şey yapıyorum. Diyelim ki bir yıllık eğitim için veri var. Biri Ocak verisi, biri Şubat verisi, biri Mart verisi olmak üzere 12 model eğiteceğim. Tahmin edicileri ve model parametrelerini seçerek, küçük veri alanlarında eğitilmiş bu modellerden herhangi birinin yıl boyunca iyi bir şekilde işlem görmesini sağlıyorum, bu, kullanılan tahmin edicilerin birbirleriyle sürekli ilişkileri olduğu konusunda biraz umut veriyor. Tüm bu modeller topluluğunun yardımıyla yeni veriler hakkında bir karar veriyorum.

Denediğim tüm çapraz doğrulamalar arasında bu, yeni veriler üzerinde en iyi sonuçları verdi. Ancak çözülmemiş birçok sorun var - kaç model olmalı, yani. 12 yerine yüz antrenman yapabilirim ama bir anlamı var mı? Ticaret değerlendirmesi de önemlidir, rf veya keskin dahil herhangi bir şeyi seçmek için deneysel olarak en iyisini seçmeniz gerekir.

 
Yazımda ayrıntılı olarak ele alacağım bir ipucu vermek ister misiniz????? istiyor musun istemiyor musun???
 
Dr.Tüccar :

Ben de benzer bir şey yapıyorum. Diyelim ki bir yıllık eğitim için veri var. Biri Ocak verisi, biri Şubat verisi, biri Mart verisi olmak üzere 12 model eğiteceğim. Tahmin edicileri ve model parametrelerini seçerek, küçük veri alanlarında eğitilmiş bu modellerden herhangi birinin yıl boyunca iyi bir şekilde işlem görmesini sağlıyorum, bu, kullanılan tahmin edicilerin birbirleriyle sürekli ilişkileri olduğu konusunda biraz umut veriyor. Tüm bu modeller topluluğunun yardımıyla yeni veriler hakkında bir karar veriyorum.

Denediğim tüm çapraz doğrulamalar arasında bu, yeni veriler üzerinde en iyi sonuçları verdi. Ancak çözülmemiş birçok sorun var - kaç model olmalı , yani. 12 yerine yüz antrenman yapabilirim ama bir anlamı var mı? Ticaret değerlendirmesi de önemlidir, rf veya keskin dahil herhangi bir şeyi seçmek için deneysel olarak en iyisini seçmeniz gerekir.

Cevap: 9
 
Dr.Tüccar :

Ben de benzer bir şey yapıyorum. Diyelim ki bir yıllık eğitim için veri var. Biri Ocak verisi, biri Şubat verisi, biri Mart verisi olmak üzere 12 model eğiteceğim. Tahmin edicileri ve model parametrelerini seçerek, küçük veri alanlarında eğitilmiş bu modellerden herhangi birinin yıl boyunca iyi bir şekilde işlem görmesini sağlıyorum, bu, kullanılan tahmin edicilerin birbirleriyle sürekli ilişkileri olduğu konusunda biraz umut veriyor. Tüm bu modeller topluluğunun yardımıyla yeni veriler hakkında bir karar veriyorum.

Denediğim tüm çapraz doğrulamalar arasında bu, yeni verilerde en iyi sonuçları verdi. Ancak çözülmemiş birçok sorun var - kaç model olmalı, yani. 12 yerine yüz antrenman yapabilirim ama bir anlamı var mı? Ticaret değerlendirmesi de önemlidir, rf veya keskin dahil herhangi bir şeyi seçmek için deneysel olarak en iyisini seçmeniz gerekir.

Bu bir uyum. Parametreleri ve girdileri seçerek, en az 3 yıllık test için çalışan modelleri kolayca alabilirsiniz.

Bende de var. Eğitim dışında veriler üzerinde iyi bir sonuç gösteren modeller (100). 10 yıldan bahsediyoruz... Ama bu sadece modellerin tam olarak test verilerine göre (eğitim dışında) seçilmesinden kaynaklanıyor. Başka bir deyişle, test için hava durumu.

Bir sonraki adımınız, bu modelleri veya seçilen herhangi bir komiteyi ek bir ertelenmiş örnek üzerinde değerlendirmektir. Ayrıca, her modelin benzersiz veriler üzerinde olması arzu edilir. Ardından, testteki kalitenin, modelin seçilmediği numunedeki kaliteyle nasıl ilişkili olduğunu anlayacaksınız.
 
Alexey Burnakov :


Tartışmalardan biri: http://stats.stackexchange.com/questions/65128/nested-cross-validation-for-model-selection

Orada: /go?link=https://stats.stackexchange.com/questions/103828/use-of-nested-cross-validation

Tartışmalarda makalelere bağlantılar var.

İlginç makalelerden biri: http://www.andrewng.org/portfolio/preventing-overfitting-of-cross-validation-data/

Adından da anlaşılacağı gibi, çapraz doğrulama doğrulama kıvrımlarında model değerlendirme aşamasında gerçekleşen yeniden eğitimden bahsediyoruz. Buna göre, çapraz doğrulamaya ek olarak, halihazırda seçilmiş olan modeli değerlendirmek için başka bir örneğe ihtiyaç vardır.

Teşekkür ederim. Tek endişelenenin ben olmadığımı görmek güzel.
 
Ty ... ne sıkıcı insanlarsınız, özellikle yeni bilgi alanında ...