Ticarette makine öğrenimi: teori, pratik, ticaret ve daha fazlası - sayfa 742
Alım-satım fırsatlarını kaçırıyorsunuz:
- Ücretsiz alım-satım uygulamaları
- İşlem kopyalama için 8.000'den fazla sinyal
- Finansal piyasaları keşfetmek için ekonomik haberler
Kayıt
Giriş yap
Gizlilik ve Veri Koruma Politikasını ve MQL5.com Kullanım Şartlarını kabul edersiniz
Hesabınız yoksa, lütfen kaydolun
Unutma 31/01/2018 tarihinden bu güne kadar kazandıran bir model aldım diyorum ama bu model 05/03/2018 tarihinden bu güne kadar bu iki hafta bu şekilde çalışıyor. test sonucu.
40 noktada eğitilmiş ve zaten OOS'ta 1.5 aydır çalışan yaşlı bir kadın için hiç de fena değil.
İşte 31.01.2018 tarihinden itibaren tam OOC'si
Hala uygun olduğunu düşünüyor musun???? Size hatırlatmama izin verin, ekran görüntülerinde OOS sitesinde
İşte her şeyin boş gevezelik olduğunu gösteren hesaplamalar:
İlk veri:
54 tahmin ediciye ve bir trend tersine çevirme hedef değişkenine sahip iki ardışık dosya: short-out-long
Hesaplamalar ilk R dosyası olan çıngırakta yapılır. Rat_DF1a üç bölüme ayrılır: tren, test, doğrulama. Parçalara ayırma örneğe göre yapılır, yani. kaynak dosyanın çubuklarından rastgele bir seçim yapılır.
RF hesaplama sonuçları: 500 ağaç, düğüm başına 7 tahminci.
Modeli oluşturmak için kullanılan gözlem sayısı: 2491
Eksik değer ataması etkin.
aramak:
randomForest(formül = trenY ~.,
veri = crs$veri kümesi[crs$örnek, c(crs$giriş, crs$hedef)],
ntree = 500, mtry = 7, önem = DOĞRU, değiştir = YANLIŞ, na.action = randomForest::na.roughfix)
Rastgele orman türü: sınıflandırma
Ağaç sayısı: 500
hayır. her bölmede denenen değişken sayısı: 7
OOB hata oranı tahmini: %1,61
Karışıklık matrisi:
-1 0 1 sınıf hatası
-1 498 5 2 0.01386139
0 3 1067 17 0.01839926
1 1 12 886 0.01446051
En harika sonuç! Kâse! OOB'nin dosyanın eğitimde kullanılmayan parçası olduğunu not ediyorum.
Buradaki öğrenme hatasına bakalım. 500'e gerek olmadığını görüyoruz, 50 veya 100 ağaçla geçinebilirsiniz.
Test sitesinde kontrol edin
Rat_DF1a [test] üzerindeki Rastgele Orman modeli için hata matrisi (sayılar):
tahmin edilen
Gerçek -1 0 1 Hata
-1 110 3 0 2.7
0 3 221 2 2.2
1 0 2 194 1.0
Rat_DF1a [test] üzerindeki Rastgele Orman modeli için hata matrisi (oranlar):
tahmin edilen
Gerçek -1 0 1 Hata
-1 20,6 0,6 0,0 2,7
0 0,6 41,3 0,4 2,2
1 0,0 0,4 36,3 1,0
Genel hata: %1,8, Ortalama sınıf hatası: %1,966667
Çıngırak zaman damgası: 2018-03-14 10:57:23 kullanıcı
Öğrenme sonucu onaylanır. Kâse!
Doğrulama sitesinde iki kez kontrol edeceğiz
Rat_DF1a [doğrula] üzerindeki Rastgele Orman modeli için hata matrisi (sayılar):
tahmin edilen
Gerçek -1 0 1 Hata
-1 105 1 0 0.9
0 1 218 2 1.4
1 0 1 205 0,5
Rat_DF1a [doğrula] üzerindeki Rastgele Orman modeli için hata matrisi (oranlar):
tahmin edilen
Gerçek -1 0 1 Hata
-1 19.7 0.2 0.0 0.9
0 0,2 40,9 0,4 1,4
1 0.0 0.2 38,5 0,5
Genel hata: %0.9, Ortalama sınıf hatası: %0.9333333
Çıngırak zaman damgası: 2018-03-14 10:59:52 kullanıcı
Kâse! Bir mikrofinans şirketine koşabilir ve mümkün olduğunca çok para ödünç alabilirsiniz!
Ancak bir AMA var: dosyanın bölünmesi rastgele bir çubuk seçimi ile gerçekleştirildi ve ticaret kesinlikle artan zamanda olacak.
Bu kronolojinin kaydedildiği dosyayı kontrol edelim - bu Rat_DF1b
Ve işte sonuç:
Rat_DF1b'deki Rastgele Orman modeli için hata matrisi (sayılar):
tahmin edilen
Gerçek -1 0 1 Hata
-1 0 324 237 100.0
0 0 633 540 46.0
10 152 697 17,9
Rat_DF1b'deki Rastgele Orman modeli için hata matrisi (oranlar):
tahmin edilen
Gerçek -1 0 1 Hata
-1 0 12,5 9,2 100,0
0 0 24,5 20,9 46,0
10 5,9 27,0 17,9
Genel hata: %48,5, Ortalama sınıf hatası: %54.63333
Çıngırak zaman damgası: 2018-03-14 11:02:16 kullanıcı
FELAKET! MODEL YENİDEN YÜKLENDİ! HEDEF DEĞİŞKEN İLE İLGİLİ ÖNGÖRÜLER SADECE GÜRÜLTÜDİR, SADECE GÜRÜLTÜ ÜZERİNDE BÖYLE MUHTEŞEM SONUÇLAR VERMEK MÜMKÜN OLUR.
Bir üniversite öğrencisi düzeyinde normal, olağan, modeli uydurma ve kontrol etme şemasını gösterdim. Ana dezavantaj, tahmin ediciler ve hedef değişken arasındaki ilişki hakkında herhangi bir düşüncenin olmamasıdır.
Ancak şema HER ZAMAN en azından tam olarak böyle olmalıdır ve henüz tamamlanmamıştır - yine de normal bir seri dosyada test sonucunu onaylayacak bir test çalışmasına ihtiyacınız vardır. Peki, ve sonra bir mikrofinans şirketine.
İşte her şeyin boş gevezelik olduğunu gösteren hesaplamalar:
Testte, doğrulamada bu kadar iyi sonuçlar almanız garip. Deneylerimde ve orada her şey çok daha kötüydü. Karıştırmadan önce RNG'nin farklı başlatılmasını yaparak, test ve doğrulama için farklı sonuçlar elde ettim - farklı RNG için hem hata hem de işlem sayısı açısından çok farklı.
Sonuç olarak, test ve doğrulamanın hiç gerekli olmadığı ve bir alanda eğitim ve diğerinde değerlendirme yapılması gerektiği sonucuna vardım (ayrı bir dosyada var). Bu, rastgele "başarı" karıştırma faktörünü ortadan kaldıracaktır.
Beyler, kase hazır mı?
İşte her şeyin boş gevezelik olduğunu gösteren hesaplamalar:
İlk veri:
54 tahmin ediciye ve bir trend tersine çevirme hedef değişkenine sahip iki ardışık dosya: short-out-long
Hesaplamalar ilk R dosyası olan çıngırakta yapılır. Rat_DF1a üç bölüme ayrılır: tren, test, doğrulama. Parçalara ayırma örneğe göre yapılır, yani. kaynak dosyanın çubuklarından rastgele bir seçim yapılır.
Ancak bir AMA var: dosyanın bölünmesi rastgele bir çubuk seçimi ile gerçekleştirildi ve ticaret kesinlikle artan zamanda olacak.
Bu kronolojinin kaydedildiği dosyayı kontrol edelim - bu Rat_DF1b
Genel hata: %48,5, Ortalama sınıf hatası: %54.63333
Çıngırak zaman damgası: 2018-03-14 11:02:16 kullanıcı
FELAKET! MODEL YENİDEN YÜKLENDİ! HEDEF DEĞİŞKEN İLE İLGİLİ ÖNGÖRÜLER SADECE GÜRÜLTÜDİR, SADECE GÜRÜLTÜ ÜZERİNDE BÖYLE MUHTEŞEM SONUÇLAR VERMEK MÜMKÜN OLUR.
Bir üniversite öğrencisi düzeyinde normal, olağan, modeli uydurma ve kontrol etme şemasını gösterdim. Ana dezavantaj, tahmin ediciler ve hedef değişken arasındaki ilişki hakkında herhangi bir düşüncenin olmamasıdır.
Ancak şema HER ZAMAN en azından tam olarak böyle olmalıdır ve henüz tamamlanmamıştır - yine de normal bir seri dosyada test sonucunu onaylayacak bir test çalışmasına ihtiyacınız vardır. Peki, ve sonra bir mikrofinans şirketine.
Bu, alt kümelere ayrılırken (tren / val / test) ana hatadır. Sıra şu şekilde olmalıdır:
İyi şanlar
Modelleri kullanarak tahmin edicileri değerlendirmekten bahsedersek, bence en gelişmiş paket RandomUniformForest. Çeşitli bakış açılarından tahmin edicilerin önemini ayrıntılı olarak tartışır. ders çalışmanı tavsiye ederim. Bir makalemde detaylı olarak bahsetmiştim.
Model öngörücü seçiminin kullanımını bıraktım. Kullanılan modelin özellikleri ile sınırlıdır.
İyi şanlar
Nikonenko S., Kadurin A., Arkhangelskaya E.'den "Derin öğrenme" s. 139.
Doğrulama verilerinin eğitim verileriyle aynı nitelikte olması için bunları birlikte karıştırmanız gerekir. Aksi takdirde, bir trendin veya dairenin rastgele bir parçası olabilir. Sonuç olarak, modelin genelleme kabiliyeti açısından bir değerlendirmesi olmayacak, ancak geçerli bölümdeki sürekli tarihin belirli bir parçasına bir ayarlama yapılacak (bunun üzerinde duracağız).
Ancak, yukarıda yazdığım gibi, farklı başarıların geçerli kümelerinin elde edildiği farklı RNG başlatmalarıyla yapılan deneylerden sonra, geçerli bölümün gerekli olmayabileceği sonucuna vardım. Buna ek olarak, diğer düzenleme yöntemlerini kullanabilirsiniz. Ancak bu deneyler az miktarda veri (5 gün) üzerindeydi ve örnek sayısı 10 kat artırılırsa karıştırmanın daha üniform olması ve bu alanlardaki verilerin daha homojen olması mümkündür. (yani aynı nitelikte) - bu durumda geçerli yararlı olabilir.
Güncelleme: Çok fazla veri varsa ve her iki yönde birden fazla daire ve trend geçerli alana giriyorsa, eğitim seti ile karıştırma gerekli olmayabilir.Modelleri kullanarak tahmin edicileri değerlendirmekten bahsedersek, bence en gelişmiş paket RandomUniformForest. Çeşitli bakış açılarından tahmin edicilerin önemini ayrıntılı olarak tartışır. ders çalışmanı tavsiye ederim. Bir makalemde detaylı olarak bahsetmiştim.
Tahmin edicilerin model seçimini kullanmayı bıraktım. Kullanılan modelin özellikleri ile sınırlıdır.
İyi şanlar
Ve bence en gelişmişi tamamen farklı bir ürün ;-).... İçinde biraz farklı uygulanıyor.
Numunenin 2 alt örneğe bölündüğü ve test edildiği iki ağ, burada B ağı (ikinci polinom) için tren test ve test trendir. Bu durumda, yalnızca bir polinomun yarısını diğer yarısının yerine getirdiği test örneği dikkate alınır. Ve sınıflar eşit olarak bölünür. Yani birler tren ve teste eşit olarak bölündü ve buna göre sıfırlar da eşit olarak bölündü. Ve ne yazık ki orada zaman yok. Dosya en azından vektörlerin sıralamasına göre gönderilebilir. Belki de fazla takmayı azaltmanın anahtarı budur ???
Doğru, tam olarak anlamadım, belki doğrulama bölümünden bahsediyorum, burası FAVORİ optimize edicimdeki tren bölümü ???
Ve sizin durumunuzda, Test bölümü bir kontrol bölümüdür, ağın bir süre çalışmasına izin verdiğimizde ... Kavramlarda kafam karıştı ...
Her halükarda, test bölümünün eğitim bölümünü hiçbir şekilde etkileyemeyeceğini ve mümkün olduğunca rastgele oluşturulması gerektiğini düşünüyorum, burada kontrol bölümünün zamanında düzenli gitmesi bile bu zamana bağlı olmayacak sınıflandırma görevleri için. Niye ya? Evet, çünkü tüm verileri karıştırarak, bu kümeden gerçek potansiyeli çıkarmaya çalışıyoruz ve koşulların düzen şeklinde başarılı bir kombinasyonunu değil. Genel olarak, verileri karıştırarak, gerçekten neler yapabildiklerini görüyorsunuz, bu veriler ... Bunun gibi bir şey ....
Tekrarlanan optimizasyon ile, sonuç %10-20 arasında atlamalıdır, bu, verilerin sıralanması nedeniyle aynıdır, bir kez iyi sıralanmıştır, bir dahaki sefer biraz daha kötüydü, vb. ... IMHO ! !!
Nikonenko S., Kadurin A., Arkhangelskaya E.'den "Derin öğrenme" s. 139.
Doğrulama verilerinin eğitim verileriyle aynı nitelikte olması için bunları birlikte karıştırmanız gerekir. Aksi takdirde, bir trendin veya dairenin rastgele bir parçası olabilir. Sonuç olarak, modelin genelleme kabiliyeti açısından bir değerlendirmesi olmayacak, ancak geçerli bölümdeki sürekli tarihin belirli bir parçasına bir ayarlama yapılacak (bunun üzerinde duracağız).
Ancak, yukarıda yazdığım gibi, farklı başarıların geçerli kümelerinin elde edildiği farklı RNG başlatmalarıyla yapılan deneylerden sonra, geçerli bölümün gerekli olmayabileceği sonucuna vardım. Buna ek olarak, diğer düzenleme yöntemlerini kullanabilirsiniz. Bununla birlikte, bu deneyler az miktarda veri üzerindeydi (5 gün) ve örneklerin sayısı 10 kat artırılırsa, karıştırma muhtemelen daha tekdüze olacak ve bu alanlardaki veriler daha homojen olacaktır (örn. aynı doğa).
Güncelleme: Çok fazla veri varsa ve her iki yönde birden fazla daire ve trend geçerli alana giriyorsa, eğitim seti ile karıştırma gerekli olmayabilir.Zıtlıkların genç ruhu yılmaz :)
Zaman serisi sınıflandırmasından bahsettim. Örneğin, M15 için, yaklaşık 1000 barı eğitmek için iki hafta. Onay için gelecek hafta - 500 bar. Eğitim sırasında eğitim seti karıştırılır, ancak doğrulama seti karıştırılmaz.
Tüm seti ayırmadan önce karıştırmak iki durumda gereklidir: tabakalı setler ve çapraz doğrulama. Ve bu durumda, her iki kümede de aynı örnekleri almamak için örnekleme yerine koymadan yapılmalıdır.
Örnek sayısında herhangi bir kısıtlamamız olmadığı ve bunların hala zaman serileri olduğu düşünüldüğünde, karıştırmadan önce bölmek daha iyidir. Benim nacizane fikrime göre