Bayesian regresyon - Bu algoritmayı kullanarak Uzman Danışman yapan var mı? - sayfa 51
Alım-satım fırsatlarını kaçırıyorsunuz:
- Ücretsiz alım-satım uygulamaları
- İşlem kopyalama için 8.000'den fazla sinyal
- Finansal piyasaları keşfetmek için ekonomik haberler
Kayıt
Giriş yap
Gizlilik ve Veri Koruma Politikasını ve MQL5.com Kullanım Şartlarını kabul edersiniz
Hesabınız yoksa, lütfen kaydolun
"En iyi" kombinasyonu nasıl tanımlarsınız?
Temel problem, tahminci listesi problemidir. Tahmin edicilerin listesini doğruladıktan sonra, diğer her şeye geçebilirsiniz.
Teşekkür ederim. Ayrıca yeni tahminciler eklemeye de eğilimliyim.
Kullandığınız tahmin edicilerin sayısının yeterli olmadığını mı düşünüyorsunuz?
kesin olarak bilmiyorum.
kesin olarak bilmiyorum.
Zaten yazdım, tekrar edeceğim.
Tahmin edicilerin seçimi ile ilgili çalışma, sipariş dahil olmak üzere birkaç kez gerçekleştirildi. Sonuçlar aşağıda sunulmuştur
Böyle.
En az 50 ve tercihen yüzden fazla olmak üzere belirli bir dizi tahminci alıyoruz.
Ele aldığım tüm tahmin ediciler (yani genelleme yapmıyorum) iki kısma ayrılabilir:
"Tutum"u çok dikkatli yazıyorum ve bilinçli olarak herhangi bir terim kullanmıyorum.
Öngörücülere bir örnek:
Lütfen hedef değişkeni belirttiğimi unutmayın. Başka bir hedef değişken için her şey tam tersi olabilir
Orijinal tahmin ediciler setinde bu iki tahmin edici setine sahip olmanın sorunu, standart ÖNEMLİ araçlarının çalışmamasıdır. Bu nedenle, bazı araçlara ihtiyaç var ve ben bunları geliştirdim ve kullandım, bu da gürültü tahmincilerini kabaca ayıklamanıza izin veriyor. Burada bir kesinlik olmadığını belirtmek gerekir. Algoritma, gerçek ve nominal tahmin edicileri ayrı ayrı nicelleştirir. 2'den az (bir miktar göreceli değer) - kesinlikle gürültü. 2'den 3'e: kullanabilirsiniz, ancak kullanmamak daha iyidir ....
Gürültü ile ilgili sorun, gürültü tahmin edicilerinin, gürültü olmayan tahmin edicileri alt etmesidir. Örneğin, randomforest, ada, svm algoritmaları bir nedenden dolayı bu gürültü tahmin edicileri üzerinde daha büyük bir model oluşturur.
Gürültü tahmin edicilerini filtreleyerek ve benim kümemde yaklaşık %80 (!) vardı, tahmin ediciler listesinin geri kalanını alıyoruz ve değişkenlerin önemini belirlemek için R'den ona araçlar uygulamaya başlıyoruz. Modeli eğitmek için kullanılan gerçek tahmin edici sayısı, NOT gürültü tahmin edicilerinin yaklaşık yarısıdır, yani. Orijinal setin yaklaşık %10'u.
Öngörücülerin önemini pencerede tanımlarım. Pencere hareket ettikçe, %20 tabanından tahmin edicilerin listesi her zaman değişir. Onlar. modeli oluştururken 12-15 tahminci kullanılır, ancak pencere alıntıdan sonra hareket ettiğinde farklıdırlar.
Ve tüm bu yaygara ne yüzünden?
Ancak gerçek şu ki, tahmin ediciler kümesini gürültüden temizlemek, aşırı eğitimli DEĞİL modellerin oluşturulmasına yol açar.
Sayılarla.
Tüm tahmin ediciler setinde, %3 - %5 tahmin hatasıyla modeller oluşturmak mümkündür! Ayrıca, numuneyi "örnek dışı" - OOV olarak adlandırılan parçalara bölen herhangi bir algoritma bu sonucu doğrular. Bu, orijinal numuneyi her zaman parçalara ayıran ve sonuçlardan çok memnun olan raatle'da çok net bir şekilde görülmektedir.
Ancak.
Orijinal örnekte gürültü tahmin edicileri varsa, gerçek "örnek dışı", yani örneğin 06/01/2015 ile 01/01/2016 arasındaki eğitim örneğini alırsak ve ardından örnek üzerinde hesaplarsak 1 Ocak'tan sonra %3 -%5 yerine hem %50 hem de %70 hata alabilirsiniz! Ayrıca, "örnek dışı" başlangıcı 1 Ocak'tan ne kadar uzaksa, sonuç o kadar kötü olur.
MODEL AŞIRI
İlk gürültü öngörücü setini temizlersek, sonuçlar rastgele orman, ada SVM ve bir dizi başka model için aşağıdaki ve aynıdır - yani, model benim durumumda hiçbir şeyi çözmedi, sonra sonuçlar aşağıdaki gibidir: herhangi bir sette tahmin hatası yaklaşık %30'dur. Tahmin edicilerin önemini belirlemek için R araçları kullanılarak hata yaklaşık %25'e düşürülebilir. Hedef değişken 33 için bu sonucu iyileştirmek mümkün değildi.
Zaten yazdım, tekrar edeceğim.
Tahmin edicilerin seçimi ile ilgili çalışma, sipariş dahil olmak üzere birkaç kez gerçekleştirildi. Sonuçlar aşağıda sunulmuştur
Böyle.
En az 50 ve tercihen yüzden fazla olmak üzere belirli bir dizi tahminci alıyoruz.
Ele aldığım tüm tahmin ediciler (yani genelleme yapmıyorum) iki kısma ayrılabilir:
"Tutum"u çok dikkatli yazıyorum ve bilinçli olarak herhangi bir terim kullanmıyorum.
Öngörücülere bir örnek:
Lütfen hedef değişkeni belirttiğimi unutmayın. Başka bir hedef değişken için her şey tam tersi olabilir
Orijinal tahmin ediciler setinde bu iki tahmin edici setine sahip olmanın sorunu, standart ÖNEMLİ araçlarının çalışmamasıdır. Bu nedenle, bazı araçlara ihtiyaç var ve ben bunları geliştirdim ve kullandım, bu da gürültü tahmincilerini kabaca ayıklamanıza izin veriyor. Burada bir kesinlik olmadığını belirtmek gerekir. Algoritma, gerçek ve nominal tahmin edicileri ayrı ayrı nicelleştirir. 2'den az (bir miktar göreceli değer) - kesinlikle gürültü. 2'den 3'e: kullanabilirsiniz, ancak kullanmamak daha iyidir ....
Gürültü ile ilgili sorun, gürültü tahmin edicilerinin, gürültü olmayan tahmin edicileri alt etmesidir. Örneğin, randomforest, ada, svm algoritmaları bir nedenden dolayı bu gürültü tahmin edicileri üzerinde daha büyük bir model oluşturur.
Gürültü tahmin edicilerini filtreleyerek ve benim kümemde yaklaşık %80 (!) vardı, tahmin ediciler listesinin geri kalanını alıyoruz ve değişkenlerin önemini belirlemek için R'den ona araçlar uygulamaya başlıyoruz. Modeli eğitmek için kullanılan gerçek tahmin edici sayısı, NOT gürültü tahmin edicilerinin yaklaşık yarısıdır, yani. Orijinal setin yaklaşık %10'u.
Öngörücülerin önemini pencerede tanımlarım. Pencere hareket ettikçe, %20 tabanından tahmin edicilerin listesi her zaman değişir. Onlar. modeli oluştururken 12-15 tahminci kullanılır, ancak pencere alıntıdan sonra hareket ettiğinde farklıdırlar.
Ve tüm bu yaygara ne yüzünden?
Ancak gerçek şu ki, tahmin ediciler kümesini gürültüden temizlemek, aşırı eğitimli DEĞİL modellerin oluşturulmasına yol açar.
Sayılarla.
Tüm tahmin ediciler setinde, %3 - %5 tahmin hatasıyla modeller oluşturmak mümkündür! Ayrıca, numuneyi "örnek dışı" - OOV olarak adlandırılan parçalara bölen herhangi bir algoritma bu sonucu doğrular. Bu, orijinal numuneyi her zaman parçalara ayıran ve sonuçlardan çok memnun olan raatle'da çok net bir şekilde görülmektedir.
Ancak.
Orijinal örnekte gürültü tahmin edicileri varsa, gerçek "örnek dışı", yani örneğin 06/01/2015 ile 01/01/2016 arasındaki eğitim örneğini alırsak ve ardından örnek üzerinde hesaplarsak 1 Ocak'tan sonra %3 -%5 yerine hem %50 hem de %70 hata alabilirsiniz! Ayrıca, "örnek dışı" başlangıcı 1 Ocak'tan ne kadar uzaksa, sonuç o kadar kötü olur.
MODEL AŞIRI
İlk gürültü öngörücü setini temizlersek, sonuçlar randomforest, ada SVM ve bir dizi başka model için aşağıdaki ve aynıdır - yani, model benim durumumda hiçbir şeyi çözmedi, o zaman sonuçlar şu şekildedir: aşağıdaki gibidir: herhangi bir sette tahmin hatası yaklaşık %30'dur. Tahmin edicilerin önemini belirlemek için R araçları kullanılarak hata yaklaşık %25'e düşürülebilir. Hedef değişken 33 için bu sonucu iyileştirmek mümkün değildi.
Teşekkür ederim.
Düşünce treni açıktır. Yukarıdan, eğitim örneğinin çeşitli bölümlerinde tahmin edicilerin önemini hesaplama, ardından listeleri karşılaştırma ve tekrar edenleri seçme fırsatını kendim gördüm.
Manuel seçim hakkında bir şey söyleyemem, hemen bir makinenin yardımını kullanmayı tercih ederim.
Not: Karar ormanından gelen değişkenlerin önemine ek olarak, karşılıklı bilgi fonksiyonuna dayalı yerel yöntemimi de uygulamaya çalışacağım. Sonra sana sonuçları göstereceğim.
Gürültü ile ilgili sorun, gürültü tahmin edicilerinin, gürültü olmayan tahmin edicileri alt etmesidir. Örneğin, randomforest, ada, svm algoritmaları bir nedenden dolayı modeli büyük ölçüde bu gürültü tahmin edicileri üzerine kurar.