Bayesian regresyon - Bu algoritmayı kullanarak Uzman Danışman yapan var mı? - sayfa 51

 
Дмитрий :
"En iyi" kombinasyonu nasıl tanımlarsınız?
5 yinelemeli çapraz doğrulama. Ancak örnekleri rastgele seçen, ancak zaman serilerine uyarlanmış olan olağan değil - örneklerin zaman içinde izolasyonu ile. Blogda her şey anlatılıyor.

5 test katı üzerinden hedef metriğin ortalama değeri, eğitim parametrelerinin en iyi kombinasyonunu gösterir.

Ardından, numaralandırmadan sonra model tüm eğitim seti üzerinde eğitilir ve bir set üzerinde daha doğrulanır.
 
  • Deneyde başka neyi değiştirmem gerektiğini düşünüyorum. Çapraz doğrulama için vaka indeksleme mantığını değiştirmeye çalıştım, ancak herhangi bir gelişme getirmedi.
  • Girdileri ayrı bir forma getirmeyi düşünüyorum.
  • Diğer bir seçenek ise karmaşık bir modelden daha basit bir modele geçmektir. Karmaşık model, hızlandırılmış karar ormanlarıdır. Düzenlileştirme parametrelerini de ayarlayabileceğiniz daha basit - hızlandırılmış doğrusal regresyon modelleri.
  • Ama mesele şu ki, sadece tasarım açısından bir şeyi değiştirerek %55 doğruluğu %60'a çıkarmak zor.
  • Bir model komitesi oluşturmak da en iyi ihtimalle yüzde bir iyileşme sağlar. Mimarlığı geliştirmek ve öğretmek için daha uzun.
  • Önemli tahmincilere bakmak için bir fikir var ve bunlar genellikle pencerenin kenarına giriyorlarsa (724 dakika), o zaman pencereyi 1440 dakikalık bir güne genişletebilirsiniz. Ama sonra örneklerin sayısı 2 kat azalacaktır, çünkü onları zaten 1440 + - rastgele terimli bir adımla alacağım.
  • Ayrıca başka bir hedef, örneğin fiyat seviyesinde bir kırılma (kar al / zararı durdur) veya genel bir "yön", örneğin doğrusal bir regresyon katsayısı tahmin edebilirsiniz.
her şey zaman alır. Ama deneye birkaç ay daha ayıracağım. Belki bir şey çıkar.
 
Temel problem, tahminci listesi problemidir. Tahmin edicilerin listesini doğruladıktan sonra, diğer her şeye geçebilirsiniz.
 
СанСаныч Фоменко :
Temel problem, tahminci listesi problemidir. Tahmin edicilerin listesini doğruladıktan sonra, diğer her şeye geçebilirsiniz.
Teşekkür ederim. Ayrıca yeni tahminciler eklemeye de eğilimliyim.
 
Alexey Burnakov :
Teşekkür ederim. Ayrıca yeni tahminciler eklemeye de eğilimliyim.
Kullandığınız tahmin edicilerin sayısının yeterli olmadığını mı düşünüyorsunuz?
 
Алексей Тарабанов :
Kullandığınız tahmin edicilerin sayısının yeterli olmadığını mı düşünüyorsunuz?
kesin olarak bilmiyorum.

Ya mevcut tahminciler yeterli bilgi taşımamaktadır,
Ya bağlantılar zamanla güçlü bir şekilde değişir ve genelleme yeteneği azalır
Veya tahmin edicilerin kendileri zaman içinde dağıtım parametrelerini değiştirir.

İlk noktada, daha fazlasını ekleyebilir ve her zaman en iyisini seçebilirsiniz.
Diğer noktalar için, veri işleme yardımcı olabilir, ancak yüzde yüz değil.

Tüm bu faktörlerin bir kombinasyonuna doğru eğiliyorum. Gerçek şu ki, çapraz doğrulamada bile doğruluk %55-60'tır ve tahmin ufkunun büyümesiyle birlikte düşer. Bu, tahmin edicilerin eğitim örneği hakkında da çok az bilgi sağladığı anlamına gelir.

Şimdi, testin yüksek doğrulukta olduğunu, ancak deney doğru bir şekilde oluşturulurken doğrulama sırasında keskin bir şekilde düştüğünü görürsem, bağımlılıklar durağan değildir.
 
Alexey Burnakov :
kesin olarak bilmiyorum.

Ya mevcut tahminciler yeterli bilgi taşımamaktadır,
Ya bağlantılar zamanla güçlü bir şekilde değişir ve genelleme yeteneği düşer
Veya tahmin edicilerin kendileri zaman içinde dağıtım parametrelerini değiştirir.

İlk noktada, daha fazlasını ekleyebilir ve her zaman en iyisini seçebilirsiniz.
Diğer noktalar için, veri işleme yardımcı olabilir, ancak yüzde yüz değil.

Tüm bu faktörlerin bir kombinasyonuna doğru eğiliyorum. Gerçek şu ki, çapraz doğrulamada bile doğruluk %55-60'tır ve tahmin ufkunun büyümesiyle birlikte düşer. Bu, tahmin edicilerin eğitim örneği hakkında da çok az bilgi sağladığı anlamına gelir.

Şimdi, testin yüksek doğrulukta olduğunu, ancak deney doğru bir şekilde oluşturulurken doğrulama sırasında keskin bir şekilde düştüğünü görürsem, bağımlılıklar durağan değildir.
Muhtemelen evet.
 
Alexey Burnakov :
kesin olarak bilmiyorum.

Ya mevcut tahminciler yeterli bilgi taşımamaktadır,
Ya bağlantılar zamanla güçlü bir şekilde değişir ve genelleme yeteneği düşer
Veya tahmin edicilerin kendileri zaman içinde dağıtım parametrelerini değiştirir.

İlk noktada, daha fazlasını ekleyebilir ve her zaman en iyisini seçebilirsiniz.
Diğer noktalar için, veri işleme yardımcı olabilir, ancak yüzde yüz değil.

Tüm bu faktörlerin bir kombinasyonuna doğru eğiliyorum. Gerçek şu ki, çapraz doğrulamada bile doğruluk %55-60'tır ve tahmin ufkunun büyümesiyle birlikte düşer. Bu, tahmin edicilerin eğitim örneği hakkında da çok az bilgi sağladığı anlamına gelir.

Şimdi, testin yüksek doğrulukta olduğunu, ancak deney doğru bir şekilde oluşturulurken doğrulama sırasında keskin bir şekilde düştüğünü görürsem, bağımlılıklar durağan değildir.

Zaten yazdım, tekrar edeceğim.

Tahmin edicilerin seçimi ile ilgili çalışma, sipariş dahil olmak üzere birkaç kez gerçekleştirildi. Sonuçlar aşağıda sunulmuştur

Böyle.

En az 50 ve tercihen yüzden fazla olmak üzere belirli bir dizi tahminci alıyoruz.

Ele aldığım tüm tahmin ediciler (yani genelleme yapmıyorum) iki kısma ayrılabilir:

  • hedef değişkenle ilgili tahmin edicilerin bir kısmı
  • hedef değişkenle ilgili olmayan tahmin edicilerin bir kısmı - gürültü

"Tutum"u çok dikkatli yazıyorum ve bilinçli olarak herhangi bir terim kullanmıyorum.

Öngörücülere bir örnek:

  • mashka - ZZ hedef değişkeni ile ilgili DEĞİL
  • fiyatın eşeğe göre sapması hedef değişkenle ilgilidir 33

Lütfen hedef değişkeni belirttiğimi unutmayın. Başka bir hedef değişken için her şey tam tersi olabilir

Orijinal tahmin ediciler setinde bu iki tahmin edici setine sahip olmanın sorunu, standart ÖNEMLİ araçlarının çalışmamasıdır. Bu nedenle, bazı araçlara ihtiyaç var ve ben bunları geliştirdim ve kullandım, bu da gürültü tahmincilerini kabaca ayıklamanıza izin veriyor. Burada bir kesinlik olmadığını belirtmek gerekir. Algoritma, gerçek ve nominal tahmin edicileri ayrı ayrı nicelleştirir. 2'den az (bir miktar göreceli değer) - kesinlikle gürültü. 2'den 3'e: kullanabilirsiniz, ancak kullanmamak daha iyidir ....

Gürültü ile ilgili sorun, gürültü tahmin edicilerinin, gürültü olmayan tahmin edicileri alt etmesidir. Örneğin, randomforest, ada, svm algoritmaları bir nedenden dolayı bu gürültü tahmin edicileri üzerinde daha büyük bir model oluşturur.

Gürültü tahmin edicilerini filtreleyerek ve benim kümemde yaklaşık %80 (!) vardı, tahmin ediciler listesinin geri kalanını alıyoruz ve değişkenlerin önemini belirlemek için R'den ona araçlar uygulamaya başlıyoruz. Modeli eğitmek için kullanılan gerçek tahmin edici sayısı, NOT gürültü tahmin edicilerinin yaklaşık yarısıdır, yani. Orijinal setin yaklaşık %10'u.

Öngörücülerin önemini pencerede tanımlarım. Pencere hareket ettikçe, %20 tabanından tahmin edicilerin listesi her zaman değişir. Onlar. modeli oluştururken 12-15 tahminci kullanılır, ancak pencere alıntıdan sonra hareket ettiğinde farklıdırlar.

Ve tüm bu yaygara ne yüzünden?

Ancak gerçek şu ki, tahmin ediciler kümesini gürültüden temizlemek, aşırı eğitimli DEĞİL modellerin oluşturulmasına yol açar.

Sayılarla.

Tüm tahmin ediciler setinde, %3 - %5 tahmin hatasıyla modeller oluşturmak mümkündür! Ayrıca, numuneyi "örnek dışı" - OOV olarak adlandırılan parçalara bölen herhangi bir algoritma bu sonucu doğrular. Bu, orijinal numuneyi her zaman parçalara ayıran ve sonuçlardan çok memnun olan raatle'da çok net bir şekilde görülmektedir.

Ancak.

Orijinal örnekte gürültü tahmin edicileri varsa, gerçek "örnek dışı", yani örneğin 06/01/2015 ile 01/01/2016 arasındaki eğitim örneğini alırsak ve ardından örnek üzerinde hesaplarsak 1 Ocak'tan sonra %3 -%5 yerine hem %50 hem de %70 hata alabilirsiniz! Ayrıca, "örnek dışı" başlangıcı 1 Ocak'tan ne kadar uzaksa, sonuç o kadar kötü olur.

MODEL AŞIRI

İlk gürültü öngörücü setini temizlersek, sonuçlar rastgele orman, ada SVM ve bir dizi başka model için aşağıdaki ve aynıdır - yani, model benim durumumda hiçbir şeyi çözmedi, sonra sonuçlar aşağıdaki gibidir: herhangi bir sette tahmin hatası yaklaşık %30'dur. Tahmin edicilerin önemini belirlemek için R araçları kullanılarak hata yaklaşık %25'e düşürülebilir. Hedef değişken 33 için bu sonucu iyileştirmek mümkün değildi.

 
СанСаныч Фоменко :

Zaten yazdım, tekrar edeceğim.

Tahmin edicilerin seçimi ile ilgili çalışma, sipariş dahil olmak üzere birkaç kez gerçekleştirildi. Sonuçlar aşağıda sunulmuştur

Böyle.

En az 50 ve tercihen yüzden fazla olmak üzere belirli bir dizi tahminci alıyoruz.

Ele aldığım tüm tahmin ediciler (yani genelleme yapmıyorum) iki kısma ayrılabilir:

  • hedef değişkenle ilgili tahmin edicilerin bir kısmı
  • hedef değişkenle ilgili olmayan tahmin edicilerin bir kısmı - gürültü

"Tutum"u çok dikkatli yazıyorum ve bilinçli olarak herhangi bir terim kullanmıyorum.

Öngörücülere bir örnek:

  • mashka - 33 hedef değişkeni ile ilgili DEĞİL
  • fiyatın eşeğe göre sapması hedef değişkenle ilgilidir 33

Lütfen hedef değişkeni belirttiğimi unutmayın. Başka bir hedef değişken için her şey tam tersi olabilir

Orijinal tahmin ediciler setinde bu iki tahmin edici setine sahip olmanın sorunu, standart ÖNEMLİ araçlarının çalışmamasıdır. Bu nedenle, bazı araçlara ihtiyaç var ve ben bunları geliştirdim ve kullandım, bu da gürültü tahmincilerini kabaca ayıklamanıza izin veriyor. Burada bir kesinlik olmadığını belirtmek gerekir. Algoritma, gerçek ve nominal tahmin edicileri ayrı ayrı nicelleştirir. 2'den az (bir miktar göreceli değer) - kesinlikle gürültü. 2'den 3'e: kullanabilirsiniz, ancak kullanmamak daha iyidir ....

Gürültü ile ilgili sorun, gürültü tahmin edicilerinin, gürültü olmayan tahmin edicileri alt etmesidir. Örneğin, randomforest, ada, svm algoritmaları bir nedenden dolayı bu gürültü tahmin edicileri üzerinde daha büyük bir model oluşturur.

Gürültü tahmin edicilerini filtreleyerek ve benim kümemde yaklaşık %80 (!) vardı, tahmin ediciler listesinin geri kalanını alıyoruz ve değişkenlerin önemini belirlemek için R'den ona araçlar uygulamaya başlıyoruz. Modeli eğitmek için kullanılan gerçek tahmin edici sayısı, NOT gürültü tahmin edicilerinin yaklaşık yarısıdır, yani. Orijinal setin yaklaşık %10'u.

Öngörücülerin önemini pencerede tanımlarım. Pencere hareket ettikçe, %20 tabanından tahmin edicilerin listesi her zaman değişir. Onlar. modeli oluştururken 12-15 tahminci kullanılır, ancak pencere alıntıdan sonra hareket ettiğinde farklıdırlar.

Ve tüm bu yaygara ne yüzünden?

Ancak gerçek şu ki, tahmin ediciler kümesini gürültüden temizlemek, aşırı eğitimli DEĞİL modellerin oluşturulmasına yol açar.

Sayılarla.

Tüm tahmin ediciler setinde, %3 - %5 tahmin hatasıyla modeller oluşturmak mümkündür! Ayrıca, numuneyi "örnek dışı" - OOV olarak adlandırılan parçalara bölen herhangi bir algoritma bu sonucu doğrular. Bu, orijinal numuneyi her zaman parçalara ayıran ve sonuçlardan çok memnun olan raatle'da çok net bir şekilde görülmektedir.

Ancak.

Orijinal örnekte gürültü tahmin edicileri varsa, gerçek "örnek dışı", yani örneğin 06/01/2015 ile 01/01/2016 arasındaki eğitim örneğini alırsak ve ardından örnek üzerinde hesaplarsak 1 Ocak'tan sonra %3 -%5 yerine hem %50 hem de %70 hata alabilirsiniz! Ayrıca, "örnek dışı" başlangıcı 1 Ocak'tan ne kadar uzaksa, sonuç o kadar kötü olur.

MODEL AŞIRI

İlk gürültü öngörücü setini temizlersek, sonuçlar randomforest, ada SVM ve bir dizi başka model için aşağıdaki ve aynıdır - yani, model benim durumumda hiçbir şeyi çözmedi, o zaman sonuçlar şu şekildedir: aşağıdaki gibidir: herhangi bir sette tahmin hatası yaklaşık %30'dur. Tahmin edicilerin önemini belirlemek için R araçları kullanılarak hata yaklaşık %25'e düşürülebilir. Hedef değişken 33 için bu sonucu iyileştirmek mümkün değildi.

Teşekkür ederim.

Düşünce treni açıktır. Yukarıdan, eğitim örneğinin çeşitli bölümlerinde tahmin edicilerin önemini hesaplama, ardından listeleri karşılaştırma ve tekrar edenleri seçme fırsatını kendim gördüm.

Manuel seçim hakkında bir şey söyleyemem, hemen bir makinenin yardımını kullanmayı tercih ederim.

Not: Karar ormanından gelen değişkenlerin önemine ek olarak, karşılıklı bilgi fonksiyonuna dayalı yerel yöntemimi de uygulamaya çalışacağım. Sonra sana sonuçları göstereceğim.

 
СанСаныч Фоменко :


Gürültü ile ilgili sorun, gürültü tahmin edicilerinin, gürültü olmayan tahmin edicileri alt etmesidir. Örneğin, randomforest, ada, svm algoritmaları bir nedenden dolayı modeli büyük ölçüde bu gürültü tahmin edicileri üzerine kurar.


Soru: SVM, değişkenler arasındaki etkileşimleri hesaba katıyor mu, yoksa yalnızca ağırlıklı bireysel bileşenlerin toplamı mı?