Ticarette makine öğrenimi: teori, pratik, ticaret ve daha fazlası - sayfa 1325

 
Farkhat Guzairov :

Yukarıdaki her şey harika ve çok bilgilendirici, ancak "öğrenme kontrolü" ne anlama geliyor???

Onlar. örneğin, sistemi 2014 için bir veri örneği üzerinde eğitiyorsunuz ve ardından 2015 için bir örnek veriyorsunuz ve kalıpların olasılığını görmek mi istiyorsunuz? Eğer öyleyse, hiçbir şeyin değiştirilmesine gerek yok, her şey doğru. Yalnız ben burada kontrolün beklenenden başka sonuçlar vermesi açısından bir sorun görmüyorum, bu hep böyle olacak.

CatBoost'u eğitim için kullanıyorum, bir kontrol (doğrulama) setinde eğitimi durdurma yeteneğine sahip, yani. paralel olarak, eğitim örneğindeki hatada bir azalma var ve kontrol örneğinde sonucun nasıl değiştiğini hemen kontrol ediyor, eğer belirli sayıda ağaç için sonuç kontrol örneğinde iyileşmezse, eğitim durur ve son iyileştirmeye kadar tüm ağaçlar kesilir. Evet, kronoloji böyle - 2014'e ve 2015'ten 2018'e kadar olan eğitimin kontrolünü, 2018'in sonucunu kontrol ediyorum. Eğitim sırasında tespit edilen kalıplar hala zamanında çalışmayı durdurabileceğinden ve yer değiştirmek mantıklı olabilir ve mantıklıdır. Gerçekte uygulamaya daha yakın olan verilerden daha iyi öğrenebilirler - açık bir soru.

 
Farkhat Guzairov :

Sizin durumunuzda MO'nun pratik uygulamasından yola çıkarsak, bence aşağıdakilerden devam etmeliyiz.

Gerçek bir sonucun %100 olasılığını elde etmek gerçekçi olmadığı için, örneğin doğrunun yanlış sonuçlara oranı gibi basit bir yöntemi izleyin, eğer 50/50 bölgesindeyse, o zaman tekrar yapmanız gerekir. %50 kâr ortalama 100 puan ve kalan %50 kayıp ortalama 50 puan ise bu sonuçların size ne kazandırdığını anlayın, o zaman sisteminizin zaten pratik kullanıma uygun olduğunu düşünüyorum.

Tablodaki sınıflandırma doğruluğu bir Hassas metrik göstergesidir - orada,% 60 bölgesinde (en iyi modeller için), doğru girişler elde edilir, test cihazında daha fazlası olacaktır, çünkü bazı pozisyonlar başa baş noktasına çekilmelidir, ancak kar al hedefine ulaşamamak.

Başvuru için henüz çok erken, bir sonraki aşamaya hazırlanmamız gerekiyor - herbaryumda modellerin içini boşaltmak :)

 
Alexey Vyazmikin :

CatBoost'u eğitim için kullanıyorum, bir kontrol (doğrulama) setinde eğitimi durdurma yeteneğine sahip, yani. paralel olarak, eğitim örneğindeki hatada bir azalma var ve kontrol örneğinde sonucun nasıl değiştiğini hemen kontrol ediyor, eğer belirli sayıda ağaç için sonuç kontrol örneğinde iyileşmezse, eğitim durur ve son iyileştirmeye kadar tüm ağaçlar kesilir. Evet, kronoloji böyle - 2014'e ve 2015'ten 2018'e kadar olan eğitimin kontrolünü, 2018'in sonucunu kontrol ediyorum. Eğitim sırasında tespit edilen kalıplar hala zamanında çalışmayı durdurabileceğinden ve yer değiştirmek mantıklı olabilir ve mantıklıdır. Gerçekte uygulamaya daha yakın olan verilerden daha iyi öğrenilebileceği açık bir sorudur.

Ne, örneğin, kendimde fark ettim. Eğitime dahil olan veri dizisi ne kadar büyük olursa, sistem o kadar "sıkı" olur, yani. sonuç için daha az olasılık veriyor neden öyle, cevap size geliyordu çünkü belirli dönemlerde bazı modeller olumlu sonuç verirken aynı modeller farklı bir süre için olumsuz sonuç veriyor sonuç olarak giriyorsunuz sistem bir stupora dönüşüyor, dediğim gibi, "sıkı", belki daha akıllı hale geliyor, ama bu akıllı bir sistemin daha doğru sonuçlar vereceği anlamına gelmiyor, korkarım oranlar aynı seviyede kalacak, sadece sistem size mevcut durumla ilgili bakış açısını daha az söyleyecektir.

 
Alexey Vyazmikin :

Güçlendirme ile ilgili ders, aynı öğretim görevlisiyle daha yeniydi (bir seçenek olarak catboost ile python'da) - Hiçbir şey bulamıyorum


İlginç bir şekilde GBM, sınıflandırma problemini regresyon ağaçlarıyla çözer.

Bilen var mı? Dr. artırma yöntemleri (paketleri) aynı şeyi mi yapıyor?

 
Alexey Vyazmikin :

Ve sonuç ne olabilir? Optimal boyutun doğrulama örneğinin %60-70'i olduğu görülmektedir, yani. eğitim, model doğrulamasından daha küçük bir örneklem üzerinde yapılmalıdır. Ancak arızayı %30 oranında vurgulamamak mümkün değil, orada da sonuç her açıdan kötü değil ve başarısızlıklar %40 ve %50'ye çok yakın. Numune büyüklüğünden veya içeriğinden daha fazla neyin etkilendiğini ve bunun nasıl kurulacağını bile bilmiyorum ...

%60-70 iyi ve %30 iyi ise yanlışlıkla bu sayılara düşme olasılığı vardır.
Hesaplamaları tamamen tekrarlamayı deneyebilirsiniz, ikinci kez her şey aynıysa, bunu bir kalıp olarak düşünebilirsiniz. (Daha büyük istatistiksel anlamlılık için 10 kez tekrarlanmalıdır).
 
Farkhat Guzairov :

Örneğin, kendimde fark ettiğim şey. Eğitime dahil olan veri dizisi ne kadar büyük olursa, sistem o kadar "sıkı" olur, yani. sonuç için daha az ihtimal veriyor neden öyle, cevap kulağınıza öyle geldi çünkü belli dönemlerde bazı modeller olumlu sonuç veriyor aynı modeller başka bir süre için olumsuz sonuç veriyor sonuç olarak sisteme giriyorsunuz bir sersemliğe dönüşüyor, dediğim gibi, "sıkı", belki daha akıllı hale geliyor, ama bu akıllı bir sistemin daha doğru sonuçlar vereceği anlamına gelmiyor, korkarım oranlar aynı seviyede kalacak, sadece sistem mevcut durumla ilgili bakış açısını size daha az sıklıkla söyleyecektir.

Ticarette daha az sinyalin daha iyi olduğunu, ancak daha doğru olduğunu ve modeller bağımsız topluluklar halinde birleştirilebileceğini düşünüyorum, o zaman sınıflandırma doğruluğu yüksek seviyede kalacak ve eksiksizlik artacaktır (1 olarak nitelendirilen olay sayısı). Ana şey, örneğin farklı bir dökümü nedeniyle yine bir seçenek olarak mükemmel modeller oluşturmak için bir şekilde adapte olmaktır.

 
elibrarius :

İlginç bir şekilde GBM, sınıflandırma problemini regresyon ağaçlarıyla çözer.

Bilen var mı? Dr. artırma yöntemleri (paketleri) aynı şeyi mi yapıyor?

Aynısını benim bildiğim (farklı yerlerde bahsi geçen) yapanlardan da yapıyorlar. Eğitimin kendisinin özellikleri nedeniyle başka bir yol yoktur. Bu yüzden daha önce ağaçların sırasının, sanırım cevaptaki ağırlıklarını etkileyebileceğini söyledim ve bu, yaprak topluluklarını düşünmeyi ve onları tek bir kurala dönüştürmeyi mantıklı kılan şeydir.

 
elibrarius :
%60-70 iyi ve %30 iyi ise, yanlışlıkla bu sayılara ulaşma şansı vardır.
Hesaplamaları tamamen tekrarlamayı deneyebilirsiniz, ikinci kez her şey aynıysa, bunu bir kalıp olarak düşünebilirsiniz. (Daha büyük istatistiksel anlamlılık için 10 kez tekrarlanmalıdır).

Nasıl tekrar edilir? Onlar. aynı olacak, tohum sabitlendiği için yeni bir tohum alabilirsiniz - daha sonra deneyeceğim bakalım ne olacak.

Öte yandan her bir örnek için 200 model kullanıldı ki bu da oldukça fazla.
 
Durağan olmayan bir piyasada böyle bir çalışmadan hiçbir sonuç çıkarılamaz.
 
Maksim Dmitrievski :
Durağan olmayan bir piyasada böyle bir çalışmadan hiçbir sonuç çıkarılamaz.

Numune daha sonra durağandır, eğitim dökümü değişti, ancak bağımsız değerlendirme için aynı kaldı.

Düşüncelerinizi genişletin lütfen.