Ticarette makine öğrenimi: teori, pratik, ticaret ve daha fazlası - sayfa 2382

 
Evgeni Gavrilovi :

rastgele mi? yani burada belirtildiği gibi? rastgele örnek testi %50

evet, sklearn belgelerinde okuyabilirsiniz

sezonluk versiyonda aynısını (videodaki gibi) kontrol ettim .. pek bir şeyi iyileştirmemiş gibi görünüyor

 
elibrarius :

Bazı standart/eski çapraz doğrulama hakkında yazıyorsunuz.
Öncelikle satırları karıştırmanıza gerek yok, 0-90 eğitim 90-100 test, ardından 10-100 eğitim, 0-10 test, sonra 20-100-10 eğitim 10-20 test gibi bloklar halinde alın. , vb.
İkincisi, Prado'nun tavsiyesine göre, tren ve test arasında bir boşluk (budama) bırakılması gerekiyor, böylece tren ve testten komşu örneklerin işe girmemesi gerekiyor. Testten 10-100 örneğin yanında trenden bir örnek bir ipucu/dikizleme olacaktır. Daha fazlasını buradan okuyun https://dou.ua/lenta/articles/ml-vs-financial-math/
Ya da işte bir resim:

%20 veya ne istersen yapabilirsin.

Ve son olarak, çapraz doğrulama yerine ileriye doğru yürümeyi kullanabilirsiniz. Test bölümünü bir daire içinde değil, sadece önde alır.

Burada söylediğin her şey zaten benim tarafımdan deneylerde kullanılıyor.

Numuneyi parçalara ayırmakla ilgili bu hilelerin amacı nedir - tüm numunede bulunan desenin daha az gürültülü olduğu bir parça bulmak. Sınıflandırmayı destekleyen daha az gürültü/daha belirgin kurallar, model daha iyi olacaktır. Evet, böyle bir yöntemin yaşam hakkı vardır, ancak hedefle ilişkili daha fazla öngörücünün olduğu, daha rastgele olduğu ve örneklem boyutunun çok sayıda öngörücünün kombinasyonunu barındıracak kadar büyük olduğu bilindiğinde kullanmak iyidir. kendi aralarında mümkün olduğu kadar ve ne kadar çok yordayıcı varsa o kadar fazla örnek olmalıdır. Seçimlerim nadiren 20k satırı (%100) aşıyor ve zaten 2k'dan fazla tahmin edici var ve tüm kombinasyonların sadece seçimin kendisine düşmeyeceği ve model tarafından dikkate alınmayacağı açık, dolayısıyla her zaman olacaktır. + -%50'den fazla hatırlamamak.

Bu nedenle, ikilileştirme yöntemim farklı bir yaklaşıma dayanmaktadır - tahmin edici ızgaranın her bir kuantumu, zaman içindeki kararlılık ve hedefe yatkınlık açısından değerlendirilir, daha sonra seçilen tahmin edici nicelikler tek bir ikili öngörücüde birleştirilir, böylece gürültülü nicemler / bölünmeler temizlenir. tahmin ediciler ortaya çıkar, tahmin edicilerin çoğu seçilmiyor. Seçim sonuçlarına dayanarak, böyle bir ikilileştirme örneği zaten oluşturuluyor, sonuç olarak, tüm eğitim alanlarında benzer tahmin edici davranışlarına sahibiz, bu da tarihte meydana gelen benzer olaylar durumunda modelin istikrarına katkıda bulunmalıdır. .

 
Alexey Vyazmikin :

Burada söylediğin her şey zaten benim tarafımdan deneylerde kullanılıyor.

Numuneyi parçalara ayırmakla ilgili bu hilelerin amacı nedir - tüm numunenin doğasında bulunan düzenliliğin daha az gürültülü olduğu bir parça bulmak .

Hayır - tüm test parçaları için modelin ortalama göstergelerinin (hata vb.) bulunması. Veya bilançolar.

Erken dizeleri test olarak kullanabiliyorsanız, çapraz doğrulama iyidir.
İleriye doğru yürümek, belki de artık değil. Testin önde olması için 20.000 satırı birçok parçaya bölmek zordur.

Atipik bir planınız var, bu yüzden gerçekten bir şey tavsiye edemezsiniz)
 
elibrarius :

Hayır - tüm test parçaları için modelin ortalama göstergelerinin (hata vb.) bulunması. Veya bilançolar.

Dolayısıyla bunun gerçekleşmesi için gelecekte istikrarlı olacak bağlantıların hakim olduğu alanı, önemli tahmin edicileri ve hedefi belirlemek gerekir.

elibrarius :

Erken dizeleri test olarak kullanabiliyorsanız, çapraz doğrulama iyidir.

İleriye doğru yürümek, belki de artık değil. Testin önde olması için 20.000 satırı birçok parçaya bölmek zordur.

Atipik bir planınız var, bu yüzden gerçekten bir şey tavsiye edemezsiniz)

Numunenin %60'ı kadar kuantayı değerlendirmek için kullanılmaları nedeniyle erken satırların kullanımı kabul edilemez. Burada tüm değerlendirme prosedürü ayrı parçalar halinde yapılır - ama ne anlamı var - küresel olarak mevcut değil.

Kement yöntemi, sonucu CatBoost'tan daha iyi gösterdi - elbette, daha sonra diğer örneklerle karşılaştıracağım, ancak görünüşe göre, yüzde birimlerinin %10-20 olduğu çok seyrek ikili tahmincileri genelleştirmenize izin veriyor. İşte gelir elde etmek için nasıl çalıştırılacağı - soru.

 
Alexey Vyazmikin :

İyileştirmeler, L2 düzenlemesinde bir azalma vermedi. Yani Lasso daha iyi.

iyi, ne kadar iyi .. orada kötü olan ne var ve fark yüzde birkaç

 
Maksim Dmitrievski :

iyi, ne kadar iyi .. orada kötü olan ne var ve fark yüzde birkaç

%4 doğruluk para açısından çok fazla - karlılığı artıracak ve eşleşecek. beklenti!

 
10 yıl boyunca evra 5min olan, skinte txt veya csv pl.
 
Tarayıcıda işlenmiş sinir ağı tahminleri. Göstergelerimiz + giriş noktalarını belirtme girişimimiz var.
Profilimdeki bağlantı.
 
mytarmailS :
10 yıl boyunca evra 5min olan, skinte txt veya csv pl.

terminal indirmesi verilmedi mi?

 
Maksim Dmitrievski :

terminal indirmesi verilmedi mi?

10 yıl boyunca M5 teklifleri üzerinde test ... Aile bütçesi için sorun yaratana kadar terminali gizlemek için tam tersi gereklidir.