Ticarette makine öğrenimi: teori, pratik, ticaret ve daha fazlası - sayfa 2799

 
elibrarius #:

Busting, tüm sütunlardan ve tüm örneklerden en iyi bölünmeleri arar. Yani en iyi fişleri kullanır.
Schuch. forest her ağaç için fişlerin yarısını ve örneklerin yarısını alır (pay yapılandırılabilir) ve sonra 20-100 ağaçtan ortalamayı bulur. Eğer 200 fişten sadece 5 bilgilendirici fiş varsa, ağaçların bazıları bilgilendirici fişler içermeyecektir (ağaç başına ortalama 2,5 bilgilendirici fiş). Ve bilgilendirici ağaçların bir kısmının ortalamasını gürültülü ağaçlarla alacağız. Sonuç da çok gürültülü olacaktır.
Çok fazla bilgilendirici fiş varsa (klasik örneklerde / MO problemlerinde olduğu gibi) sporadik bir orman iyi çalışır.

Busting, hepsini kontrol ettiği için en bilgilendirici fişleri bulacak ve kullanacaktır. Yani bousting'in mantığına göre, en iyi fişleri kendisi seçecektir. Ancak bousting'in de kendi sorunları vardır.

Bousting konusunda sizinle aynı fikirde değilim.

Busting, güçlü bir korelasyona (tahmin gücüne) sahip özellikler bulacaktır - buna inanın. Korelasyonun büyüklüğü sabitse her şey yolundadır. Özelliğin kendisinin tahmininden vazgeçersek, bousting'de ilişkinin büyüklüğünün değişkenliğini izleyemeyiz ve benim verilerime göre ilişki tahmininin SD'si %10 ila 120 arasında değişebilir (benim özelliklerimde). Bousting bize ne verecek? Sonuçta, daha fazla değişkenliğe sahip özellikleri örneklememiz gerekiyor.

 
СанСаныч Фоменко #:

Değerlemenin kendisi göreceli bir şeydir.

Resimleri tekrarlayacağım.

Kötü, umutsuz.


Daha da iyisi, eğer birkaç tane varsa, %30 tahmin hatasından bahsedebiliriz.


Ve çöpler çıkarılmalıdır, çünkü eğitim setinde çip çöplerin lehine olabilir, optimuma götüren değeri bulmak daha kolaydır.

Sınıf bölümlemesinde karşılıklı bilgi ne kadar fazla olursa, dağılımlar o kadar az örtüşür, bu da mantıklıdır

Dağılımlar yine de yeni veriler üzerinde dalgalanacaktır.

Ben olsam böyle bir manipülasyona pek güvenmezdim, sadece denemek için bir fikir.
 
elibrarius #:

Busting, tüm sütunlardan ve tüm örneklerden en iyi bölünmeleri arar. Yani en iyi fişleri kullanır.
Schuch. forest her ağaç için fişlerin yarısını ve örneklerin yarısını alır (pay yapılandırılabilir) ve sonra 20-100 ağaçtan ortalamayı bulur. Eğer 200 fişten sadece 5 bilgilendirici fiş varsa, ağaçların bazıları bilgilendirici fiş içermeyecektir (ağaç başına ortalama 2,5 bilgilendirici fiş). Ve bilgilendirici ağaçların bir kısmının ortalamasını gürültülü ağaçlarla alacağız. Sonuç da çok gürültülü olacaktır.
Çok sayıda bilgilendirici fiş varsa (klasik örneklerde / MO problemlerinde olduğu gibi) sporadik bir orman iyi çalışır.

Busting, hepsini kontrol ettiği için en bilgilendirici fişleri bulacak ve kullanacaktır. Yani bousting'in mantığına göre, en iyi fişleri kendisi seçecektir. Ancak bousting'in de kendi sorunları vardır.

Mantıksal olarak
 
Maxim Dmitrievsky #:
sınıflara bölünürken karşılıklı bilgi ne kadar fazla olursa, dağılımlar o kadar az örtüşür, bu da mantıksaldır

Dağılımlar yeni veriler üzerinde dalgalanmaya devam edecektir.

Böyle bir manipülasyona çok güvenmezdim, sadece denemek için bir fikir.

Sd'nin değişkenliğini fark etmediniz mi?

 
СанСаныч Фоменко #:

Bousting konusunda aynı fikirde değilim.

Bousting, güçlü korelasyona (tahmin gücüne) sahip özellikler bulacaktır - buna inanın. İlişkinin büyüklüğü sabitse her şey yolundadır. Özelliğin kendisinin tahmininden vazgeçersek, bousting'de ilişkinin büyüklüğünün değişkenliğini izleyemeyiz ve benim verilerime göre ilişki tahmininin SD'si %10 ila 120 arasında değişebilir (benim özelliklerimde). Bousting bize ne verecek? Sonuçta, daha fazla değişkenliğe sahip özellikleri örneklememiz gerekiyor.

Tüm MO modelleri desen arar. Bousting, traine üzerindeki en iyi özellikleri otomatik olarak seçer.

Eğer değişkenlik varsa (örneğin piyasa verilerinde), o zaman ekstra bir şey yapmamız gerekir. Walking Forward ile denemeler yaptım. Ancak bu sadece sonucu gösteriyor, işaretlerin seçimini etkilemiyor. Ve hiçbir şey, kalıplar yoksa veya değişirse gelecekte hangi özelliklerin işe yarayacağını tahmin edemez. Tek şans, anında değişmemeleri ve kalıbın bir süre daha çalışmasıdır.

 
Aleksey Vyazmikin #:

Aksini kanıtlayan bir örnekle bir konu başlığı oluşturuldu - bousting her şeye kadir değildir, özellikle de kutudan çıkar çıkmaz.

Bence bu bir boosting problemi değil, veri değişkenliği problemi. Verileriniz üzerinde eğitmeyi deneyeceğim.
 
elibrarius #:
Bence bu bir destek sorunu değil, veri değişkenliği sorunu. Verileriniz üzerinde eğitmeye çalışacağım.

Elbette sorun algoritmada değil, verilerde.

Bir deneyin ve ne bulacağınızı görün!

Bu örnek, üzerinde eğitim yapmanın zor olması nedeniyle nispeten benzersizdir, böylece eğitim dışında bir şey çalışır.

Hala denemeler yapıyorum.

 
Aleksey Vyazmikin #:

Örnek, antrenman dışında işe yarayacak bir şey üzerinde antrenman yapmanın zor olması açısından nispeten benzersizdir.

Bu nasıl benzersiz olabilir? Piyasa verileri genellikle eğitim dışında çalışmaz. Size birkaç soru sordum.

 
elibrarius #:

Bu benzersizlik mi? Eğitim dışında, piyasa verileri genellikle işe yaramaz. Size birkaç soru sordum.

Aslında çalışmazlar, genellikle çalışırlar ama çok iyi değillerdir.

Buradaki tuhaflık, CatBoost modelinin tüm örnekleri 0,5'ten daha düşük olasılıkla atamayı tercih etmesidir - bu nedenle hedefi "1" olarak sınıflandırmaz ve 0 ile 0,5 arasında olanlar da çok iyi dağıtılmaz - konu başlığında modelin ekran görüntüleri vardır.

 
Aleksey Vyazmikin #:

Buradaki tuhaflık, CatBoost modelinin tüm örnekleri 0,5'ten daha düşük bir olasılığa atamayı tercih etmesidir - bu nedenle hedefi "1" olarak sınıflandırmaz ve 0 ile 0,5 arasında olanlar da çok zayıf bir şekilde dağıtılır - konu başlığında modelin ekran görüntüleri vardır.

Buradaki tuhaflık, sınıflar arasında güçlü bir dengesizlik var gibi görünmesidir. 100 örnek için bir sınıfa ait 5 etiket ve başka bir sınıfa ait 95 etiket varsa, model ilk sınıf için nasıl 0,5'ten fazla olasılık verebilir? Bu modele yönelik bir soru değil, veri kümesinin yazarına yönelik bir sorudur...?