Ticarette makine öğrenimi: teori, pratik, ticaret ve daha fazlası - sayfa 3357

 
Resmi basit bir dille açıklamak gerekirse: sınıflandırıcı için histogramdaki birinci ve ikinci durum aynıdır, çünkü sınıf etiketleri kullanılır. Hem orada hem de orada en olası sınıf için bir birim vardır. Eğitimden sonra, sınıf olasılığını değil, sigmoid veya softmax'tan geçen tahmin hatasının bir eksiğini verecektir.

Bu, bir tahmin eşiği belirlerken beklediğiniz şeyle tamamen tutarsızdır.
 

Olasılıkçı bir yaklaşım iyi ve doğrudur. Her zaman güçlü bir gürültümüz olacaktır ve önemli olan SB altında olması gerekenden farklılıkları aramaktır. Gürültü varyansı bunun için tek başına yeterli olmayacaktır.

IMHO, sınıflandırma görevi çok uygun değildir çünkü bilgiyi önemli ölçüde atar. Fiyat hareketi değerinin istenen yöndeki dağılımına bakmak ve bu dağılımın işaretlere nasıl bağlı olduğunu modellemek ve daha sonra bu dağılımın türüne göre bir TS oluşturmak gibi bir şeye ihtiyacımız var (SB'de olacağından farklılıkları varsa).

 
Maxim Dmitrievsky #:
Yine bazı yeni tanımlar.
Son bir kez: sınıflandırıcı yanlış olasılıklar ürettiği için kalibre edilmiştir. Orijinal halleriyle anlamsızdırlar. Aş artık bunu.

Midem kaldırmadı.

Rastgele bir sürece bağlı olmayan soyut, referans, mükemmel, olasılık diye bir şey yoktur.

Böyle bir şey yok.

Yazı tura atma olasılığı vs.

Bu nedenle, herhangi bir sınıflandırıcı, o sınıflandırıcıyı karakterize eden bir olasılık verir, bu da ihtiyacımız olan özelliği verir - tahmin hatası. Başka bir sınıflandırıcı, karşılık gelen sınıf tahmin hatası ile başka olasılıklar verecektir.

Tahmin edicilere ve bunlarla ilişkili etiketlere ve sınıf dengelemesine bağlı olarak, olasılıkları sınıflara bölmek için bir eşik belirleme sorunu ortaya çıkar. "Kalibrasyon" olarak adlandırılan bu işlem için araçlar yukarıda verilmiştir. Bunu kolhoz şeklinde yapmak da mümkündür.

Her durumda, belirli bir sınıflandırıcı tarafından verilen olasılıklar için tahmin hatasını önemli ölçüde azaltabilirsiniz, çünkü belirli bir sınıflandırıcı ile çalışırken doğada başka olasılıklar yoktur. Eğer olasılıkları beğenmiyorsanız, bir sınıflandırıcı ile çalışın ya da kalibrasyon yapın. Bu özel süreçte teorik olarak var olmayan "mükemmel" olasılıklara yer yoktur.

Açık olan bir şey varsa o da 0,5 eşik değeriyle sınıflara ayırmanın son derece tartışmalı olduğu ve nadiren işe yaradığıdır.

 
СанСаныч Фоменко #:

Bunu kabul edemem.

Sınıflandırıcı tarafından verilen olasılıklar anlamsızdır. Onlar olasılık değildir. Eğer onlara ihtiyacınız varsa, onları kullanamazsınız. Lokomotifin önüne geçip bu gerçeği yeni anlamlarla doldurmayın. En azından bununla yüzleşin.
 
СанСаныч Фоменко #:

Dayanamadım.

Rastgele bir sürece bağlı olmayan soyut, referans, ideal, olasılık diye bir şey yoktur.

Öyle bir şey yok.

Yazı tura atma olasılığı vb.

Dolayısıyla herhangi bir sınıflandırıcı, söz konusu sınıflandırıcıyı karakterize eden bir olasılık verir ve bu da ihtiyacımız olan özelliği verir - tahmin hatası. Başka bir sınıflandırıcı, karşılık gelen sınıf tahmin hatası ile başka olasılıklar verecektir.

Tahmin edicilere ve bunlarla ilişkili etiketlere ve sınıf dengelemesine bağlı olarak, olasılıkları sınıflara bölmek için bir eşik belirleme sorunu ortaya çıkar. "Kalibrasyon" olarak adlandırılan bu işlem için araçlar yukarıda verilmiştir. Bu işlem kolhoz yöntemiyle de yapılabilir.

Her durumda, belirli bir sınıflandırıcı tarafından verilen olasılıklar için tahmin hatasını önemli ölçüde azaltabilirsiniz, çünkü belirli bir sınıflandırıcı ile çalışırken doğada başka olasılıklar yoktur. Eğer olasılıkları beğenmiyorsanız, bir sınıflandırıcı ile çalışın ya da kalibrasyon yapın. Bu özel süreçte, teorik olarak var olmayan "mükemmel" olasılıklara yer yoktur.

Açık olan bir şey varsa o da sınıfları 0,5 eşiğine göre ayırmanın son derece tartışmalı olduğu ve nadiren işe yaradığıdır.

Burada, yanlış olasılık modeli kullanıldığında ortaya çıkan yaygın matstat hatalarından bahsediyoruz. Örneğin, regresyondaki gürültü aslında Laplace dağılımlı ise ve Gauss için hesaplarsak, o zaman açıkça hatalar olacaktır.

NOT. Aslında buradaki tüm mesele MO'nun olasılıksal kökenlerine geri dönmektir, bu arada MO ilk günlerinde (en azından SSCB'de) istatistiksel öğrenme olarak adlandırılıyordu).

 

Yukarıdaki örneği zaten tanımlamıştım. OOS'u geçen bir sınıflandırıcı var, ancak getiriler 60/40 dağıtılıyor. Hoşunuza gitmiyor, karar eşiğini yükseltiyorsunuz ama durum değişmiyor, hatta bazen daha da kötüleşiyor. Bunun neden böyle olduğu konusunda başınızı kaşıyorsunuz.

Bunun neden böyle olduğuna dair bir açıklama yapılır: çünkü gerçek olasılık tahmini durumunda durum değişmelidir.

Bir çözüm verilmiştir.


 
Maxim Dmitrievsky #:

Yukarıdaki örneği zaten tanımlamıştım. OOS'u geçen bir sınıflandırıcı var, ancak getiriler 60/40 dağıtılıyor. Hoşunuza gitmiyor, karar eşiğini yükseltiyorsunuz ama durum değişmiyor, hatta bazen daha da kötüleşiyor. Bunun neden böyle olduğu konusunda kafanızı kaşıyorsunuz.

Açıklama verilmiştir: çünkü gerçek olasılık tahmini durumunda durum değişmelidir.

Size bir çözüm sunulur


Bu uzun zaman önce belli değil miydi?
 
Optimizasyon sonrası - ayrıca kimse söyleyemez, ama kolibrasyon derler! Oh, evet.
 
Maxim Dmitrievsky #:

Yukarıdaki örneği zaten tanımlamıştım. OOS'u geçen bir sınıflandırıcı var, ancak getiriler 60/40 dağıtılıyor. Hoşunuza gitmiyor, karar eşiğini yükseltiyorsunuz ama durum değişmiyor, hatta bazen daha da kötüleşiyor. Bunun neden böyle olduğu konusunda kafanızı kaşıyorsunuz.

Açıklama verilmiştir: çünkü gerçek olasılık tahmini durumunda durum değişmelidir.

Bir çözüm verilmiştir.


Bununla birlikte, kalibrasyonun her derde deva olmayacağını ve ücretsiz olmadığını belirtmek isterim - mevcut sınıflandırıcının iyi özelliklerine ihtiyacınız var. Açıklamalara girmekten kaçınmak için, SHAD ile ilgili ikinci referansınızdan alıntı yapacağım. "Genel olarak, gerçek sınıfların her biri için tahmin edilen olasılıklar eşit varyansla normal dağılıma sahipse bu yöntemin iyi çalıştığı gösterilebilir." Bu Platt kalibrasyonu ile ilgilidir, ancak diğerleri için de bazı koşulların karşılanması gerekir.

Aslında, her şey matstat'taki gibidir - kullanılan modelin olasılıksal özellikleri incelenen verilere karşılık gelmelidir.

 
Aleksey Nikolayev #:

Bununla birlikte, kalibrasyonun her derde deva olmayacağını ve ücretsiz olmadığını belirtmek isterim - mevcut sınıflandırıcının iyi özelliklerine ihtiyacınız var. Açıklamalara girmekten kaçınmak için, SHAD ile ilgili ikinci referansınızdan alıntı yapacağım. "Genel olarak, gerçek sınıfların her biri için tahmin edilen olasılıklar eşit varyansla normal dağılıma sahipse bu yöntemin iyi çalıştığı gösterilebilir." Bu Platt kalibrasyonu ile ilgilidir, ancak diğerleri için de bazı koşulların karşılanması gerekir.

Aslında her şey matstat'taki gibidir - kullanılan modelin olasılıksal özellikleri incelenen verilere karşılık gelmelidir.

Elbette, bu sadece çıktıları olasılıksal hale getirmenin bir yoludur, çünkü ham model olasılıklarını kullanmak işe yaramaz.