Ticarette makine öğrenimi: teori, pratik, ticaret ve daha fazlası - sayfa 3117

 
Maxim Dmitrievsky #:

Bunların hepsi tarih öncesinde burada birçok kez tartışılmıştır. Alım/satım üzerine eğitilen ilk model yeni veriler üzerinde test edilir. Yanlış olduğu durumlar işlem yapılmaması gerekenler sınıfına, geri kalanlar ise işlem yapılması gerekenler sınıfına konur. İkinci sınıflandırıcı bunun üzerinde eğitilir. İki model elde ederiz. Bunlardan biri yönü tahmin eder, diğeri ise işlemin yapılıp yapılmayacağını tahmin eder. Bu, sadece bir model aracılığıyla işlemler için eşiği ayarlarsak esneklik sağlar. Çünkü 2 model, biri diğeri aracılığıyla geliştirilebilir. Son makalede orijinal yöntemi anlattım. Sonra değiştirilmiş bir mantığa geçtim.

Bu arada, bu açık bir sorudur, çünkü görünüşe göre birbirlerini farklı şekillerde geliştirmek mümkündür.

Sonra kozul çıkarımına rastladım, burada da benzer bir şekilde yapıyorlar.

Bilmiyorum.

Ve ikinci model tarafından bu tür bir filtrelemenin herhangi bir kullanımı var mı?

 
mytarmailS #:

Bilmiyorum.

Peki ikinci modelin bu filtrelemesinin ne faydası var?

Yeni verilerde daha iyi.

 
Maxim Dmitrievsky #:

yeni verilere göre, daha iyi

gibi başlangıçta tek bir model üzerinde olasılık eşikleri belirlersek

> 0,7 satın al

< 0,3 satış

o zaman hem test hem de traine'de daha iyi olacak ve doğal olarak daha az işlem olacak...

İkinci model gerçekten bir şey veriyor mu? Merak ediyorum...

Testler, karşılaştırmalar yapıldı mı?

 
Maxim Dmitrievsky yönünü tahmin eden bir temel model ve kazanma olasılığını (ticaret yapmak veya yapmamak) tahmin eden bir meta modelden oluşan bir teorik TS ile varsayımsal bir durum sunalım:

İlk modele ana model diyelim, bu model özellik uzayını siyah bir çizgi ile al/sat olarak ayırır. İkincisi ise toplam özellik alanını al/sat olarak ayıran bir meta modeldir (kırmızı çizgi).

Şimdi, iki meta modelin olduğu ve her birinin AL ve SAT sınıflarının farklı özellik uzaylarını ayrı ayrı ticaret / ticaret dışı olarak böldüğü başka bir varyantı hayal edelim (iki kırmızı çizgi).

"Düşünülmesi gereken" tamamen teorik bir soru, ikinci seçeneğin daha iyi olup olmadığıdır. Ve eğer daha iyiyse, neden daha iyi olduğudur. Lütfen yorum yapın.

Muhtemelen Alexei Nikolaev'e bile, böyle bir "müdahalenin" etkisinin nasıl belirlenebileceğine dair bir talep. Sonuçta, iki meta modelin 2 olasılık dağılımını elde edeceğiz, bunlar köşelerle karşılaştırılabilir / değerlendirilebilir / dağıtılabilir.

Bu, sorunun muğlak bir ifadesidir.

İkinci olasılıksal modele birincisinden daha fazla inandığımız ve ikinci modeli birincisi için bir filtre olarak kullandığımız ortaya çıkıyor.

Ya da durumu bir "VE" işlemi, yani sonuçların kesişimi olarak ele alıyoruz.


Bu bir çıkmaz sokak, orada bulundum, bunu yaptım.


Yön verebilecek herhangi bir modelle karşılaşmadım, çünkü dışarıdan bile bir yön verseler, bu yön olasılığının düzenli hale getirilmesinin bir sonucudur. Bu nedenle, R için "modeller topluluğu" adı verilen standart yaklaşım önerilmektedir, iki veya daha fazla modelin sonuçları, yani birinci seviyenin sonuçları, ikinci seviyenin bazı sınıflandırma algoritmalarında tahmin edici olarak kullanıldığında. Bu arada, kategorik değişkenleri çok seviyorsanız, bunları da bir sınıflandırıcının girdisine besleyebilirsiniz. Modellerin sonuçlarını güven düzeyine göre sıralamak mümkünse, ağırlıklar ile ayarlanabilir. Yani, ikinci seviye, birinci seviye model sınıflandırmasının sonuçlarını tahmin edici olarak kullanan bir sınıflandırıcıdır. Bu yaklaşım, 0,5 dışındaki bazı düzenliliklerle elde edilen dengesiz sınıflar için çok ilginçtir, örneğin sınıflandırıcı sonucunu bir olasılık olarak 0,4 ve 0,6 değerlerine sahip niceliklere böleriz. Ortası pazarın dışındadır.

 
mytarmailS #:

eğer başlangıçta tek bir modele aşağıdaki gibi olasılık eşikleri koyarsak

> 0,7 satın al

< 0,3 satış

o zaman hem test hem de trende daha iyi olacak ve doğal olarak daha az işlem olacak....

İkinci model gerçekten bir şey veriyor mu? Merak ediyorum...

Herhangi bir test ya da karşılaştırma yapıldı mı?

İlk modeli çapraz doğrulama yoluyla eğittiğinizi ve işlem yapmamak için tüm yanlış tahminleri ikinci modele koyduğunuzu düşünün. İlk modelin belirli yerlerde daha sık yanıldığına ve bazı yerlerde her zaman iyi işlem yaptığına dair istatistiksel bir anlamlılığa zaten sahipsiniz. Bu daha sonra ikincisi tarafından filtrelenebilir. Bir model aracılığıyla yapmak zaten daha zordur. Bu tür ayarlamanın başka varyantları da vardır.
 
Maxim Dmitrievsky #:
İlk modeli çapraz doğrulama yoluyla eğittiğinizi ve tüm yanlış tahminleri ikinci modele işlem yapmadan koyduğunuzu düşünün. İlk modelin belirli yerlerde yanlış olma olasılığının daha yüksek olduğuna dair istatistiksel bir anlamlılığa zaten sahipsiniz ve bunlar ikinci model tarafından filtrelenebilir. Bir model aracılığıyla bunu yapmak zaten daha zordur. Bu tür bir ayarlamanın başka varyantları da vardır.

Bu kulağa mantıklı geliyor.

 
mytarmailS #:

Bu kulağa mantıklı geliyor.

İkinci model de yanlış olsa bile, bu durumda birincinin hatalarını bir şekilde düzeltir, evet, bir nevi böyle. Kozul çıkarımında yaklaşımlarının daha titiz bir gerekçesi vardır. Tamamen titizlikle kanıtlanmış diyebilirim.

https://en.wikipedia.org/wiki/Frisch%E2%80%93Waugh%E2%80%93Lovell_theorem

 
Forester #:
Ben denemedim. Sezgisel olarak) Ama Marx'ın dediği gibi: pratik, gerçeğin ölçütüdür. Eğer pratikte sizin için işe yarıyorsa - iyi).

Bu süreçte ikinci seçeneğe geçmeye çalışıyorum.

 
СанСаныч Фоменко #:

Sorunun muğlak bir ifadesi.

İkinci, olasılıksal modele birincisinden daha fazla inandığımız ortaya çıkıyor, ikinci model birincisi için bir filtre olarak kullanılıyor.

Ya da durumu bir "VE" işlemi, yani sonuçların kesişimi olarak yorumlarız.


Çıkmaz bir yol, biz bunu yaşadık.


Yön verebilecek herhangi bir modelle karşılaşmadım, çünkü dışarıdan bile bir yön verseler, bu yön olasılığının düzenlenmesi sonucudur. Bu nedenle, R için "modeller topluluğu" adı verilen standart yaklaşım önerilmektedir, iki veya daha fazla modelin sonuçları, yani birinci seviyenin sonuçları, ikinci seviyenin bazı sınıflandırma algoritmalarında tahmin edici olarak kullanıldığında. Bu arada, kategorik değişkenler çok seviliyorsa, bunlar da bir sınıflandırıcının girdisine beslenebilir. Modellerin sonuçlarını güven düzeyine göre sıralamak mümkünse, ağırlıklar ile ayarlanabilir. Yani, ikinci seviye, birinci seviye model sınıflandırmasının sonuçlarını tahmin edici olarak kullanan bir sınıflandırıcıdır. Bu yaklaşım, 0,5 dışındaki bazı düzenliliklerle elde edilen dengesiz sınıflar için çok ilginçtir, örneğin sınıflandırıcı sonucunu bir olasılık olarak 0,4 ve 0,6 değerlerine sahip niceliklere böleriz. Ortası pazarın dışındadır.

Ensemble anlam olarak yakın ancak uygulama olarak uzaktır. Önerilen yaklaşım farklı sonuçlar elde etmek için farklı şekillerde kullanılabildiğinden çok esnektir.

Ben de topluluklar yaptım, işe yaramadı.

 
Maxim Dmitrievsky #:
İlk modeli çapraz doğrulama yoluyla eğittiğinizi ve tüm yanlış tahminleri ikinci modele işlem yapmadan koyduğunuzu düşünün. İlk modelin belirli yerlerde yanlış olma olasılığının daha yüksek olduğuna dair istatistiksel bir anlamlılığa zaten sahipsiniz ve bunlar ikinci model tarafından filtrelenebilir. Bir model aracılığıyla bunu yapmak zaten daha zordur. Bu tür ayarlamanın başka varyantları da vardır.

Hata filtreleme fikri benim için hiç de açık değil.

Model 50/50 tahmin ederse, kötü 50'yi atarak geri kalanının %100 tahmin edeceği mi ortaya çıkıyor? Bu sadece süper öğrenme, başka bir şey değil.


Sınıflandırma hatası, tahmin edicilerin aynı değerlerinin bazı durumlarda doğru tahmin etmesinden, bazı durumlarda ise doğru tahmin etmemesinden kaynaklanır ve bu ancak tahmin edici ile hedef değişken arasındaki "ilişkinin gücünün" filtrelenmesi aşamasında ortadan kaldırılabilecek bir sorundur ve tahmin edicileri filtrelemek ve bu pahasına sınıflandırma hatasını yüzde 10 azaltmak Allah'ın izniyle tamamen imkansızdır.