Ticarette makine öğrenimi: teori, pratik, ticaret ve daha fazlası - sayfa 3168

 
Vladimir Perervenko #:

Vladimir, yeni verilerde en fazla hangi "dürüst" akurasi elde ettin?

Ve hangi MO algoritması ile?

 
Aleksey Nikolayev #:

Buradaki fikir, örnekleri birbirinden farklı ve içinde homojenlik olan gruplara ayırmaktır. Belirli özelliklerin bunu yapmaya izin verdiği kesin değildir. Aslında, örneğin durağan olmama nedeniyle hiçbirinin bunu yapabileceği kesin değildir.

Bu makaleyi ayrıntılı olarak incelemeyi planlamıyorum, çünkü sadece ilgilendiğim konuya değiniyor. CHAID biraz daha yakın, ancak tam olarak aynı değil.

İşte tam da bu, dizi sırası değişikliklerinin dinamiklerinde bir düzenlilik bulmak ya da en azından bir kırılma noktasının tanımlanmasıyla yer değiştirmenin bir tahminini yapmak istiyorum. Ve önemsiz ikili tahmin edicilerden bahsediyorum. Örneğin, son beş yılda karşılaşılan 5 diziyi belirleyin, hedef değere yatkınlıklarının istikrarına bakın ve ayrıca hem dizilerde hem de yatkınlıkta önemli değişiklikler varsa, tahmin ediciyi ya eğitimden ya da modelden çıkarın. Son altı ayda pek çok yöntem okudum/izledim, ancak hepsini test için kodlamak benim için gerçekçi değil - yapılacak çok iş var. En üzücü şey, bir şey üzerinde çalıştıktan sonra sonucun beklediğiniz gibi olmadığını fark etmeniz.

CHAID'in avantajı olarak neyi görüyorsunuz?

 

Bu tür bir eğitim yöntemi, kuantum segmenti tarafından örneklemden çıkarılmaya (sıfırlama) elverişli çizgilerin tespit edilmesidir.

Her adım bir kuralın eklenmesidir. Kurallar şuna benzer if( arr_Q[n0][i]==1 || arr_Q[n1][i] ==1 || arr_Q[ nn] [i] ==1 ) Propusk=true;

Bu bir gif - çalışması için üzerine tıklamanız gerekiyor.

Denge - pip cinsinden kar - beş basamaklı.

Evet, bu sadece eğitim için bir örnek parçası, henüz daha fazlasını yapmadım - deney yapıyorum.

Eklendi: Ve burada, sinyalin hariç tutulacağı kuantum segmentinin seçimini değerlendirmek için başka bir kriter var - burada kârsız çizgilerin kaldırılması daha neşeli görünüyor.


 
Aleksey Vyazmikin #:

İşte tam da bu, dizi sırası değişikliklerinin dinamiklerinde bir düzenlilik bulmak ya da en azından kırılma noktasının belirlenmesiyle birlikte kaymanın bir tahminini yapmak istiyorum. Ve önemsiz ikili tahmin edicilerden bahsediyorum. Örneğin, son beş yılda karşılaşılan 5 diziyi belirleyin, hedef değere yatkınlıklarının istikrarına bakın ve ayrıca hem dizilerde hem de yatkınlıkta önemli değişiklikler varsa, tahmin ediciyi ya eğitimden ya da modelden çıkarın. Son altı ayda pek çok yöntem okudum/izledim, ancak hepsini test için kodlamak benim için gerçekçi değil - yapılacak çok iş var. En üzücü şey, bir şey üzerinde çalıştıktan sonra sonucun beklenen gibi olmadığını fark etmektir.

IMHO, bu kombinatoryal anlamda kötü bir yaklaşımdır. Çok zengin bir dizi dizisi aşırı eğitime yol açabilir - her zaman rastgele "iyi" diziler olacaktır.

Aleksey Vyazmikin #:

CHAID'in avantajı olarak neyi görüyorsunuz?

Her şeyden önce matstat bakış açısından düşüncelilik. Bu, sol el kuralı yerine belirli bir anlamlılık düzeyine ulaşıldığında ağaç oluşturmayı durdurmaktır. Bonferoni düzeltmesinin kullanılması vs. Bu kadar iyi düşünülmüş bir modele bakmak sadece estetik açıdan hoş) Tabii ki sadece nominal özellikleri kullanmak bana hiç uymuyor, bu yüzden başka bir tane arıyorum (oluşturmaya çalışıyorum).

 
Aleksey Vyazmikin #:

İşte tam da bu, dizi sırası değişikliklerinin dinamiklerinde bir düzenlilik bulmak ya da en azından kırılma noktasının belirlenmesiyle birlikte kaymanın bir tahminini yapmak istiyorum. Ve önemsiz ikili tahmin edicilerden bahsediyorum. Örneğin, son beş yılda karşılaşılan 5 diziyi belirleyin, hedef değere yatkınlıklarının istikrarına bakın ve ayrıca hem dizilerde hem de yatkınlıkta önemli değişiklikler varsa, tahmin ediciyi ya eğitimden ya da modelden çıkarın. Son altı ayda pek çok yöntem okudum/izledim, ancak hepsini test için kodlamak benim için gerçekçi değil - yapılacak çok iş var. En üzücü şey, bir şey üzerinde çalıştıktan sonra sonucun beklenen gibi olmadığını fark etmektir.

CHAID'in avantajı olarak neyi görüyorsunuz?

1) Aşağıdaki şekilde ilerlersek - sizinkiyle aynı sonucu elde eder miyiz (anlam açısından)?
Bir sayfa alırız (5 bölünmeden sonra), içindeki tüm örnekleri zamana göre sıralarız, önce büyüme ve ardından belirli bir değerin üzerinde bir düşüş varsa - sayfayı kullanımdan kaldırırız.

2) Grafiklerinizde OOS var mı?

3) Kurallar / sayfalar, traine veya doğrulama / testten elde edilen verilere göre elenir.

 
Aleksey Nikolayev #:

IMHO, kombinatoryal anlamda kötü bir yaklaşımdır. Çok zengin bir dizi dizisi aşırı eğitime yol açabilir - her zaman rastgele ortaya çıkan "iyi" diziler olacaktır.

Buradaki soru istikrarı tespit etmektir, eğer geçmişte varsa, o zaman en azından modeldeki özelliklerin gerçek kullanımında bunu beklemek için bir neden vardır. Ve bunu tespit etmek için kullanılan yöntem farklı olabilir. Ancak, dağılım tahmini yeterli değildir, istikrarı tahmin etmeye izin vermez. Ya da temizlenmesi gerekiyor. Ayrıca, diyelim ki bir ay gibi aralıklar alırsanız, herhangi bir istatistiksel sonuç için yeterli sinyal olmadığı gerçeğiyle de karşılaştım. Şimdiye kadar üzerine bir noktalama işareti koydum.... Her durumda, olayların zaman içindeki dağılımını değerlendirmek önemlidir.

Aleksey Nikolayev #:

Her şeyden önce matstat açısından düşüncelilik. Bu, sol el kuralı yerine belirli bir anlamlılık düzeyine ulaşıldığında ağaç oluşturmayı durdurmaktır. Ve Bonferoni düzeltmesinin kullanılması vb. Bu kadar iyi düşünülmüş bir modele bakmak sadece estetik olarak hoş) Tabii ki, sadece nominal özellikleri kullanmak bana hiç uymuyor, bu yüzden başka bir tane arıyorum (inşa etmeye çalışıyorum).

Bir denemem gerekecek. Diğer ağaç oluşturma seçenekleriyle karşılaştırma yaptınız mı, sonuç gerçekten daha mı iyi?

 
Forester #:

1) Aşağıdaki şekilde ilerlersek - sizinkiyle aynı sonucu elde eder miyiz (anlam açısından)?
Bir sayfa alırız (5 bölünmeden sonra), içindeki tüm örnekleri zamana göre sıralarız, önce büyüme varsa ve sonra belirli bir değerin üzerinde bir düşüş varsa - sayfayı kullanımdan sileriz.

2) Grafiklerinizde OOS var mı?

3) Kurallar / sayfalar, traine veya doğrulama / test verilerine göre elenir.

1) Reddetme normaldir, buradaki sorun, bahsettiğimiz bir tabaka ise döngüselliktir (bir kuantum segmentim var - kelimenin tam anlamıyla iki bölünmeden oluşan bir tabaka F>=X1 && F<X2 ). Yani, sıfıra yakın salınımlar bile olsa, kötü değil, ancak tek yönde çok yüksek olmamalıdır (tahmin için 10 örnek aralığı alıyorum). Ya da kelimenin tam anlamıyla, yazdığınız gibi, başlangıçta büyüme vardı ve sonra çoğunlukla düşüş - bu hemen çöpte. Ancak bu tamamen yapraklarla ilgilidir ve eğer kuantum bölümü varsa, ilk seçim kriterlerinden biri olarak sınıf için ortalamanın %5'inden olasılık yanlılığı ile seçim vardır.

2. Elbette hayır, bunun bir eğitim örneği olduğunu yazdım. Herhangi bir modelin kendi eğitimi yoktur - eğitilecek daha çok şey olduğunu varsayıyorum.

3. Örnekteki traine üzerinde. Ancak eleme değil, sadece filtre görevi görecek olanları seçmek, yani modelin yanıtını sıfıra çekmek. Görünüşe göre dizeleri/örnekleri eğitimden hariç tutuyoruz.

Ve genel olarak, kararlı kuantum segmentlerini belirlemeye odaklanırsak (ikili tahmin edicileri düşünün), daha sonra böyle bir "model" herhangi bir sınıflandırıcı tarafından eğitilmeden çalışacaktır. Ve bu yapılamadığı sürece, sınıflandırıcıları kullanmanın pek bir anlamı yoktur. Elbette, kimse rastgeleliği iptal etmez ve bazı başarılı modeller bulunabilir, ancak böyle bir yöntemi makul bir şekilde düşünmek zor olacaktır.

Yöntemin dezavantajları arasında Geri Çağırma oranının düşmesi yer almaktadır, ancak bu oran CatBoost modelininkinden daha güçlü değildir - örnekte yaklaşık 0,5'e kadar.

 
Aleksey Vyazmikin #:

Ve diğer ağaç oluşturma seçenekleriyle karşılaştırma yaptınız mı, sonuç gerçekten daha mı iyi?

Hazır halde bulduklarım piyasaya pek uygun değil, ev yapımı olan da hazır değil. Ama çok umutlu değilim, o yüzden acelem yok.

 

İşte böyle bir şey oluyor. Solda OOS geçer, sağda geçmez. Ve sağ taraf kelimenin tam anlamıyla hemen dalar.


Bu çoğu zaman olur.

Yani kelimenin tam anlamıyla hemen önemli bir dalış. Dalışın niteliği belirsizdir. SB'ye yakın bir şey olmalı gibi görünüyor, ancak böyle bir resmi çok sık görüyorum.


Optimizasyondan sonra ters bir TS çalıştırırsam, kaybetmeyebileceğimi bile hissediyorum.

 
fxsaber #:

İşte böyle bir şey oluyor. Solda OOS geçer, sağda geçmez. Ve sağ tarafta, kelimenin tam anlamıyla hemen "dalar".


Bu çoğu zaman olur.

Yani, kelimenin tam anlamıyla hemen önemli bir dalış. Dalışın niteliği belirsiz. Bence SB'ye yakın bir şey olmalı, ancak böyle bir resmi çok sık görüyorum.


Görünüşe göre, optimizasyondan sonra ters bir TS çalıştırırsanız, kaybetmeyebilirsiniz bile.

Yaklaşık iki yıl önce bu etkiyi burada yayınlamıştım