Bu kaosun bir düzeni var mı? Hadi bulmaya çalışalım! Belirli bir örnek üzerinde makine öğrenimi. - sayfa 22

 
Aleksey Vyazmikin #:
Ama ben bu modeli

adresinden aldım.

Sınavdaki en iyi modelin gelecekte kârlı olacağını ummaya gerek yok. Ortalama ya da çoğunluk karlı olmalıdır.

Tıpkı test cihazı optimize edicisinde olduğu gibi - en iyi modeller zamanın %99'unda ileride erik olacaktır.

 
elibrarius #:

Bölmeler sadece kuantuma kadar yapılır. Kuantum içindeki her şey aynı değer olarak kabul edilir ve daha fazla bölünmez.

Anlamadınız - mesele şu ki, her bölünme bir sonraki bölünme için örneği azaltır, bu da kuantum tablosuna göre gerçekleşir, ancak metrik her seferinde değişecektir.

Modeli eğitirken her bölünmeden sonra yeni bir kuantum tablosu oluşturan algoritmalar var.

elibrarius #:

Neden kuantumda bir şey aradığınızı anlamıyorum, birincil amacı hesaplamaları hızlandırmaktır (ikincil amaç, modeli yüklemek / genelleştirmektir, böylece daha fazla bölünme olmaz, ancak aynı zamanda sadece float verilerinin derinliğini de sınırlayabilirsiniz) Ben kullanmıyorum, sadece float veriler üzerinde modeller yapıyorum. Sayısallaştırmayı 65000 parça üzerinde yaptım - sonuç kesinlikle sayısallaştırmasız modelle aynı.

Görünüşe göre verimliliği görüyorum, bu yüzden kullanıyorum. 65000 parça çok fazla, nicelleştirmenin amacının kategorik bir özellik oluşturmak için verileri genelleştirmek olduğunu görüyorum, bu nedenle tüm örneğin %2-%5'inin nicelleştirilmesi arzu edilir. Bunun tüm tahmin ediciler için doğru olmaması mümkündür - deneyler tamamlanmamıştır.

elibrarius #:

Veriyi 2 sektöre bölen 1 bölme olacaktır - birinde tüm 0'lar, diğerinde tüm 1'ler vardır. Kuanta denilen şeyin ne olduğunu bilmiyorum, sanırım kuanta nicelleştirmeden sonra elde edilen sektör sayısıdır. Belki de sizin kastettiğiniz gibi bölünme sayısıdır.

Evet açık, bölme konusunda haklısınız, ben daha çok gülümsedim. Genel olarak CatBoost'ta bir kuantum tablosu kavramı var, orada tam olarak bölünmeler var ve ben kendim için segmentler kullanıyorum - iki koordinat ve belki de kuanta veya kuantum segmentleri olarak adlandırılabilirler. Gerçek terminolojiyi bilmiyorum ama ben kendim için böyle adlandırıyorum.

 
elibrarius #:

Sınavdaki en iyi modelin gelecekte kârlı olacağını ummaya gerek yoktur. Ortalama ya da en iyi model kârlı olmalıdır.

Tıpkı test cihazı optimize edicisinde olduğu gibi - en iyi modeller zamanın %99'unda ileride erik olacaktır.

Şimdiki amacımız, hedefleyebileceğimiz potansiyeli anlamak. Bu modeller üzerinden ticaret yapmayacağım.

Ve bölünmüş seçimdeki değişkenliğin azalması nedeniyle seçilen model sayısının artmasını bekliyorum - bugün daha sonra göreceğiz.

 
Aleksey Vyazmikin #:

Ve bölünmüş seçimdeki değişkenliğin azalması nedeniyle taranan model sayısının artmasını bekliyorum - bugün daha sonra göreceğiz.

Yanıldığım ortaya çıktı - model sayısı sadece 79, sınavdaki ortalama kar -1379

 
elibrarius #:

Sınavdaki en iyi modelin gelecekte kârlı olacağını ummaya gerek yoktur. Ortalama ya da en iyi model kârlı olmalıdır.

Tıpkı test cihazı optimize edicisinde olduğu gibi - en iyi modeller zamanın %99'unda ileride erik olacaktır.

Bu arada, eğitimde olmayan başka bir örnekleme bakmaya karar verdim - daha önce kesilmiş olan.

Ve işte aynı modelin bu veriler üzerinde (2014-2018) nasıl göründüğü.

Denge

Bence fena değil, en azından 45 derecelik bir erik değil. Yani iyi bir modelin hala iyi olmaya devam etmesini bekleyebilir miyiz?

 
Aleksey Vyazmikin #:

Bu arada, burada eğitimde olmayan diğerinin - daha önce kesilmiş olanın - bir örneğine bakmaya karar verdim.

Ve aynı model bu verilerde (2014-2018) şu şekilde görünür.

Bence fena değil, en azından 45 derecelik bir erik değil. Yani iyi bir modelin hala iyi olmaya devam etmesini bekleyebilir miyiz?

belki)

 
elibrarius #:

belki)

Ne yazık ki, tüm modelleri kontrol ettim - tren ve sınav örneğinde 3000'den fazla kazananlar - 39 adetti, yeni-eski örnekte sadece 18 (% 46) karlı sonuç gösterdi. Bu kesinlikle 1/3'ten daha fazla, ancak yine de yeterli değil.

Bu, seçilen modellerin normal sınav örneği ile atılan örnek (2014-2018) arasındaki dengelerindeki farktır.

 
Aleksey Vyazmikin #:

Ne yazık ki, tüm modelleri kontrol ettim - trende ve sınav örneğinde 3000'den fazla kazananlar - 39 adetti, yeni-eski örnekte sadece 18'i (%46) karlı sonuçlar gösterdi. Bu kesinlikle 1/3'ten daha fazla, ancak yine de yeterli değil.

Bu, seçilen modellerin normal sınav örneği ile atılan örnek (2014-2018) arasındaki dengelerindeki farktır.

Genel olarak, henüz 50/50 bile değil (kâr açısından). Hedefle ilgili yeni özellikler bulmak zaten zorsa, belki de hedef değiştirilmelidir?
 
elibrarius #:
Genel olarak, 50/50 bile henüz işe yaramıyor (kâr açısından). Eğer hedefle ilgili yeni özellikler bulmak zorsa, belki de hedef değiştirilmelidir?

Yeni tahminciler icat edilebilir, hala fikirler var, ancak açgözlülük ilkesini dikkate alarak eğitimin bunlara dayalı olacağından emin değilim.... Belki de model eğitimi yaklaşımını değiştirmemiz, bilinen algoritmalar üzerinde kendi dönüşümlerimizi yapmamız gerekiyor.

Hedef değiştirilebilir, ama neye, herhangi bir fikriniz var mı?

 

Burada anlattığım altıncı adımdaki örneği aldım ve sınav ile testi değiştirdim.

Aslında, eğitim aynı kurallara göre, aynı tohumlarla gerçekleştirildi, ancak başka bir örnek - kronolojide daha sonra - yeni ağaçların oluşturulmasını durdurmaktan sorumluydu.

Sonuç olarak, test (eski sınav) örneğindeki ortalama kar değeri -730.5'tir - test örneğindeki kronolojik eğitim sırasında ortalama değerin 982.5 olduğunu ve sınav (eski test) örneğinde ortalama denge değerinin 922.49 puan olduğunu, başlangıç varyantında ise -1114.27 puan olduğunu hatırlatalım.

Şekil 1 Sınav örneği olarak kullanıldığında orijinal test örneğinin bakiye dağılımının histogramı.

Şekil 2 Sınav örneği olarak kullanıldığında test örneğinin bakiye dağılımının histogramı.

Örnekler kronolojik olarak düzenlendiğinde, modeldeki ağaçların ortalama değeri 11,47 iken, iki örneğin sırası değiştirildiğinde, modeldeki ağaçların ortalama değeri 9,11 olmuştur, yani örnekler değiştirildikten sonra örüntülerin daha az belirgin hale geldiği, dolayısıyla bunları tanımlamak için daha az ağaca ihtiyaç duyulduğu söylenebilir.

Aynı zamanda, örüntüleri gerçekten örnekleyerek durdurmanın kontrolü nedeniyle daha nitel hale geldi ve yukarıda belirttiğim gibi, ortalama olarak daha karlı hale geldi.

Deney, bir yandan örneklerin yıllarca süren benzer kalıplar içerdiğini doğrularken, aynı zamanda bazılarının daha az belirgin hale geldiğini ve hatta olasılıklarının olay sonucunun negatif bölgesine kaydığını göstermektedir. Sadece tahmin edicilerin kendilerinin değil, aynı zamanda modeldeki kullanımlarının da eğitimin sonucunu etkilediği daha önce ortaya çıkmıştı.

Sonuç olarak, elimizde ne var:

1. Temsili olmayan bir örneklem.

2. Model oluşturulurken istikrarlı olanları "gölgede bırakabilecek" rastgele örüntüler veya model oluşturma yönteminin kendisinin yeterince güvenilir olmaması.

3. Model sonucunun örneklem alanına bağımlılığı (önceki örneklem treni sınav rolünde iyi sonuçlar vermiştir).