Ticarette makine öğrenimi: teori, pratik, ticaret ve daha fazlası - sayfa 2110

 
elibrarius :
Benzersiz ise, o zaman çarpık çıkacaktır. Örneğin, yalnızca 100 satır vardır, bunlardan 10'u benzersizdir, 2'si 45 satır ve 8'i 1'dir. 45 adet) atlanacaktır.

Farklı yaklaşımlar, farklı tahmin ediciler üzerinde farklı şekilde verimli çalışır, bu yüzden onları en iyi nasıl seçeceğimi anlamak için farklı algoritmalara sahip olmak istiyorum. Kodu MT5'e çevirebilirseniz araştırmayı paylaşacağım.

 
Alexey Vyazmikin :

Tek tip bir dağılımla anlaşılabilir - Başlangıçta bir dizi benzersiz değer oluşturup keserdim.

Ancak ızgarayı bölmenin başka yöntemleri de var:

Üniforma - basitçe değer aralığını böleriz , örneğin, bir sütundaki değerler 0 ila 100 arasındadır, kuantum adımı = 100/255 = 0.39, ancak satırlarda değil, değerlerde. Onlar. 0.0.39.0.78 .... 99.61

Ardından, sütunda gerçekte bulunan değerleri bulabilir ve kopyaları kaldırabilirsiniz.


UniformAndQuantiles - 1. yönteme göre 255/2 = 127 niceliğin yarısını ve 2. yönteme göre 128'i arayın ve bunları tek bir dizide birleştirin.

Kalan 3 yöntem karmaşık - bakmadım.

 
Alexey Vyazmikin :

Bunlar, CatBoost için numuneyi nicelemenin yollarıdır - daha sonra numaralandırma/eğitim bu sınırlar boyunca gerçekleşir.

Deneylerim, gridin her bir tahminci için ayrı ayrı seçilmesi gerektiğini gösteriyor, ardından kalitede bir artış gözlemleniyor ancak CatBoost bunu yapamıyor ve nasıl bir grid oluşturacağımı bilmiyorum ve gridler oluşturup csv'ye yüklemem gerekiyor. ve ardından onları hedeflenen davranışı değerlendirmek için bunları yineleyin. Bunun çok umut verici bir özellik olduğunu düşünüyorum, ancak kodun MQL'ye çevrilmesi gerekiyor.

1) Olan bu. Ayrı bir sütun alınır, sıralanır ve kuantalara bölünür.

2) Yaptığı tam olarak bu - sizi düşündüren nedir?

 
elibrarius :

Üniforma - basitçe değer aralığını böleriz , örneğin, bir sütundaki değerler 0 ila 100 arasındadır, kuantum adımı = 100/255 = 0.39, ancak satırlarda değil, değerlerde. Onlar. 0.0.39.0.78 .... 99.61

Ardından, sütunda gerçekte bulunan değerleri bulabilir ve kopyaları kaldırabilirsiniz.


UniformAndQuantiles - 1. yönteme göre 255/2 = 127 niceliğin yarısını ve 2. yönteme göre 128'i arayın ve bunları tek bir dizide birleştirin.

Kalan 3 yöntem karmaşık - bakmadım.

Bunlar karmaşık ve ilginç :)

Ve UniformAndQuantiles'a göre , teoriyi biliyorum ama gerçek hayatta nasıl olduğunu anlamıyorum - bu şekilde nicelleştirdiğimiz alanı nasıl belirleyeceğimizi ve nerede bu şekilde. Burada anlamıyorum - ya da bir yöntemle ortasına kadar ve diğerinden sonra - ama bu çılgınca.

 
Alexey Vyazmikin :

Doğru bölümün seçimi sonucu önemli ölçüde etkiler.

İşte bir Geri Çağırma örneği - %50'ye kadar yayılma - bu benim için çok önemli.

Sınırları 512'lik artışlarla 8'den 512'ye çıkarmak - histogram bozuk olmasına rağmen - isimlerim bunu biraz engelliyor.


Ben ızgaraların seçimiyle ilgili deneyler yaparken, mantığı takip etmek için farklı ızgaralara ihtiyaç duyulan farklı tahmin ediciler olduğu ve sadece uygun olmadığı zaten aşikar.

65535 kuant alın ve endişelenmeyin. Hesaplamalar mümkün olduğunca doğru olacaktır.

 
Alexey Vyazmikin :

Bunlar karmaşık ve ilginç :)

Ve UniformAndQuantiles'e göre , teoriyi biliyorum ama gerçek hayatta nasıl olduğunu anlamıyorum - bu şekilde nicelleştirdiğimiz alanı nasıl belirleyeceğimizi ve nerede bu şekilde. Burada anlamıyorum - ya da bir yöntemle ortasına kadar ve diğerinden sonra - ama bu çılgınca.

Evet

 
elibrarius :

1) Bu olur. Ayrı bir sütun alınır, sıralanır ve kuantalara bölünür.

2) Yaptığı tam olarak bu - sizi düşündüren nedir?

Niceleme sırasında hedef ile değerler kümesi arasındaki ilişkinin nasıl değerlendirileceğini bilmiyor. Izgara, mümkünse tüm tahminciler için belirli sayıda segmente bölünür ve bu her zaman gerekli değildir. Ancak CatBoost , kullandığım (ayrı olarak hazırlanmış) bir niceleme ızgarasıyla çalışabilir.

 
elibrarius :

65535 kuant alın ve endişelenmeyin. Hesaplamalar mümkün olduğunca doğru olacaktır.

Hayır, sade kalıp olacak, anlamlı bir model değil!

 
elibrarius :

Evet

Çok ilginç.

 
Alexey Vyazmikin :

Niceleme sırasında hedef ile değerler kümesi arasındaki ilişkinin nasıl değerlendirileceğini bilmiyor. Izgara, mümkünse tüm tahminciler için belirli sayıda segmente bölünür ve bu her zaman gerekli değildir. Ancak CatBoost, kullandığım (ayrı olarak hazırlanmış) bir niceleme ızgarasıyla çalışabilir.

Nasıl olduğunu biliyor musun?