Ticarette makine öğrenimi: teori, pratik, ticaret ve daha fazlası - sayfa 2804

 
mytarmailS #:

Peki bu abartının amacı ne?

Korelasyonları 0,9'dan büyük olan özellikleri filtrelemek için.

Korelasyonu 0,8'den büyük olan özellikleri elemek için.

korelasyonu 0,7'den büyük olan özellikleri eleyin

korelasyonu 0,6'dan büyük olan özellikleri eleyin

....

..

Bunun ne anlamı var anlamıyorum, sadece bir kez ekrana bakıyorsunuz ve işiniz bitiyor.

"Bir kez ve hepsi" derken neyi kastediyorsunuz - çok sayıda örnek var, bu nedenle sistematik bir yaklaşım gerekiyor. Eğer faydalı olacaksa, bunu MQL5'te yapacağım, böylece kutudan çıkar çıkmaz çalışacak ve umarım daha hızlı olacaktır.

mytarmailS #:

========================================

Ayrıca, ahşabın birbiriyle ilişkili işaretleri önemsemediği bilinmektedir.

Modeli alın, eğitin, modelden önemli özellikleri seçin ve endişelenmeyin....

saçma sapan şeyler yapmazsınız, zamanınızı ve diğer insanların zamanını boşa harcamazsınız.

CatBoost, bölme veya ağaç oluşturmanın her iterasyonunda tahmin edicilerin sayısını rastgele seçer - ayarlara bağlıdır ve bu, güçlü korelasyonlu tahmin edicilerin rastgele girme şansının daha fazla olduğu anlamına gelir, yani onlara değil, taşıdıkları bilgilere.

Bu örnek için mantıklı olup olmadığını görmek için şimdi forum başlığı için de yapıyorum.

En azından, bu yaklaşımın modelleri daha çeşitli hale getireceğini, bunun da örneklemde daha fazla durumu tanımlamaya (Hatırlama daha fazla olacaktır) ve model paketini daha fazla kullanmaya izin vereceğini umuyorum.

 
Aleksey Vyazmikin #:

Bu örnek içinmantıklı olup olmadığını görmek için bir forum başlığı da dahil olmak üzere şimdi yapıyorum.

Öyle değil.

 
mytarmailS #:

Bir anlamı yok.

Bu örneğin umutsuz olduğunu mu düşünüyorsun?

 
Aleksey Vyazmikin #:

CatBoost, bölme veya ağaç oluşturmanın her iterasyonunda tahmin edicilerin sayısını rastgele seçer - ayarlara bağlıdır ve bu, güçlü korelasyonlu tahmin edicilerin rastgele, yani onlara değil, taşıdıkları bilgilere girme şansının daha yüksek olduğu anlamına gelir.

Evet ve boosts'un yaratıcıları bunu bilmiyor...

Ayrıca işaretleri korelasyonla filtrelemenin mümkün olduğunu da bilmiyorlar))) nereden bilsinler, yöntem sadece 50 yaşında))))

gerçekten onlardan daha fazla şey bildiğinize inanıyor musunuz?

Aleksey Vyazmikin #:

Bu örneğin umutsuz olduğunu mu düşünüyorsunuz?

Elbette... Boost her şeyi hesaba katıyor.

Ve bana zorluk çıkarma, muhtemelen senden daha gencim :)

 
Aleksey Vyazmikin #:

Bu örneğin umutsuz olduğunu mu düşünüyorsun?

https://datascience.stackexchange.com/questions/12554/does-xgboost-handle-multicollinearity-by-itself


Karar ağaçları doğası gereği çoklu doğrusallığa karşı bağışıktır. Örneğin, 2 fonksiyonunuz varsa ,

99 korelasyona sahipse, ağaç bölünüp bölünmeyeceğine karar verirken yalnızca birini seçecektir. Diğer modeller,

lojistik regresyon gibi, her iki fonksiyonu da kullanacaktır.

Bousting ağaçları ayrı karar ağaçları kullandığından, çoklu doğrusallıktan da etkilenmezler.

========

Bu yaklaşımı kullanabilir, her bir işlevin önemini değerlendirebilir ve nihai modeliniz için yalnızca en iyi işlevleri tutabilirsiniz.


Aslında size daha önce söylediğim şey de bu.

Does XGBoost handle multicollinearity by itself?
Does XGBoost handle multicollinearity by itself?
  • 2016.07.02
  • ope ope 1,653 3 3 gold badges 16 16 silver badges 27 27 bronze badges
  • datascience.stackexchange.com
I'm currently using XGBoost on a data-set with 21 features (selected from list of some 150 features), then one-hot coded them to obtain ~98 features. A few of these 98 features are somewhat redundant, for example: a variable (feature) $A$ also appears as $\frac{B}{A}$ and $\frac{C}{A}$. My questions are : From what I understand, the model is...
 
mytarmailS #:

Evet ve bu gibi desteklerin yaratıcıları bunu bilmiyor....

Ayrıca işaretleri korelasyon yoluyla filtrelemenin mümkün olduğunu da bilmiyorlar)) nasıl bilebilirler ki, yöntem sadece 50 yaşında)))

Gerçekten onlardan daha çok şey bildiğinize inanıyor musunuz?

Benim var. Boost her şeyi hesaba katıyor.

Ve bana bu saçmalıkları anlatma, muhtemelen senden daha gencim).

Modellerin sonuçlarını analiz ediyorum ve yüksek korelasyonlu tahmin edicileri, örneğin zamana dayalı tahmin edicileri - küçük bir zaman gecikmesi olsa bile - yakaladıklarını görüyorum.

Bence her şeyi çok iyi biliyorlar ama size onlarca yıllık basmakalıp sözleri de söylememeliler....

"Sen" veya "Siz" hakkında - bence herkes için muhatabına uygun olduğu şekilde hitap etmek daha iyidir, eğer saldırgan bir mesaj taşımıyorsa ve yapıcı diyaloğu engellemiyorsa.


mytarmailS #:

https://datascience.stackexchange.com/questions/12554/does-xgboost-handle-multicollinearity-by-itself


Karar ağaçları doğası gereği çoklu doğrusallığa karşı bağışıktır. Örneğin, 2 fonksiyonunuz varsa,

99 korelasyona sahipse, ağaç bölünüp bölünmeyeceğine karar verirken bunlardan yalnızca birini seçecektir. Diğer modeller,

lojistik regresyon gibi, her iki fonksiyonu da kullanacaktır.

Bousting ağaçları ayrı karar ağaçları kullandığından, çoklu doğrusallıktan da etkilenmezler.

========

Bu yaklaşımı kullanabilir, her bir özelliğin önemini değerlendirebilir ve nihai modeliniz için yalnızca en iyi özellikleri tutabilirsiniz.


Aslında daha önce de söylediğim gibi

Mesele bu, seçecek - evet bir tane, ama bu seçim kaç kez geçecek....

Ayrıca CatBoost'un xgboost'tan bazı farklılıkları var ve farklı örneklerde farklı sonuçlar var, ortalama olarak CatBoost daha hızlı ve hatta daha iyi, ancak her zaman değil.

 

Ayrıca, benzer tahmin edicileri gruplandırmak ve aralarından en iyi seçeneği seçmek için kendi yöntemim var ve korelasyon şeklinde bir kontrol grubuna ihtiyacım var...

 
Komut dosyası çalışıyor - sanırım bir gecede bırakmam gerekecek....
 
Aleksey Vyazmikin #:

CatBoost, bölme veya ağaç oluşturmanın her iterasyonunda tahmin edicilerin sayısını rastgele seçer - ayarlara bağlıdır ve bu, güçlü korelasyonlu tahmin edicilerin rastgele, yani onlara değil, taşıdıkları bilgilere girme şansının daha yüksek olduğu anlamına gelir.

Tahmin edicileri rastgele seçtiğinden emin misiniz? Catbusting yapmıyordum, temel bousting örneklerinin koduna bakıyordum. Orada tüm tahmin ediciler kullanılıyor. Yani, en iyisi alınır. İlişkili olan onun yanında olacak, ancak biraz daha kötü olacak. Ancak diğer bazı bölme seviyelerinde veya düzeltme ağaçlarında, korelasyonlu tahmin edicilerden bir diğeri daha iyi olabilir.

 
Aleksey Vyazmikin gruplandırmak ve aralarından en iyi değişkeni seçmek için kendi yöntemim var ve korelasyon şeklinde bir kontrol grubuna ihtiyacım var....
Bu yüzden denemem için bana birkaç bilgilendirici formül verin.