Ticarette makine öğrenimi: teori, pratik, ticaret ve daha fazlası - sayfa 2804
Alım-satım fırsatlarını kaçırıyorsunuz:
- Ücretsiz alım-satım uygulamaları
- İşlem kopyalama için 8.000'den fazla sinyal
- Finansal piyasaları keşfetmek için ekonomik haberler
Kayıt
Giriş yap
Gizlilik ve Veri Koruma Politikasını ve MQL5.com Kullanım Şartlarını kabul edersiniz
Hesabınız yoksa, lütfen kaydolun
Peki bu abartının amacı ne?
Korelasyonları 0,9'dan büyük olan özellikleri filtrelemek için.
Korelasyonu 0,8'den büyük olan özellikleri elemek için.
korelasyonu 0,7'den büyük olan özellikleri eleyin
korelasyonu 0,6'dan büyük olan özellikleri eleyin
....
..
Bunun ne anlamı var anlamıyorum, sadece bir kez ekrana bakıyorsunuz ve işiniz bitiyor.
"Bir kez ve hepsi" derken neyi kastediyorsunuz - çok sayıda örnek var, bu nedenle sistematik bir yaklaşım gerekiyor. Eğer faydalı olacaksa, bunu MQL5'te yapacağım, böylece kutudan çıkar çıkmaz çalışacak ve umarım daha hızlı olacaktır.
========================================
Ayrıca, ahşabın birbiriyle ilişkili işaretleri önemsemediği bilinmektedir.
Modeli alın, eğitin, modelden önemli özellikleri seçin ve endişelenmeyin....
saçma sapan şeyler yapmazsınız, zamanınızı ve diğer insanların zamanını boşa harcamazsınız.
CatBoost, bölme veya ağaç oluşturmanın her iterasyonunda tahmin edicilerin sayısını rastgele seçer - ayarlara bağlıdır ve bu, güçlü korelasyonlu tahmin edicilerin rastgele girme şansının daha fazla olduğu anlamına gelir, yani onlara değil, taşıdıkları bilgilere.
Bu örnek için mantıklı olup olmadığını görmek için şimdi forum başlığı için de yapıyorum.
En azından, bu yaklaşımın modelleri daha çeşitli hale getireceğini, bunun da örneklemde daha fazla durumu tanımlamaya (Hatırlama daha fazla olacaktır) ve model paketini daha fazla kullanmaya izin vereceğini umuyorum.
Bu örnek içinmantıklı olup olmadığını görmek için bir forum başlığı da dahil olmak üzere şimdi yapıyorum.
Öyle değil.
Bir anlamı yok.
Bu örneğin umutsuz olduğunu mu düşünüyorsun?
CatBoost, bölme veya ağaç oluşturmanın her iterasyonunda tahmin edicilerin sayısını rastgele seçer - ayarlara bağlıdır ve bu, güçlü korelasyonlu tahmin edicilerin rastgele, yani onlara değil, taşıdıkları bilgilere girme şansının daha yüksek olduğu anlamına gelir.
Evet ve boosts'un yaratıcıları bunu bilmiyor...
Ayrıca işaretleri korelasyonla filtrelemenin mümkün olduğunu da bilmiyorlar))) nereden bilsinler, yöntem sadece 50 yaşında))))
gerçekten onlardan daha fazla şey bildiğinize inanıyor musunuz?
Bu örneğin umutsuz olduğunu mu düşünüyorsunuz?
Elbette... Boost her şeyi hesaba katıyor.
Ve bana zorluk çıkarma, muhtemelen senden daha gencim :)
Bu örneğin umutsuz olduğunu mu düşünüyorsun?
https://datascience.stackexchange.com/questions/12554/does-xgboost-handle-multicollinearity-by-itself
Karar ağaçları doğası gereği çoklu doğrusallığa karşı bağışıktır. Örneğin, 2 fonksiyonunuz varsa ,
99 korelasyona sahipse, ağaç bölünüp bölünmeyeceğine karar verirken yalnızca birini seçecektir. Diğer modeller,
lojistik regresyon gibi, her iki fonksiyonu da kullanacaktır.
Bousting ağaçları ayrı karar ağaçları kullandığından, çoklu doğrusallıktan da etkilenmezler.
========
Bu yaklaşımı kullanabilir, her bir işlevin önemini değerlendirebilir ve nihai modeliniz için yalnızca en iyi işlevleri tutabilirsiniz.
Aslında size daha önce söylediğim şey de bu.
Evet ve bu gibi desteklerin yaratıcıları bunu bilmiyor....
Ayrıca işaretleri korelasyon yoluyla filtrelemenin mümkün olduğunu da bilmiyorlar)) nasıl bilebilirler ki, yöntem sadece 50 yaşında)))
Gerçekten onlardan daha çok şey bildiğinize inanıyor musunuz?
Benim var. Boost her şeyi hesaba katıyor.
Ve bana bu saçmalıkları anlatma, muhtemelen senden daha gencim).
Modellerin sonuçlarını analiz ediyorum ve yüksek korelasyonlu tahmin edicileri, örneğin zamana dayalı tahmin edicileri - küçük bir zaman gecikmesi olsa bile - yakaladıklarını görüyorum.
Bence her şeyi çok iyi biliyorlar ama size onlarca yıllık basmakalıp sözleri de söylememeliler....
"Sen" veya "Siz" hakkında - bence herkes için muhatabına uygun olduğu şekilde hitap etmek daha iyidir, eğer saldırgan bir mesaj taşımıyorsa ve yapıcı diyaloğu engellemiyorsa.
https://datascience.stackexchange.com/questions/12554/does-xgboost-handle-multicollinearity-by-itself
Karar ağaçları doğası gereği çoklu doğrusallığa karşı bağışıktır. Örneğin, 2 fonksiyonunuz varsa,
99 korelasyona sahipse, ağaç bölünüp bölünmeyeceğine karar verirken bunlardan yalnızca birini seçecektir. Diğer modeller,
lojistik regresyon gibi, her iki fonksiyonu da kullanacaktır.
Bousting ağaçları ayrı karar ağaçları kullandığından, çoklu doğrusallıktan da etkilenmezler.
========
Bu yaklaşımı kullanabilir, her bir özelliğin önemini değerlendirebilir ve nihai modeliniz için yalnızca en iyi özellikleri tutabilirsiniz.
Aslında daha önce de söylediğim gibi
Mesele bu, seçecek - evet bir tane, ama bu seçim kaç kez geçecek....
Ayrıca CatBoost'un xgboost'tan bazı farklılıkları var ve farklı örneklerde farklı sonuçlar var, ortalama olarak CatBoost daha hızlı ve hatta daha iyi, ancak her zaman değil.
Ayrıca, benzer tahmin edicileri gruplandırmak ve aralarından en iyi seçeneği seçmek için kendi yöntemim var ve korelasyon şeklinde bir kontrol grubuna ihtiyacım var...
CatBoost, bölme veya ağaç oluşturmanın her iterasyonunda tahmin edicilerin sayısını rastgele seçer - ayarlara bağlıdır ve bu, güçlü korelasyonlu tahmin edicilerin rastgele, yani onlara değil, taşıdıkları bilgilere girme şansının daha yüksek olduğu anlamına gelir.
Tahmin edicileri rastgele seçtiğinden emin misiniz? Catbusting yapmıyordum, temel bousting örneklerinin koduna bakıyordum. Orada tüm tahmin ediciler kullanılıyor. Yani, en iyisi alınır. İlişkili olan onun yanında olacak, ancak biraz daha kötü olacak. Ancak diğer bazı bölme seviyelerinde veya düzeltme ağaçlarında, korelasyonlu tahmin edicilerden bir diğeri daha iyi olabilir.