Ticarette makine öğrenimi: teori, pratik, ticaret ve daha fazlası - sayfa 2413

 
Maksim Dmitrievski :
Bunun neden işe yarayabileceğinin tam resmini göremiyorum.

Örnekte rastgele tahminciler olduğunu varsayalım, aslında gürültü, amaç gürültüyü temizlemektir.

Bunun sonucu iyileştirmeyeceğini düşünüyor musunuz?

 
Alexey Vyazmikin :

Örnekte rastgele tahminciler olduğunu varsayalım, aslında gürültü, amaç gürültüyü temizlemektir.

Bunun sonucu iyileştirmeyeceğini düşünüyor musunuz?

Herhangi bir özellik hedef bağlantısını almak ve kararlı bir sinyal bulunana kadar sinyalleri zamana göre filtrelemek daha kolaydır. Ve bu tür bot modellerinden topla
 
Maksim Dmitrievski :
Herhangi bir özellik hedef bağlantısını almak ve kararlı bir sinyal bulunana kadar sinyalleri zamana göre filtrelemek daha kolaydır. Ve bu tür bot modellerinden topla

Ya özü anlamadım, sonra daha ayrıntılı yazdım ya da önerilen eylemlerin, zaman hakkında bilgi içeren ek bir öngörücü_2'yi öngörücü_1'e eklemekten nasıl farklı olduğunu anlamıyorum?

 
Alexey Vyazmikin :

Sonra ortaya çıkan modelin analizi ile tahmin edicileri / özellikleri / özellikleri seçme yöntemini nasıl geliştirebilirim diye düşündüm.

Algoritmanın uygulanması için kendime fikirler verdim, ancak bunları saygın toplulukla paylaşmaya karar verdim, belki bu algoritmanın uygulanmasına başlamadan önce, algoritmaya yapıcı eleştiriler veya eklemeler / iyileştirmeler olacaktır. Hiçbir şeyin gerekçe ile işe yaramayacağı fikri ilginçtir.


Bir CatBoost modeli oluştururken kullanım sıklıklarına göre tahmin edicilerin seçimi (Özelliğin önemi)

Buradaki fikir, her algoritmanın kendi ağaç oluşturma özelliklerine sahip olmasıdır ve belirli bir algoritmanın algoritması tarafından daha sık kullanılan tahmin edicileri, bu durumda CatBoost'u seçeceğiz.

Ancak, zaman ölçeğindeki tekdüzeliği değerlendirmek için birden fazla örnek kullanacağız ve verilerini tek bir tabloda özetleyeceğiz. Bu yaklaşım, modellerden birinde tahmin edicinin seçiminde güçlü bir etkiye sahip olan rastgele olayları ayıklamamıza izin verecektir. Modelin üzerine inşa edildiği örüntüler, yeni veriler üzerinde doğru sınıflandırmaya katkıda bulunabilecek tüm örneklem boyunca gerçekleşmelidir. Bu özellik, piyasadan elde edilen veriler için geçerlidir, yani. Gizli döngüselliğe sahip olanlar da dahil olmak üzere eksiksizliği olmayan veriler, ör. geçici değil, olaylı. Aynı zamanda, farklı zaman aralıklarında modeller oluştururken en sık talep edilen tahmincileri seçmenize izin verecek şekilde, bölümlerden birinde ilk %30 - %50 arasında yer almayan tahmincileri cezalandırmak istenir.

Ayrıca, rastgelelik faktörünü azaltmak için, farklı Seed değerlerine sahip modeller kullanmanız gerekir, bu tür modellerin 25'ten 100'e kadar olması gerektiğini düşünüyorum.Sonuçta ortaya çıkan modelin kalitesine bağlı olarak bir katsayı eklemeye değer mi yoksa sadece hepsinin ortalamasını almak mı? tahmin ediciler üzerindeki sonuçlar - Henüz bilmiyorum, ama bence basit başlamalıyız, yani. sadece ortalama.

Önemli bir konu, niceleme tablosunun kullanılmasıdır, ilkelerin seçiminde belirleyici bir rol oynayabilir. Tablo sabit değilse, her model alt örnek için kendi tablosunu oluşturacaktır, bu da elde edilen sonuçların karşılaştırılmasına olanak vermeyecektir, bu nedenle tablo tüm örnekler için ortak olmalıdır.

Kuantizasyon tablosunu alabilirsiniz:

  1. CatBoost için hiperparametreleri tüm eğitim örneğinin nicelemelerinin türüne ve sayısına göre ayarlayarak ve sonuçları csv'ye kaydederek.
  2. CatBoost için hiperparametreleri bölümlerin türüne ve sayısına göre kuantlara ayarlayarak, örnekleme sitelerinden birini seçerek, diyelim ki en iyisi ve sonuçları csv'ye kaydedin.
  3. Çeşitli tablolardan en iyi seçenekleri seçen ayrı bir komut dosyası kullanarak bir tablo alın.
Eğitim sırasında tabloya zorla yükleme yapılarak her numune için daha önce elde edilen tablolar kullanılır.

Boost'a başvurmadan önce kendinizi ölçebilirsiniz - her şey kontrolünüz altında olacak.
0 ila 0.00005 = 0.00005 0.00005 ila 0.00010 = 0.00010 vb.

 
elibrarius :

Boost'a başvurmadan önce kendinizi ölçebilirsiniz - her şey kontrolünüz altında olacak.
0 ila 0.00005 = 0.00005 0.00005 ila 0.00010 = 0.00010 vb.

Bir niceleme tablosu elde etmek için üçüncü seçenek, önceden oluşturduğum kullanıcı niceleme tablolarının değerlendirilmesini sağlar. Deneyler bunun her zaman en iyi seçenek olmadığını gösteriyor. Bu arada, madem sayısal dizilerden bahsediyoruz, lineer, Fibonacci, üstel olmak üzere başka hangi adımlar kullanılabilir?

 
Alexey Vyazmikin :

Bir niceleme tablosu elde etmek için üçüncü seçenek, önceden oluşturduğum kullanıcı niceleme tablolarının değerlendirilmesini sağlar. Deneyler bunun her zaman en iyi seçenek olmadığını gösteriyor. Bu arada, madem sayısal dizilerden bahsediyoruz, lineer, Fibonacci, üstel olmak üzere başka hangi adımlar kullanılabilir?

3 senin için yeterli değil mi? Ve böylece deney sayısı üçe katlandı)) başka nerede?
 
Alexey Vyazmikin :

Ya özü anlamadım, sonra daha ayrıntılı yazdım ya da önerilen eylemlerin, zaman hakkında bilgi içeren ek bir öngörücü_2'yi öngörücü_1'e eklemekten nasıl farklı olduğunu anlamıyorum?

Ayrıntıları yazmamak için hala nedenler var, ancak bir gün ortaya çıkacaklar. Devrenin parçaları burada zaten açıklanmıştır. Bunu, özellik seçimi kabuğuna bağlı olmayan tek mantıklı seçenek olarak görüyorum. İdeal olarak, işaretler herhangi biri olabilir, etiketler de olabilir. Algoritmanın görevi, zaman bileşenini (bu özelliklerin çalışmadığı yerleri filtreleme) hesaba katarak onlar için kalibre etmektir. Kanıtlar, bu yaklaşımın bazı ayarlarıyla Prado'dan bir meta etiketlemedir. Tamamen farklı bir bozkırdasınız, bu nedenle anlayış ortaya çıkmayabilir.
 
elibrarius :
3 senin için yeterli değil mi? Ve böylece deney sayısı üçe katlandı)) başka nerede?

Tabii ki yeterli değil :) Aslında her tahminci için en uygun tabloyu seçiyorum ve gökyüzü ne kadar büyük olursa o kadar iyi. Komut dosyasının en son sürümünde, genellikle tüm tablolardan en iyi aralıklar seçilir ve her bir tahminci için tek bir tabloda birleştirilir.

 
Maksim Dmitrievski :
Ayrıntıları yazmamak için hala nedenler var, ancak bir gün ortaya çıkacaklar. Devrenin parçaları burada zaten açıklanmıştır. Bunu, özellik seçimi kabuğuna bağlı olmayan tek mantıklı seçenek olarak görüyorum. İdeal olarak, işaretler herhangi biri olabilir, etiketler de olabilir. Algoritmanın görevi, zaman bileşenini (bu özelliklerin çalışmadığı yerleri filtreleme) hesaba katarak onlar için kalibre etmektir. Kanıtlar, bu yaklaşımın bazı ayarlarıyla Prado'dan bir meta etiketlemedir. Tamamen farklı bir bozkırdasınız, bu nedenle anlayış ortaya çıkmayabilir.

Evet, algoritmanın kalibrasyonu hakkında hiçbir şey net değil. Eğitimde yerler filtrelenmiş olsa bile, uygulama sırasında bu yerlerin nasıl tanınacağı net değildir.

 
elibrarius :

Matrix filminin hayranı mısınız?

Buradaki matris nedir?
Akıllı insanları okuyorum, bir saatlik okuma bilgisinde, yurtdışındaki Bilim Adamlarının her türlü eksikliğinin bloglarını okuyarak 10 yıldan daha fazlasını elde edebilirsiniz.
ve çok değil...