Ticarette makine öğrenimi: teori, pratik, ticaret ve daha fazlası - sayfa 2386

 
Alexey Vyazmikin :

Üstelik bu yaklaşımı uzun yıllardır uyguluyorum.

Bununla birlikte, şimdi biraz ertelendi, çünkü gerçekten çok yavaş, bu da hedefi hızlı bir şekilde değiştirmeyi (başarılı olanı aramak) imkansız hale getiriyor ve bireysel kurallar, geçmişte nasıl kontrol ederseniz edin, çalışmayı durduruyor.

Maxim, bir CSV dosyasındaki verilere göre bir döngüde bir model (veya yüz model) oluşturacak bir python betiği yapabilir, ardından standart CatBoost araçlarını kullanarak tahmin edicilerin önemi için (onları) analiz edebilir, ardından devre dışı bırakabilir misiniz? / belirli koşullar altında tahmin edicilerin kullanımını etkinleştirin (CatBoost bunu yapabilir) ve tekrar yeni bir model oluşturun. Bu yöntem, model geliştirmeye yol açacak önemli tahmin edicileri vurgulayacaktır. Ben de buna benzer bir yöntem kullanıyorum ama bunu yapmak benim için çok sakıncalı çünkü her döngü, filtreleme/öngörücü ekleme işleminden sonra manuel olarak öğrenme döngüsünü yeniden başlatmam gerekiyor.

o zamana kadar

ve böyle bir yaklaşıma inanmıyorum (daha iyi ve daha hızlı katları biliyorum)

 
Maksim Dmitrievski :

o zamana kadar

ve böyle bir yaklaşıma inanmıyorum (daha iyi ve daha hızlı katları biliyorum)

Çalışma yaklaşımı bir inanç meselesi değildir.

Ve hangi yaklaşım daha hızlı ve daha iyi, etkinliğini karşılaştıralım!?

 
Alexey Vyazmikin :

Çalışma yaklaşımı bir inanç meselesi değildir.

Ve hangi yaklaşım daha hızlı ve daha iyi, etkinliğini karşılaştıralım!?

yani inanç meselesi değil, bir tür belgeye ihtiyaç var

özellikleri modelden kaldırmak Etkileşimlerini değiştirir, böylece onları istediğiniz kadar yeniden düzenleyebilirsiniz
 
Bildiğimiz gibi, herhangi bir NS, orman, yükseltme, MA ve diğer dijital filtreler gibi herhangi bir işlevi kendi içinde yeniden üretebilir. Ve sadece 50-100 bar servis ederseniz, aynı Mashki'ye hizmet etmenin bir anlamı yok gibi görünüyor.
Derin sinir ağlarında , belki.
Ancak düzenlenmiş destek ve ormanlarda - hayır.
Örneğin, bir catboost'ta önerilen ağaç derinliği 6'dır. Bu, 2^6=64 bölme demektir. MA30'a ihtiyacımız varsa, ortalama olarak her çubuk 2 kez bölünecektir (yarıya ve yarılardan biri tekrar yarıya). MA'yı kabaca (%10'luk bir hatayla) yeniden oluşturmak için, her çubuğu en az 10 kez bölmeniz gerekir. Bu 9-10 derinlik gerekli.
Ancak ağacın derin bölünmesi, genellenmesine izin vermeyecektir.
Böylece sığ ağaçların genelleştirilebileceği, ancak istenen herhangi bir özellik (MA gibi) içinde çoğaltılmasının imkansız olduğu ortaya çıkıyor. Bu, çubuklara ek olarak, hem MA'ları hem de CCI'ları ve kontrol etmek istediğiniz diğer her şeyi özellik olarak göndermeniz gerektiği anlamına gelir.

Ağaç sistemleri için sadece çubukların yeterli olduğuna inanan tek kişi ben değilim. Hala destekçiler varsa - onların argümanlarını ifade etmeyi öneriyorum.
 
Maksim Dmitrievski :

yani inanç meselesi değil, bir tür belgeye ihtiyaç var

özellikleri modelden kaldırmak Etkileşimlerini değiştirir, böylece onları istediğiniz kadar yeniden düzenleyebilirsiniz

Neyin kanıtlanması gerektiğine karar verelim.

Neden, tahmin ediciyi kaldırmanın bir yararı olabilir, bence, resmi olarak tahmin edici, bunun için iyi bir performansa sahip olması nedeniyle kök (genellikle) bölünmesi için başarılı olarak seçilebilir - genellikle diğer tahmin edicilerle yazışmalar sonucu iyileştirir - açgözlülük ilkesi, ancak bu ilke tek bir bütün olarak veri seti ile çalışır, uzamsal özellikler için kontrol yoktur (sonuçlarıyla bağlantılı olarak tüm örnek üzerinde bir olayın meydana gelme sıklığı), bu bir durumdur. örneğin 1/5'i için olay sonuçlarının birikimi, örneğin, yalnızca güçlü bir eğilim olduğu ve daha sonra çok güçlü olmadığı ve sonuçların zaten belirsiz olduğu gerçeğinden, ancak model oluşturma yöntemi bunu almıyor hesaba katmak. Veya benzer bir durum, ancak farklı bir neden var - model bile istikrarlı görünüyor, ancak tahmin edicinin, genel olarak işlem sonucunun finansal göstergelerinin şu anda hedefle iyi bir şekilde ilişkili olduğu ortaya çıkıyor. artıda çok küçük veya olumsuzda çok büyük ve bu, eğitim sırasında modelin hesaba katamayacağı çok ince bir an.

Bu nedenle, amaç sadece sınıflandırma modelini farklı zaman aralıklarında iyileştirmek değil, aynı zamanda finansal sonuç açısından da iyileştirmektir.

 
Alexey Vyazmikin :

Neyin kanıtlanması gerektiğine karar verelim.

Neden, tahmin ediciyi kaldırmanın bir yararı olabilir, bence, resmi olarak tahmin edici, bunun için iyi bir performansa sahip olması nedeniyle kök (genellikle) bölünmesi için başarılı olarak seçilebilir - genellikle diğer tahmin edicilerle yazışmalar sonucu iyileştirir - açgözlülük ilkesi, ancak bu ilke tek bir bütün olarak veri seti ile çalışır, uzamsal özellikler için kontrol yoktur (sonuçlarıyla bağlantılı olarak tüm örnek üzerinde bir olayın meydana gelme sıklığı), bu bir durumdur. örneğin 1/5'i için olay sonuçlarının birikimi, örneğin, yalnızca güçlü bir eğilim olduğu ve daha sonra çok güçlü olmadığı ve sonuçların zaten belirsiz olduğu gerçeğinden, ancak model oluşturma yöntemi bunu almıyor hesaba katmak. Veya benzer bir durum, ancak farklı bir neden var - model bile istikrarlı görünüyor, ancak tahmin edicinin, genel olarak işlem sonucunun finansal göstergelerinin şu anda hedefle iyi bir şekilde ilişkili olduğu ortaya çıkıyor. artıda çok küçük veya olumsuzda çok büyük ve bu, eğitim sırasında modelin hesaba katamayacağı çok ince bir an.

Bu nedenle, amaç sadece sınıflandırma modelini farklı zaman aralıklarında iyileştirmek değil, aynı zamanda finansal sonuç açısından da iyileştirmektir.

kodlamaya hazır değil ve ardından anlaşılmaz fikirleri anlaşılmaz bir sonuçla destekliyor

 
Maksim Dmitrievski :

anlaşılmaz fikirleri kodlamaya ve ardından anlaşılmaz sonuçlarla desteklemeye hazır değil

Öyleyse, yalnızca fikirlerinizin doğru ve tartışmaya değer kabul edildiğini söyleyin.

 
Alexey Vyazmikin :

Öyleyse, yalnızca fikirlerinizin doğru ve tartışmaya değer kabul edildiğini söyleyin.

oldukça haklı. Açıklamadan hiçbir şey anlamadım.

İşaretleri yeniden düzenlemenin anlamsızlığını zaten yazdım, birkaç yıl önce yaptım

 
Maksim Dmitrievski :

oldukça haklı. Açıklamadan hiçbir şey anlamadım.

İşaretleri yeniden düzenlemenin anlamsızlığını zaten yazdım, birkaç yıl önce yaptım

Açıklamadan anlamadıysanız, tam olarak neyin net olmadığı hakkında sorular sorun - daha iyi açıklamaya çalışacağım.

Ben de birkaç yıl önce aynısını yaptım ve anlamsızlığı değil, işçilik maliyetleri nedeniyle reddettim.

Aşağıda eski deneyin sonuçlarının bir tablosu var, iş şöyle devam ediyor:

1. Tahmin edicilerin sayısı 9 parçaya bölünmüştür.

2. Parçalar arası kombinasyonlar oluşturulur - 512

3. Ardından, her bir parçanın varlığı/yokluğu ile numunelerin ortalama olarak nasıl davrandığına dair bir değerlendirme yapılır.

4. Parçanın önemi hakkında bir varsayımda bulunulur (olumlu/olumsuz).

5. Önemli parçalar daha küçük parçalara ayrılır ve daha az önemli olanlar tek parça halinde birleştirilir (düzenli olmaları gerekmez)

6. Yeni 512 kombinasyon oluşturuldu

7. Numuneyi olumsuz etkileyen küçük bir parça bulunursa, sonucun iyileşmesi durana kadar ileri numaralandırmadan çıkarılır, o zaman atılan parçaları eklemeyi deneyebilir ve sonucu aynı şekilde analiz edebilirsiniz. Olumlu etkiler, aksine, bir gruba genelleştirilir.

Aşağıda, bu tür 32 yinelemeyle göstergelerin nasıl değiştiğine dair bir örnek verilmiştir.



Yöntem elbette geliştirilebilir, ancak bunun için deneyler ve sonuçlarının sonuçları gerekir.

Evet, iyileştirme pek çok kez değil, ancak sonuçlar, hangi tahmincilerin sonuç üzerinde daha iyi veya daha kötü bir etkiye sahip olduğunu ve neden olduğunu düşünmemize izin veriyor.

Ve, daha önce kullandığım numaralandırmadan daha hızlı olabileceği için, CatBoost istatistikleriyle çalışmayı ve tahmin edicileri (ve gruplarını) kaldırmayı/eklemeyi denemek istiyorum.

Başka bir artı, fazla tahmin edicinin nadir bölünmelerin ortaya çıkmasına yol açmasıdır ve eğitim dışındaki bir örnekte yaprak aktivasyonu çok nadir olabilir (bunu daha önce ekranda göstermiştim), bu da eğitimin kalitesini ve değerlendirmesini kasıtlı olarak azaltır.

 
Alexey Vyazmikin :

Açıklamadan anlamadıysanız, tam olarak neyin net olmadığı hakkında sorular sorun - daha iyi açıklamaya çalışacağım.

Ben de birkaç yıl önce aynısını yaptım ve anlamsızlığı değil, işçilik maliyetleri nedeniyle reddettim.

Anlamsız zaman öldürme