Ticarette makine öğrenimi: teori, pratik, ticaret ve daha fazlası - sayfa 1277

 
elibrarius :

Ben bu yöntemi farklı anladım.
İncelenen tahminci için normal dağılıma sahip rastgele değerler göndermek değil, sadece bu sütundaki satırları karıştırmak gerekir.

Genel olarak, makaleden elde edilen sonuçlar etkileyici. Pratikte denemeliyiz.

karıştır ne fark eder

 
elibrarius :
Alglib'de kalan tüm tahmin ediciler %50'den sıralanır, her biri dörtte birlik 4 parçaya bölünür ve tüm seçeneklerden en iyi hataya sahip bölme seçilir.

Prensipte, rastgele ayırma eklemek zor değildir.
Testte iyi sonuçlar veren tek tek ağaçlar görmedim (% 45-50), ancak ormanları zaten daha ilginç)


Anladım, öyle düşündüm, bu yüzden ağaçların çoğunun kök bölünmesinin aynı olması muhtemeldir, bu da diğer seçenekleri atar.

Herhangi bir yaprağın sadece bir tür desen / işareti tanımlama girişimi olduğu gerçeğinden hareket ediyorum ve açıklamanın doğru olup olmayacağını veya örnekte rastgele bir tesadüf olup olmadığını önceden bilemeyiz. Bu nedenle, farklı ve benzersiz (tekrarlanmayan) yaprakları topluyorum ve ağacın tamamı değil, ayrı ayrı kontrol ediyorum.

Alglib'de aşırı dallanma vardır, dolayısıyla öğrenme yoktur, ezber vardır. Ormanların iyi bir fikir olduğunu düşünüyorum, ancak her ağaç benzersiz kurallar (yapraklar) içeriyorsa ve bölme sayısı çok fazla değilse - 4-10 arası doğru çalışırlar.


elibrarius :
Tahmin edicilerin önemine göre şunlara baktım:
xgboost, lightGBM paketleri, "ahşap modeller" için özelliklerin (özellikönemi ) önemini değerlendirmek için yerleşik yöntemlere sahipti:

  1. Kazanmak
    Bu ölçü, her bir özelliğin modele göreli katkısını gösterir. hesaplamak için her ağacın üzerinden geçiyoruz, ağacın her bir düğümüne, hangi özelliğin düğümün bölünmesine yol açtığına ve metriğe göre modelin belirsizliğinin ne kadar azaldığına (Gini safsızlığı, bilgi kazancı) bakıyoruz.
    Her özellik için, tüm ağaçlara katkısı özetlenir.
  2. örtmek
    Her özellik için gözlem sayısını gösterir. Örneğin 4 özelliğiniz, 3 ağacınız var. 1, 2 ve 3 ağaçlarında sırasıyla 10, 5 ve 2 gözlem içerdiğini varsayalım.
  3. Sıklık
    Bu özelliğin ağacın düğümlerinde ne sıklıkta meydana geldiğini gösterir, yani her ağaçtaki her bir özellik için ağacın düğümlere toplam bölünme sayısı hesaplanır.
Önemi gerçekten doğru bir şekilde paylaşmıyorlar.
5 çubukta eğitilmiş ormanım, testte 100'den daha iyi bir sonuç veriyor. Ancak 100'de öğrendiğinizde, ilk 5 önemli olarak değil, bazı uzak olanlar olarak işaretleniyor.
100'de antrenman yaparken, bireysel ağaçların ve ormanın hatası daha düşüktür - açıkçası yeniden eğitim ve 30-100 bara önem verilmesi nedeniyle. Ancak, her zamanki mantıkla değil, 5 çubuktaki ormanın en iyi sonuçları verdiği gerçeğiyle önemli oldukları açıktır.

Evet, konu önemi değerlendirmeye geldiğinde standart yaklaşımlar çok etkili değildir. Bazı benzersizlik göstergelerini puan olarak denemek istiyorum, yani. hazır yapraklar olduğunda ve her tahmin ediciyi sırayla (ızgara bölümünü dikkate alarak) değiştirmeye, istatistik toplamaya ve en iyi değiştirme seçeneğini varsayılan seçenekle karşılaştırmaya, doğruluğu veya başka bir şeyi hesaba katmaya çalıştığımızda göstergesi (kavram önemlidir) ve böylece tüm model boyunca her tahmin edici için puanlar toplar.

elibrarius :
Kodun üstünkörü bir incelemesinden sonra, rpart paketinden bir ağaç oluşturmak için genetik bir özellik seçimi gördüm. Onlar. her ağaca eğitim için kendi özellikleri sunuldu. Genetik nedeniyle, böyle bir seçim tam bir numaralandırmadan daha hızlıdır.
Ama ağaç sihir değil, rpart'ın sunduğu ağaçtır. Orada standart olduğunu düşünüyorum.

Ağacın kendisi kesinlikle standarttır, senaryonun orijinal fikri en önemli öngörücüleri bulmaktır ve genetik buna katkıda bulunuyor gibi görünmektedir.

Yeni bir nesil yaratmak için başka bir göstergenin (doğruluk veya tamlık veya başka bir şey) entropisini değiştirmenin nasıl mümkün olduğunu anlamıyorum.

 

Çok uzun zaman önce ML hakkında bir ders izledim ve model dar bir olasılık aralığında çalıştığında bir durum belirtildi ve bu nedenle, yükseltilmiş modeller için bu neredeyse norm olarak kabul edilir, çünkü model aslında bir olasılık üretmez saf haliyle ve bununla bağlantılı olarak Bu durumda, tahminlerin doğru yorumlanması için böyle bir modeli kalibre etme kavramı vardır. Ve geçen yıl böyle bir durum yaşadım, modeller 40 ila 60 aralığında sonuçlarını verdiğinde ve bunun çok kötü bir seçenek olduğuna dair bana güvence verdiler ... finansal sonuç.

 
Alexey Vyazmikin :

Çok uzun zaman önce ML hakkında bir ders izledim ve model dar bir olasılık aralığında çalıştığında bir durum belirtildi ve bu nedenle yükseltilmiş modeller için bu neredeyse norm olarak kabul edilir, çünkü model aslında bir olasılık değil saf haliyle ve bu durum nedeniyle, doğru tahminler için böyle bir modelin kalibrasyonu kavramı vardır. Ve geçen yıl böyle bir durum yaşadım, modeller 40 ila 60 aralığında sonuçlarını verdiğinde ve bunun çok kötü bir seçenek olduğuna dair bana güvence verdiler ... finansal sonuç.

Alexey, diyelim ki hata olasılığı %99 - iyi mi kötü mü?

Geriye kalan yüzde birin başarı olasılığı olduğunu anlıyorum.

Küçük ama havalı çünkü hatanın nerede olduğunu ve bundan nasıl kaçınılacağını zaten biliyoruz.

Bu durumda, 99'un 1'e oranı
 
Renat Akhtyamov :

Alexey, diyelim ki hata olasılığı %99 - iyi mi kötü mü?

Geriye kalan yüzde birin başarı olasılığı olduğunu anlıyorum.

Küçük ama havalı çünkü hatanın nerede olduğunu ve bundan nasıl kaçınılacağını zaten biliyoruz.

Böyle yüksek bir hata olasılığı, neler olduğu hakkında çok az şey bildiğimizi söylüyor.

Bu oldukça doğru veriler ve bu iyi, ancak başarıdan çok uzak - %1 yalnızca bir kaza olabilir.

Ve bu sadece olasılık açısından.

 
Alexey Vyazmikin :

Anladım, öyle düşündüm, bu yüzden ağaçların çoğunun kök bölünmesinin aynı olması muhtemeldir, bu da diğer seçenekleri atar.

Yaklaşık %50. Ancak bu parametre, bir orman oluşturmak için başka bir f-ii çağrısında ihtiyacınız olan herhangi biriyle değiştirilebilir.

Alexey Vyazmikin :
Bazı benzersizlik göstergelerini puan olarak denemek istiyorum, yani. hazır yapraklar olduğunda ve her bir tahminciyi tek tek değiştirmeye çalıştığımızda (ızgara bölümünü dikkate alarak), istatistikleri topladığımızda ve en iyi değiştirme seçeneğini varsayılan seçenekle karşılaştırdığımızda, doğruluğu veya başka bir şeyi hesaba katarız. göstergesi (kavram önemlidir) ve böylece tüm model boyunca her tahmin edici için puanlar toplar.

Maxim'in bulduğu permütasyona benzer bir şey. Ancak, 0,1'den 0,2'ye değişen değerlere sahip bir tahmin edici yerine 800'den 300000'e bir değişiklikle bir tahmin ediciyi değiştirmek mantıklı mı? Değil!
Ama çizgilerini karıştırmak için - var. Sayı aralığı ve olasılık dağılımı korunacak, ancak her örnekteki değerler rastgele olacaktır.

Alexey Vyazmikin :

Yeni bir nesil yaratmak için başka bir göstergenin (doğruluk veya tamlık veya başka bir şey) entropisini değiştirmenin nasıl mümkün olduğunu anlamıyorum.

Bazı R paketleri, kendi hata işlevinizi kullanmanıza izin verir. Xgboost yapabilir, ancak orada f-ii'nizin türevinin formülünü bulmanız ve onunla birlikte göndermeniz gerekir. Türevi türetmek benim için bir sorun. rpart paketinin açıklamasına bakın, belki fonksiyonlarınızı orada kullanabilirsiniz, hatta belki bir türevi olmadan.

 
elibrarius :

Maxim'in bulduğu permütasyona benzer bir şey. Ancak, 0,1'den 0,2'ye değişen değerlere sahip bir tahmin edici yerine 800'den 300000'e bir değişiklikle bir tahmin ediciyi değiştirmek mantıklı mı? Değil!
Ama çizgilerini karıştırmak için - var. Sayı aralığı ve olasılık dağılımı korunacak, ancak her örnekteki değerler rastgele olacaktır.

" n. dist diyelim " yazdım. Ortalamayı ve varyansı bulun ve ilerletin. GÜRÜLTÜ ile rastgeleleştirme, yalnızca permütasyondan daha iyidir.

Burada kelimeleri çarpıtmayı ve ekran görüntülerini almayı seven ve daha sonra bu konuda kendilerini kanıtlamaya çalışan bir sürü aptal var.

 
Maksim Dmitrievski :

" n. dist diyelim " yazdım. Doğal olarak normalleştirilmiş işaretlerde bir anlam vardır. Ortalamayı ve varyansı bulun ve ilerletin.

Burada kelimeleri çarpıtmayı ve ekran görüntülerini almayı seven ve daha sonra bu konuda kendilerini kanıtlamaya çalışan bir sürü aptal var.
Normalleştirme, menzile yardımcı olacaktır - evet.
Ancak normal dağılımın olasılık dağılımı merkezde olacak (yaklaşık 0,5), gerçek tahmin edici ise yana kaydırılabilir, örneğin yaklaşık 0,8. Veya 0,2 ve 0,8 civarında bir tür eyer veya başka bir şey ...
Karıştırma dağılımı koruyacaktır.
 
elibrarius :
Normalleştirme, menzile yardımcı olacaktır - evet.
Ancak normal dağılımın olasılık dağılımı merkezde olacak (yaklaşık 0,5), gerçek tahmin edici ise yana kaydırılabilir, örneğin yaklaşık 0,8. Veya 0,2 ve 0,8 civarında bir tür eyer veya başka bir şey ...
Karıştırma dağılımı koruyacaktır.

ortalamayı ve varyansı al, lol ve endişelenme

 
Maksim Dmitrievski :

ortalamayı ve varyansı al, lol ve endişelenme

karıştırmak daha kolay)

Ve ilginç bir yönteme (permütasyon) bağlantı için - teşekkürler!