Ticarette makine öğrenimi: teori, pratik, ticaret ve daha fazlası - sayfa 560

 
San Sanych Fomenko :

Orman ve ada için benzer sayılara sahibim.

Ve şimdi, "koyunumuza" dönersek - keyfi bir tahminciler listesinden gürültü nasıl atılır? 170'ten 27 tahmincimi seçen bazı deneysel algoritmam var. Ayrıca, diğer insanların tahmin edicilerini analiz etmek için kullandım ve ayrıca başarılı bir şekilde. Bu deneyime dayanarak, algoritmalarında değişkenlerin "önemini" kullanan tüm R yöntemlerinin, tahmin ediciler kümesini gürültüden temizleyemeyeceğini savunuyorum.

Tüm şube okuyucularına sesleniyorum: Kaynak veriler RData veya işlem gerektirmeyen bir Excel dosyası şeklinde sunuluyorsa uygun bir analiz yapmaya hazırım.

Ayrıca.

Ekte, ilk öngörücü kümesini gürültüden temizleme sorununu çözdüğü ve çok daha yüksek kalitede bir dizi makale ekliyorum. Maalesef şu anda denemek için zamanım yok. Belki biri deneyip sonucu yazar?


Önce konuyu okumaya karar verdim (okumadığım ortaya çıktı). Ve sonra bir dizi soru ortaya çıktı, örneğin:

1. Ormanlar rastgele bir özellik alt kümesi üzerinde eğitilir, bu, eğitime rastgele dahil edilmeyen özelliklerin "önemli değil" olarak işaretleneceği anlamına mı gelir?

2. kategorik özellikler olduğunda ve ormanlar onlara daha fazla kategoriye sahip özelliklere göre önceden daha az önem verdiğinde nasıl anlaşılır?

3. Her yeni örnekteki PCA, eğitim örneğindeki bileşenlerden çok farklı olacak "yeni" bileşenleri vurgulamayacak mı, bununla nasıl başa çıkılır?

ve son olarak, biraz farklı bir özellik seçme yöntemi hakkında bir makale (özyinelemeli özellik eleme): http://blog.datadive.net/selecting-good-features-part-iv-stability-selection-rfe-and-everything-side- yan/

makale ayrıca, dahil olmak üzere açıklanan önceki bölümlere bağlantılar içerir. ve ormanlar

Selecting good features – Part IV: stability selection, RFE and everything side by side
  • 2014.12.20
  • blog.datadive.net
In this post, I’ll look at two other methods: stability selection and recursive feature elimination (RFE), which can both considered wrapper methods. They both build on top of other (model based) selection methods such as regression or SVM, building models on different subsets of data and extracting the ranking from the aggregates. As a wrap-up...
 
Maksim Dmitrievski :

Önce konuyu okumaya karar verdim (okumadığım ortaya çıktı). Ve sonra bir dizi soru ortaya çıktı, örneğin:

1. Ormanlar rastgele bir özellik alt kümesi üzerinde eğitilir, bu, eğitime rastgele dahil edilmeyen özelliklerin "önemli değil" olarak işaretleneceği anlamına mı gelir?

2. kategorik özellikler olduğunda ve ormanlar onlara daha fazla kategoriye sahip özelliklere göre önceden daha az önem verdiğinde nasıl anlaşılır?

3. Her yeni örnekteki PCA, eğitim örneğindeki bileşenlerden çok farklı olacak "yeni" bileşenleri vurgulamayacak mı, bununla nasıl başa çıkılır?

ve son olarak, biraz farklı bir özellik seçme yöntemi hakkında bir makale (özyinelemeli özellik eleme): http://blog.datadive.net/selecting-good-features-part-iv-stability-selection-rfe-and-everything-side- yan/

makale ayrıca, dahil olmak üzere açıklanan önceki bölümlere bağlantılar içerir. ve ormanlar


Ne yazık ki, kişisel cevabım burada veya konuyla ilgili diğer literatürde yazılanlara hiçbir şey eklemeyecektir.

Özelliklerin "önemini" belirlemek için oldukça fazla sayıda algoritma vardır (gerileme veya kategori önemli değildir) - bunların hepsi R'dedir.

Onlara hakim olmak için çok zaman harcadım ve sonunda, hedef değişkenle ilgili olmayan gürültü özelliklerinden kurtulmanın ve daha sonra bunları R'den kullanmanın ÖNCE olduğunu öğrendim, bu da hatayı 5 azaltacaktır. %7. %20'den az hataya ulaşılamadı.

Bir kez daha, her çubukta önemli bileşenlerden bir seçim yaptığımı ve ortaya çıkan sette ormanın yeniden eğitildiğini not ediyorum.


Rakamlar böyle.

  • Birkaç yüz tahmin ediciden 27 tahmin ediciyi gürültü kriterine göre seçtim, yani. hedef değişkenle "ilgili".
  • Önem kriterine (RFE) göre seçtiğim her çubukta 27 üzerinden
  • Alınan 5-15 işarette ormanı inceliyorum. Bu liste, kullanılan 27 içinde her zaman değişir.


Bu yaklaşımın kalite kriteri: İki dosya alıyorum, ilkinde öğretiyorum, eğitiyorum, doğrulama = yaklaşık olarak aynı hata. Ortaya çıkan modeli ikinci dosyada kontrol ediyorum = yaklaşık olarak ilk dosyadakiyle aynı hata. Bu konuda modelin yeniden eğitilmediği ve gelecekte en az bir çubuğun eğitim sırasındaki gibi davranacağı sonucuna varıyorum.

Diğer yaklaşımlar benim için çalışmıyor ve bir model türünü bir başkasıyla değiştirmek, yeniden eğitim açısından hiçbir şeyi iyileştirmez.



RSA hakkında. Benim sonucum, ana bileşenlerin kullanımının orijinal sete kıyasla hatayı azaltmadığı anlamında negatif. Neden böyle - teorik olarak hatayı azaltmasına rağmen anlamadım.

 
San Sanych Fomenko :

PCA, forex gibi heterojen özellikler üzerinde bir model kullanırken genellikle işe yaramaz .. bence. Çünkü aynı bileşenler üzerinde eğitildi ve testte değil, model tarafından hiç dikkate alınmayan başka bir bileşen kombinasyonu ortaya çıktı

eğer ormana geri dönersen

Eğitim örneğine dahil olmayan özelliklerin nasıl değerlendirildiğini anlamak için materyale girmeniz gerekecek, öyle görünüyor, bu konuda hiçbir şey yazılmıyor (büyük olasılıkla kötü olarak değerlendiriliyorlar)

+ ormanın öğrenme süreci rastgeledir, arka arkaya birkaç eğitimle farklı sonuçlar elde edebilirsiniz, bazen önemli ölçüde farklı .. bu numara ile nasıl çalışılacağı da tam olarak açık değildir. Eh, eğer modele uyarsak, onu kaydedin ve daha sonra kullanın .. ve model kendi kendini yeniden eğitiyorsa .. art arda birkaç kez eğitilmesi gerekiyor, minimum hatayı seçin, bunun gibi bir şey .. aksi takdirde, ile test cihazında birden fazla çalışma, gözlemlerime göre 5 veya daha fazlasına kadar farklı sonuçlar elde ediliyor, daha sonra bunlar sonraki çalışmalarda tekrarlanıyor / değiştiriliyor

 
Maksim Dmitrievski :

PCA, forex gibi heterojen özellikler üzerinde bir model kullanırken genellikle işe yaramaz .. bence. Çünkü aynı bileşenler üzerinde eğitildi ve testte değil, model tarafından hiç dikkate alınmayan başka bir bileşen kombinasyonu ortaya çıktı

eğer ormana geri dönersen

Eğitim örneğine dahil olmayan özelliklerin nasıl değerlendirildiğini anlamak için materyale girmemiz gerekecek, bu konuda hiçbir şey yazılmıyor (büyük olasılıkla kötü olarak değerlendiriliyorlar)

+ ormanın öğrenme süreci rastgeledir, arka arkaya birkaç eğitimle farklı sonuçlar elde edebilirsiniz, bazen önemli ölçüde farklı .. bu numara ile nasıl çalışılacağı da tam olarak açık değildir. Eh, eğer modele uyarsak, onu kaydedin ve daha sonra kullanın .. ve model kendi kendini yeniden eğitiyorsa .. art arda birkaç kez eğitilmesi gerekiyor, minimum hatayı seçin, bunun gibi bir şey .. aksi takdirde, ile test cihazında birden fazla çalışma, gözlemlerime göre 5 veya daha fazlasına kadar farklı sonuçlar elde ediliyor, daha sonra bunlar sonraki çalışmalarda tekrarlanıyor / değiştiriliyor


Anlattığın tutkuları hatırlamıyorum. Aynı tohumla, sonuç sürekli olarak aynıdır.

 
San Sanych Fomenko :

Anlattığın tutkuları hatırlamıyorum. Aynı tohumla, sonuç sürekli olarak aynıdır.


tohum nelerden sorumludur? Artık hatırlamıyorum .. sadece işaret sayısı için mi? alglib ormanı kullanıyorum

 
tersine 45 :
Çarpım tablosunu bilmeyen öğretmen ve ona empoze etmeyen Millet Meclisi geliştiricisi, rastgele, doğru çözümler - daha fazla dökmeyin!

Desteklerim.

Sadece boş hava. Kontrol edebilmeniz için bir örnek, tavan verileri düzenleyin.

Öğrenmenin üç ana yolu vardır: öğretmensiz (hedef sunulmaz), öğretmenli (hedef tam olarak etiketlenir) ve yarı denetimli (doğru tercüme yapmayı bilmiyorum). Bu, modele tam olarak (kısmen) işaretlenmemiş bir hedef sunulduğu zamandır. Diğer her şey kötü olandan.

İyi şanlar

 
Maksim Dmitrievski :

tohum nelerden sorumludur? Artık hatırlamıyorum .. sadece işaret sayısı için mi? alglib ormanı kullanıyorum

Haydi...

set.seed rasgele sayı üretecini belirli bir duruma ayarlar ve hesaplamayı yinelerken tekrarlanabilir bir sonuca sahip olur.

Malzeme öğrenin.

 
Vladimir Perervenko :

Haydi...

set.seed rasgele sayı üretecini belirli bir duruma ayarlar ve hesaplamayı yinelerken tekrarlanabilir bir sonuca sahip olur.

Malzeme öğrenin.


ne tamam o zaman bende öyle bir ayar yok o yüzden sordum

yani mt5'te de yapabilirsiniz, teşekkürler

 
Vladimir Perervenko :

Desteklerim.

Sadece boş hava. Kontrol edebilmeniz için bir örnek, tavan verileri düzenleyin.

Öğrenmenin üç ana yolu vardır: öğretmensiz (hedef sunulmaz), öğretmenli (hedef tam olarak etiketlenir) ve yarı denetimli (doğru tercüme yapmayı bilmiyorum). Bu, modele tam olarak (kısmen) işaretlenmemiş bir hedef sunulduğu zamandır. Diğer her şey kötü olandan.

İyi şanlar

Peki, peki.)) Algoritmayı tamamen biliyorsanız ve hedefi bulabilirseniz, neden NA'ya ihtiyacınız var? Onsuz her şeyi yapabilirsiniz.)

NS ve diğer DM'lere tam olarak bilmediğiniz zamanlarda ihtiyaç duyulur.

Öğrenme algoritmalarına gelince, bunlar her özel görev için geliştirilir ve değiştirilir. Çoğunlukla temele dayalıdır.

Ama söylediğin şey havanın sallanması. Girişin ötesinde bir şeyler okuyun. )

İyi şanlar.

 
Yuri Asaulenko :

Peki, peki.)) Algoritmayı tamamen biliyorsanız ve hedefi bulabilirseniz, neden NA'ya ihtiyacınız var? Onsuz her şeyi yapabilirsiniz.)

Ne yazdığını anladın mı? Hedef aranmaz, modelin ne öğrenmesi gerektiği ön olarak tanımlanır. Ne algoritmasından bahsediyorsun?

NS ve diğer DM'lere tam olarak bilmediğiniz zamanlarda ihtiyaç duyulur.

Neyi bilmiyoruz?

Öğrenme algoritmalarına gelince, bunlar her özel görev için geliştirilir ve değiştirilir. Çoğunlukla temele dayalıdır.

Burada çözülmesi gereken iki görevden bahsediyoruz: regresyon ve sınıflandırma (kümeleme ve sıralamayı atlıyoruz). Aklınızda başka hangi "belirli görevler" var?

Ama söylediğin şey havanın sallanması. Girişin ötesinde bir şeyler okuyun. )

???

İyi şanlar.