Ticarette makine öğrenimi: teori, pratik, ticaret ve daha fazlası - sayfa 35

 

Birisi bana çok basit ama oldukça doğru bir dilde RF'nin hangi ilkelere göre bir tahmin edici önem ölçeği oluşturduğunu açıklayabilir mi?

Şimdi hedef birinde iki sınıflı bir setim var, bir sınıftaki gözlem sayısı ikinciden yüzlerce kat daha fazla, bir yerden hatırlıyorum, RF projektörlerinin önemi için kriterlerden birinin meydana gelme sıklığı olduğunu bir nevi gözlem.

Bu yüzden, tahmin edicilerin önemini hesaplarken RF'nin çok az gözlemin olduğu sınıfı bastırıp bastırmadığını merak ediyorum.

 
ilginç bir makale, daha doğrusu orada neredeyse hiç makale yok, doğrusal olmayan "pca") ile ilgili ilginç resimler https://imdevsoftware.wordpress.com/tag/non-linear-pca/
Discriminating Between Iris Species
Discriminating Between Iris Species
  • imdevsoftware.wordpress.com
The Iris data set is a famous for its use to compare unsupervised classifiers. The goal is to use information about flower characteristics to accurately classify the 3 species of Iris. We can look at scatter plots of the 4 variables in the data set and see that no single variable nor bivariate combination can achieve this. One approach to...
 
mytarmailS :

Forex'te olduğunuzdan şüpheleniyorum, forex'te komisyoncu yok ve ticaret yapmıyorlar, bunlar bahisçilerin belgelerine göre çalışan masalar.

ps Özellik seçimi teklifim hakkında ne düşünüyorsunuz?

Evet, bir işlem merkezi ve komisyoncu değil. Ama yine de kimse bankalararası piyasaya erişimlerini iptal etmedi.

Seçiminiz mantıklı görünüyor. Ancak, kavramlarıma göre gösterge seçmemeye karar verdim, çünkü bu asla modelde bir gelişme getirmedi. Ve seçim algoritmasına birçok gösterge vermek daha iyidir, neyin iyi neyin kötü olduğuna karar vermesine izin verin. Bazen hareketli ortalamalarım da son tahmin ediciler grubuna giriyor, sanırım kendi başlarına değil, diğer göstergelerle birlikte bazı bilgiler sağlayabilirler. Ancak sonuçlarım hala kararsız, kullanışlılıklarını henüz garanti edemiyorum.
Ayrıca tam olarak geri dönüşü tahmin etmeye çalışmam, eğitim verilerinde "her şey aynı" sınıfının "tersine çevirme" den düzinelerce kat daha fazla vakası olacak ve eğitim için sınıfların oranının sahip olmanın daha iyi olduğunu söylüyorlar. 50/50 oranında.

 
San Sanych Fomenko :

Belirli bir hedef değişken için bir tahmin edicinin tahmin gücünü belirleyen bir algoritmam var. Kısacası bunlar osilatörler ve çeşitli artışlardır. Belirli bir tahmin edicinin belirli bir hedef değişken için tahmin gücü varsa, o zaman başka bir hedef değişken için tahmin gücüne sahip olacağı sonucu çıkmaz. Ayrıca, bir tahmin edicinin bir pencerede tahmin gücü olabilir ve diğerinde olmayabilir.

Algoritma iyi çalışıyor. Seçtiği tahminciler, modellerin yeniden eğitilmesine yol açmaz.

not

Algoritmama göre, ne kadar saçma olursa olsun, herhangi bir türdeki hareketli ortalamaların tahmin yeteneği yoktur.

Tüm modeller, herhangi bir veri kümesiyle yeniden eğitilir.

Başka bir soru, doğru seçimle yeniden eğitim olasılığının, tahmin edicilerin dönüşümünün önemli ölçüde azalmasıdır.

Fazla uydurma olasılığı, eşit olarak veri setine ve model tipine bağlıdır.

İllüzyonlara ihtiyaç yoktur.

Pbo paketine bakın, bu konu orada ilginç kabul ediliyor.

İyi şanlar

 
Vladimir Perervenko :

Tüm modeller herhangi bir veri kümesiyle yeniden eğitilir.

Başka bir soru, doğru seçimle yeniden eğitim olasılığının, tahmin edicilerin dönüşümünün önemli ölçüde azalmasıdır.

Fazla uydurma olasılığı, eşit olarak veri setine ve model tipine bağlıdır.

İllüzyonlara ihtiyaç yoktur.

PBO paketine bakın, bu konu orada ilginç kabul ediliyor.

İyi şanlar

Baktı. Orijinal tesisler tamamen anlaşılmaz. Özellikle "gözlem sayısındaki artış fazla uydurmaya yol açar"???

Tamamen anlaşılır ve en önemlisi pratik olarak değerli bir kriter kullanıyorum.

Konu defalarca dile getirildi. Tekrarlıyorum.

Aşağıdaki fazla uyum kriterini kullanıyorum: eğitim hatası, eğitim örneğinin dışındaki diğer verilerdeki hataya eşit DEĞİLSE , yani. diğer zaman aralıklarında ise model yeniden eğitilir. Onlar. eğitim sırasında model, sonraki zaman aralıklarında karşılamadığı bazı ayrıntıları kaptı.

Pratikte nasıl uygulanır.

Bir fiyat teklifi alıyoruz, örneğin 10.000 bar.

Mekanik olarak, orada fırfırlar olmadan çubuğun sayısına bölüyoruz, bu benim için önemli, çünkü pratikte tam olarak böyle olacak, başka türlü değil.

Bu yüzden ilk çubukları 1'den 7000'e kadar alıyorum. Bu çubukları eğitim testi ve doğrulama için kullanıyorum. Üç kümeye bölmek için örneğin numuneyi veya modelin kendisinde yerleşik olanı kullanıyorum.

Modelin performansının üç hanesini alıyorum. Model fazla takılmadıysa, bu sayılar yaklaşık olarak eşittir.

Sonraki en önemlisidir.

7001'den 10.000'e kadar çubukları olan bir dosya alıyorum ve önceki çubuklarda eğitilmiş modeli kullanıyorum. bir hata alıyorum. Hata önceki üçünden önemli ölçüde farklı değilse, model fazla TAKILMAMIŞTIR . Genellikle, tutarsızlık% 15-20 ise, yeniden eğitilmediğini düşünüyorum. Rakamlardan biri diğerinden %50'den fazla farklıysa, model fazla takılmıştır.

Bu yüzden, yöntemimle, belirli bir tahmin kümesinden bir alt küme seçiyorum. Bulunurlarsa, ki bu hiç gerekli değildir, o zaman gelecekte randomforest , SVM, ada ve çeşitleri gibi modeller yeniden eğitilmez! Diğer modelleri bilmiyorum - onları kullanmıyorum.

Bunlar illüzyon değil. Bu bir gerçektir.

 
mytarmailS :

Birisi bana çok basit ama oldukça doğru bir dilde açıklayabilir mi, RF hangi ilkelere göre bir tahmin edici önem ölçeği oluşturur?

Şimdi hedef birinde iki sınıflı bir setim var, bir sınıftaki gözlem sayısı ikinciden yüzlerce kat daha fazla, bir yerden hatırlıyorum, RF projektörlerinin önemi için kriterlerden birinin meydana gelme sıklığı olduğunu bir nevi gözlem.

Bu yüzden, tahmin edicilerin önemini hesaplarken RF'nin çok az gözlemin olduğu sınıfı bastırıp bastırmadığını merak ediyorum.

Çılgın bir DEĞİL sınıf dengeniz var ve bu iyi değil. Sınıf dengeleme algoritmaları var ama senin durumunda benim için hiçbir şey yolunda gitmedi. ZZ dönüşünü bir çubuk numarasıyla değil, tersine çevirmeden önce ve sonra birkaç numarayla belirlemeye çalıştım. Bu dengesizliği azalttı, ancak sorunu çözmedi.

Dengeli DEĞİL sınıflarda çalışması garanti edilen modeller bulamadım.

 
San Sanych Fomenko :

Çılgın bir DEĞİL sınıf dengeniz var ve bu iyi değil. Sınıf dengeleme algoritmaları var ama senin durumunda benim için hiçbir şey yolunda gitmedi. ZZ dönüşünü bir çubuk numarasıyla değil, tersine çevirmeden önce ve sonra birkaç numarayla belirlemeye çalıştım. Bu dengesizliği azalttı, ancak sorunu çözmedi.

Dengeli DEĞİL sınıflarda çalışması garanti edilen modeller bulamadım.

Özellik seçimiyle ilgileniyorum
 
mytarmailS :
Özellik seçimiyle ilgileniyorum

Gerekli gördüğüm her şeyi cevapladım.

Bir hedef değişkene sahip bir dizi özelliğiniz varsa, bana gönderin, bir seçim yapacağım, ardından seçilen modeller üzerine inşa edeceğim ve sonucu göreceğim

 
Hiç kimse yanlışlıkla doğrusal olmayan bir pca uygulamaya çalışmadı mı? yukarıda bıraktığım link nedense yeni veriyi tanıyamıyorum hata veriyor
 
mytarmailS :
Hiç kimse yanlışlıkla doğrusal olmayan bir pca uygulamaya çalışmadı mı? yukarıda bıraktığım link nedense yeni veriyi tanıyamıyorum hata veriyor

Bana öyle geliyor ki bu paket, hedef değişkeni tahmin edebilecek bir model oluşturmak için yeterli değil. Yardımda tek bulduğum, tahmin edicilere dayalı bir PCA modeli oluşturmak, orada hiç hedef değişken yok.

 #установка пакета, нужно выполнить один раз и перезапустить R
source( "https://bioconductor.org/biocLite.R" )
biocLite( "pcaMethods" )        

#создание pca объекта
library (pcaMethods)
browseVignettes( "pcaMethods" ) #хелп файлы
data(metaboliteDataComplete)
mdC <- prep(metaboliteDataComplete, scale= "none" , center= TRUE )
resNipals <- pca(md, method= "nipals" , center= FALSE , nPcs= 5 )

Bu, metaboliteDataComplete tablosunu ayrıştırmak için 5 ana bileşene sahip bir resNipals (Yinelemeli Kısmi En Küçük Karelerle Doğrusal Olmayan Tahmin) nesnesi oluşturacaktır. metaboliteDataComplete yerine kendi tablonuzu tahmin edicilerle değiştirebilirsiniz. Hedef değişkeni burada vermemek önemlidir, daha sonra kullanılacaktır.

Ancak bu sadece farklı çizelgeleri inceleyerek değişkenler arasındaki ilişkileri analiz etmek için yeterlidir. Tahmine dayalı bir model oluşturmak için daha sonra PC1, PC2,PC3,PC4,PC5 ana bileşenlerini giriş değişkenleri (x1,x2,x3,...) olarak kullanan bir doğrusal regresyon modeli oluşturulur. Ve hedef değişken Y, gerekli sonuç olarak doğrusal modele zaten beslenir. Sorun şu ki, resNipals, pcaMethods paketinden bir tür "pcaRes" sınıfı nesnesidir. Bütün bunları onunla nasıl yapacağımı, yardımda bulamadım.

Caret paketinden bir PCA modeli olsaydı, şöyle olurdu:

#http: //www.win-vector.com/blog/2016/05/pcr_part2_yaware/ (раздел Is this the same as caret::preProcess?)
newVars <- colnames(resNipals)
resNipals$y <- dTrain$y   #"y" в данном случае это название колонки с целевой переменной, dTrain - исходная таблица с данными
modelB <- lm(paste( 'y' ,paste(newVars,collapse= ' + ' ),sep= ' ~ ' ),data=resNipals)
print(summary(modelB)$r.squared)
#дальше нужно использовать функцию predict(modelB, newdata = <таблица с валидационной выборкой>) для прогноза на новых данных

Ancak bu resNipals ile çalışmaz, teorik olarak, pcaMethods paketinin bu nesneyle çalışmak için bazı işlevleri olmalıdır, ancak hiçbir şey bulamadım.