Ticarette makine öğrenimi: teori, pratik, ticaret ve daha fazlası - sayfa 1260

 
Maksim Dmitrievski :
catbust ile karşılaştırıldığında - normalde testte genellikle> 0,5 döndürür .. iyi, her zamanki gibi

catbust'taki 1 ağacın ormanını kontrol ettin mi? ve genel olarak catbust çıktıda çapraz entropi mi yoksa başka bir hata mı veriyor?

Alglib 5 farklı hata veriyor: (işte benim 1 ağaç örneğim)

Uyarı: Eğitim seti hata tahmini raporu: relclserror=0.267; ort=184.207; mshatası=0.516; ortalama hata=0.267; avgrelerror=0.267;

 

hayır, artırma farklı şekilde kurulur, entropi düşerken ağaç sayısını arttırır, n iterasyon üzerinden büyümeye başladığında modeli fazla karmaşıklaştırmamak için durur

entropi ve herhangi bir özel metrik verir, ancak entropi üzerine kuruludur

İngilizcede. sitenin alglib versiyonu bu arada yeni, daha hızlı bir orman yayınladı .. Anlamak istedim, yeniden yazmak istedim ama ellerim ulaşmıyor)

 
xgboost belgelerine baktım. Çıkışta çapraz entropi yoktur, ancak
error - İkili sınıflandırma hata oranı. (# yanlış durum) / (# tüm durum) olarak hesaplanır.
Varsayılan olarak, negatif ve pozitif örnekleri tanımlamak için tahmin edilen değerler için 0,5 eşiğini kullanır.
Farklı eşik (örn. 0.) "hata@0" olarak belirtilebilir.
 
elibrarius :
xgboost belgelerine baktım. Çıkışta çapraz entropi yoktur, ancak
error - İkili sınıflandırma hata oranı. (# yanlış durum) / (# tüm durum) olarak hesaplanır.
Varsayılan olarak, negatif ve pozitif örnekleri tanımlamak için tahmin edilen değerler için 0,5 eşiğini kullanır.
Farklı eşik (örn. 0.) "hata@0" olarak belirtilebilir.

evet, ama burada sınıflandırma hatası varsayılan olarak kullanılıyor, görünüşe göre

ama ayırt etmek gerekir, hızlandırmak durdurmak için bir hata kullanır ve orman sadece gerçeğin ardından pes eder ve ağaçları tam derinliğe kadar inşa eder.
 
Maksim Dmitrievski :

hayır, artırma farklı şekilde kurulur, entropi düşerken ağaç sayısını arttırır, n iterasyon üzerinden büyümeye başladığında modeli fazla karmaşıklaştırmamak için durur

entropi ve herhangi bir özel metrik verir, ancak entropi üzerine kuruludur

İngilizcede. sitenin alglib versiyonu bu arada yeni, daha hızlı bir orman yayınladı .. Anlamak istedim, yeniden yazmak istedim ama ellerim ulaşmıyor)

Ve yeni alglib nerede - forumda bakılacak bir yer var mı? Bu fonksiyonun kodunu karşılaştırmak ilginçtir.

 
elibrarius :

Ve yeni alglib nerede - forumda bakılacak bir yer var mı? Bu fonksiyonun kodunu karşılaştırmak ilginçtir.

hayır, c++ veya c# dilinde mi

http://www.alglib.net/arcnews.php#date_16_06_2018

  • önceki sürüme göre 2 kattan 10 kata kadar daha hızlı olan ve büyüklük sıraları daha küçük ormanlar üreten gelişmiş rastgele orman oluşturma algoritması.
NEWS Archive
  • www.alglib.net
The news archive contains the list of all news, 44 in total. The latest news are at the news page.
 
Maksim Dmitrievski :

hayır, c++ veya c# dilinde mi

http://www.alglib.net/arcnews.php#date_16_06_2018

  • önceki sürüme göre 2 kattan 10 kata kadar daha hızlı olan ve büyüklük sıraları daha küçük ormanlar üreten gelişmiş rastgele orman oluşturma algoritması.

Teşekkür ederim!

 
elibrarius :

Teşekkür ederim!

Anlıyorsan karşılaştır, yaz :) çok saçmalık yoksa yeniden yazılabilir. Mevcut ormanın dosyaları çok büyük, onları azaltmak güzel olurdu. Ve hızlanma da bir bonus.

 

Maxim'in girişimi sayesinde yasağım kaldırıldı! Teşekkürler Maxim.

Banyodayken, NG'den önce hakkında yazdığım yapraklar hakkında bir Uzman Danışman başlattım - şu ana kadar sonuç olumsuz, ancak daha fazla zaman vermemiz gerektiğini düşünüyorum - şimdi Si'de güçlü sonra düz başladı Yeni Danışmanın işe başladığı tarihte meydana gelmeyen yıl hareketleri.

Şimdilik, zengin bir geçmişe ve içler acısı deneyime sahip bir hesapta minimum lotla testler yapıyorum, bu nedenle halka açık bir sinyal olmayacak, raporu daha sonra - istatistikler biriktiğinde yayınlayacağım. Bunu, yaklaşımımın karlı olup olmadığıyla ilgilenen biri için yapıyorum.

CatBoost ile ilgili olarak, modellerim her biri yaklaşık 1-30 ağaç olmak üzere çok küçük olduğundan, test (modelin seçildiği) ve inceleme (bağımsız testin yapıldığı) örneğinin çok iyi finansal sonuçlar gösterebileceği bir durumla karşılaştım. , ancak eğitim örneğindeki sonuçlar çok zayıf. Bu nedenle, şimdi modeli her üç örnekte de kontrol ediyorum ve bana uyuyorsa bir seçim yapıyorum. Bu nedenle, eğitim örneğine de bakmanızı öneririm, ağacın yapraklarından (yalnızca yapraklar seçildiğinde alternatif yaklaşımım) veya ormanlardan, test örneğinde olduğu gibi aynı etkiyi beklediğim için bunu yapmadım. model kesinlikle iyi davranacaktır, ancak bunun her zaman böyle olmadığı ortaya çıkıyor.

Bir model seçme kriterleri sorusu benim için açık olsa da, iyi modellerin eğitimi için bir örnek üzerinde yapılan testlerden sonra (bir takım finansal göstergelere ve model kriterlerine göre), 100.000'den 10-30'dan fazla olmayan parça var. yetmez tabii. Toli, kriterleri hafife alıyor veya daha fazla model oluşturuyor. Catboost'un birçok farklı parametresi vardır, bu nedenle birçok modeli perçinleyebilirsiniz.

Öte yandan, gerçekten video kartlarının yardımıyla eğitim almayı umuyordum, ancak 1060'tan çok az mantıklı olduğu ortaya çıktı - şimdiye kadar, deneyler G3900 işlemcideyken 200 modeli eğitmenin 20 dakika sürdüğünü gösteriyor. (aslında LGA1151 kapsamındaki en fazla cüruf sadece 6 dakika sürdü! Aynı zamanda, işlemci sürekli olarak yüzde 50-60 oranında yükleniyor, bu da aynı anda 2'den fazla ekran kartı kullanmayı imkansız hale getiriyor ve 6 ekran kartı teçhizatı için güçlü umutlarım vardı. Teoride her şeyin hızlı olması gerekirken bunun neden olduğunu bilmiyorum. GPU hesaplamalarındaki darboğaz, modelin RAM'den grafik belleğine veya tam tersi şekilde aktarılmasıdır, ancak hepsi benim için çok yavaş çalışıyor, belki de aktarım her yinelemeden sonra ve bu fren yüzünden oluyor. GPU'da çalıştırmayı deneyen var mı?

 
Maksim Dmitrievski :

Anlıyorsan karşılaştır, yaz :) çok saçmalık yoksa yeniden yazılabilir. Mevcut ormanın dosyaları çok büyük, onları azaltmak güzel olurdu. Ve hızlanma da bir bonus.

Karşılaştırıldığında, aynı kullanılmayan kod parçası aşağıdadır: (2009'da imzalanmıştır, yani bu bölümde herhangi bir düzenleme yapılmamıştır)


             Copyright 16.02.2009 by Bochkanov Sergey
        *************************************************************************/
        public static double dfavgce(decisionforest df,
            double[,] xy,
            int npoints,
            alglib.xparams _params)
        {
            double result = 0;
            double[] x = new double[0];
            double[] y = new double[0];
            int i = 0;
            int j = 0;
            int k = 0;
            int tmpi = 0;
            int i_ = 0;

            x = new double[df.nvars-1+1];
            y = new double[df.nclasses-1+1];
            result = 0;
            for(i=0; i<=npoints-1; i++)
            {
                for(i_=0; i_<=df.nvars-1;i_++)
                {
                    x[i_] = xy[i,i_];
                }
                dfprocess(df, x, ref y, _params);
                if( df.nclasses>1 )
                {
                   
                    //
                    // classification-specific code
                    //
                    k = (int)Math.Round(xy[i,df.nvars]);
                    tmpi = 0;
                    for(j=1; j<=df.nclasses-1; j++)
                    {
                        if( (double)(y[j])>(double)(y[tmpi]) )
                        {
                            tmpi = j;
                        }
                    }

                    if( (double)(y[k])!=(double)(0) )
                    {
                        result = result-Math.Log(y[k]);
                    }
                    else
                    {
                        result = result-Math.Log(math.minrealnumber);
                    }
                }
            }
            result = result/npoints;
            return result;
        }