Ticarette makine öğrenimi: teori, pratik, ticaret ve daha fazlası - sayfa 884

 
San Sanych Fomenko :

Ağaçlar ve ormanlar arasındaki farkı anlıyorum (ya da sanırım öyle) ormanlar en iyi verilerde daha fazla belirsizlik olduğunda kullanılır, yani. ormanlar, rastgele (kısalma nedeniyle bağımsız) ağaçlarda meydana gelen oylama yoluyla karar verdiğinden daha az istikrarlı bir model, yoksa yanılıyor muyum?

Bilmiyorum, sonuçlara göre karar veririm.

Ama “adad” seçeneğini göremiyorum, ekranda da yok, orada “Orman” var - öyle değil mi?

Sırayla:


ağaç

'rpart' paketi 'rpart' işlevini sağlar .


Artırmak

# Aşırı Güçlendirme

# `xgboost' paketi aşırı gradyan artırma algoritmasını uygular.


DVM

# Destek vektör makinesi.

# 'kernlab' paketi 'ksvm' işlevini sağlar.


Doğrusal

# Regresyon modeli

# Bir Regresyon modeli oluşturun.


sinir ağı

#Sinir ağı

# nnet paketini kullanarak bir sinir ağı modeli oluşturun.

kitaplık(nnet, sessizce=DOĞRU)


Bu arada, bu işi sizin için yaptım - tüm bunları Günlük'te kendiniz görebilirsiniz. Farklı bir çıngırak sürümünüz varsa, liste farklı olabilir.

Şifreyi çözdüğün için teşekkürler. Muhtemelen en son sürüm 5.1.0'a sahibim - tüm bu paketler çağrıldıklarında otomatik olarak kurulur ve ayrıca "Orman" vardır.

San Sanych Fomenko :

Kütüphane siparişime göre değiştirildi - MT5'ten bir test cihazına ihtiyacım vardı. Bakmak için çok tembelim, belki temizledim diye düşündüm.

Vladimir Perervenko'nun makalelerine bakın

Ağlarla ilgileniyorsanız, o zaman bu alanda en son gözetleme var, R, danışmanlar, sitede bir kişi var

Teşekkürler, bir bakacağım.

 
San Sanych Fomenko :


Peki R ile nasıl dosya keserim, özel bir algoritma kullanmam gerekir mi? Sonunda ne olduğunu görmek ilginç.

Dizine göre, örneğin: [1:2000,], [2001:4000,]. İkinci dosyanın doğal zaman sırasını ihlal etmemesi önemlidir.

Onlar. Excel'de kesebilirsin, değil mi?

 
Maksim Dmitrievski :

iyi, bu şekilde ve bu şekilde ve herkes için, canınızın istediği gibi deneyin :) asıl şey, teoriyi okumayı unutmamak, böylece açık bir saçmalık yapmamak ve bir tür paket kullanmak zor değil , birçoğu var ve hatta çevrimiçi - gerekli hiçbir şeyi yükleyemezsiniz. Şimdi veri biliminde bir patlama var, "o" her yerde

arşivleri incelemek için zaman yokken, sürekli bir şeylere eziyet ediyorum

İşin gerçeği, farklı seçeneklerin farklı sonuçlar vermesidir ve eğer durum buysa, o zaman tahmin edicilerin kalitesi ne olacak? Sadece ortalama seçeneği seçmeniz gerektiği ortaya çıktı, yani. her yerde kötü değilse, o zaman normaldir ve ancak o zaman ağı / ağacı / ormanları ayarlamak mı?

Yine de ağacın mantığını Expert Advisor'a nasıl aktaracağımı bilmek istiyorum...

 
Alexey Vyazmikin :

Onlar. Excel'de kesebilirsin, değil mi?

Excel'e gerek yok. 1 satır ve bu kadar.

oku - Robert I. Kabakov R iş başında. R dilinde verilerin analizi ve görselleştirilmesi.İnternette var.

 
Yuri Asaulenko :

Excel'e gerek yok. 1 satır ve bu kadar.

oku - Robert I. Kabakov R iş başında. R dilinde verilerin analizi ve görselleştirilmesi.İnternette var.

Evet, her şeyi yapamazsınız - R'de nasıl programlanacağını öğrenmek gibi bir hedefim yok, tahmin edicileri kontrol etme ve bir dizi kuralı MT5'e dönüştürme yeteneğine ihtiyacım var. Genel olarak, eğer bu bir satır ise, neden sadece size yazmıyorsunuz? Bu arada doğaçlama yöntemlerle idare ettim.

 
San Sanych Fomenko :


Bitirmemiş olduğunuz çıngırağın resmi. En azından bitişikteki değerlendirme sekmesine gitmeniz ve sonuçları orada görmeniz gerekir.

Ancak en önemli şey, kaynak dosyayı farklı adlarla iki parçaya bölmektir (büyük olasılıkla bunun R'de yapılması gerekecektir).

İlk dosyada , TÜM altı model oluşturun ve değerlendirme testlerini görün, doğrulayın. Ardından ikinci dosyanın adını R Dataset alanına girin. Ve yine ondan not alıyorsun. Tüm puanlar eşleşmelidir!

Bu tahminler sizin için uyuşmuyorsa ve modellerin performansı ikinci dosyada temel olarak daha kötüyse, bu, modellerinizin gereğinden fazla takıldığı ve fazla uydurmanın gürültünün (hedef değişkenle ilgili olmayan) tahmin edicilerinin varlığından kaynaklandığı anlamına gelir. .


Bu, hakikat anıdır: ya belirli bir hedef değişkenle ilgili bir dizi tahminciniz vardır ya da yoktur. Ve bu üzücü durumun hiçbir modeli düzeltemez. Sonra bir çift "hedef öngörücü" seçiminde aptalca çalışma başlar, modeller hiç ilginç değildir, eğer bir çift bulursanız, modeller sadece R'de tohumlardır, günde bir düzine toplarsınız ve onlardan topluluklar yapacaksın.

Daha detaylı açıklamanızı rica ediyorum.

1. "Değerlendir" sekmesinde, "Tip" setinde hangi parametre seçilmelidir?

2. İkinci dosyanın adını girmek için ne yapabilirim? Aktif olmasına rağmen bu pencereye sahibim ama dosya seçemiyorum! Ve "CSV Dosyası" - neden orayı seçebilirim?


 
Alexey Vyazmikin :

İşin gerçeği, farklı seçeneklerin farklı sonuçlar vermesidir ve eğer durum buysa, o zaman tahmin edicilerin kalitesi ne olacak? Sadece ortalama seçeneği seçmeniz gerektiği ortaya çıktı, yani. her yerde kötü değilse, o zaman normaldir ve ancak o zaman ağı / ağacı / ormanları ayarlamak mı?

Yine de ağacın mantığını Expert Advisor'a nasıl aktaracağımı bilmek istiyorum...

ne için? mt5 rastgele bir ormana sahiptir, onu görevlerinize göre uyarlayabilirsiniz. Hataları izleyin ve ona test senaryoları verin, sonuçları izleyin. Tek şey, değişkenlerin önemini vermemesidir.

ancak, +- algoritmalarının her yerde aynı olduğu göz önüne alındığında, R'de görselleştirip denemeler yapabilir ve ardından MT'de eğitip kullanabilirsiniz.

 
Alexey Vyazmikin :

Genel olarak, bu bir satır ise, neden size yazmıyorsunuz? Bu arada doğaçlama yöntemlerle idare ettim.

Duc, ben sormadım ama senden.) Ama buna ihtiyacım yok.)

Ve yine de R ile çalışacaksın.

 
Alexey Vyazmikin :

Daha detaylı açıklamanızı rica ediyorum.

1. "Değerlendir" sekmesinde, "Tip" setinde hangi parametre seçilmelidir?

2. İkinci dosyanın adını girmek için ne yapabilirim? Aktif olmasına rağmen bu pencereye sahibim ama dosya seçemiyorum! Ve "CSV Dosyası" - neden orayı seçebilirim?


1. Herhangi. Bu, modelin farklı bir değerlendirmesidir ve her birinin kendi anlamı vardır. çıngırak tam olarak iyidir çünkü yeni başlayanlara makine öğrenimi hakkında sistematik bilgi verir: ilk verilerin hazırlanması, modelleme, model değerlendirmesi. Yalnızca ÜÇ parçanın tümüne en azından ilkel düzeyde hakim olduktan sonra, sayıları oynamaktan daha anlamlı eylemlere geçmek mantıklıdır.

2. R Veri Kümesi r dosyasıdır. Bu, Veri sekmesinde, ilk verilerin bir RData Dosyası olarak yüklendiği anlamına gelir - bu, R cinsinden bir çalışma alanıdır. Bu çalışma alanında iki veri çerçevesi hazırlanmıştır: biri modeli eğitmek ve test etmek için, diğeri bu olarak aynı R Veri Kümesi.

Sizin için en kolay yol, bitmiş excel dosyasını yüklemek, günlüğü indirmek, R'ye çıkmak ve orada alınan veri çerçevesini ikiye bölmek.

Aksi olabilir.

R'nin kendisini açın ve onunla excel dosyasını yükleyin - bu bir satırdır. Ardından alınan veri çerçevesini ikiye bölün.

Ancak eğitilmiş modelin ikinci dosyasındaki çalıştırma ZORUNLUDUR.

 
Maksim Dmitrievski :

ne için? mt5'in rastgele bir ormanı var, onu görevlerinize göre uyarlayabilirsiniz

veya, +- algoritmalarının her yerde aynı olduğu göz önüne alındığında, R'de görselleştirip deneyler yapabilir ve ardından MT'de eğitip kullanabilirsiniz.

"Deductor Studio" programında her şey görsel olarak açıkça görülebilir, ağaç, kurallar - R'de henüz bunu görmüyorum ve MT5'te daha da fazla olmayacak (yani her şeyi yapabilirsiniz, ancak ne kadar ödemek zorunda...). Yani rastgele ormanları MT5'e bağlamak için bir şekilde alglib kitaplığını kullanmanın gerekli olduğu ortaya çıktı?

Burada, R üzerinde C4.5 algoritması http://datascientist.one/algorithm-c4-5/ için bir kod parçası buldum, MT5'te uygulamak çok mu zor?

C45 <- function(data,x){
   result.tree <- NULL
   if ( IsEmpty(data) ) {
                node. value <- "Failure"
                result.tree <- CreateNode(node. value )
                 return (result.tree)
        }
         if ( IsEmpty(x) ){
                node. value <- GetMajorityClassValue(data,x)
                result.tree <- CreateNode(node. value )
                 return (result.tree)
        }
         if ( 1 == GetCount(x) ){
                node. value <- GetClassValue(x)
                result.tree <- CreateNode(node. value )
                 return (result.tree)
        } <br>

       gain.ratio <- GetGainRatio(data,x)<br>
     best.split <- GetBestSplit(data,x,gain.ratio)

     data.subsets <- SplitData(data,best.split)
     values <- GetAttributeValues(data.subsets,best.split)
     values.count <- GetCount(values)

     node. value <- best.split
    result.tree <- CreateNode(node. value )
         idx <- 0
     while ( idx<=values.count ){
        i       dx <- idx+ 1
                newdata <- GetAt(data.subsets,idx)
                 value <- GetAt(values,idx)
                 new .x <- RemoveAttribute(x,best.split)
                 new .child <- C45(newdata, new .x)
                AddChildNode(result.tree, new .child, value )
   }

    result.tree
        }
Алгоритм C4.5
Алгоритм C4.5
  • 2016.05.06
  • datascientist.one
Алгоритм C4.5 строит классификатор в форме дерева решений. Чтобы сделать это, ему нужно передать набор уже классифицированных данных. А что такое классификатор? Классификатор – это инструмент, применяемый в data mining, который использует классифицированные данные и на их основании пытается предсказать, к какому классу стоит отнести новые...