Ticarette makine öğrenimi: teori, pratik, ticaret ve daha fazlası - sayfa 967

 
Ivan Negreshniy :

IMHO, önce az ya da çok hata ayıklandığı python'da çalışmak gerekir, aksi takdirde çok fazla belirsizlik vardır.

evet kampanya dll 32bit ve mt5 64

o zaman python'a kadar geri döneceğim evet

 
Maksim Dmitrievski :

Kampanyada kendim ustalaşmayacağım, sonuçta python kullanmam gerekecek: D

"Kendiniz için Zorluklar Yaratmakta Üstün Uzman" unvanını almalısınız! Sadece filmde: normal karakterler her zaman ortalıkta dolaşırlar.


İşte o meşhur çıngırak, bahsettiğiniz xgboost modeli için sadece birkaç tık uzağınızda.

Eğitim örneği için alıyoruz:

Error matrix for the Extreme Boost model on Df1.num [**train**] (counts):

      Predicted
Actual     0      1 Error
     0 1930    90    4.5
     1    42 2152    1.9

Error matrix for the Extreme Boost model on Df1.num [**train**] (proportions):

      Predicted
Actual     0      1 Error
     0 45.8    2.1    4.5
     1    1.0 51.1    1.9

Overall error: 3.1 %, Averaged class error: 3.2 %

Rattle timestamp: 2018 - 05 - 31 11 : 21 : 20 user

Örnek doğrulama için

Error matrix for the Extreme Boost model on Df1.num [validate] (counts):

      Predicted
Actual   0    1 Error
     0 306 119    28.0
     1 111 367    23.2

Error matrix for the Extreme Boost model on Df1.num [validate] (proportions):

      Predicted
Actual     0      1 Error
     0 33.9 13.2    28.0
     1 12.3 40.6    23.2

Overall error: 25.5 %, Averaged class error: 25.6 %

Rattle timestamp: 2018 - 05 - 31 11 : 22 : 15 user

Numune testi için

Error matrix for the Extreme Boost model on Df1.num [test] (counts):

      Predicted
Actual   0    1 Error
     0 314 118    27.3
     1 112 360    23.7

Error matrix for the Extreme Boost model on Df1.num [test] (proportions):

      Predicted
Actual     0      1 Error
     0 34.7 13.1    27.3
     1 12.4 39.8    23.7

Overall error: 25.5 %, Averaged class error: 25.5 %

Rattle timestamp: 2018 - 05 - 31 11 : 22 : 50 user


Sonuçtan memnunsanız, R'deki koda bakabilirsiniz. İşte çağrı:

crs$ada <- xgboost(Long_Short ~ .,
  data              = crs$dataset[crs$train,c(crs$input, crs$target)],
  max_depth         = 6,
  eta               = 0.3, 
  num_parallel_tree = 1, 
  nthread           = 2, 
  nround            = 50,
  metrics           = 'error',
  objective         = 'binary:logistic')


Aslında çıngıraktan tüm R kodunu alıp bir fonksiyon olarak düzenleyebilir ve bu fonksiyonu MT4/5 Expert Advisor'dan çağırabilir ve sonucu test cihazında görebilirsiniz. İlkel bir dll, uzun süredir düzenli çalışıyor, kullanan çok kişi var...

Bütün bunlar bir saat içinde! MODELLERDE SORUN YOK!

Hedef ve karşılık gelen hedef tahmin edicilerle ilgili sorunlar var ya da tam tersi. Ancak bu sorunu çözmek için, seçenekleri test etmek için son derece düşük emek yoğunluğuna sahip araçlara sahip olmanız gerekir.


not.

Peki, çıngırak işine girerseniz, o zaman aynı anda bir ağaç (rPart), randomForest, SVM, glm lojistik regresyon, en sevdiğiniz sinir ağınızı, en basit nnet olsa da, tek bir tıklamayla oluşturun. Ve bir atıştırma için, bir hayatta kalma modeli (çok yüksek karlar elde etmek veya bir mevduat tahliyesi elde etmek), eğer hedefi ve bunun için öngörücüleri yeniden formüle edebilirseniz.


PSPS.

Madem ki xgboost sevginiz var ve bu sevgiyi çıngırakta kabul edilebilir ön hesaplarla besleyebiliyorsunuz, işte size belgeler:

Paket açıklaması - https://cran.r-project.org/web/packages/xgboost/xgboost.pdf

Xgboost ile veri kümenizi anlayın - https://cran.r-project.org/web/packages/xgboost/vignettes/discoverYourData.html

xgboost: eXtreme Gradient Boost - https://cran.r-project.org/web/packages/xgboost/vignettes/xgboost.pdf

Ve bir şeyler atıştırmak için, Xgboost sunumu https://cran.r-project.org/web/packages/xgboost/vignettes/xgboostPresentation.html


Burada gösterdiğiniz seviye göz önüne alındığında, R ile hiç probleminiz yok.


İyi şanlar.

 
San Sanych Fomenko :

Teşekkürler, SanSanych .. sadece anlamadım, ratl'de xgb var mı? serin

neyse, RL görevleri için alglib iskelesi yerine bu modeli eklemem gerekiyor.

hiçbir şeyi keşfetmenize gerek yok, sadece düzenleme ve çapraz doğrulama ile daha iyi bir şeye ihtiyacınız var.

ve sonra R'de RL için normal kitaplıklar yoktur, hepsi python'dadır, yani. Python'un üstüne tekrar R ile uğraşmak zorunda kalacağım .. kısacası neye ihtiyacım olduğuna hala karar vermedim :)

 

Ağaçları düşünmek...

Bir çubuk için hedeflerle işlerin nasıl olduğunu bilmiyorum, ancak hedefler gerçekte olaylar olduğunda, başlangıcı N çubuktan sonra gerçekleşecek (özellikle, trend ticaretini veya pozisyonun SL tarafından kapatıldığı diğer durumları düşünüyorum / TP, N çubuk veya sabit bir süre sonra) ve aynı zamanda sonuçları dikkate alınacak ve sınıflandırılacaktır, sonuçları değerlendirmek için beklenmedik durum tablosuna değil, aşağıdakilere dikkat etmek çok önemlidir:

1. Pencere N çubuklarında sınıflandırma sonuçlarındaki değişikliklerin sıklığı

2. Kuralları N çubuk halinde gruplama (kuralların yoğunluğu)

İlk durumda, tahmin edilen hedefi değiştirme sıklığını değerlendirmek için bir göstergeye ihtiyaç vardır, eğer yüksekse, o zaman model kararsızdır, ancak büyük oranda doğru çözümler elde edebilir.

İkinci durumda, kuralı bir pencere (N çubuk), donatıyı değerlendirmek ve bu kuralı model boyunca yaymak için bir tekrar eden kural uygulamanız gerekir.

Bu nedenle, işte değişiklik yapmak için ormanların oluşumu ve sonuçlarının iç gözlemini içeren diğer modeller de dahil olmak üzere modelin kalitesini eğitirken tahminleri değiştirmek gerekir.

Bu düşünceler hakkında ne düşünüyorsun?

 

Bir kez daha, R'nin benim olmadığından emin oldum :) sözdizimi neredeyse vurgulanmıyor, kod okunamıyor, hatalar pratik olarak vurgulanmıyor. Kodun kendisi ve dil estetik açıdan hoş değil

karşı argümanlarınız burada olabilir

Evet, algoritmayı python'da 5 yerine 3 satırda eğitebilirsiniz, hepsi bu. Bu durumda python'da okunabilirlik daha iyi olacaktır. MO'lu paketlerde hiçbir avantaj görmüyorum, her şey aynı.

 
Maksim Dmitrievski :

Bir kez daha, R'nin benim olmadığından emin oldum :) sözdizimi neredeyse vurgulanmıyor, kod okunamıyor, hatalar pratik olarak vurgulanmıyor. Kodun kendisi ve dil estetik açıdan hoş değil

karşı argümanlarınız burada olabilir

Evet, algoritmayı python'da 5 yerine 3 satırda eğitebilirsiniz, hepsi bu. Bu durumda python'da okunabilirlik daha iyi olacaktır. MO'lu paketlerde hiçbir avantaj görmüyorum, her şey aynı.

R'de programlama üzerine Rusça bir video kursu izlemenin sıkıntısı içindeyim :) Sözdizimi ve varsayımlar açısından dil elbette zor, örneğin, bir fonksiyonda global bir değişken bildirebilme yeteneği büyük ölçüde saptırabilir. kod, özellikle işlev birden fazla kez çağrıldıysa, bundan sonra aptal olacak ve bir hata arayacaksınız, ancak bu derleyici için olmayacak.

R'deki bellek oburluğu beni çok üzüyor - şimdi 187 megabaytlık bir csv dosyası, bir ağaçla çalışmak için bellekte 1,5 gigabayt olarak (ve bir orman oluşturmak için Rattle 7,5 gigabayt olarak) bellekte konuşlandırılırken, çoklu iş parçacığı, birlikte çalışamayan ayrı işlemleri başlatmak için uygulanır. ortak bir bellek, sonuç olarak, 6 işlemci çekirdeği yüklemek yerine, kullanılabilir 8 gigabayt hacmine dayanarak yalnızca 4 yükleyebilirim.

Python bununla nasıl gidiyor?

 
Alexey Vyazmikin :

R'de programlama üzerine Rusça bir video kursu izlemenin sancıları içindeyim :) Tabii ki, dil kalay, sözdizimi ve varsayımlar açısından, örneğin, bir fonksiyonda global bir değişken bildirebilme yeteneği büyük ölçüde saptırabilir kod, özellikle işlev bir kereden fazla çağrıldıysa, bundan sonra aptal olacak ve bir hata arayacaksınız, ancak bu derleyici için olmayacak.

R'deki bellek oburluğu beni çok üzüyor - şimdi 187 megabaytlık bir csv dosyası, bir ağaçla çalışmak için bellekte 1,5 gigabayt olarak (ve bir orman oluşturmak için Rattle 7,5 gigabayt olarak) bellekte konuşlandırılırken, çoklu iş parçacığı, birlikte çalışamayan ayrı işlemleri başlatmak için uygulanır. ortak bir bellek, sonuç olarak, 6 işlemci çekirdeği yüklemek yerine, kullanılabilir 8 gigabayt hacmine dayanarak yalnızca 4 yükleyebilirim.

Python bununla nasıl gidiyor?

Hafızaya bakmadım. hiç bu kadar büyük dosyalar kullanmadım :) Ama R'nin ilk sürümlerinde bellek ve temizleme ile ilgili dikişler olduğunu duydum

python doğal olarak her bakımdan daha gelişmiş bir dildir, tk. çok çeşitli görevler için kullanılır

Ayrıca R'de grafiklerin görselleştirilmesini övdükleri gerçeğiyle şakayı anlamadım - python ile karşılaştırıldığında perişan, IDE Rstudio da ormanın bir sefaletidir, bu 2018'de nasıl desteklenebilir?

100 satır yazdı ve kodda kafası karıştı, her şey vurgulanmamış sözdizimi ile okunamayan tek bir ayak örtüsünde birleştirildi

Upd ağaçları ve ormanın kendisi, kümenin boyutuna, ağaç sayısına ve derinliğine bağlı olarak çok fazla bellek kaplar. Örneğin, 50 ağaçtan oluşan 20 ormandan oluşan bir komitem var ve yaklaşık 1000 örneklik bir set ~ 40mb alıyor
 

R hakkında saçma sapan şeyler yazın: bilmiyorsun, nasıl olduğunu bilmiyorsun ve istemiyorsun.

1. R kodunda hata ayıklamanın hızı ve rahatlığı, derleyicinin yorumlayıcının avantajı olduğu dillere kıyasla tek kelimeyle şaşırtıcıdır. Bu bağlamda, vurgulama çok sınırlıdır, çünkü vurgulanacak hiçbir şey yoktur - kod neredeyse anında çalışır. Son derece kapasitif kod. "Ayak bezleri" yazmak, büyük olasılıkla R'nin kendisi ve paketlerdeki işlevsellik konusundaki bilgi eksikliğinin sonucudur. Ve eğer gerçekten olduysa, o zaman iyi bir hareket, fonksiyonlara bölünmeyi gerektirir, OOP vardır.

2. Global değişkenlerin tüm dillerde kullanımı dikkatli yapılmalıdır. R'de, işlevlerin parametreleri ve onlardan geri dönüş "nesne" olabileceğinden, bunların gerekliliği oldukça şüphelidir, ancak R'de herhangi bir şeydir. Ayrıca değişken adlarının bağlı olduğu alanı da kontrol edebilirsiniz.

2. Grafikler - dünyanın en iyilerinden biri - en basit arsadan karikatürlere, çeşitli seviyelerde grafiklere kadar her şey var: ilkelden istatistik için özel boşluklara.

3. Python ile kıyaslayamazsınız: yaygınlık açısından yaklaşık olarak eşittirler, ancak python'da, çoğunlukla site geliştiricileri olmak üzere birçok “yabancı” kullanıcı vardır ve R, MO'dan beri yerel, iki kat yerel bir istatistik sistemidir. istatistiklere dahil edildi. Bizim için paketlerden bahsedersek, diğer özel paketlerle (SAS ...) karşılaştırmamız gerekir, ancak bunlar ödenir.

4. R, istatistikte algoritmik standarttır. Hemen hemen tüm modern yayınlar mutlaka R kodu içerir.


Son şey. R, Microsoft'un bir parçasıdır ve python bir hiledir, burada bir sonraki dalda programlama konusunda çok yetenekli insanlar dağıtımın kaynağı üzerinde anlaşamadılar. Benim için bu bir karardır.


Programlamada, çoğu zaman daha kullanışlı, işlevsel olmasa da daha uygun olanı seçerler, ancak son derece şüpheli bir seçim yapmak için su gerekli değildir.

 
San Sanych Fomenko :

SanSanych, sadece bir dağıtım kaynağı var - python sitesi :)

istatistik ve makine öğrenimi için IPython ve anaconda uzantısı. Rusça konuşan açık veri bilimi topluluğuna gidin veya Yandex'den videolar izleyin. R'yi hiç duymadılar. Peki standart nedir? Kendi fikrinizi oluşturmak ve karşılaştırmak için python'u denersiniz. Ayrıca, python bilgisi, daha önce de söylediğiniz gibi, yalnızca istatistik yapmanıza değil, gerekirse başka şeyler de yapmanıza izin verecektir.

Bu aynı zamanda yorumlanmış bir dildir, ancak mükemmel bir şekilde vurgulanır ve sözdizimini yalnızca komut dosyasını çalıştırdıktan sonra değil, + kod katlama, not defterleri ve bir sürü farklı güzellikten sonra değil, anında kontrol eder.

 
Maksim Dmitrievski :

Hafızaya bakmadım. hiç bu kadar büyük dosyalar kullanmadım :) Ama R'nin ilk sürümlerinde bellek ve temizleme ile ilgili dikişler olduğunu duydum

python doğal olarak her bakımdan daha gelişmiş bir dildir, tk. çok çeşitli görevler için kullanılır

Ayrıca R'de grafiklerin görselleştirilmesini övdükleri gerçeğiyle şakayı anlamadım - python ile karşılaştırıldığında perişan, IDE Rstudio da ormanın bir sefaletidir, bu 2018'de nasıl desteklenebilir?

100 satır yazdı ve kodda kafası karıştı, her şey vurgulanmamış sözdizimi ile okunamayan tek bir ayak örtüsünde birleştirildi

Upd ağaçları ve ormanın kendisi, kümenin boyutuna, ağaç sayısına ve derinliğine bağlı olarak çok fazla bellek kaplar. Örneğin, 50 ağaçtan oluşan 20 ormandan oluşan bir komitem var ve yaklaşık 1000 örneklik bir set ~ 40mb alıyor

Hala R'nin harika bir hesap makinesi olduğu hissine sahibim. Temel işlevler için Rusça konuşan bir yardımın olmaması beni öldürüyor, dilbilimdeki zayıflık nedeniyle bu benim için çok önemli.

Görselleştirme - evet, bazı zorluklar var, aynı büyüklükteki ağaçlar benim için yeterince uymuyor - sadece PDF'ye dönüştürmek yardımcı oluyor, ki bu zaten iyi.