Ticarette makine öğrenimi: teori, pratik, ticaret ve daha fazlası - sayfa 1783

 
Maksim Dmitrievski :

Mevcut durumlar nelerdir? kümeler hakkındaysa, yeni verilerle ilgili istatistikleri kontrol etmeniz yeterlidir. Aynıysa, o zaman bir araç yapabilirsiniz

Bar seçenekleri. Artışlar, hızlar, geçmişten alınan ortalamalar. Bazı nedenlerden dolayı, herkes parametreleri son dolu çubukta sayar, ancak bu aslında yanlıştır. Ortalamalar, ortalama aralığın yarısı kadar geç veya biraz daha az ve artışlar yeterince önemli değil. Ve hiç kimse dizinin parametrelerini bir bütün olarak düşünmüyor. Düz ve bir trendin iki derecesi komik bile değil.
 
Maksim Dmitrievski :

kümeler hakkındaysa, yeni verilerle ilgili istatistikleri kontrol etmeniz yeterlidir. Aynıysa, o zaman bir araç yapabilirsiniz

Kümelerin ve istatistiklerin konu alanı net bir şekilde anlaşılmalıdır. 70'den 20'ye kadar tüm enstrümanlarda aynıysa, yapabilirsiniz))

 
mytarmailS :

Catbust yardımcı olmayacak, sorun verilerin boyutuyla ilgili, işaretler bile oluşturamıyorum, eğitime bile giremeyecekler ..

50k'lık bir örnek alın, küçük olsun, ciddi olmasın, yeniden eğitimin daha mümkün olmasına izin verin, ... ..., ... görev hemen üretim için bir robot yapmak, ancak hatayı azaltmak ortak yaratıcılıkla ve daha sonra kazanılan bilgi herhangi bir enstrümana ve piyasaya aktarılabilir, işaretlerin ne anlama geldiğini görmek için 50k yeterlidir.

Tamam, küçük bir örnek alacağım.

mytarmailS :

Peki, OHLK'yı bilmiyorsanız, yazmanıza gerek yok, neden OHLK'nın tamamı kaldırılsın? bunu kimse yapmıyor, sadece 33'ü bir adım öteye kaydırmanız gerekiyor, sanki geleceğe 1 adım öğrenmek için bakıyormuşsunuz ve bu kadar. Vladimir Perervenko'nun geyik öğrenimi hakkında en az bir makalesini okudunuz mu? Oku lütfen. Bu, verilerle zaten iyi kurulmuş optimal eylemler olduğunda ve herkes bunlara alıştığında ve birileri aynı şeyi yapmaya çalıştığında, ancak kendi yollarıyla, farklı bir şekilde, anlamsız ve sinir bozucu görünüyorsa bu çok elverişsizdir. böyle bir yazarın verileriyle çalışmaya çalışan insanlar için birçok hatanın nedeni.

Makalelerini okudum ama R kodunu anlamıyorum - bu nedenle oradaki her şeyi gerçekten anlayamıyorum.

Bu sorunu çözdüğüne göre sana soracağım. Sınıflandırma sıfır çubuğunda gerçekleşir, sadece açılış fiyatı bilindiğinde, anladığım kadarıyla sıfır çubuğundan açılış fiyatını kullanmıyorsunuz, sadece çubuk 1 ve sonraki bilgileri mi kullanıyorsunuz? Hedef, sıfır çubuğundaki ZZ vektörünü gerçekten belirliyor mu? Bir sonraki çubuğun vektörünün tahmin edildiği ortaya çıktı - bu gerekli değil, değil mi? Ve sonra yine bir sürü değişiklik yapılması gerekiyor - bu yorucu.

Sadece veri almak ve modeli uygulamak için hazır bir çözümüm var, hesaplama modeli değil.

mytarmailS :

Tüm bunlardan sonra hala bir şeyler yapmak istiyorsanız, o zaman böyle gereksinimlerim var.

1) veri 50-60k artık yok, bir dosya daha iyi, sadece son n mumun bir test olacağını kabul edin

2) veriler yapıştırma olmadan arzu edilir, çünkü sadece en son fiyatları değil, aynı zamanda destek ve direnci de hesaba katmak mümkündür, yapıştırma ile imkansızdır

3) hedef, verilere zaten dahil edilmiş olmalıdır

4) tarih, saat, o, h, l, c, hedef biçimindeki veriler


Yoksa bir veri seti mi yapmalıyım?

Yükümlülük üstlenenlerden talep edebilirsiniz - yani. benimle değil :) Pazarlık yapalım.

1. 50'yi eğitelim ve test için (eğitim dışı örnek) 50 tane daha.

2. İyi.

3. İyi.

4. İyi.

Eklendi: Si-3.20 (22793) vadeli işlemlerinde yeterince normal çubuk olmadığını ve yapıştırma istemediğinizi fark ettim.


Tasarruf için bir örnek ekledim - 67'yi doğru bir şekilde aldım.

Dosyalar:
Setup.zip  891 kb
 
Alexey Vyazmikin :

Bu sorunu çözdüğüne göre sana soracağım. Sınıflandırma sıfır çubuğunda gerçekleşir, sadece açılış fiyatı bilindiğinde, anladığım kadarıyla sıfır çubuğundan açılış fiyatını kullanmıyorsunuz, sadece çubuk 1 ve sonraki bilgileri mi kullanıyorsunuz? Hedef, sıfır çubuğundaki ZZ vektörünü gerçekten belirliyor mu? Bir sonraki çubuğun vektörünün tahmin edildiği ortaya çıktı - bu gerekli değil, değil mi? Ve sonra yine bir sürü değişiklik yapılması gerekiyor - bu yorucu.

Sınıflandırma, iyi bilinen bir kapanışın olduğu son çubukta gerçekleşir (bunlar tam teşekküllü OHLS mumlarıdır) , gelecekteki mumun ZZ'sinin işaretini tahmin ediyoruz. Neden sadece açık olduğu bilinen bir mumu hesaba katalım ki, komplikasyonun yanı sıra avantajının ne olduğunu anlayamıyorum? hem anlayışta hem de uygulamada ve open[i] öğesinin neredeyse her zaman close[i-1] öğesine eşit olduğunu anlarsanız, bu yaklaşım için yalnızca bir soru işaretim var.


Alexey Vyazmikin :

Yükümlülükler üstlenenlerden talep edebilirsiniz - yani. benimle değil :) Pazarlık yapalım.

Evet, kişisel olarak sizden bir şey talep etmiyorum, siz nesiniz)) Numune alma zorunluluğu, numunenin herkes için aynı olması gerekir ki bir şey kıyaslanabilir değil mi? benim için açık.


Ve beni dinlediğin için teşekkürler

1) veri 50-60k artık yok, tek dosyada daha iyi .........

Eğitim için 50 ve test için (eğitim dışında örnek) 50 tane daha yapalım.

Buldozerden muhtemelen sayıları 50-60k olarak adlandırdım, neden 2 kat artırmıyorsunuz? )))

)))

1) veri 50-60k artık yok, tek dosyada daha iyi , sadece katılıyorum

Ve iki değil, bir dosya yüklediğiniz için teşekkürler! ))
 

İlk dokunuşla denedim, tabiri caizse, kutudan çıktı ...

Hata aynı olduğu için tıpkı sizin gibi tahmine sadece son n değerleri dahil edilir.

işaretler 217, kesinlikle gereksiz ama temizlemek için çok tembel

OHLC_Train.csv dosyasında eğitilmiş ve doğrulanmış 54k'den daha kolay toplam 54147 gözlem


modeli ilk 10k gözlem üzerinde eğitti (kesin olmak gerekirse, 8k, göstergeler üzerlerinde hesaplandığından ilk 2k dikkate alınmadı)

Modeli kalan 44k veri üzerinde kontrol ettim, bu yüzden yeniden eğitim olmadığını düşünüyorum. Test, trenin 5.5 katı 44/8 = 5.5


Boost ve orman denediğim modellerden boosting etkilenmedi, ormana yerleştim

eğitim setinde sınıflar arasında güçlü bir dengesizlik var ama şaman olmak için fazla tembelim

table(d$Target[tr])

   0      1 
3335 4666 

mevcut özelliklerde son model - orman 200 ağaç

trende...

 Type of random forest: classification
                     Number of trees: 200
No. of variables tried at each split: 14

        OOB estimate of  error rate: 14.75 %
Confusion matrix:
     0      1 class .error
0 2557    778    0.23328336
1    402 4264    0.08615517

Testte

Confusion Matrix and Statistics

          Reference
Prediction     0     1
         0 12449  5303
         1  9260 17135
                                          
               Accuracy : 0.6701           
                 95% CI : (0.6657, 0.6745)
    No Information Rate : 0.5083          
    P-Value [Acc > NIR] : < 2.2e-16       
                                          
                  Kappa : 0.3381          
                                          
 Mcnemar's Test P-Value : < 2.2e-16       
                                          
            Sensitivity : 0.5734          
            Specificity : 0.7637          
         Pos Pred Value : 0.7013          
         Neg Pred Value : 0.6492          
             Prevalence : 0.4917          
         Detection Rate : 0.2820          
   Detection Prevalence : 0.4021          
      Balanced Accuracy : 0.6686          
                                          
       'Positive' Class : 0  

Gördüğünüz gibi, sonuçlar sizinkiyle aynı ve milyonlarca veriye ihtiyacınız yok 50k, varsa kalıpları bulmanız için yeterli.

Yani aynı sonuçları aldık, bu bizim başlangıç noktamız, şimdi bu hatanın iyileştirilmesi gerekiyor

 

)) Hohma ))

Tüm sözde teknik analiz göstergeleri kaldırıldı

yukarıdaki örnekte olduğu gibi işaretler 217 değil 86 oldu

Ve modelin kalitesi sadece arttı)


Confusion Matrix and Statistics

          Reference
Prediction     0     1
         0 12769  5597
         1  8940 16841
                                          
               Accuracy : 0.6707           
                 95% CI : (0.6663, 0.6751)
    No Information Rate : 0.5083          
    P-Value [Acc > NIR] : < 2.2e-16       
                                          
                  Kappa : 0.3396          
                                          
 Mcnemar's Test P-Value : < 2.2e-16       
                                          
            Sensitivity : 0.5882          
            Specificity : 0.7506          
         Pos Pred Value : 0.6953          
         Neg Pred Value : 0.6532          
             Prevalence : 0.4917          
         Detection Rate : 0.2892          
   Detection Prevalence : 0.4160          
      Balanced Accuracy : 0.6694          
                                          
       'Positive' Class : 0 
 
mytarmailS :

Sınıflandırma, iyi bilinen bir kapanışın olduğu son çubukta gerçekleşir (bunlar tam teşekküllü OHLS mumlarıdır) , gelecekteki mumun ZZ'sinin işaretini tahmin ediyoruz. Neden sadece açık olduğu bilinen bir mumu hesaba katalım ki, komplikasyonun yanı sıra avantajının ne olduğunu anlayamıyorum? hem anlayışta hem de uygulamada ve open[i] öğesinin neredeyse her zaman close[i-1] öğesine eşit olduğunu anlarsanız, bu yaklaşım için yalnızca bir soru işaretim var.

Anlayamazsınız çünkü R'de verileriniz var ama terminalde mevcut çubukta OHLC'nin ne zaman oluştuğunu öğrenemiyorsunuz, bu nedenle OHLC sadece ilk çubuktan sıfır çubukta elde edilebilir. Sıfır çubuğunda Aç, zamanında yeni verilerdir - özellikle büyük zaman dilimleri için önemlidir, çünkü örnekte bir sınıf özdeş tahmincilerim var, ancak farklı zaman dilimlerinde uygulandı.


mytarmailS :


1) veri 50-60k artık yok, tek dosyada daha iyi .........

Eğitim için 50 ve test için (eğitim dışında örnek) 50 tane daha yapalım.

Buldozerden muhtemelen sayıları 50-60k olarak adlandırdım, neden 2 kat artırmıyorsunuz? )))

)))

1) veri 50-60k artık yok, tek dosyada daha iyi , sadece katılıyorum

Ve iki değil, bir dosya yüklediğiniz için teşekkürler! ))
mytarmailS :

OHLC_Train.csv dosyasında eğitilmiş ve doğrulanmış 54k'den daha kolay toplam 54147 gözlem

modeli ilk 10k gözlem üzerinde eğitti (kesin olmak gerekirse, 8k, göstergeler üzerlerinde hesaplandığından ilk 2k dikkate alınmadı)

Modeli kalan 44k veri üzerinde kontrol ettim, bu yüzden yeniden eğitim olmadığını düşünüyorum. Test, trenin 5.5 katı 44/8 = 5.5

Gördüğünüz gibi, sonuçlar sizinkiyle aynı ve milyonlarca veriye ihtiyacınız yok 50k, varsa kalıpları bulmanız için yeterli.

Yani aynı sonuçları aldık, bu bizim başlangıç noktamız, şimdi bu hatanın iyileştirilmesi gerekiyor

Örneği iki dosyaya böldüm, ilk dosya herhangi bir sapık öğrenme girişimi için ve ikincisi öğrenme çıktılarını kontrol etmek için.

Modeli kaydedip yeni veriler üzerinde test etmenin bir yolu yok mu? Varsa kontrol ediniz sonucu tam olarak OHLC_Exam.csv örneğine göre verdim.

Bu iki dosyayı aynı şekilde bölünmüş olarak geri gönderebilir, ancak kendi tahmin edicilerinizi ve onlara sınıflandırma sonucunu içeren bir sütun ekleyebilir misiniz?


Yeniden eğitim veya bunların eksikliği ile ilgili.

Bana göre açık bir abartı.

 
Alexey Vyazmikin :

Hmm ... Yeni verilerde her şey daha üzücü (((

Confusion Matrix and Statistics

          Reference
Prediction    0    1
         0 9215 5517
         1 3654 7787
                                          
               Accuracy : 0.6496           
                 95% CI : (0.6438, 0.6554)
    No Information Rate : 0.5083          
    P-Value [Acc > NIR] : < 2.2e-16       
                                          
                  Kappa : 0.3007          
                                          
 Mcnemar's Test P-Value : < 2.2e-16       
                                          
            Sensitivity : 0.7161          
            Specificity : 0.5853          
         Pos Pred Value : 0.6255          
         Neg Pred Value : 0.6806          
             Prevalence : 0.4917          
         Detection Rate : 0.3521          
   Detection Prevalence : 0.5629          
      Balanced Accuracy : 0.6507          
                                          
       'Positive' Class : 0


İşte dosyalar, trende ilk 2k hattı KULLANMAYIN

testte ilk 100 satır

UPD====

dosyalar sığmıyor, kişisel bir posta atın

 
mytarmailS :

Hmm ... Yeni verilerde her şey daha üzücü (((


İşte dosyalar, trende ilk 2k hattı KULLANMAYIN

testte ilk 100 satır

Uygulamada dosya yok.

Eğitim ve doğrulama için örneğin dökümünü değiştirdim, doğrulama için her 5 satırda bir aldım, komik bir grafiğim var

Aynı zamanda OHLC_Exam.csv örneğinde Doğruluk 0.63


X için, her yeni ağaç, numunedeki yetersiz örnekler nedeniyle fazla uydurmayı gösteren sonucu azaltır.

Dosyayı bir zip ile sıkıştırın.
 
Alexey Vyazmikin :

Uygulamada dosya yok.

Eğitim ve doğrulama için örneğin dökümünü değiştirdim, doğrulama için her 5 satırda bir aldım, komik bir grafiğim var

Aynı zamanda OHLC_Exam.csv örneğinde Doğruluk 0.63


X için, her yeni ağaç, numunedeki yetersiz örnekler nedeniyle fazla uydurmayı gösteren sonucu azaltır.

Dosyayı bir zip ile sıkıştırın.

Evet, evet, modellerimiz yeniden eğitildi...

İşte dosyaları indirmek için bir link, sıkıştırılmış bir dosya bile foruma sığmıyor

https://dropmefiles.com.ua/56CDZB


Modeli işaretlerimde eğit, Akurasi ne olacak merak ediyorum