Ticarette makine öğrenimi: teori, pratik, ticaret ve daha fazlası - sayfa 2798

 
mytarmailS #:
Takip ediyorsunuz ama hiçbir şey anlamıyorsunuz...(

Örneğin ne - herhangi bir problemi çözmek için problemi çözmek için bir kritere ihtiyacınız vardır, bu da bir hatadır))))


Şimdi yazıyı tamamladığınızı fark ettim. Bu yüzden cevap vermeme izin verin.

Hatadan başka bir şey aramıyorsunuz. MO hayalperestlerinin sorunu da burada yatıyor. Belirli tahmin sonuçlarını değil, hataları aramak. En küçük hata bile %100 bir hatadır:)) Her şeyden önce finansal piyasalarda.

Yanılmaya devam edin))) Daha fazla cevap vermeyeceğim ve müdahale etmeyeceğim.

 
Uladzimir Izerski #:

Gönderiyi güncellediğinizi şimdi fark ettim.

Üstelik sorunuzu da uzun zaman önce yanıtlamıştım)))


Uladzimir Izerski #:

Hatadan başka bir şey aramıyorsunuz. Bu MO hayalperestlerinin sorunudur. Tahminin somut sonuçlarını değil, hataları aramak.

"Hata" kavramına çok ama çok dar bir bakış açınız var.

Bir durumda, bir göstergenin tahmininde bir hataydı,

Başka bir durumda, örneğin, hata bilanço eğrisi veya bazı ideal sermayeden sapma olabilir,

ya da sermaye büyümesinin dinamikleri,

ya da örneğin algoritma hatalarının sayısı (algoritma hatalarının sayısı da bir hatadır).

Ya da algoritma robotuna gözlerinizle bakabilir ve ona (kod/düğme ile) - Bunu beğendim, ama bunu yapma ve bu da bir hata olarak kabul edilebilir.... diyebilirsiniz.

Ve milyonlarca farklı varyasyon var ve hatta ne yaparsanız yapın, bazı kriterlere (iyi / kötü) sahipsiniz. Bu da bir hatadır.

Farkında olmamanız, kabul etmemeniz, sadece size ait olması...


Hata, bir sayı ile ifade edilen iyi/kötü kriteridir.

 

Uladzimir yine çocuksu bir merakla kendisi için büyük olan anlamları kavramaya ve bu başlıktaki katılımcıları, yani bu anlamları itibarsızlaştırmaya çalışıyor:

Denklem Yeniden Yapılandırma:"kara kutu".

" Karakutu " ,nesnevedolayısıylamodelin yapısıhakkında a priori bilginin olmadığıbir modelleme probleminin hemen zor hem deen"baştan çıkarıcı " formülasyonudur.Entrika,gözlemlenen davranışı yeniden üretebilen veya daha ileri bir evrim tahmini vereb ilen birmodelinyalnızca gözlemlenen seriden,yanipratik olarak"sıfırdan"elde edilmesigerektiğigerçeğinde yatmaktadır.Başarı şansı düşük tür,ancak şans durumunda"iyi " birmodel, nesneyi karakterize etmek veişleyişinin"mekanizmalarını " anlamak için çok değerli bir araç haline gelir: "neredeyse bir blöf büyük bir kazanıma yol açabilir".Önsel bilginin yokluğu, model denklemlerinin evrensel yapılarını,örneğinyapay sinir ağlarını,radyal temel fonksiyonları,cebirsel polinomları vb.kullanmaya zorlar.Bu tür modeller genellikle çok boyutlu olur ve çok sayıda bilinmeyen parametre içerir.


ZY ve bir yıldan daha uzun bir süre önce kendisinin sinir ağları kullandığını ve tüm TS'lerinin bunlara dayandığını yazdı... böyle bir palyaço abzdez

#870

#1826

Sevgili Uladzimir'imiz sinir ağlarını çok hızlı bir şekilde, 2 ay içinde öğrendi.

Keşke öğrenseydi ama iki yıl önce NS'den sinyaller almaya başlamıştı bile.

#5758

Yani bu tip sarhoş bir halde saçmalıyor ve yalan söylüyor.... yalan söylüyor.... yalan söylüyor. ve sadece kendini ve çılgın göstergelerini gözden düşürüyor.

 

Pencere yanlılığı yoluyla modelin oldukça iyi bir testi olduğu ortaya çıkmaktadır. Sıfır yerine daha iyi istatistiklerle (mi gibi) çok sayıda gecikme veriyorsa, model rastgeleleştirmeye dayanıyor demektir.

Aksi takdirde kesin olurdu, aynı anda bu kadar çok karlı TS olamaz.

Sanych'in talimatlarına göre std aracılığıyla seçim yapmaya çalıştım - yaklaşık olarak aynı resim. Ancak her birini ayrı ayrı değil, özellik kümelerini seçtim.

Özelliklere tekrar ayrı ayrı bakacağım

 
>>> results = []
>>> for i in range(25):
...     pr = get_prices()
...     pr = labeling_shift(pr,shift=i)
...     mi = mutual_info_classif(pr[pr.columns[1:-1]], pr[pr.columns[-1]])
...     results.append([mi.mean(), mi.std(), mi, i])
...     print(i)
... 
results.sort()
results[-1]    
pd.DataFrame(results)

En iyi skor gecikme 9'dur, ancak std 0'da daha iyidir:

15  0.002473  0.002008  [0.0, 0.0, 0.0, 7.738132773948969 e-05, 0.00428...   0
16  0.002482  0.002536  [0.0027194272625081783, 0.004082692968791601, ...   4
17  0.002544  0.002137  [0.00016451381901605444, 0.003159073557252867,...   2
18  0.002678  0.002174  [0.0, 0.0015686230398428425, 0.000974887322880...   8
19  0.002749  0.001978  [0.0, 0.001425018820565338, 0.0, 0.0, 0.002788...   1
20  0.002793  0.002378  [0.00535509344523355, 0.0, 0.00400320235670181...  12
21  0.002897  0.002330  [0.00406257691063705, 0.001421806087245736, 0....  13
22  0.003113  0.002501  [0.0, 0.0, 0.004822852461999094, 3.66068989796...  10
23  0.003195  0.002560  [0.0024128008240758003, 0.0, 0.001845732619932...  11
24  0.003255  0.002406  [0.0, 0.0, 0.0034648745240082324, 0.0063568287...   9

Okabe her ikisinin de backtestlerine baktı, 9:

0-я:

0'ıncı, mantıksal olarak, geri testte daha düşük bir değer dağılımına sahiptir, çünkü mi için std başlangıçta daha küçüktür. Ancak bu OOS sonuçlarını etkilemez, mi'nin daha yüksek değeri de etkilemez (Karşılıklı bilgi)

Tamam, çok sayıda özellik üzerinde yeniden eğitim yaptığımızı varsayalım (burada 14 özellik).

MA_PERIODS = [i for i in range(10, 150, 10)]

Her bir özelliğin istatistiklerine bakalım ve 9 gecikmeli model için yalnızca en iyi olanları seçelim:

>>> results[24]
[0.003255328338368026, 0.002405621052220332, array([0.        , 0.        , 0.00346487, 0.00635683, 0.00490859,
       0.        , 0.00305732, 0.00268664, 0.00877952, 0.00305562,
       0.00138638, 0.00320064, 0.00415751, 0.00452067]), 9]
>>> 

Bazı özellikler tamamen sıfırlanmıştır, yani hiçbir değeri yoktur. Yalnızca 0,004'ten büyük olanları seçelim ve bunlarla eğitelim:

>>> per = results[24][2]
>>> np.array(per) > 0.004
array([False, False, False,  True,  True, False, False, False,  True,
       False, False, False,  True,  True])
>>> 

MA_PERIODS = [40, 50, 90, 130, 140] - отобранные фичи

Eğitim ve test:

Mnde.

Sonuç: Eğitim örneğindeki daha yüksek bilgi korelasyonu, test örneğindeki modelin iyileştirilmesine yardımcı olmaz.

Ancak bu, yarışmalarda %'lik kesirleri sıkıştırmak için kullanılabilir, ki profesyoneller Busting gibi modern modeller için özelliklerin ön seçiminin neredeyse hiçbir şey vermediğini söylüyor.

 
Maxim Dmitrievsky #:

Pencere yanlılığı yoluyla modelin oldukça iyi bir testi olduğu ortaya çıkıyor. Daha iyi istatistiklerle (mi gibi) sıfır yerine çok sayıda gecikme üretiyorsa, model rastgelelik üzerine kurulmuştur

Aksi takdirde, aynı anda bu kadar çok kârlı TC'nin olamayacağı açık olurdu.

Sanych'in talimatlarına göre std üzerinden seçim yapmaya çalıştım - yaklaşık olarak aynı resim. Ancak her birini ayrı ayrı değil, işaret kümelerini seçtim.

Özelliklere tekrar ayrı ayrı bakacağım

Bir özellik ile hedef özellik arasındaki korelasyonun sayısal tahmin std?

Öncelikle korelasyonlu olanları çıkarmanız gerekir. Bazı nedenlerden dolayı, benim özelliklerimdeki optimum korelasyon %75'tir.

Daha sonra maksimum skora sahip 5-10 özellik seçin.

Korelasyonun notları böldüğünden emin olmak için yukarıdaki yazımda olduğu gibi resimler çizin.

Tahmin hatası %30'dan az olmalıdır. Eğer değilse, o zaman özelliklerin atılması gerekecektir.

 
СанСаныч Фоменко #:

std bir özelliğin bir hedefle ilişkisinin sayısal bir tahmini mi?

Öncelikle korelasyonlu olanları kaldırmanız gerekir. Benim özelliklerimde, bazı nedenlerden dolayı, optimum korelasyon %75'tir.

Ardından maksimum puana sahip 5-10 özellik seçin.

Korelasyonun sınıflara göre bölündüğünden emin olmak için yukarıdaki yazımda olduğu gibi resimler çizin.

Tahmin hatası %30'dan az olmalıdır. Eğer değilse, o zaman özelliklerin atılması gerekecektir.

Buradaki entropiden korelasyonun ihmal edilebilir olduğunu (0,003) görebilirsiniz, ancak 1'e eğilim göstermelidir.

ama farkı tahmin ettim, bu yüzden önemli değil. Yine de küçük bir iyileşme olması gerekir. Belki de fark çok az olduğu için yoktur.

Genel olarak, her şey iyi olsa bile (sette iyi olanlar var), diğer özellikleri kaldırmak zorunda değilsiniz

Yani, standart olmayan bir pencere gibi başka şeyler için bir kütük
 
Maxim Dmitrievsky #:

entropiden korelasyonun ihmal edilebilir olduğu (0,003), ancak 1'e eğilim göstermesi gerektiği açıktır.

ama farkı tahmin ettim, bu yüzden önemli değil. Yine de küçük bir iyileşme olması gerekir. Belki de fark çok az olduğu için yoktur.

genel olarak, her şey iyi olsa bile (sette iyi olanlar var), geri kalan çiplerin çıkarılmasına gerek yoktur

Skorun kendisi göreceli bir şeydir.

Resimleri tekrarlayacağım.

Kötü, umutsuz%


Daha iyisi, eğer bunlardan birkaç tane varsa, %30 tahmin hatasından bahsedebiliriz.



Ve çöpler kaldırılmalıdır, çünkü eğitim setinde çip çöplerin lehine olabilir, optimuma götüren değeri bulmak daha kolaydır.

 
Maxim Dmitrievsky #:

Modern Busting tipi modeller için özelliklerin ön seçimi neredeyse hiçbir sonuç vermez.

Busting, tüm sütunlardan ve tüm örneklerden en iyi bölünmeleri arar. Yani, en iyi çipleri kullanır.
Schuch. forest her ağaç için çiplerin yarısını ve örneklerin yarısını alır (kesir yapılandırılabilir) ve sonra 20-100 ağaçtan ortalamayı bulur. Eğer 200 çipten sadece 5 bilgilendirici çip varsa, ağaçların bazıları bilgilendirici çipler içermeyecektir (ağaç başına ortalama 2,5 bilgilendirici çip). Ve bilgilendirici ağaçların bir kısmının ortalamasını gürültülü ağaçlarla alacağız. Sonuç da çok gürültülü olacaktır.
Çok fazla bilgilendirici fiş varsa (klasik örneklerde / MO görevlerinde olduğu gibi) bir gürültü ormanı iyi çalışacaktır.

Busting, hepsini kontrol ettiği için en bilgilendirici fişleri bulacak ve kullanacaktır. Yani bousting'in mantığına göre, en iyi fişleri kendisi seçecektir. Ancak bousting'in de kendi sorunları vardır.

 
elibrarius #:

Busting en bilgilendirici çipleri bulacak ve kullanacaktır, çünkü hepsini kontrol eder. Yani bousting mantığına göre en iyi çipleri seçecektir. Ancak bousting'in de kendi sorunları vardır.

Bunun tam tersini kanıtlayan bir örnekle bir konu oluşturdum - güçlendirme her şeye kadir değildir, özellikle de kutudan çıkar çıkmaz.