Ticarette makine öğrenimi: teori, pratik, ticaret ve daha fazlası - sayfa 2551

 
Maksim Dmitrievski # :

CV sonuçlarını kullanmanın en iyi yolu nedir?

Modelin hiperparametrelerini (ağacın öğrenme derinliği veya bir yapraktaki örnek sayısı, ağaç sayısı vb.) ve veri setini (satır sayısı, özellik kombinasyonları olabilir) optimize ediyorum.

Tüm bu seçenekleri çalıştırıyorum, ardından ilerlemenin en iyi genel sonucuna dayanarak, model parametreleri ve verileri için en iyi seçeneği seçiyorum. Kanımca çapraz doğrulama daha kötü, ileriye doğru yürümek gerçekte nasıl olacağının bir kopyası: bir hafta işlem gördü - yeniden eğitildi, bir hafta daha, yeniden eğitildi, vb.

bulunan en iyi model parametrelerini alın ve ardından tüm veri kümesi üzerinde eğitim alın

Tüm veri kümesinde - mantıksız.
Alınan tarihin en iyi derinliği nedir - aynı ve çalışmaya devam edin. 50.000 satır M5 (neredeyse bir yıl) için N kez eğitilmiş bir modelim var, aynı parametrelerle ve yalnızca tarihin derinliğinde bir farkla eğitilirse, tüm ilerilerin toplamında% 52 gösterebilir, yani. 70.000 veya 30.000 satırda, tüm forwardların toplamının %50'sinden az olacaktır.

Sebebi ise aynı örneklerin yapraklara düşmeyecek olmasıdır. Ağaçların daha fazla veya daha az yaprağı olabilir, vb. Farklı boyutlardaki veri kümeleri için, sayfadaki derinliği veya örnek sayısını değiştirmeniz gerektiğini düşünüyorum.

 
elibrarius # :

Modelin hiperparametrelerini (ağacın öğrenme derinliği veya bir yapraktaki örnek sayısı, ağaç sayısı vb.) ve veri setini (satır sayısı, özellik kombinasyonları olabilir) optimize ediyorum.

Tüm bu seçenekleri çalıştırıyorum, ardından ilerlemenin en iyi genel sonucuna dayanarak, model parametreleri ve verileri için en iyi seçeneği seçiyorum. Kanımca çapraz doğrulama daha kötü, ileriye doğru yürümek gerçekte nasıl olacağının bir kopyası: bir hafta işlem gördü - yeniden eğitildi, bir hafta daha, yeniden eğitildi, vb.

Tüm veri kümesinde - mantıksız.
Alınan tarihin en iyi derinliği nedir - aynı ve çalışmaya devam edin. 50.000 satır M5 (neredeyse bir yıl) için N kez eğitilmiş bir modelim var, aynı parametrelerle ve yalnızca tarihin derinliğinde bir farkla eğitilirse, tüm ilerilerin toplamında% 52 gösterebilir, yani. 70.000 veya 30.000 satırda, tüm forwardların toplamının %50'sinden az olacaktır.

Sebebi ise aynı örneklerin yapraklara düşmeyecek olmasıdır. Ağaçların daha fazla veya daha az yaprağı olabilir, vb. Farklı boyutlardaki veri kümeleri için, sayfadaki derinliği veya örnek sayısını değiştirmeniz gerektiğini düşünüyorum.

Benim düşünceme göre, belirli bir modelin sağlamlığını değil, veri kümesinin kalitesini değerlendirmek için cv gereklidir. K-katlardaki ortalama hata kabul edilebilir ise, modeli bu veri seti üzerinde eğitebilirsiniz ve bu da iyi olacaktır. Cv için kullanılan modellerden ortalama parametreleri ödünç alabilirsiniz.
 
Maksim Dmitrievski # :
Benim düşünceme göre, belirli bir modelin sağlamlığını değil, veri kümesinin kalitesini değerlendirmek için cv gereklidir. K-katlardaki ortalama hata kabul edilebilir ise, modeli bu veri seti üzerinde eğitebilirsiniz ve bu da iyi olacaktır. Cv için kullanılan modellerden ortalama parametreleri ödünç alabilirsiniz.
Veri setinden her zaman farklı parçalar alacağız. Hem veri setini (satır ve özellik sayısı) hem de model parametrelerini optimize ediyorum.
 
Alexey Nikolaev # :

Muhtemelen, her bir gözlemin sınava göre bir anlamda aykırı olup olmadığını testten kontrol etmek mümkündür.

Bunu bilmek ilginç olurdu!

Demek istediğim, piyasa değişken ve döngüseldir ve teoride, olayların tekrar ettiğini varsayan (aksi takdirde eğitimin bir anlamı yoktur) herhangi bir model, varlığının farklı dönemlerinde yüksek doğruluğa sahip olacaktır ve muhtemelen test parsellerinde sadece başka bir pazar, başka bir dalga olacak. Eğitim en belirgin kalıplar üzerinde gerçekleştirilir, ancak onların da aynı şekilde istikrarlı olacağına inanma hakkımız var mı!? Kararlı kalıpları tanımlayan tahmin edicilere bağlı olanın modelin kalitesi olduğunu düşünüyorum, bu nedenle örneğin farklı bölümlerindeki sonuç için tipik olan örneklerden öğrenmelisiniz.

 
mytarmailS # :
Ahşap modeller ile mümkündür..
Modeli kurallara genişletin, kuralları gerekli istatistiklere göre analiz edin (tekrarlanabilirlik başka bir şeydir ..), kuralın yeni verilerde görünüp görünmediğine bakın ..

Paket "intrees" 5 satır kod ve git

Bunu uzun zamandır yapraklarla yapıyorum, ancak bu pek doğru değil - örnekte atipik örneklerin belirlenmesine izin vermiyor.

 
Vladimir Perervenko # :

paket   Gürültü FiltreleriR. Makaleye göz atın.

Makaleye baktım, anladığım kadarıyla bu paket önemli sonuçlar vermiyor - yaklaşık% 3'lük bir artış, ancak bu da ilginç - nasıl çalıştığını açıklayabilir misiniz?

 
elibrarius # :
Veri setinden her zaman farklı parçalar alacağız. Hem veri setini (satır ve özellik sayısı) hem de model parametrelerini optimize ediyorum.

Unuttum, mevcut saatlik mum için bir hedef renginiz/tipiniz var mı?

 
Alexey Nikolaev # :

Gürültü tahmincileriyle her şey az çok netse, o zaman gürültü örnekleriyle o kadar da değil. Bunları nasıl tanımlayacağım hakkında daha fazla bilgi edinmek istiyorum (teori anlamında, kullanılan paketlerin/fonksiyonların adlarını değil, elbette R'nin her zaman makalelere bağlantıları olmasına rağmen). Her zaman piyasada olma arzusu bir hata olarak kabul edildiğinden, sınıflandırma yapılırken “ticaret yapmayın” sınıfının olması gerektiği açıktır. Ancak bu sınıfın az çok resmi bir biçimde nasıl doğru bir şekilde tanımlanacağı çok açık değildir.

Gürültü örneklerini işlemek için üç seçenek: silme, yeniden işaretleme (işaretlemeyi düzeltme) ve gürültü örneklerini ayrı bir sınıfa ayırma. Tecrübelerime göre numunenin yaklaşık %25'i "gürültü"dür. Kalite iyileştirmesi yaklaşık %5'tir, modellere ve veri hazırlamaya bağlıdır. Bazen başvuruyorum.

Tahmin edicileri kullanırken başka bir sorun daha var - onların kayması. Ve bu sorun hem testte hem de operasyonda tanımlanmalı ve dikkate alınmalıdır. Uygulamada makalenin bir çevirisi var (netten başkalarını arayın) ve bir drifter paketi var. O tek değil. Ancak sonuç olarak, tahmin edicileri seçerken sadece önemini değil, aynı zamanda sürüklenmelerini de hesaba katmak gerekir. Güçlü drifterler atılmalı veya dönüştürülmelidir, zayıf driftçiler için test ve çalışma sırasında (doğru) hesaba katılmalıdır.

İyi şanlar

Dosyalar:
Drift1.zip  2238 kb
 
Alexey Vyazmikin # :

Unuttun mu, mevcut saatlik mum için bir hedef renginiz/tipiniz var mı?

Mumun rengi, %30'luk bir hatayla bile akabilir. Bundan ne kadar kâr elde edeceğimizi bilmiyoruz.. kural olarak, yavaş fiyat hareketlerinde (gecelik) renk iyi tahmin edilir ve 1 adet tahmin edilemeyen güçlü günlük mum, 10 küçük gece mumuna mal olabilir. Mumların rengini tahmin etmenin yine rastgele bir çıktıya sahip olduğunu düşünüyorum (rastgele boyutlar nedeniyle).
Bu nedenle sınıflandırmayı TP, SL ile yaptım. Eşitlerse, başarılı işlemlerin %52'si zaten kârlıdır. TP=2*SL ise. O zaman başarılı olanların >%33'ü kar edecek. Aldığım en iyi şey, 2 yıl boyunca TP=SL ile başarılı işlemlerin %52-53'üydü. Ama genel olarak zaten sabit olmayan TP/SL ile regresyona geçmeyi düşünüyorum. Daha doğrusu bir şekilde regresyon üzerinde sınıflandırma yapmak.
 

Birkaç yıldır forumda değildim, ama işler hala orada. şarkıda olduğu gibi: "Ne olduğun, öyle kaldı, bozkır kartalı, atılgan bir Kazak ...".

İstatistikler, bir aksiyom olduğu için tartışılmayan bir aksiyomla başlar:


Çöp içeri çöp dışarı.


Prensipte çöpten şeker yapacak matematiksel yöntemler yoktur ve olamaz. Ya TAHMİN öğretmeninin bir takım yordayıcıları vardır ya da hiçbiri yoktur .

Ve modeller, çeşitli çapraz doğrulamaların ve diğer hesaplama kapasiteli sapkınlıkların yanı sıra pratik olarak herhangi bir rol oynamaz.


not.

Bu arada, modeldeki yordayıcıların "öneminin" öğretmenin tahmin etme yeteneği ile hiçbir ilgisi yoktur.