Ticarette makine öğrenimi: teori, pratik, ticaret ve daha fazlası - sayfa 56

 
Alexey Burnakov :
Birkaç yıl. İşte konuyla ilgili sonucu.
Bağlantı Lütfen.
 
Vadim Şişkin :
Bağlantı Lütfen.
Bütün tema sonuçtur.
 
Yuri Reshetov :

Eh, en azından, genel örnekte tek tip bir dağılımla örneklerin ön rastgele karıştırılması yerine, eğitim ve test örneklerine tarihlere göre katı bir bölünme, ardından parçalara bölünmesi. Sonuçta, dikey eğilimlerin çoğunlukla örneğin bir kısmına düştüğü ve yanal eğilimlerin ikinciye düştüğü ortaya çıkabilir. Rastgele karıştırma yaparsanız, numunenin farklı bölümlerinde benzer desenlerin kalabalık olma olasılığı azalır.

Bu arada, MetaTrader'da yerleşik strateji test cihazı da böyle bir eksiklikten muzdariptir, yani. eğitim örneğini ve ileri testi kesinlikle tarihe göre böler. Bu nedenle, bölünme çizgisine yakın pazar trendlerinde bir değişiklik, kasıtlı yeniden eğitime yol açabilir.

Bu, deneyin planlanmasındaki kilit noktadır. Gerçek hayatta, zaman içinde katı bir bölünme vardır. Model, kelimenin tam anlamıyla gelecek için bu şekilde test edilir.

Ben de buna sahibim: doğrulama sırasında piyasa çoğunlukla düştü ve şortların üstünlüğü var. Eh, gelecekte esas olarak büyüyebilir. Herşey olabilir.
 
Vadim Şişkin :
Yani, her saygılı tüccar gibi siz de cevabı verdiniz.
Evrenin cevabı, eğer istersen.
 
Alexey Burnakov :
Bu, deneyin planlanmasındaki kilit noktadır. Gerçek hayatta, zaman içinde katı bir bölünme vardır. Model, kelimenin tam anlamıyla gelecek için bu şekilde test edilir.

Ben de buna sahibim: doğrulama sırasında piyasa çoğunlukla düştü ve şortların üstünlüğü var. Eh, gelecekte esas olarak büyüyebilir. Herşey olabilir.

Buna dengesiz örnekleme denir ve bir makine öğrenimi problemidir.

Daha açık hale getirmek için, size bir örnek vereyim. Yükseliş trendlerinin hakim olduğu bir eğitim örneğine sahip olalım; bu, düşüş trendlerinin yükseliş trendlerine kıyasla daha küçük bir miktarda temsil edildiği anlamına gelir, yani. bir dengesizliğimiz var.

Örneklemde 1.000 aşağı doğru hareketimiz ve 10.000 artan hareketimiz olduğunu varsayalım ve yukarı doğru hareketler için sınıflandırma hatasının %10 olduğunu varsayalım. Ancak 10.000 örnek için bu yüzde on, aşağı hareketlerin tahmini olarak sınıflandırılan 1.000 yanlış sinyale ve aşağı doğru hareketlere sahip örneklere eşittir, örnekte sadece 1.000 örneğimiz var.Bu, aşağı doğru hareketlerin sınıflandırmasının doğruluğu ne olursa olsun, o zaman için sınıflandırıcının gelecekteki hareketin potansiyel olarak aşağı yönlü olduğunu tahmin eden herhangi bir cevabı, hatası en az %50 olacaktır. Onlar. bir sınıf için eğitim örneğinde ne kadar fazla örnek varsa - dengesizlik, bu sınıf için yanlış sınıflandırmanın sınıflandırıcının başka bir sınıf için verdiği cevapların kalitesi üzerindeki etkisi o kadar büyük olur.

Bu nedenle, nadir olayları tahmin etmek çok zordur: depremler, volkanik patlamalar, ekonomik krizler vb. Sonuçta, fenomen örnekte çok nadir ve temsili değilse, o zaman karşı sınıfların örnekleri için herhangi bir hata, nadir fenomenler için aşırı derecede büyük olur.

Ve bu nedenle, eğitim örneği, tüm sınıflar için örneklerin içinde aynı sayı ile temsil edilmesi için ön dengelenmelidir. Aksi takdirde, daha az temsili sınıfların eğitim örneğinin dışındaki testlerde başarısız olma olasılığı daha yüksektir. Ek olarak, genel örneklem eğitim ve test bölümlerine bölünürken, bir bölümde benzer, diğerinde farklı tahmin edicilere sahip örneklerin kalabalıklaşmasını önlemek için örneklerin tek tip olasılık dağılımıyla PRNG kullanılarak karıştırılması gerekir. Onlar. sadece bağımlı değişkenler değil, tahmin ediciler arasındaki dengesizliği önlemek için.

 
Yuri Reshetov :

Buna dengesiz örnekleme denir ve bir makine öğrenimi problemidir.

Daha açık hale getirmek için, size bir örnek vereyim. Yükseliş trendlerinin hakim olduğu bir eğitim örneğine sahip olalım; bu, düşüş trendlerinin yükseliş trendlerine kıyasla daha küçük bir miktarda temsil edildiği anlamına gelir, yani. bir dengesizliğimiz var.

Örneklemde 1.000 aşağı doğru hareketimiz ve 10.000 artan hareketimiz olduğunu varsayalım ve yukarı doğru hareketler için sınıflandırma hatasının %10 olduğunu varsayalım. Ancak 10.000 örnek için bu yüzde on, aşağı hareketlerin tahmini olarak sınıflandırılan 1.000 yanlış sinyale ve aşağı doğru hareketlere sahip örneklere eşittir, örnekte sadece 1.000 örneğimiz var.Bu, aşağı doğru hareketlerin sınıflandırmasının doğruluğu ne olursa olsun, o zaman için sınıflandırıcının gelecekteki hareketin potansiyel olarak aşağı yönlü olduğunu tahmin eden herhangi bir cevabı, hatası en az %50 olacaktır. Onlar. bir sınıf için eğitim örneğinde ne kadar fazla örnek varsa - dengesizlik, bu sınıf için yanlış sınıflandırmanın sınıflandırıcının başka bir sınıf için verdiği cevapların kalitesi üzerindeki etkisi o kadar büyük olur.

Bu nedenle, nadir olayları tahmin etmek çok zordur: depremler, volkanik patlamalar, ekonomik krizler vb. Sonuçta, fenomen örnekte çok nadir ve temsili değilse, o zaman karşı sınıfların örnekleri için herhangi bir hata, nadir fenomenler için aşırı derecede büyük olur.

Ve bu nedenle, eğitim örneği, tüm sınıflar için örneklerin içinde aynı sayı ile temsil edilmesi için ön dengelenmelidir. Aksi takdirde, daha az temsili sınıfların eğitim örneğinin dışındaki testlerde başarısız olma olasılığı daha yüksektir. Ek olarak, genel örneklem eğitim ve test bölümlerine bölünürken, bir bölümde benzer, diğerinde farklı tahmin edicilere sahip örneklerin kalabalıklaşmasını önlemek için örneklerin tek tip olasılık dağılımıyla PRNG kullanılarak karıştırılması gerekir. Onlar. sadece bağımlı değişkenler değil, tahmin ediciler arasındaki dengesizliği önlemek için.

Yuri, anladım. Örneklem gerçekten de hem eğitim hem de doğrulama açısından dengesiz olabilir. Ancak gerçek hayatta, önyargının çok güçlü olabileceği geleceği takas ediyorsunuz. Ve strateji bu durumda sürdürülebilir olmalıdır.
 
Yuri Reshetov :


Ve bu nedenle, eğitim örneği, tüm sınıflar için örneklerin içinde aynı sayı ile temsil edilmesi için ön dengelenmelidir. Aksi takdirde, daha az temsili sınıfların eğitim örneğinin dışındaki testlerde başarısız olma olasılığı daha yüksektir. Ek olarak, genel örneklem eğitim ve test bölümlerine bölünürken, bir bölümde benzer, diğerinde farklı tahmin edicilere sahip örneklerin kalabalıklaşmasını önlemek için örneklerin tek tip olasılık dağılımıyla PRNG kullanılarak karıştırılması gerekir. Onlar. sadece bağımlı değişkenler değil, tahmin ediciler arasındaki dengesizliği önlemek için.

bakım paketi

Birkaç işlev: downSample/upSample - tamamen dengeli sınıflar elde etmek için gözlem sayısını azaltır/artırır. Sınıftaki gözlemlerin azalması/artması basit rastgele örnekleme algoritmasına göre yapılır.

not.

Reshetov!

R öğrenmeye başlayın. Gittikçe daha sık sıradanlıklara düşüyorsunuz.

 
San Sanych Fomenko :

Reshetov!

R öğrenmeye başlayın. Giderek, banalliklere kayarsınız.

Şimdi her şeyden vazgeçeceğim, yüzümde ciddi bir kupa ile tsifiri oynamak için R ustası olacağım.
 
Alexey Burnakov :
Yuri, anladım. Örneklem gerçekten de hem eğitim hem de doğrulama açısından dengesiz olabilir. Ancak gerçek hayatta, önyargının çok güçlü olabileceği geleceği takas ediyorsunuz. Ve strateji bu durumda sürdürülebilir olmalıdır.
Ne de olsa Duc, potansiyel fazla takmayı önlemek gerektiğinden stabilite elde edilir. Ve dengesiz bir eğitim seti, temsili olmayan sınıflar için fazla uydurmanın potansiyel bir nedenidir. Sonuçta, öğrenme algoritması, genelleme yeteneğini artırmak için gerekli değil, kendisi için daha kolay gibi davranmaya çalışır. Örnek dengesizse, en az temsili sınıflarda öğrenme hatalarını en aza indirecektir, çünkü bu tür sınıflar için çok az örnek var ve bunları genellemek yerine ezbere öğrenmek en kolayı. Böyle bir tıkanıklıktan sonra, eğitim örneğinin dışında, temsili olmayan sınıflardaki algoritma hatalarının büyük olasılıkla olacağına şaşıracak bir şey yoktur.
 

tarih aralıklarına kendinizi kör edersiniz; - verilerin tam olarak tarihlere göre ayrılması (x gününden önce - eğitimden sonra - doğrulamadan sonra)

Düşünce basit. Gerçek hayatta hiç kimse gerçek ticaretin kalitesini değerlendirmek için gelecekten ve geçmişten gözlemler içeren karışık bir örnek almanıza izin vermez. Tüm gözlemler x gününden sonra gidecek.

Bu nedenle, doğrulama sırasında karışık bir örnek alarak (tarihlere göre ayırmadan), doğrulama için kalite metriğini olduğundan fazla tahmin edersiniz. Bu kadar. Sonra hoş olmayan sürprizler olacak.