Ticarette makine öğrenimi: teori, pratik, ticaret ve daha fazlası - sayfa 1202

 
Maksim Dmitrievski :

Resimlerin ne olduğunu ve sorunun özünü tam olarak anlamadım

Rakamlar, ikili sınıflandırma (x ekseni) için farklı bir olasılık seçildiğinde modelin finansal sonucunu (y ekseni) gösterir. Test örneğinde, bir aktivasyon sinyali (pazara girip girmemeye eğitim karar verir) göründüğünde her zaman piyasaya girmeniz gerektiğini buldum. Paradoks, eğitimin yalnızca temel aktivasyon sinyalini kötüleştirdiği şekilde ortaya çıktı ve finansal sonucun olasılık segmentindeki sınıflandırma noktasının yer değiştirmesinden nasıl değiştiğini görmeye karar vermeseydim bunu göremeyecektim.

Maksim Dmitrievski :

Ben kendim model çeşitleri ürettim, şimdi izleme için hangisini seçeceğimi anlamaya çalışıyorum: D veya daha da geliştir

kısacası .. bu yaklaşımlarda, zikzaklar veya başka bir saçmalık olsun, işlemler çıkışlarda doğru şekilde sunulmaz.

çünkü sürgülü pencerenin her boyutu, ticaretin yapıldığı kendi dağılımlarına sahip olmalıdır. Daha sonra model dahil olmak üzere daha iyi ayarlanır. ve test numunesi altında. (zikzak veya diğer çıkışlar kendi içlerinde çok belirleyici olsa da, montaj için birkaç serbestlik derecesi vardır) çıkışların sayımı daha kapsamlıdır ve o zaman gerçekten yapacak başka bir şey kalmaz

girdiler üzerinde, farklı gecikmelerle artışlar, eski usulde, kendi kendine seçim ile önem yoluyla ve PCA yoluyla korelasyondan kurtulmak olabilir, bu tür seçenekler de botlar tarafından yapıldı. Ancak genel olarak, PCA kullanımı kusurlu bir fikirdir (yine de internette bunun tam tersi yazılmaktadır). Numunelerin sadece merkezlenmesi gerekmez, aynı zamanda yeni verilerde bu bileşenler yavaş yavaş cüruf haline gelir.

Soruna çok farklı bir yaklaşımımız var. Gerçek (görsel olarak gözlemlenebilir modeller) gerekçeler olmaksızın fiyatın tamamen matematiksel bir açıklaması bana yabancı. Aksine ben ZZ kullanıyorum ve bunun etkinliğini görüyorum (ZZ pedikürcüleri tüm MO paketlerinde her zaman ön plandadır). İki yaklaşımı birleştirmenin sonucu iyileştirebileceğini düşünüyorum.

Anlamlılık yoluyla model seçimi saçmalıktır - daha önce aynı model üzerinde farklı anlamlı tahmin edicileri kaldırmanın öğrenme sonuçlarını iyileştirebileceğini ve ağaçların yapraklarında yeni, daha üretken ve istikrarlı bağlantılar oluşturabileceğini göstermiştim. Tüm bu "önem", ağaç inşa etmedeki açgözlülük ilkesidir, ki bu a priori doğru değildir, bu nedenle, tahmin edicileri değerlendirmek için ayrı anlamlı yöntemlere ihtiyacımız var - henüz bunlara sahip değilim.

 

Maksim Dmitrievski :

Bütün bunlar böyle bir şey verir, oldukça sorunsuz, sadece 10 dakika bekleyin:

Model zaten trenin %100'ünden fazlasını yerine getirdiğinde, daha fazla iyileştirme olasılığı genel olarak şüpheli görünüyor

belki iyi bir grafik/araç parçası üzerinde daha fazlasını sıkabilirsiniz

İyi görünüyor, ancak modelin süresi çok kısa, bir yıl önceki verilerde nasıl davranıyor?

 
Alexey Vyazmikin :

Rakamlar, ikili sınıflandırma (x ekseni) için farklı bir olasılık seçildiğinde modelin finansal sonucunu (y ekseni) gösterir. Test örneğinde, bir aktivasyon sinyali (pazara girip girmemeye eğitim karar verir) göründüğünde her zaman piyasaya girmeniz gerektiğini buldum. Paradoks, eğitimin yalnızca temel aktivasyon sinyalini kötüleştirdiği şekilde ortaya çıktı ve finansal sonucun olasılık segmentindeki sınıflandırma noktasının yer değiştirmesinden nasıl değiştiğini görmeye karar vermeseydim bunu göremeyecektim.

Soruna çok farklı bir yaklaşımımız var. Gerçek (görsel olarak gözlemlenebilir modeller) gerekçeler olmaksızın fiyatın tamamen matematiksel bir açıklaması bana yabancı. Aksine ben ZZ kullanıyorum ve bunun etkinliğini görüyorum (ZZ pedikürcüleri tüm MO paketlerinde her zaman ön plandadır). İki yaklaşımı birleştirmenin sonucu iyileştirebileceğini düşünüyorum.

Anlamlılık yoluyla model seçimi saçmalıktır - daha önce aynı model üzerinde farklı anlamlı tahmin edicileri kaldırmanın öğrenme sonuçlarını iyileştirebileceğini ve ağaçların yapraklarında yeni, daha üretken ve istikrarlı bağlantılar oluşturabileceğini göstermiştim. Tüm bu "önem", ağaç inşa etmedeki açgözlülük ilkesidir, ki bu a priori doğru değildir, bu nedenle, tahmin edicileri değerlendirmek için ayrı anlamlı yöntemlere ihtiyacımız var - henüz bunlara sahip değilim.

peki, bir test örneğinin önemine bakmanız ve bir eğitim örneğine uymanız gerekir. Klasik olarak yerleşik gini tipi içe aktarmalar her zaman yalan söyler, kesinlikle permütasyon yapmanız gerekir (her bir perdikatörü art arda rastgele rastgele seçin ve model hatasına bakın), sonra en kötülerini atın. İlk önce ilişkili özelliklerden kurtulmanız gerekir, aksi takdirde permütasyon yoluyla önem de yalan olacaktır. Hiçbir saçmalık elde edilmez, mümkün olan en iyi model elde edilir. Daha iyi bir şey icat edilmediyse neden bir bisiklet icat edesiniz ki?

 
Alexey Vyazmikin :

İyi görünüyor, ancak modelin süresi çok kısa, bir yıl önceki verilerde nasıl davranıyor?

15 dakika, sadece daha fazla öğretme çünkü bekleme daha uzun

farklı modeller farklı davranıyor, bu özellikle çok iyi değil .. muhtemelen sadece fxsaber birkaç yıl içinde 15 dakikalık OOS'ta böyle eşit bir program yapabilir :)

İlkesiz bir öğrenmem var, yani. modelde başlangıçta hiçbir strateji belirlenmemiştir
 
Alexey Vyazmikin :

Burada, kârın modeldeki ağaç sayısına bağımlılığının grafiğine bakıyorum (512 model)

ve 60'ın üzerinde çok sayıda ağacı olan modellerin birleşme olasılığı daha düşük veya örnek küçük gibi görünüyor ...

İşte farklı sayıda ağaç içeren diğer grafikler.

Hepsi için örnek 7400, rf algoritması

Ağaç sayısı 50


Ağaç sayısı arttıkça hata azalır. Aniden sıfıra yükselmek gerekli gibi görünüyor.

Ağaç sayısı = 150


150'de doğruluk artar, ancak çok mütevazı - birkaç yüzde biri

Ağaç sayısını artıralım.




Sonuç: 50 ağaca kadar ağaç sayısını artırmak hala mantıklı, ancak 100'den fazla bir anlam ifade etmiyor.

Şimdi yapmak için çok tembel ama örnek boyutunu değiştirdim.

1000 gözleme kadar örnek boyutu, modelin doğruluğunu büyük ölçüde etkiler. Ancak 5000'den sonra numune boyutu simülasyonun doğruluğunu ETKİLEMEZ.


Bundan şu sonuca varıyorum: hata, model veya parametreleri tarafından DEĞİL, "öngörücüler-hedef" bağlantısı tarafından belirlenir.

 
San Sanych Fomenko :

Ağaç sayısını artıralım.

Bundan şu sonuca varıyorum: hata, model veya parametreleri tarafından DEĞİL, "öngörücüler-hedef" bağlantısı tarafından belirlenir.

Başlangıçta 50-100 ağaç önerilir, bu kadar çok zayıf sınıflandırıcı üretmenin anlamı yok, ayrıca herhangi bir gelişme gözlemlemedim.

Monte Carlo ve diğerleri, SanSanych'e yardım etmeyi sever.
 
Maksim Dmitrievski :

peki, bir test örneğinin önemine bakmanız ve bir eğitim örneğine uymanız gerekir. Klasik olarak yerleşik gini tipi içe aktarmalar her zaman yalan söyler, kesinlikle permütasyon yapmanız gerekir (her bir perdikatörü art arda rastgele rastgele seçin ve model hatasına bakın), sonra en kötülerini atın. İlk önce ilişkili özelliklerden kurtulmanız gerekir, aksi takdirde permütasyon yoluyla önem de yalan olacaktır. Hiçbir saçmalık elde edilmez, mümkün olan en iyi model elde edilir. Daha iyi bir şey icat edilmediyse neden bir bisiklet icat edesiniz ki?

Dürüst olmak gerekirse, yöntemi anlamadım - tahmin edicilerin eğitimden adım adım ayrılmasından ve sonuçları bu tahmin edici ile ve bu tahmin edici olmadan karşılaştırmaktan mı bahsediyoruz? O zaman randomize etmek ne anlama geliyor? Nasıl karar verilir - kötü ya da değil - tahmin edici örneğin % 1'ini doğru bir şekilde ayırmanıza izin veriyorsa ve ağacın ortalama derinliğindeyse - iyi mi kötü mü? Belki sadece bir kök tahmincisi olan bir ağaç inşa etmenin kalitesini, her seviyede örneği nasıl kestiğini hesaba katmanız gerekir - belki de gradyanın yumuşak bir düşüşüne ihtiyacınız var ... Bir bisiklet icat etmelisiniz, çünkü ne kamusal alanda var olanın en iyisi değildir, örneğin burada, örneğin maksimuma değil, ortalamaya veya x sigmaya veya başka bir şeye göre bölünmesini sağlamak gerekebilir - belki kurallar olacaktır daha karmaşık, ancak daha kararlı. Bu arada, neden sadece bölmeler için sayısal sayaçları değil, aynı zamanda mantıksal olanları da kullanan, tahmin edicileri birbiriyle karşılaştıran bir öğrenme yöntemi olmadığını anlamıyorum?

Maksim Dmitrievski :

15 dakika, sadece daha uzun öğretmiyorum çünkü bekleme daha uzun

farklı modeller farklı davranıyor, bu özellikle çok iyi değil .. muhtemelen sadece fxsaber birkaç yıl içinde 15 dakikalık OOS'ta böyle eşit bir program yapabilir :)

İlkesiz bir öğrenmem var, yani. modelde başlangıçta hiçbir strateji belirlenmemiştir

Az önce ilkel bir strateji ortaya koymaya ve pazara girişi onaylayan veya yasaklayan filtreler yetiştirmeye çalışmadınız mı?

 
Alexey Vyazmikin :

Dürüst olmak gerekirse, yöntemi anlamadım - tahmin edicilerin eğitimden adım adım ayrılmasından ve sonuçları bu tahmin edici ile ve bu tahmin edici olmadan karşılaştırmaktan mı bahsediyoruz? O zaman randomize etmek ne anlama geliyor? Nasıl karar verilir - kötü ya da değil - tahmin edici örneğin % 1'ini doğru bir şekilde ayırmanıza izin veriyorsa ve ağacın ortalama derinliğindeyse - iyi mi kötü mü? Belki sadece bir kök tahmincisi olan bir ağaç inşa etmenin kalitesini, her seviyede örneği nasıl kestiğini hesaba katmanız gerekir - belki de gradyanın yumuşak bir düşüşüne ihtiyacınız var ... Bir bisiklet icat etmelisiniz, çünkü ne kamusal alanda var olanın en iyisi değildir, örneğin burada, örneğin maksimuma değil, ortalamaya veya x sigmaya veya başka bir şeye göre bölünmesini sağlamak gerekebilir - belki kurallar olacaktır daha karmaşık, ancak daha kararlı. Bu arada, neden sadece bölmeler için sayısal sayaçları değil, aynı zamanda mantıksal olanları da kullanan, tahmin edicileri birbiriyle karşılaştıran bir öğrenme yöntemi olmadığını anlamıyorum?

Az önce ilkel bir strateji ortaya koymaya ve pazara girişi onaylayan veya yasaklayan filtreler yetiştirmeye çalışmadınız mı?

önce modeli tüm özellikler konusunda eğitin, hataları kaydedin

daha sonra, sırayla, normal bir dağılımla diyelim ki öngörücülerin her birini randomize edin ve bu randomize (değiştirilmiş) dahil olmak üzere tüm özelliklerde hatayı tekrar kontrol edin ve orijinal olanla karşılaştırın. Modeli yeniden eğitmeye gerek yoktur. Ve böylece tahmin edicilerin her birini kontrol edin. Tahmin edici iyiyse, numunenin tamamındaki hata (diğer tüm orijinal tahmin ediciler dahil) orijinal ile karşılaştırıldığında önemli ölçüde artacaktır. Hata farklılıklarını kaydedin, bunlara göre en iyi özellikleri filtreleyin. Ardından, sonunda sadece üretimdeki en iyi ve modelden öğrenin. Kötü tahminciler, model için gürültüdür,% 1'leriyle neye ihtiyaç duyuyorlar. Genellikle 5-10 tane iyi tane kalır, gerisinin önemi katlanarak azalır (Zipf yasası)

Filtreleri öğretmeye çalıştım, ama biraz, pek bir nokta göremiyorum, her şeyi aynı anda tek bir modele koymak daha iyi

eğer ustalaşırsanız, tahmin edicilerin seçimi hakkında ÇOK yetkin (zaten daha önce attım)

Beware Default Random Forest Importances
Beware Default Random Forest Importances
  • explained.ai
0.995 worst radius 0.995 mean perimeter 0.994 mean area 0.984 worst perimeter 0.983 worst area 0.978 radius error 0.953 mean concave points 0.944 mean concavity 0.936 worst concave points 0.927 mean compactness 0.916 worst concavity 0.901 perimeter error 0.898 worst compactness 0.894 worst texture 0.889 compactness...
 
San Sanych Fomenko :

İşte farklı sayıda ağaç içeren diğer grafikler.

Hepsi için örnek 7400, rf algoritması

Ağaç sayısı 50


Ağaç sayısı arttıkça hata azalır. Aniden sıfıra yükselmek gerekli gibi görünüyor.

Ağaç sayısı = 150


150'de doğruluk artar, ancak çok mütevazı - birkaç yüzde biri

Ağaç sayısını artıralım.




Sonuç: 50 ağaca kadar ağaç sayısını artırmak hala mantıklı, ancak 100'den fazla bir anlam ifade etmiyor.

Şimdi yapmak için çok tembel ama örnek boyutunu değiştirdim.

1000 gözleme kadar örnek boyutu, modelin doğruluğunu büyük ölçüde etkiler. Ancak 5000'den sonra numune boyutu simülasyonun doğruluğunu ETKİLEMEZ.


Bundan şu sonuca varıyorum: hata, model veya parametreleri tarafından DEĞİL, "öngörücüler-hedef" bağlantısı tarafından belirlenir.


Rastgele ormanlar ve farklı güçlendirme türleri için farklı sayıda ağaç olabileceğini ve bunların sayısının tahmin edicilerin kalitesine ve aynı hedef için farklı olabilecek durumlara bağlı olduğunu düşünüyorum (örneğin, hedef, 100 puan kârdır. Herhangi bir nokta). Karar vermek için hangi yaprak kombinasyonlarının ve ne sıklıkla kullanıldığını görmek ilginç - bu tür bilgilerin modeli daha iyi değerlendirebileceğini düşünüyorum. Diğer bir sıkıntı ise test ve eğitim için durağan bir piyasa modeli sunmanın imkansız olmasıdır, bu da testlerde eğitilen modelin sadece bir kısmının kullanılacağı ve modelin bu kısım için değerlendirilmesi gerektiği, diğer kısmın ise diğer kısım için değerlendirilmesi gerektiği anlamına gelir. çok daha iyi olduğu ortaya çıkıyor. Ve eğer sınıflandırma hatası modül olarak doğru sınıflandırmaya eşit değilse (bir trol kullanırız ve hatanın maliyetini düşürürüz), o zaman model tahmini daha da karmaşık hale gelir.

 
Maksim Dmitrievski :

önce modeli tüm özellikler konusunda eğitin, hataları kaydedin

daha sonra, sırayla, normal bir dağılımla diyelim ki öngörücülerin her birini randomize edin ve bu randomize (değiştirilmiş) dahil olmak üzere tüm özelliklerde hatayı tekrar kontrol edin ve orijinal olanla karşılaştırın. Modeli yeniden eğitmeye gerek yoktur. Ve böylece tahmin edicilerin her birini kontrol edin. Tahmin edici iyiyse, numunenin tamamındaki hata (diğer tüm orijinal tahmin ediciler dahil) orijinal ile karşılaştırıldığında önemli ölçüde artacaktır. Hata farklılıklarını kaydedin, bunlara göre en iyi özellikleri filtreleyin. Ardından, sonunda sadece üretimdeki en iyi ve modelden öğrenin. Kötü tahminciler, model için gürültüdür,% 1'leriyle neye ihtiyaç duyarlar. Genellikle 5-10 tane iyi tane kalır, gerisinin önemi katlanarak azalır (Zipf yasası)

Filtreleri öğretmeye çalıştım, ama biraz, pek bir nokta göremiyorum, her şeyi aynı anda tek bir modele koymak daha iyi

eğer ustalaşırsanız, tahmin edicilerin seçimi hakkında ÇOK yetkin (zaten daha önce attım)

Teşekkür ederim. Tahmin edicinin örnekte sahip olduğu aynı değerlerle rastgele yapmak gerekiyor, doğru anlamış mıyım?

Genel olarak yaklaşım açık, teşekkürler, nasıl uygulanacağını ve test edileceğini düşünmemiz gerekiyor.

Ne yazık ki, üstesinden gelemiyorum, bu yüzden ara sıra dudaklarından bir tekrarı dinleyeceğim.

Doğru, yine, bunun tamamen doğru olmadığını düşünüyorum, çünkü her şey tahmin edicinin ağaçta köke ne kadar yakın olduğuna bağlı olacaktır ...