Ticarette makine öğrenimi: teori, pratik, ticaret ve daha fazlası - sayfa 2552

 
Vladimir Perervenko # :

Tahmin edicileri kullanırken başka bir sorun daha var - onların kayması.

Drift, anladığım kadarıyla aynı durağan değil mi?

Ya giriş fiyatını alan bir modeli eğitirsek ve çıktı, fiyatla bağıntılı olan maksimum durağan bir seri olursa? Bunlar, fiyatın sabit bir analogu nasıl oluşturulur ve daha sonra onunla nasıl çalışılır, işaretler, tren modelleri vb. benzer bir şey denedin mi?

 
Vladimir Perervenko # :

Tahmin edicileri kullanırken başka bir sorun daha var - onların kayması. Ve bu sorun hem testte hem de operasyonda tanımlanmalı ve dikkate alınmalıdır. Ekte makalenin bir çevirisi var (internette başkalarını arayın) ve bir drifter paketi var. O tek değil. Ancak sonuç olarak, tahmin edicileri seçerken sadece önemini değil, aynı zamanda sürüklenmelerini de hesaba katmak gerekir. Güçlü drifterler atılmalı veya dönüştürülmelidir, zayıf driftçiler için test ve çalışma sırasında (doğru) hesaba katılmalıdır.

Katılıyorum, durağan olmama (düzensizlik) her şeyi büyük ölçüde karmaşıklaştırıyor. Ne yazık ki, spam örneğindekinden çok daha karmaşık bir duruma sahibiz. Ama dikkate alınması gerekir.

 
elibrarius # :
Mumun rengi, %30'luk bir hatayla bile akabilir. Bundan ne kadar kâr elde edeceğimizi bilmiyoruz.. kural olarak, yavaş fiyat hareketlerinde (gecelik) renk iyi tahmin edilir ve 1 adet tahmin edilemeyen güçlü günlük mum, 10 küçük gece mumuna mal olabilir. Mumların rengini tahmin etmenin yine rastgele bir çıktıya sahip olduğunu düşünüyorum (rastgele boyutlar nedeniyle).
Bu nedenle sınıflandırmayı TP, SL ile yaptım. Eşitlerse, başarılı işlemlerin %52'si zaten kârlıdır. TP=2*SL ise. O zaman başarılı olanların >%33'ü kar edecek. Aldığım en iyi şey, 2 yıl boyunca TP=SL ile başarılı işlemlerin %52-53'üydü. Ama genel olarak zaten sabit olmayan TP/SL ile regresyona geçmeyi düşünüyorum. Daha doğrusu bir şekilde regresyon üzerinde sınıflandırma yapmak.

Evet, hatırladım, böyle bir hedef, oynaklığı hesaba katmadığı için bana pek etkili görünmüyor.

Seçim hazırlamak için hemen hemen her barda bir pozisyon açıldığını doğru anlıyor muyum?

 
SanSanych Fomenko # :

Prensipte çöpten şeker yapacak matematiksel yöntemler yoktur ve olamaz. Ya bir dizi PREDICTION öğretmeni vardır ya da hiçbiri yoktur .

Ve modeller, çeşitli çapraz doğrulamaların ve diğer hesaplama kapasiteli sapkınlıkların yanı sıra pratik olarak herhangi bir rol oynamaz.


not.

Bu arada, modeldeki yordayıcıların "öneminin" öğretmenin tahmin etme yeteneği ile hiçbir ilgisi yoktur.

Derinden yanılıyorsunuz - "doğru" tahmin edicileri bağımsız olarak seçebilecek modeller oluşturmak için ideal yöntemler yok. Ya da beni tanımıyorlar.

Pazarı tanımlamak ideal olabilir veya olmayabilir, ancak örneğin ve tahmin edicilerin analizini kullanarak, eğitimin gerçekleştiği verilere bir göz atarak da olsa modelin sonucunu önemli ölçüde iyileştirebilirsiniz.

Soru, modeli uygularken tahmin edicilerin nasıl verimli bir şekilde seçileceği ve anormal değişikliklerinin nasıl kontrol edileceğidir.

 
Vladimir Perervenko # :

Gürültü örneklerini işlemek için üç seçenek: silme, yeniden işaretleme (işaretlemeyi düzeltme) ve gürültü örneklerini ayrı bir sınıfa ayırma. Tecrübelerime göre numunenin yaklaşık %25'i "gürültü"dür. Kalite iyileştirmesi yaklaşık %5'tir, modellere ve veri hazırlamaya bağlıdır. Bazen başvuruyorum.

Tahmin edicileri kullanırken başka bir sorun daha var - onların kayması. Ve bu sorun hem testte hem de operasyonda tanımlanmalı ve dikkate alınmalıdır. Ekte makalenin bir çevirisi var (internette başkalarını arayın) ve bir drifter paketi var. O tek değil. Ancak sonuç olarak, tahmin edicileri seçerken sadece önemini değil, aynı zamanda sürüklenmelerini de hesaba katmak gerekir. Güçlü drifterler atılmalı veya dönüştürülmelidir, zayıf driftçiler için test ve çalışma sırasında (doğru) hesaba katılmalıdır.

İyi şanlar

Anladığım kadarıyla, makalenin yazarları, pencere için tahmin edici değerlerin dağılımını tam olarak analiz etmeyi ve büyük ölçüde farklılık gösteriyorsa, bir anomaliye işaret etmeyi teklif ediyor. Doğru anladıysam, örnekte 1000 göstergelik bir pencere alınır - bu büyük bir penceredir, ancak görünüşe göre istatistiksel olarak doğrulanmıştır. Soru şu ki, önemli bir değişikliği tespit etmek için iki dağılımı karşılaştırmak için hangi metrikler kullanılıyor?

Ayrıca, bu tür düşünceler, değişimin kendisi başka bir tahminci tarafından tahmin edilebilir, diyelim ki haftalarda faiz oranındaki bir değişikliğin neden olduğu küresel bir eğilim değişikliğimiz var - tüm örneklerde bu tür birkaç değişiklik var - 3 ve model olsa bile bu tahmin edicileri basitçe seçmeyebilir, ancak iki tahmin ediciyi birleştirirseniz, o zaman "anormal" değişiklik yoruma açıktır. Böylece, kendi içinde sürüklenmenin bir tahmin ediciyi atmak için bir neden değil, onu açıklayan bir faktör aramak için bir neden olduğu sonucuna varıyorum - yani. karşılık gelen tahmin ediciyi bulmaya çalışın ve bunları yeni bir tahmin edici oluşturmak için birleştirin.

Sırayla, kısaca yöntemimden bahsedeceğim - tahmin edicileri "kuanta" (segmentler) olarak analiz ediyorum ve tahmin yetenekleri aracılığıyla kuantumun ikili yanıtını değerlendiriyorum. Tarih boyunca bu tür tahminlerin bir kesimini yaparak, hem ayrı tahmin ediciler olarak hizmet edebilen hem de temel tahmin edicileri seçmek için kullanılabilen iyi nicem kümelerini seçmek mümkündür. Bu yaklaşım aynı zamanda sonuçları iyileştirir. Buna göre, kuanta davranışının kararlılığının değerlendirilmesi ve kontrol numuneleri üzerindeki seçimleri, modelin CatBoost'ta eğitiminin sonucunu önemli ölçüde iyileştirir ve burada bunun kullanılmasına izin verilip verilmediğini veya zaten kendi kendini kandırma olup olmadığını düşünüyorum.

 
Alexey Vyazmikin # :

Evet, hatırladım, böyle bir hedef, oynaklığı hesaba katmadığı için bana pek etkili görünmüyor.

Kabul ediyorum. Geceleri işlem birkaç saat askıda kalır ve gün içinde 5 dakikada tamamlanabilir. Bu yüzden sınıflandırmaya nasıl bir regresyon modeli ekleyeceğimi düşünüyorum. "Alın" da 0,1,2 sayısını tahmin etmek işe yaramaz. Daha akıllı bir şeye ihtiyacımız var.

Seçim hazırlamak için hemen hemen her barda bir pozisyon açıldığını doğru anlıyor muyum?

Evet, öngörülen bir alım/satım sınıfı varsa. Hala bir sınıf var - beklemek.

 
elibrarius # :

Kabul ediyorum. Geceleri işlem birkaç saat askıda kalır ve gün içinde 5 dakikada tamamlanabilir. Bu yüzden sınıflandırmaya nasıl bir regresyon modeli ekleyeceğimi düşünüyorum. Alındaki 0,1,2 sayısını tahmin etmek işe yaramaz. Daha akıllı bir şeye ihtiyacımız var.

Lojistik regresyon
 
SanSanych Fomenko # :

Birkaç yıldır forumda değildim, ama işler hala orada. şarkıda olduğu gibi: "Ne olduğun, öyle kaldı, bozkır kartalı, atılgan bir Kazak ...".

İstatistikler, bir aksiyom olduğu için tartışılmayan bir aksiyomla başlar:


Çöp içeri çöp dışarı.


Prensipte çöpten şeker yapacak matematiksel yöntemler yoktur ve olamaz. Ya bir dizi PREDICTION öğretmeni var ya da hiç yok .

Ve modeller, çeşitli çapraz doğrulamaların ve diğer hesaplama kapasiteli sapkınlıkların yanı sıra pratik olarak herhangi bir rol oynamaz.


not.

Bu arada, modeldeki yordayıcıların "öneminin" öğretmenin tahmin etme yeteneği ile hiçbir ilgisi yoktur.

Yoldaş Sukhov gibi düşünenler her zaman vardır: "Elbette acı çekmek daha iyidir")

Uygun tahmin edicileri aramanın belirli bir modelden daha önemli olduğuna katılıyorum. Ve onları, her şeyden önce, konu alanı çalışmasından ve yalnızca ML algoritmalarının gücüne (ve çubuklardan yorumlanamaz bir şekilde tahmin ediciler oluşturmaya) dayanmadan inşa etmek daha iyidir.

Öngörücülerden daha az önemli olan, konu alanına ve çözülmekte olan probleme çok uygun olması gereken kayıp fonksiyonudur.

 
AMO ile çalışmayı kalıp arama olarak adlandırmanın mümkün olup olmadığını bile bilmiyorum, bunun yerine hedef eğlenceye genel bir yaklaşım / ayarlama.
AMO akıllıca bir şey bulabilir mi?
 
mytarmailS # :
AMO akıllıca bir şey bulabilir mi?

Hayır, hafızaya alınmış bir geçmiş veritabanı. Ağaçta yaprak nedir? Geçmişten 10-20-100-1000 örnek/dizi, bir şekilde benzer olarak seçilmiş. Sayfanın cevabı: sınıflandırma için - en sık görülen sınıfın veya sadece en sık görülen sınıfın yüzdesi, regresyon için tüm değerlerin aritmetik ortalaması.

Ayrıca, eğer orman ise, ormandaki tüm ağaçların değerinin ortalamasını alır. Artıyorsa, tüm ağaçların değerlerini toplar (sonraki her ağaç, en doğru yanıtı almak için önceki tüm ağaçların toplamını ayarlar.)