Ticarette makine öğrenimi: teori, pratik, ticaret ve daha fazlası - sayfa 386

 

Tamam, böylece %0,8 dürüstçe alındı. Görünüşe göre modelde yeniden eğitime karşı koruma sağlamak için yerleşik bir algoritma var.


Maksim Dmitrievski :

Birincisi, buradaki küme çok büyük, ikincisi, özelliklerin doğası hiç bilinmiyor ve vektörler ve orman gibi doğrusal modeller burada açıkça uygun değil, karmaşık bir ağ dışı yapmanız gerekiyor, belki bu nedenidir.


Sınıflandırma modelleri gerçekten uymuyor, evet. Bir gerilemeye ihtiyacımız var. Sonuç, modelin doğruluğu ile değil, genellikle regresyon sonuçlarına daha yüksek bir tahmin veren Logloss işlevi aracılığıyla değerlendirildiği için

MultiLogLoss <- function(act, pred) {
  eps <- 1 e- 15
  pred <- pmin(pmax(pred, eps), 1 - eps)
  sum(act * log (pred) + ( 1 - act) * log ( 1 - pred)) * - 1 / length(act)
}

act (gerçek) - beklenen sonuç, vektör
pred (tahmin edilen) - tahmin edilen sonuç, vektör

Bu fonksiyonun değeri ne kadar düşükse o kadar iyidir. Fonksiyonun sonucu 0.6931472'den büyük veya eşitse, model kötüdür, böyle bir sonuç rastgele tahmin anlamına gelir.

54 raundun sonuçlarına bakılırsa, yarışmanın galibi, katılımcılar için yeni, gizli veriler üzerinde değerlendirildiğinde 0.690467 aldı, bu sonuç için çaba sarf edilmelidir.

 
Dr. tüccar :

Tamam, böylece %0,8 dürüstçe alındı. Görünüşe göre modelde yeniden eğitime karşı koruma sağlamak için yerleşik bir algoritma var.



Sınıflandırma modelleri gerçekten uymuyor, evet. Bir gerilemeye ihtiyacımız var. Sonuç, modelin doğruluğu ile değil, genellikle regresyon sonuçlarına daha yüksek bir tahmin veren Logloss işlevi aracılığıyla değerlendirildiği için

act (gerçek) - beklenen sonuç, vektör
pred (tahmin edilen) - tahmin edilen sonuç, vektör

Bu fonksiyonun değeri ne kadar düşükse o kadar iyidir. Fonksiyonun sonucu 0.6931472'den büyük veya eşitse, model kötüdür, böyle bir sonuç rastgele tahmin anlamına gelir.

54 raundun sonuçlarına bakılırsa, yarışmanın galibi, katılımcılar için yeni, gizli veriler üzerinde değerlendirildiğinde 0.690467 aldı, bu sonuç için çaba sarf edilmelidir.


Regresyon NN bunu eğitim örneğinde veriyor, aynı zamanda bir test, nasıl doğru yorumlanacağından emin değilim, ama bence her şey de kötü) I.e. standart basit sinir ağı, regresyonda sınıflandırmaya göre avantaj sağlamaz ve ayrıca diğer sınıflandırma yöntemlerine göre avantaj sağlamaz. Ve sonra normalleştirilmiş girdiler ve çıktılar, bence bu durumda regresyon uygulamak anlamsız..


 

Rekabetçi bir alanda literatür seçimi


5087 doküman, başlıklarda ve anahtar kelimelerde GARCH, GJR-GARCH, EGARCH aramasıyla eşleşti.


Teoride, GARCH modellerinde her şey akıllıcadır, her şey şeffaf bir şekilde modellenmiştir:

1. Umutsuz olan orijinal seriler log(Xi/ Xi-1) olarak artımlara çevrilir.

2. Ortalama ARIMA modeliyle modellenmiştir

3. Dağılımdaki nüanslar, eğim ve basıklık (kalın kuyruklar) vb. anlamında modellenmiştir.

4. Dağıtımın kendisi modellenmiştir. Genellikle ya çarpık bir t-dağılımı ya da çarpık bir GED dağılımı alınır.


Borsalarda işlem yapmayı düşünürken, model parametrelerindeki değişiklik veya yayılma dikkate alınarak mod değiştirmeli modeller tanıtılır.


Makaleler genellikle hazır R kodu içerir.

 
San Sanych Fomenko :

Rekabetçi bir alanda literatür seçimi


5087 doküman, başlıklarda ve anahtar kelimelerde GARCH, GJR-GARCH, EGARCH aramasıyla eşleşti.


Teoride, GARCH modellerinde her şey akıllıcadır, her şey şeffaf bir şekilde modellenmiştir:

1. Umutsuz olan orijinal seriler log(Xi/ Xi-1) olarak artımlara çevrilir.

2. Ortalama ARIMA modeliyle modellenmiştir

3. Dağılımdaki nüanslar, eğim ve basıklık (kalın kuyruklar) vb. anlamında modellenmiştir.

4. Dağıtımın kendisi modellenmiştir. Genellikle ya çarpık bir t-dağılımı ya da çarpık bir GED dağılımı alınır.


Borsalarda işlem yapmayı düşünürken, model parametrelerindeki değişiklik veya yayılma dikkate alınarak mod değiştirmeli modeller tanıtılır.


Makaleler genellikle hazır R kodu içerir.


Peki ya artışların hiçbir şekilde eğilimleri göstermediği gerçeğine ne demeli? Modelimde kısa vadeli doğruluk için artışlar da kullanıyorum, ancak trend oranlarına da zor bir şekilde bakıyorum

Ve farklı zaman örneklerinde artışları izleyebilirsiniz. Farklı TF'lerden dönüşün kendisini öğretmeye çalışmadınız mı?

 
Maksim Dmitrievski :



Peki ya artışların hiçbir şekilde eğilimleri göstermediği gerçeğine ne demeli?

Evet, hiçbir şekilde.

Model ya bir artış ya da bir yön öngörür - sınıflandırma modelleri bunun için vardır.

Haberlerde hareketi tanıyacak sınıflandırma modelleri bilmiyorum. Ve GARCH için modelin anlamı budur - ortaya çıkan hareketi çözmek. Şişman kuyruklar - sonuçta, trendler kırıldığında, keskin geri dönüşler meydana geldiğinde haberlerdeki hareket budur.


Ve farklı zaman örneklerinde artışları izleyebilirsiniz.

Birkaç zaman diliminde çalışan ilginç GARCH modelleri var. Anlamı şu.

H1'de bir artış öngördüğümüzü varsayalım. Model, dağılımı karakterize eden girdi verilerini gerektirir. Bu tür girdi verileri olarak (genellikle oynaklık), önceki saati değil, mevcut saat içindeki dakikaları alırız.

 
Dr. tüccar :

numerai'nin kuralları bu yıl birkaç kez değişti.

Eskiden kolay ve güzeldi - modeli tren masasında eğitmek, test tablosundaki hatayı kontrol etmek, onlara tahminler göndermek, onları gizli kontrol tablolarına tahmin etmek, üzerindeki hatayı hesaplamak. Gizli masada en az hata yapan kazanır. Test veri setindeki hatanın gerçekten gizli veri setlerinde ortaya çıkan hatayla çakışması çok iyi ve doğruydu, modelinizi kontrol edebilirsiniz.

Sonra bir şeyi değiştirdiler ve test masasındaki hata artık gizli test masalarındaki hatayla ilişkili değildi. Tepeden tüm liderler gitti; Modellerini gizli kontrol listelerine soktuğu için şanslı olan rastgele insanlar kazanmaya başladı. IMHO numerai'den başarısız oluyor, bir tür rastgele tortu ve bir yarışma değil.

Sonra tüm yeterli olanların rastgele rekabetlerinden atıldığını gördüler, hatalarını anladılar ve yine bir şeyleri değiştirdiler. Artık tahminler çeşitli kriterlere göre değerlendiriliyor. Hepsinden önemlisi, "benzersiz" kriteri beni çileden çıkarıyor, eğer biri daha önce benzer sonuçlar gönderdiyse, o zaman sizinki intihal olarak reddedilecektir. Onlar. Birkaç kişi bir model oluşturmak için aynı çerçeveyi kullanırsa, erken uyanan ve tahmini gönderen kişi parayı alacaktır.
Karları hesaplarken modelin doğruluğu artık genellikle işe yaramaz. 0 hatası alabilir, en üstte 1. sırada olabilir ve en üstteki, kendilerinin indirmek için verdikleri test verilerindeki sonucu gösterdiğinden hiçbir şey kazanamazsınız, en üstteki artık gizli kontrol listelerinin sonucunu göstermez.
Rekabetlerinin şu anki yinelemesi IMHO saçmalığı, şeffaflık yok, her şey kafa karıştırıcı. Yine yarışmada bir şeyleri değiştirmelerini bekliyorum, umarım yine yeterli olur.

Kuralları değiştirmeden önce bu siteden ne kadar gerçek para kazandınız?
 

 
Dr. tüccar :

Daha çok bir tür indirim hizmeti gibi)) Ve bir veri bilimcisinin çalışması için bir ödeme değil

 

İlk 100 kazanana her hafta toplam 3.600 dolar ödeniyor, ancak ödüller hacim olarak çok keskin bir şekilde düşüyor. Önce 1000$, sonra 435$, sonra 257$ vb. Onuncu sırada yer alsanız bile (genellikle 500'den fazla katılımcı vardır), yaklaşık 63 $ alacaksınız. Zorbalığa maruz kalıyorlar.

Bu yarışmayı, para kazanmanın bir yolu olarak değil, kendi modelimi liderlerle karşılaştırmanın ve veri madenciliğine farklı yaklaşımlar çalışmanın bir yolu olarak görüyorum.

 

Skor tablosundan alınan puanın (val logos, dikey) modelin yeni verilerde aldığı puanla (canlı sözlük, yatay) nasıl ilişkili olduğunu bilmek istedim. (55 tur)

Sadece sol alt dikdörtgende olanlara aferin. Gerisi, skor tablosuna girmelerine rağmen, yeni verilerde birleşti. Skor tablosunda mantık açısından en iyisi (sağdaki en düşük iki nokta) genellikle yeni verilerde en kötü sonucu gösterdi.

Grafikte herkesin solunda olan kazandı ve bu rastgele bir aykırı değer gibi görünüyor ve amaçlı olmayan makine öğrenimi.

İlginç bir şekilde, doğrulama verilerinde 0,690 - 0,691'lik bir mantıkla, neredeyse herkes yeni verilerde iyi bir sonuç gösterdi, bunun neyle bağlantılı olduğunu hayal bile edemiyorum.