Ticarette makine öğrenimi: teori, pratik, ticaret ve daha fazlası - sayfa 184

 
Andrey Dik :

Daha önce 3 sınıfa ayırma yaklaşımımı tanımlamıştım (sat, çitle, al). "Çit" sınıfı, birbiriyle çelişen veya alım satım sınıflarına ayrılamayan tüm durumları içerir. Alış ve satışta sadece %3-10 düşüş ortaya çıkıyor. Bu yaklaşımın güzelliği, tanıdık olmayan veriler (gerçek) üzerinde çalışırken, zamanla ağın piyasa durumlarını tanımayı bırakması ve onları giderek daha fazla "çite" göndermeye başlaması, yani yavaş yavaş ticarete son vermesidir. Bu, zamanla girdi ile daha fazla hata yapmaya başlamaktan yüz kat daha iyidir.

Ama hepsi boşuna, kimsenin buna ihtiyacı yok, kimse dinlemiyor.

çit nedir? satın almadaki ızgara satın al ve sat üzerindeki ızgara oturdu diyorsa?

Bu aynı diken Reshetov

 
Andrey Dik :

Daha önce 3 sınıfa ayırma yaklaşımımı tanımlamıştım (sat, çitle, al).

Bu, jPrediction'da zaten uygulanmaktadır. Bu nedenle, ikili (iki sınıflı) değil, üçlü (üç sınıflı) sınıflandırıcı olarak adlandırılır.

Çok önemsiz bir şekilde uygulandı:

  1. Eğitim: Örneğin örtüşmeyen iki parçası üzerinde iki ikili sınıflandırıcı eğitiyoruz.
  2. Çapraz doğrulama: ikili dosyaların eğitilmediği alanlarda test edilmesi.
  3. Sınıflandırma: Her iki ikili sınıflandırıcının okumaları aynıysa, sonuç olarak bunlardan herhangi birinin çıktı değerini alırız. İkili dosyaların okumaları farklıysa, şu çıktıyı alırız: "çitin üzerine otur ve bambu tüttür."

Bundan önce "bisiklet" yöntemini uygulaması gerekiyordu:

  1. Numunenin bir yarısı üzerinde ikili bir sınıflandırıcı eğitiyoruz
  2. Numunenin ikinci yarısında test
  3. ROC analizini kullanarak, duyarlılığı artırmak için eşiklerden birini artırır ve özgüllüğü artırmak için ikinci eşiği düşürürüz.
  4. Sınıflandırma: Sınıflandırılan desen hassasiyet eşiğinin üzerindeyse satın alıyoruz. Model özgüllük eşiğinin altındaysa satıyoruz. Desen her iki eşik arasındaysa, çitin üzerine oturur ve bambu tüttürürüz.

Bununla birlikte, yukarıdaki "bisiklet", çapraz doğrulama olmaması nedeniyle iki ikili ile sınıflandırmaya kıyasla daha fazla yanlış sinyal verir, ancak uygulanması daha kolaydır.

Uygulamada en ilkel olmasına rağmen en aptal ve en ümitsiz üçlü bisiklet: üç çıkışlı bir YSA'dır. Bu tür çıktıların her birinin kendi sınıflandırma eşiği varsa, o zaman üç değil sekiz olası olası durum elde ederler, bunlardan yalnızca üçü belirsizdir (değer üç çıktıdan yalnızca birinde eşiğin üzerindedir) ve beşinin nasıl yapılacağı belirsizdir. yorumlayın (eşiğin üzerindeki değerler çıktılardan birinden fazla veya üç çıktının hepsinde eşiğin altında).

 
mytarmailS :

çit nedir? satın almadaki ızgara satın al ve sat üzerindeki ızgara oturdu diyorsa?

Bu aynı diken Reshetov

Numara. Link vermeyeceğim, araştırın.
 
Yuri Reshetov :

Bu, jPrediction'da zaten uygulanmaktadır. Bu nedenle, ikili (iki sınıflı) değil, üçlü (üç sınıflı) sınıflandırıcı olarak adlandırılır.

Çok önemsiz bir şekilde uygulandı:

  1. Eğitim: Örneğin örtüşmeyen iki parçası üzerinde iki ikili sınıflandırıcı eğitiyoruz.
  2. Çapraz doğrulama: ikili dosyaların eğitilmediği alanlarda test edilmesi.
  3. Sınıflandırma: Her iki ikili sınıflandırıcının okumaları aynıysa, sonuç olarak bunlardan herhangi birinin çıktı değerini alırız. İkili dosyaların okumaları farklıysa, şu çıktıyı alırız: "çitin üzerine otur ve bambu tüttür."

Bundan önce "bisiklet" yöntemini uygulaması gerekiyordu:

  1. Numunenin bir yarısı üzerinde ikili bir sınıflandırıcı eğitiyoruz
  2. Numunenin ikinci yarısında test
  3. ROC analizini kullanarak, duyarlılığı artırmak için eşiklerden birini artırır ve özgüllüğü artırmak için ikinci eşiği düşürürüz.
  4. Sınıflandırma: Sınıflandırılan desen hassasiyet eşiğinin üzerindeyse satın alıyoruz. Model özgüllük eşiğinin altındaysa satıyoruz. Desen eşikler arasındaysa, çitin üzerine oturur ve bambu tüttürürüz.

Bununla birlikte, yukarıdaki "bisiklet", iki ikili ile sınıflandırmaya kıyasla daha fazla yanlış sinyal verir, ancak uygulanması daha kolaydır.

En aptal ve en ümitsiz üçlü bisiklet ve uygulamada en ilkel: bu, üç çıkışlı bir YSA'dır. Bu tür çıktıların her birinin kendi sınıflandırma eşiği varsa, o zaman üç değil sekiz olası olası durum elde ederler, bunlardan yalnızca üçü belirsizdir (değer üç çıktıdan yalnızca birinde eşiğin üzerindedir) ve beşinin nasıl yapılacağı belirsizdir. yorumlayın (eşiğin üzerindeki değerler çıktılardan birinden fazla veya üç çıktının hepsinde eşiğin altında).

Düşünmediğiniz başka bir yol daha var. Nörondan yalnızca bir çıktı vardır, ancak değer aralığı şartlı olarak üç alana bölünmüştür. [-1.5...1.5]'i beğendim. [-1.0...1.0] değerlerinin orta aralığı "çit" dir. Nöron için durum ne kadar tanıdıksa, o kadar çok heyecanlandığı ve değerlerin aşırı değerlere daha güçlü bir şekilde yöneldiği ortaya çıkıyor. [-1.0...1.0] aralığının dışındaki değerler, karşılık gelen Al ve Sat sinyalleridir.

Ancak insanlar hala ikili sınıflandırmaya eziyet etmeye devam ediyor.

 
Andrey Dik :

Düşünmediğiniz başka bir yol daha var. Nörondan yalnızca bir çıktı vardır, ancak değer aralığı şartlı olarak üç alana bölünmüştür. [-1.5...1.5]'i beğendim. [-1.0...1.0] değerlerinin orta aralığı "çit" dir.

Dikkate almadım, ama dikkatsizce okudunuz. Paragraf 3 ve 4'te bir ikili ile iki eşikli "bisiklet" yöntemine bakın, alıntı yapıyorum:

Yuri Reshetov :
...

Bundan önce "bisiklet" yöntemini uygulaması gerekiyordu:

  1. Numunenin bir yarısı üzerinde ikili bir sınıflandırıcı eğitiyoruz
  2. Numunenin ikinci yarısında test
  3. ROC analizini kullanarak, duyarlılığı artırmak için eşiklerden birini artırır ve özgüllüğü artırmak için ikinci eşiği düşürürüz.
  4. Sınıflandırma: Sınıflandırılan desen hassasiyet eşiğinin üzerindeyse satın alıyoruz. Model özgüllük eşiğinin altındaysa satıyoruz. Desen eşikler arasındaysa, çitin üzerine oturur ve bambu tüttürürüz.
...
 
Yuri Reshetov :

Yaklaşımınızla ilgili sorun şu ki, başlangıçta (al/sat sinyallerinin üçlü filtrelemesinden önce) MO'larınız, Tanrı korusun, tüm verilerin %5'ini açıklayabilecek veriler üzerinde eğitiliyor, anlıyor musunuz? Üçlü filtrelemeden önce bile MO zaten gürültü konusunda eğitilmiştir ve çıktıları uygundur

Andrey Dik :

Bence aynı hikaye...

=================================

Benim yöntemim karar vermede MO'yu hiç kullanmıyor ve tüm örneği açıklamaya çalışmıyor, sadece güçlü bir istatistik olarak kabul ettiği şeyi. düzenlilik ve bu tür veriler tüm verilerin yalnızca% 0,01'i ise, o zaman sadece kalacaklar ...

 
Andrey Dik :

...

Ancak insanlar hala ikili sınıflandırmaya eziyet etmeye devam ediyor.

Çünkü çoğu insan için ikili sınıflandırma uygulanmış hazır bir paketi almak, üçlü bir deneme yapmaktan daha kolaydır. Herkes "bisiklet" icat etmeyi sevmez çünkü tüm fikirler iyi sonuçlar vermez. Bazı insanlar, kare tekerlekleri olsa bile, halihazırda yapılmış bir bisiklete binmeyi daha kolay buluyor.

Üçlü sınıflandırma kullanılıyorsa, çoğu makine öğrenimi kaynağı en umut verici yöntemi sunar: uygulaması kolay, ancak pratikte tamamen uygun olmayan üç çıktılı bir YSA eğitin.

 
Yuri Reshetov :

Çünkü çoğu insan için ikili sınıflandırma uygulanmış hazır bir paketi almak, üçlü bir deneme yapmaktan daha kolaydır. Herkes "bisiklet" icat etmeyi sevmez çünkü tüm fikirler iyi sonuçlar vermez. Bazı insanlar, kare tekerlekleri olsa bile, halihazırda yapılmış bir bisiklete binmeyi daha kolay buluyor.

Üçlü sınıflandırma kullanılıyorsa, çoğu makine öğrenimi kaynağı en umut verici yöntemi sunar: uygulaması kolay, ancak pratikte tamamen uygun olmayan üç çıktılı bir YSA eğitin.

Evet, katılıyorum, öyle.

Ancak bir şey açıktır (taftoloji için üzgünüm) - ikili, piyasa için kullanılabilecek en kötü şeydir.

 
mytarmailS :

Yaklaşımınızla ilgili sorun şu ki, başlangıçta (al/sat sinyallerinin üçlü filtrelemesinden önce) MO'larınız, Tanrı korusun, tüm verilerin %5'ini açıklayabilecek veriler üzerinde eğitiliyor, anlıyor musunuz? Üçlü filtrelemeden önce bile MO zaten gürültü konusunda eğitilmiştir ve çıktıları uygundur

Saçma sapan konuşma. jPrediction, gürültülü veya önemsiz tahminciler üzerinde eğitilmiş bir modelle sonuçlanmamak için bir girdi boyutluluk azaltma algoritması uygular. Onlar. Farklı tahmin edici kombinasyonlarına sahip bir dizi modelden bir seçim yapılır ve bunlardan yalnızca en iyi genelleme yeteneğine sahip olan kalır.
 
mytarmailS :

Anlıyor musun? tüm örneği alım satım sınıflarına ayırmaya çalışıyoruz ve bu nedenle piyasadaki her hareketi kesinlikle tahmin etmek istiyoruz, ancak tahmincilerimiz o kadar çılgın ki tüm hareketlerin yalnızca ~% 3'ünü nesnel olarak tahmin edebiliyorlar, peki ne yapalım? ihtiyaç? en azından bu %3'ü almaya çalışmalıyız ve ayrılmaz olan diğer her şeyi atmalıyız, çünkü bu giriş / gürültünün filtrelenmesi gereken / yeniden eğitimin nedeni vb. ne istersen, her şey yoluna girecek...

Sorunların nedenini anladığınızı görüyorum. Ama senin önerdiğinden farklı bir şekilde çözmeye çalışıyorum.

SanSanych'in sözlerini takip etme eğilimindeyim - bu tür tahmin edicileri ve çöp olmayan bir hedefi seçmelisiniz. İyi tahmin edicilerle, son gönderideki benimki gibi değil, Vizard_ gibi bir eğitim örnekleri grafiği alacaksınız. Bu, çelişen eğitim örneklerini ortadan kaldırmaktan çok daha zordur, ancak bana öyle geliyor ki, doğru tahmin edici seçimi sonunda daha güvenilir olacak.

Yönteminize göre bir şey diyemem, nasıl yapacağımı bilmiyorum ama umarım başarılı olursunuz.