Ticarette makine öğrenimi: teori, pratik, ticaret ve daha fazlası - sayfa 58

 
Yuri'ye bir sorum var. Üçlü bir modelin kök kökünü bulurken, verileri manuel olarak girdiğimde, bazen sonuçlarda bir tire karakteri görüntüleniyor. Yani 0 var, 1 var ve tire var. Peki çizgi ne anlama geliyor?
 

Zigzag'ı sınıflandırmaya çalıştım, evet, ama geri dönüş noktasını değil, zikzakın gösterdiği tüm trend, mevcut zz trendi aşağıysa sonuç 0 ve trend yukarıysa 1'dir. 33 trend oldukça dengesiz görünüyor ama onlardan vazgeçmemin nedeni bu değil. Modelin çok yüksek doğruluk gerektirmesi hoşuma gitmedi. Model trend sırasında birkaç hata yaparsa ve ticareti yanlış zamanda tersine çevirirse, yalnızca bir çubukla bile olsa, bu genellikle ek kayıplara ve ayrıca her seferinde spread ile bir komisyon ödenmesine yol açar. Model yalnızca bir ticaret açarsa, trendin sonunu beklerse ve tersine dönerse karlı olacaktır. Her trend içinde tek bir hata olmadan.

Eğilimi değil, bir sonraki çubuğu tahmin ederseniz, her hata daha küçük parasal kayıplara yol açacaktır.


Dengeleme yapmıyorum, bir sonraki barı tahmin ederken, sınıfların dağılımı zaten minimum, herhangi bir sınıfın + -%10'unun sonucu büyük ölçüde etkileyeceğini düşünmüyorum.

Burada makalede, dengelemenin yerine modelin doğru değerlendirilmesinin (F-ölçü veya R-Hassasiyet) geçebileceğini yazıyorlar. Bu, SanSanych'in daha önce bir bağlantı verdiği makalenin Rus analogudur.

http://bazhenov.me/blog/2012/07/21/classification-performance-evaluation.html

...

Ancak bu metrik [doğruluk] dikkate alınması gereken bir özelliğe sahiptir. Tüm belgelere aynı ağırlığı atar; bu, eğitim örneğindeki belgelerin dağılımı bir veya daha fazla sınıfa güçlü bir şekilde önyargılıysa doğru olmayabilir. Bu durumda sınıflandırıcı bu sınıflar hakkında daha fazla bilgiye sahiptir ve buna bağlı olarak bu sınıflar içerisinde daha yeterli kararlar verecektir. Pratikte bu, örneğin %80'lik bir doğruluğa sahip olduğunuz gerçeğine yol açar, ancak aynı zamanda belirli bir sınıf çerçevesinde, sınıflandırıcı belgelerin üçte birini bile doğru bir şekilde belirlemeden çok kötü çalışır.

Bu durumdan çıkmanın bir yolu, sınıflandırıcıyı özel olarak hazırlanmış, dengeli bir belge bütünü üzerinde eğitmektir. Bu çözümün dezavantajı, sınıflandırıcıdan belgelerin göreceli sıklığı hakkında bilgi almanızdır. Bu bilgi, diğer şeyler eşit olduğunda, doğru kararı vermek için çok faydalı olabilir.

Başka bir çıkış yolu, resmi kalite değerlendirmesine yaklaşımı değiştirmektir.

Doğruluk ve Tamlık

Doğruluk (kesinlik) ve geri çağırma (hatırlama), çoğu bilgi çıkarma algoritmasının değerlendirilmesinde kullanılan metriklerdir. Bazen kendi başlarına, bazen de F-measure veya R-Precision gibi türetilmiş metrikler için bir temel olarak kullanılırlar. Doğruluğun ve eksiksizliğin özü çok basittir.

Bir sınıf içindeki sistemin doğruluğu, sistemin bu sınıfa atadığı tüm belgelere göre aslında bu sınıfa ait olan belgelerin oranıdır. Sistemin eksiksizliği, sınıflandırıcı tarafından bulunan sınıfa ait belgelerin test örneğinde bu sınıfa ait tüm belgelere oranıdır.

....

F-ölçü

Doğruluk ve hatırlama ne kadar yüksek olursa, o kadar iyi olduğu açıktır. Ancak gerçek hayatta, maksimum doğruluk ve tamlık aynı anda elde edilemez ve belirli bir denge aranmalıdır. Bu nedenle, algoritmamızın doğruluğu ve eksiksizliği hakkındaki bilgileri birleştirecek belirli bir metriğe sahip olmak istiyoruz. Bu durumda, üretimde hangi uygulamanın çalıştırılacağına karar vermemiz daha kolay olacaktır (kim daha fazlasına sahipse daha havalı). Tam da böyle bir metrik F-ölçü 1'dir .

F-ölçü   harmonik ortalama   kesinlik ve tamlık arasında. Kesinlik veya geri çağırma sıfır olma eğilimindeyse, sıfır olma eğilimindedir.


vs, yazıda birbirinden farklı güzel grafikler var

 
Dr.Tüccar :

Zigzag'ı sınıflandırmaya çalıştım, evet, ama geri dönüş noktasını değil, zikzakın gösterdiği tüm trend, mevcut zz trendi aşağıysa sonuç 0 ve trend yukarıysa 1'dir. Zz trendleri oldukça dengesiz görünüyor ama onlardan vazgeçmemin nedeni bu değil. Modelin çok yüksek doğruluk gerektirmesi hoşuma gitmedi. Model trend sırasında birkaç hata yaparsa ve ticareti yanlış zamanda tersine çevirirse, yalnızca bir çubukla bile olsa, bu genellikle ek kayıplara ve ayrıca her seferinde spread ile bir komisyon ödenmesine yol açar. Model yalnızca bir ticaret açarsa, trendin sonunu beklerse ve tersine dönerse karlı olacaktır. Her trend içinde tek bir hata olmadan.

Eğilimi değil, bir sonraki çubuğu tahmin ederseniz, her hata daha küçük parasal kayıplara yol açacaktır.


Dengeleme yapmıyorum, bir sonraki barı tahmin ederken, sınıfların dağılımı zaten minimum, herhangi bir sınıfın + -%10'unun sonucu büyük ölçüde etkileyeceğini düşünmüyorum.

Burada makalede, dengelemenin yerine modelin doğru bir değerlendirmesinin (F-ölçümü veya R-Hassasiyeti) geçebileceğini yazıyorlar. Bu, SanSanych'in daha önce bir bağlantı verdiği makalenin Rus analogudur.

http://bazhenov.me/blog/2012/07/21/classification-performance-evaluation.html

vs, yazıda birbirinden farklı güzel grafikler var

Küçük tavsiye. Herhangi bir sistem tek bir fenomene yol açar. Bu bir sinyaldir!!! Tüm koşulların toplamı, karar noktası olan başarılı bir olaya yol açar. Tobish, Herhangi bir sistem, ne kadar karmaşık olursa olsun, alım veya satım sinyallerine yol açar. Burada sınıflandırılmaları önerilir. Arabaları geçmek. Geçiş oldu, al sinyali var, ters yönde geçiş oldu, sat sinyali var. ve üçüncüsü yok. Bu yüzden doğru sınıflandırma için satışlar için ayrı ayrı alışlar için ayrı ayrı yapmak gerekir, böylece genelleme seviyesini korurken eğitim aralığını iki katına çıkarabilirsiniz. Başlangıçta modellerim nadiren %40-50 genellemenin üzerine çıktı, ancak daha sonra verilerle ne yapacağımı düşündüm. Sınıflandırmadan sonra elde edilen modelin özü nedir? Aynı verilerde, şimdi ortalama olarak en az %70'lik modeller alıyorum, ortalama %80-90 ve gelecekte, bilinmeyen verilerde, hatalar 10-12'de 1-2 civarında. Bu kazanmak için oldukça yeterli. Ancak güven aralığı, eğitim aralığının %30'udur. Yani 100 al sinyali, 100 sat sinyali alıyorum tabii ki 30 veya 50 sinyal içerisinde modeli fazla zorlamadan çalışabilirsiniz. Tahmin edicinin ilk sürümlerinde, 6 giriş yaklaşık 40 dakika için optimize edildi, bu son derece elverişsizdi, ancak şimdi 10 dakikada 9 giriş yapıyor. Ve bundan modelin kalitesi sadece arttı. Şimdi sorun farklı, bu kadar çok girdinin nerede bulunacağı. Ama biz bir bast ile doğmadık. Tahminciye stokta sunacak hala bir şey var :-)
 
Michael Marchukajtes :
Yuri'ye bir sorum var. Üçlü bir modelin kök kökünü bulurken, verileri manuel olarak girdiğimde, bazen sonuçlarda bir tire karakteri görüntüleniyor. Yani 0 var, 1 var ve tire var. Peki çizgi ne anlama geliyor???

Sokrates'in ünlü "bilmediğimi biliyorum" sözünün aynısı. Eksi ile yanıt veren üçlü sınıflandırıcı, eğitim örneğinde sınıflandırılan modele benzer hiçbir örnek bulunmadığını ve bu nedenle onu kesin olarak herhangi bir sınıfa, yani. sunulan kalıba olumlu bir cevap veremez. Bazı bilgi alanlarında yeterli yetkinliğe sahip olmadığını dürüstçe kabul ediyor ve yanıtlarını bilmediği sorulara yüzünde küstah bir süpriz ile olumlu yanıt vermeye çalışmıyor.

 
Yuri Reshetov :

Sokrates'in ünlü "bilmediğimi biliyorum" sözünün aynısı. Eksi ile yanıt veren üçlü sınıflandırıcı, eğitim örneğinde sınıflandırılan modele benzer hiçbir örnek bulunmadığını ve bu nedenle onu kesin olarak herhangi bir sınıfa, yani. sunulan kalıba olumlu bir cevap veremez.

hm. Pekala, açık... söyle bana, yakın gelecekte bir dosyaya üçlü bir model yüklemek için bir olasılık var mı, böylece daha sonra MKUL'da kullanılabilir mi? Binary'nin yanı sıra, aksi halde kalemlerle girdiğinizde hata yapma ihtimaliniz var ve tüm bunlar .....
 
Michael Marchukajtes :
hm. Pekala, açık... söyle bana, yakın gelecekte bir dosyaya üçlü bir model yüklemek için bir olasılık var mı, böylece daha sonra MKUL'da kullanılabilir mi? Binary'nin yanı sıra, aksi halde kalemlerle girdiğinizde hata yapma ihtimaliniz var ve tüm bunlar .....
Şimdi üzerinde çalışıyorum. Onlar. kod üreteci henüz akla getirilmedi ve şu anda ikili sınıflandırıcılardan sadece birinin kaynak kodlarını üretiyor, üçlü sınıflandırıcının tamamını değil.
 
Yuri Reshetov :

Sokrates'in ünlü "bilmediğimi biliyorum" sözünün aynısı. Eksi ile yanıt veren üçlü sınıflandırıcı, eğitim örneğinde sınıflandırılan modele benzer hiçbir örnek olmadığını ve bu nedenle onu kesin olarak herhangi bir sınıfa, yani. sunulan kalıba olumlu bir cevap veremez. Bazı bilgi alanlarında yeterli yetkinliğe sahip olmadığını dürüstçe kabul ediyor ve yanıtlarını bilmediği sorulara yüzünde küstah bir süpriz ile olumlu yanıt vermeye çalışmıyor.

Ekteki resme bakılırsa, özü doğru anladım mı? Solda bir ikili sınıflandırıcı var; sağda - üçlü (beyaz bölge "eksi" dir)

Eğer öyleyse, o zaman fikir bence iyi, bir nedenden dolayı daha önce görmedim, lütfen üçlü sınıflandırıcı hakkında bazı makaleler önerebilir misiniz?



Daha sonra eklendi:

Sezgisel bir bakış açısından, bu görev oldukça basittir. Diyelim ki 2 öngörücü var (X ve Y), yani 2 boyutlu bir alanda çalışmanız gerekiyor (yukarıdaki resimlerde olduğu gibi). Ardından, tüm "satın alma" sınıflarını (mavi dolgu) içeren böyle 2 boyutlu bir alanı kapatmanız gerekir. Ardından, tüm "satış" sınıflarını (kırmızı) içeren ikinci bir boşluk ekleyin. Her iki kapalı alan da örtüşmemelidir. Yeni verileri sınıflandırmak için, istenen noktanın hangi çitle çevrili alana düştüğüne bakmanız yeterlidir. Herhangi bir yere düşmüyorsa (sağdaki resimde beyaz renk), o zaman modelin bu nokta hakkında bir şey söyleyemeyeceği ve şu anda işlem yapmamanız gerektiği açıkça görülüyor.

3 öngörücü ile, sınıfların bazı üç boyutlu hacimsel rakamlarla çevreleneceği 3 boyutlu bir alan zaten olacaktır. Ve böylece, ne kadar çok tahmin edici olursa, rakamlar o kadar çok boyutlu olur.

Böyle modeller var mı? Tipik olarak, sınıflandırıcılar uzayda sınıfları ayıran bir tür hiperdüzlem bulur. Ve burada iki kapalı hiperfigüre ihtiyacımız var.

 

Michael Marchukajtes :

...

Tahmin edicinin ilk sürümlerinde, 6 giriş yaklaşık 40 dakika için optimize edildi, bu son derece elverişsizdi, ancak şimdi 10 dakikada 9 giriş yapıyor. Ve bundan modelin kalitesi sadece arttı. Şimdi sorun farklı, bu kadar çok girdi verisinin nerede bulunacağı. Ama biz bir bast ile doğmadık. Tahminciye stokta sunacak hala bir şey var :-)
Evet, ben de kesinlikle al/sat olarak sınıflandırmaya çalışıyorum. Ama orijinal 6 girdiyi nasıl aldınız, onları bilinen bir stratejiden mi aldınız? Yeterli girdiler en önemli şeylerden biridir. Aksine, binlerce girdim var (yüz çubuk için fiyatlar ve göstergeler) ve birkaç düzine bırakarak onları ayıklamam gerekiyor, çünkü herhangi bir model bu kadar çok sayıda girdi üzerinde yeniden eğitiliyor.
 
Dr.Tüccar :

Ekteki resme bakılırsa, özü doğru anladım mı?


Solda bir ikili sınıflandırıcı var; sağda - üçlü (beyaz bölge "eksi" dir)

Aptallar için ilkel ise, o zaman görsel bir yardım görevi görecektir.

Dr.Tüccar :
Eğer öyleyse, o zaman fikir bence iyi, bir nedenden dolayı daha önce görmedim, lütfen üçlü sınıflandırıcı hakkında bazı makaleler önerebilir misiniz?

Google yasaklı değilse, "üçlü sınıflandırıcı makine öğrenimi" ifadesini arayabilirsiniz.

 
Yuri Reshetov :

Google yasaklı değilse, "üçlü sınıflandırıcı makine öğrenimi" ifadesini arayabilirsiniz.

Başka bir deyişle, "Google'da siteme giden ilk bağlantıya bakın" :)

İki modelden oluşan bir komiteniz olduğunu öğrendim, yukarıda anladığım ve yazdığım şey bu değil.