Ticarette makine öğrenimi: teori, pratik, ticaret ve daha fazlası - sayfa 29

 
Dr.Tüccar :

R ^ 2 grafiğini ve kullanılan bileşenlerin sayısına göre kazanma vakalarının yüzdesini çizdim. Ön testte en iyi sonuç 41 bileşenle elde edildi (yaklaşık %70'lik bir kazanç, çok iyi). Ama geriye dönük çizelgelerden öğrenemezsiniz, sadece sürekli büyürler. Bileşenlerin önemine güveniyorsanız, ön testte en iyi sonuç olmayan 73'ü almanız gerekir.

Ön testin R^2'si, zamanın >%50'sini kazanırken bile negatif olabilir, gerekli dengesiz sonuçlar nedeniyle, "0" sınıflarının sayısı "1"den farklıdır, dolayısıyla ortalamaları 0,5 değildir ve R^2 bundan biraz daha kötü.

Bileşen sayısını seçmek için çapraz doğrulamayı kullanın. En iyi çapraz doğrulama değeri daha sonra doğrulama kümesine karşı test edilir.
 

Böyle bir içki gittiğinden, veri kümemi (ikili sınıflandırma) ekliyorum.

Dokuz giriş parametresi vardır (başlangıçta) - tümü bilgilendirici ve bir çıkış parametresi (en sağdaki sütunda).

Çıktı 1 ise, barların açılış fiyatları arasındaki bir sonraki fark pozitif, 0 ise negatiftir.

Soru şu ki, kim benim algoritmamdan daha iyi bir genelleme yeteneğine sahip olacak?

Dosyalar:
datasets.zip  21 kb
 
Yuri Reshetov :

Böyle bir içki gittiği için veri setimi ekliyorum.

Dokuz giriş parametresi vardır (başlangıçta) - tümü bilgilendirici ve bir çıkış parametresi (en sağdaki sütunda).

Çıktı 1 ise, barların açılış fiyatları arasındaki bir sonraki fark pozitif, 0 ise negatiftir.

Soru şu ki, kim benim algoritmamdan daha iyi bir genelleme yeteneğine sahip olacak?

1. "Öngörücülerin bilgilendiriciliği" nasıl kanıtlanır?

2. "Genelleme yeteneği" nedir?

 
San Sanych Fomenko :

1. "Öngörücülerin bilgilendiriciliği" nasıl kanıtlanır?

2. "Genelleme yeteneği" nedir?

1. Numuneden en az bir bilgilendirici tahminci çıkarılırsa, genelleme yeteneğinde gözle görülür bir bozulma

2. Videoya bakın:


 
Yuri Reshetov :

1. Numuneden en az bir bilgilendirici tahminci çıkarılırsa, genelleme yeteneğinde gözle görülür bir bozulma

2. Videoya bakın:


Merhaba. Verilerinizi görmeye çalışacağım.
 
Alexey Burnakov :
Merhaba. Verilerinizi görmeye çalışacağım.

Selamlar!

Veriler ilgi çekiciyse, çizelgelerden bilgi toplayan ve bir .

 
Yuri Reshetov :

1. Numuneden en az bir bilgilendirici tahminci çıkarılırsa, genelleme yeteneğinde gözle görülür bir bozulma

2. Videoya bakın:


2. Videoya bakın:

Kusura bakmayın ama bu, sevgilisinden başka sadece bütün bunları bilmekle kalmayıp, çok daha ileri gitmekle kalmayıp aynı zamanda bunu hayata geçirmiş birçok insanın olduğu henüz açıklanmayan, kötü eğitim almış bir yüksek lisans öğrencisinin her zamanki saçma sapan lafıdır. Milyonlarca kişinin kullandığı algoritmalar (buraya öğrencileri dahil edersek).

1. Numuneden en az bir bilgilendirici tahminci çıkarılırsa, genelleme yeteneğinde gözle görülür bir bozulma

İnan bana, ne yazık ki bu hiçbir şeyi kanıtlamaz. Ayrıca, eğer tahmin ediciler seti kötüyse (çok fazla gürültü), o zaman bu etki o kadar güçlü olur, o kadar fazla gürültü olur. Bu çok basit bir şekilde açıklanır: daha fazla gürültü, algoritmanın "uygun" bir değer seçmesi daha kolay olur.

Genel olarak sorun hakkında.

Belirli bir hedef değişken için tahmin edicilerin önemini belirleyen oldukça fazla sayıda algoritma vardır. Bu algoritmalar iki gruba ayrılabilir: model oluşturma algoritmasının içinde yerleşik ve bağımsız olarak mevcut. Benim düşünceme ve şubedeki ve burada verdiğim bağlantıdaki insanların görüşüne göre, tüm bu algoritmaların ortak bir dezavantajı var: Tahminciler arasında belirli bir kritik sayıda gürültü tahmincisi varsa, o zaman algoritma çalışmayı durdurur, ayrıca , hedef değişkeni olan tahmin edicileri atmaya başlar.

Bu nedenle, biz burada dalda, ilk tahminci setini kabaca temizlemeye çalışıyoruz ve ardından standart yöntemler kullanarak diğer tahmin edicilerle çalışıyoruz.

dosyanız hakkında.

1. Verileriniz üzerinde 6 sınıflandırma modeli oluşturmak mümkün değildi: hata %50'nin üzerinde. İsterseniz sonuçları buraya yazabilirim.

2. Bu sonucun nedeni, çok zayıf bir öngörücünüze sahip olmanızdır - gürültü, ör. hedef değişkenle ilgili olmayan tahminciler. 6, 7 ve 8 tahmincilerinin bir miktar tahmin gücü vardır, ancak çok azdır. Bu tür tahmin edicilerle çalışmıyorum. Gerisi sadece gürültü.

not.

Konuyla gerçekten ilgileniyorsanız, o zaman caret. Usta olacaksın bu akıllı adama videodan ders vereceksin. Caret'in yaklaşık 200 modeli + çok kullanışlı ön eğitim işlevleri + iki çok yüksek kaliteli tahminci seçim algoritması vardır.

PSPS.

Bir şekilde forumda "öngörücünün hedef değişkenle ilgili olduğu" ne anlama geldiğine dair vizyonumu yayınladım.

Böyle.

Hedef değişkeni alıyoruz: erkek / kadın.

Tahmini: giyim.

Öngörücü (giyim) yalnızca etek ve pantolon içeriyorsa, bu durumda bir dizi ülkenin nüfusu için bu öngörü, hedef değişkenle %100 ilişkili olacaktır - bire bir. Ama kıyafetler daha farklı ve daha çeşitli. Bu nedenle,% 100 değil, daha az. Onlar. Bazı giysi setlerinin hedef değişkenle ilişkili olabileceğini, diğerlerinin ise prensipte hiç olmayabileceğini anlıyoruz. Onlar. gürültü, ses. Bu nedenle, görev, her şeye ek olarak, bir pencerede gürültü olacak ve diğerinde gürültü olmayacak bu tür GÜRÜLTÜ OLMAYAN tahmin edicilerin nasıl bulunacağıdır. Ve bu "gürültü"nün ölçüsü nedir?

 
Yuri Reshetov :

Selamlar!

Veriler ilgi çekiciyse, çizelgelerden bilgi toplayan ve bir .

Benim de bir sorum var. Trende bir tahmin aracı oluşturmanız ve testteki hatayı ölçmeniz mi gerekiyor? Ve sonucunla karşılaştırmak mümkün olacak, değil mi?
 
Alexey Burnakov :
Benim de bir sorum var. Trende bir tahmin aracı oluşturmanız ve testteki hatayı ölçmeniz mi gerekiyor? Ve sonucunla karşılaştırmak mümkün olacak, değil mi?
Evet.
 

Arkadaşlar vaktiniz varsa yazının altına soru sorabilir misiniz? https://habrahabr.ru/company/aligntechnology/blog/303750/

Ve sonra Habr hiç susmuyor!

Методические заметки об отборе информативных признаков (feature selection)
Методические заметки об отборе информативных признаков (feature selection)
  • habrahabr.ru
Всем привет! Меня зовут Алексей Бурнаков. Я Data Scientist в компании Align Technology. В этом материале я расскажу вам о подходах к feature selection, которые мы практикуем в ходе экспериментов по анализу данных. В нашей компании статистики и инженеры machine learning анализируют большие объемы клинической информации, связанные с лечением...