Ticarette makine öğrenimi: teori, pratik, ticaret ve daha fazlası - sayfa 470

 
Michael Marchukajtes :

Gerçek anlam şudur. Kontrol alanında kötü bir bölünme varsa, bunun doğru olup olmadığı önemli DEĞİLDİR, ayrılma gerçeğinin kendisi zayıftır. Ve model, eğitim aralığının% 50'sinden fazla çalışmadı, o zaman böyle bir model aşırı eğitilmiş olarak kabul edilir .... IMHO

Bu arada, arka arkaya birkaç sinyali saymayı önerdiğiniz diziyle ilgili makalenizde hatırlıyor musunuz, orada çevirme .. sinyallerin süperpozisyonu

Bulanık mantıkla benzer bir şeyi uygulamak için ilginç bir çözüm buldum ve öğrenme sürecine gömdüm .. sonra bir şeyler atacağım :)

 
Maksim Dmitrievski :

Bazen beyin bozulmaya başlar.. forex'teki gürültü hakkında, bu bir radyo sinyali değil, değil mi? Forex'te gürültü nereden geliyor?


Forex'te "gürültü" kavramı bu başlıkta tarafımdan yoğun bir şekilde tartışıldı. Kendim buldum ya da birinden kabarttım - hatırlamıyorum ve önemli değil. Bu konudaki herkes için benzer makalelere bağlantılar gönderdim.

Benim görüşüme göre, "gürültü", bir tür kahve telvesi olan hedef değişkenle ilgili olmayan öngörücünün tamamı veya bir parçasıdır.


Bir örnekle açıklayayım (daha önce yazdıklarımı tekrarlıyorum).


Kadın ve erkek olmak üzere iki sınıftan oluşan hedefi alıyoruz.

Bir tahmin edici alıyoruz: giysiler.

Yalnızca iki belirleyici değer vardır: pantolon ve etek. Bazı ülkelerde, böyle bir tahmin edicinin %100 tahmin gücü vardır, yani. etekler kadınları, pantolonlar erkekler için önceden haber verir. Bu tahmin edicide HİÇBİR gürültü YOKTUR. Sınıflandırma hatası = 0. Fazla takma yok.

Örnek uydurmadır ve "giysi" tahmincisi "unisex" adlı giysiler içerebilir. Bizim için bu, hem erkeklerin hem de kadınların bu tür kıyafetleri giyebileceği anlamına gelir, yani. hedef değişkenimiz için, unisex giysilerin HİÇBİR tahmin gücü YOKTUR - benim anlayışıma göre bu GÜRÜLTÜ.

"Pantolon", "etek" ve "unisex" değerlerine sahip bir öngörücü alırsak, sınıflandırma hatasının kaynağı "unisex" olacaktır. Uniseks giysilerin oranı %30 ise, teorik olarak model eğitim hatası = %30 elde etmek mümkündür, ancak böyle bir tahmin edicide %29'luk bir hata, %1 miktarında modelin fazla takılması anlamına gelir!


pratikte kullanıyorum. Bu sayede, %30'dan daha az hatayla rastgele bir orman için tahmin ediciler seçebildim. Bu yeniden eğitilmiş bir model değil. Hata, eğitim sırasında, aynı dosya içindeki test örneklerinde ve diğer harici dosyalarda yaklaşık olarak aynıdır.

Örneğimdeki hatayı azaltmak ne anlama geliyor? Bu, değerleri, gürültü değerleri, aynı %30'dan daha az olacak bu tür tahmin edicileri bulmak anlamına gelir. başaramadım. Belki birileri başarılı olur.

Ancak bu analiz olmadan, herhangi bir MO modelinin kullanımı boş bir alıştırmadır, kahve telvesi üzerinde entelektüel bir sayı oyunudur.


not.

Belirtilen hata genellikle model tipine bağlı değildir. Farklı ormanlar denedim, ada seçenekleri aşağı yukarı aynı. Ancak nnet olan NS çok daha kötü bir sonuç verir.

 
San Sanych Fomenko :

Forex'te "gürültü" kavramı bu başlıkta tarafımdan yoğun bir şekilde tartışıldı. Kendim buldum ya da birinden kabarttım - hatırlamıyorum ve önemli değil. Bu konudaki herkes için benzer makalelere bağlantılar gönderdim.

Benim görüşüme göre, "gürültü", bir tür kahve telvesi olan hedef değişkenle ilgili olmayan tahmin edicinin tamamı veya bir parçasıdır.


Bir örnekle açıklayayım (daha önce yazdıklarımı tekrarlıyorum).


Kadın ve erkek olmak üzere iki sınıftan oluşan hedefi alıyoruz.

Bir tahmin edici alıyoruz: giysiler.

Yalnızca iki belirleyici değer vardır: pantolon ve etek. Bazı ülkelerde, böyle bir tahmin edicinin %100 tahmin gücü vardır, yani. etekler kadınları, pantolonlar erkekler için önceden haber verir. Bu tahmin edicide HİÇBİR gürültü YOKTUR. Sınıflandırma hatası = 0. Fazla takma yok.

Örnek uydurmadır ve "giysi" tahmincisi "unisex" adlı giysiler içerebilir. Bizim için bu, hem erkeklerin hem de kadınların bu tür kıyafetleri giyebileceği anlamına gelir, yani. hedef değişkenimiz için, unisex giysilerin HİÇBİR tahmin gücü YOKTUR - benim anlayışıma göre bu GÜRÜLTÜ.

"Pantolon", "etek" ve "unisex" değerlerine sahip bir öngörücü alırsak, sınıflandırma hatasının kaynağı "unisex" olacaktır. Uniseks giysilerin oranı %30 ise, teorik olarak model eğitim hatası = %30 elde etmek mümkündür, ancak böyle bir tahmin edicide %29'luk bir hata, %1 miktarında modelin fazla takılması anlamına gelir!


Gerçek koşullarda tahmin edicileri seçerken, bu gürültü tahmincisinin minimum hatayı ne kadar verebileceğini yalnızca önceden bilmiyoruz ..

ama genel olarak açık görünüyor)

 
Maksim Dmitrievski :

.. bilgi vermeyenler orada basitçe elenir


Bu en derin yanılsamadır: çeşitli şekillerde anlaşılabilen hata minimizasyon algoritması çalışır. En uygunu, DEĞİL gürültüsünden daha fazla çeşitlilik içeren gürültüdür. Algoritma, kahve telvesinden köpüğü alır.

 
San Sanych Fomenko :

Bu en derin yanılsamadır: çeşitli şekillerde anlaşılabilen hata minimizasyon algoritması çalışır. En uygunu, DEĞİL gürültüsünden daha fazla çeşitlilik içeren gürültüdür. Algoritma, kahve telvesinden köpüğü alır.

Jpredictor hakkında konuşuyorum .. her türlü gürültü özelliğini filtreliyor

genel olarak, bu, orada neler olduğunu gerçekten anlamaya çalışmaktan çok deneyler için bir konudur)

Bu h2O platformunu denemek istiyorum, sadece güçlendirme ile ormanlar var .. belki duydunuz mu? insanlar microsoft ve xgbboost ile birlikte normal gibi diyor

https://www.h2o.ai/

 

Görmeyenler için bu konuya bir göz atın.

 
Sihirbaz_ :

Fa ve Mishan madenci değil)))
Papağanlarda mastürbasyon yapmaya gidecek. + LightGBM, + CatBoost.
Biraz daha iyi bir kesim yapmak istiyorum - python ve her şeyi GPU'ya koyun ...

Birçok R paketi GPU ile sorunsuz çalışır.

CatBoost'u başlattınız mı? Çok ilgilendi.

İyi şanlar

 
Maksim Dmitrievski :
Jpredictor hakkında konuşuyorum .. her türlü gürültü özelliğini filtreliyor

genel olarak, bu, orada neler olduğunu gerçekten anlamaya çalışmaktan çok deneyler için bir konudur)

Bu h2O platformunu denemek istiyorum, sadece güçlendirme ile ormanlar var .. belki duydunuz mu? insanlar microsoft ve xgbboost ile birlikte normal gibi diyor

https://www.h2o.ai/

Java ile yazılmıştır, çok fazla bellek tüketir. Benzer R paketlerinden daha iyi ve daha kötü çalışmaz.Bir dezavantajı vardır, aynı zamanda bir avantajdır - geriye dönük uyumluluk olmadan sürekli iyileştirme.

Deneyebilirsin, çalışmanı tavsiye etmem (IMHO)

İyi şanlar

 
San Sanych Fomenko :

Bu en derin yanılsamadır: çeşitli şekillerde anlaşılabilen hata minimizasyon algoritması çalışır. En uygunu, DEĞİL gürültüsünden daha fazla çeşitlilik içeren gürültüdür. Algoritma, kahve telvesinden köpüğü alır.

"Gürültü" ve "fazla uydurma", herkesin farklı tanımladığı jargon terimleridir. Sezgisel olarak, "ezberlenmiş" ve "öğrenilmiş" arasındaki farkı anlıyoruz - programların diline çevirmek zordur. Basitçe tanımlıyorum - test hatasının büyümeye başladığı ve "fazla antrenman"ın başladığı an ("aşırı takma" ile aynı şey değil). İngilizce ağda bu konuyla ilgili ilginç bir tartışmanın bağlantısını bulursam.

İyi şanlar

 
San Sanych Fomenko :

Forex'te "gürültü" kavramı bu başlıkta tarafımdan yoğun bir şekilde tartışıldı. Kendim buldum ya da birinden kabarttım - hatırlamıyorum ve önemli değil. Bu konudaki herkes için benzer makalelere bağlantılar gönderdim.

Benim görüşüme göre, "gürültü", bir tür kahve telvesi olan hedef değişkenle ilgili olmayan tahmin edicinin tamamı veya bir parçasıdır.


Bir örnekle açıklayayım (daha önce yazdıklarımı tekrarlıyorum).


Kadın ve erkek olmak üzere iki sınıftan oluşan hedefi alıyoruz.

Bir tahmin edici alıyoruz: giysiler.

Yalnızca iki belirleyici değer vardır: pantolon ve etek. Bazı ülkelerde, böyle bir tahmin edicinin %100 tahmin gücü vardır, yani. etekler kadınları, pantolonlar erkekler için önceden haber verir. Bu tahmin edicide HİÇBİR gürültü YOKTUR. Sınıflandırma hatası = 0. Fazla takma yok.

Örnek uydurmadır ve "giysi" tahmincisi "unisex" adlı giysiler içerebilir. Bizim için bu, hem erkeklerin hem de kadınların bu tür kıyafetleri giyebileceği anlamına gelir, yani. hedef değişkenimiz için, unisex giysilerin HİÇBİR tahmin gücü YOKTUR - benim anlayışıma göre bu GÜRÜLTÜ.

"Pantolon", "etek" ve "unisex" değerlerine sahip bir öngörücü alırsak, sınıflandırma hatasının kaynağı "unisex" olacaktır. Uniseks giysilerin oranı %30 ise, teorik olarak model eğitim hatası = %30 elde etmek mümkündür, ancak böyle bir tahmin edicide %29'luk bir hata, %1 miktarında modelin fazla takılması anlamına gelir!


pratikte kullanıyorum. Bu sayede, %30'dan daha az hata ile rastgele bir orman için tahmin ediciler seçebildim. Bu yeniden eğitilmiş bir model değil. Hata, eğitim sırasında, aynı dosya içindeki test örneklerinde ve diğer harici dosyalarda yaklaşık olarak aynıdır.

Örneğimdeki hatayı azaltmak ne anlama geliyor? Bu, değerleri, gürültü değerleri, aynı %30'dan daha az olacak bu tür tahmin edicileri bulmak anlamına gelir. başaramadım. Belki birileri başarılı olur.

Ancak bu analiz olmadan, herhangi bir MO modelinin kullanımı boş bir alıştırma, kahve telvesi üzerinde entelektüel bir sayı oyunudur.


not.

Belirtilen hata genellikle model tipine bağlı değildir. Farklı ormanlar denedim, ada seçenekleri aşağı yukarı aynı. Ancak nnet olan NS çok daha kötü bir sonuç verir.

Alakasız örnekleri kaldırabilir, ana veya bağımsız bileşenleri vurgulayabilir ve son olarak ayrıklaştırabilirsiniz. Tahmin edicileri önceden işlediniz mi? Emisyonlar kaldırıldı, umarım (ormanlar için kritik değildir).

Bir şekilde karamsarlık geliyor mesajlarda..

Bana öyle geldi?

İyi şanlar