Ticarette makine öğrenimi: teori, pratik, ticaret ve daha fazlası - sayfa 2550

 
Alexey Nikolaev # :

Genel olarak konuşursak, eğitimden sonra (trende) bir model değil, metaparametreler tarafından belirlenen bir dizi model vardır. Örneğin, kement regresyonunda farklı derecelerde enterpolasyon polinomu veya farklı düzenlileştirme katsayıları vb. Daha sonra metaparametre için en iyi değer belirlenir (test için kontrol edilerek setten en iyi model alınır). Buna karşılık, testte bir meta parametrenin optimizasyonu, optimizasyon için hangi sınavın kullanılabileceği bazı parametreler (meta-meta-parametreler) tarafından da belirlenebilir. Örneğin, ilk örneğin hangi oranlarda tren ve teste bölüneceği.

Ancak, büyük olasılıkla, fikrinizi anlamadım)

En uygun meta-parametreler, bir test bölümü için değil, çapraz doğrulama veya ileriye doğru yürüme yoluyla toplanan birkaç yapıştırılmış bölüm için seçilmelidir. Geçenlerde tartışıldı .
 
elibrarius # :
En uygun meta-parametreler bir test bölümü için değil, çapraz doğrulama veya ileriye doğru yürüme yoluyla toplanan birbirine yapıştırılmış birkaç bölüm için seçilir. Geçenlerde tartışıldı .

Kabul ediyorum. Aslında, çapraz doğrulamanın da zor bir şekilde düzenlenebileceği ve başka bir örnek için optimize edilebilen (ve alınamayan) bazı kendi parametreleri (meta-meta-parametreler) tarafından ayarlanabileceği fikrini ifade etmek istedim. tavandan).

 
Alexey Nikolaev # :

Kabul ediyorum. Aslında, çapraz doğrulamanın da zor bir şekilde düzenlenebileceği ve bir örnek daha için optimize edilebilecek (ve tavandan alınmıştır).

Doğru anlaşıldı - tren örneğinin sınav örneğine daha çok benzemesi için herhangi bir işlem yapmak.

Soru, o zaman en iyi nasıl yapılacağıdır.

Sıklıkla kullanılan seçeneklerden biri, tahmin edicilerin numaralandırılmasıdır - ancak büyük bir kümede bunlardan çok fazla vardır. Örneğin, iki örnekte hedefin sonucunun benzerliği ve kararlılığı için dizileri (bir dizi tahmin edici) karşılaştırmak mümkün müdür? Daha sonra eğitim örneğinden anormal (örneğin, nadir veya sınav örneğinde bulunmayan) satırları atabiliriz ve bu nedenle teorik olarak çok daha iyi öğreniriz.

 
Alexey Vyazmikin # :

Doğru anlaşıldı - tren örneğinin sınav örneğine daha çok benzemesi için herhangi bir işlem yapmak.

Soru, o zaman en iyi nasıl yapılacağıdır.

Sıklıkla kullanılan seçeneklerden biri, tahmin edicilerin numaralandırılmasıdır - ancak büyük bir kümede bunlardan çok fazla vardır. Örneğin, iki örnekte hedefin sonucunun benzerliği ve kararlılığı için dizileri (bir dizi tahmin edici) karşılaştırmak mümkün müdür? Daha sonra eğitim örneğinden anormal (örneğin, nadir veya sınav örneğinde bulunmayan) satırları atabiliriz ve bu nedenle teorik olarak çok daha iyi öğreniriz.

Vladimir'in bununla ilgili bir makalesi vardı, paketin adını hatırlamıyorum, ancak örnekten tahmin edilemez satırlar attı.
 
mytarmailS # :
Vladimir'in bununla ilgili bir makalesi vardı, paketin adını hatırlamıyorum, ancak örnekten tahmin edilemez satırlar attı.

İlginç, bakmak zorunda kalacak. Ama ben tahmin edilemeyeni değil, eğitim dışında örnekte bulunmayanı atmak istiyorum. Tabii ki onları bir şekilde işaretlemek ve sadece onları atmak değil - tanımlamak bile ilginç.

 
Alexey Vyazmikin # :

İlginç, bakmak zorunda kalacak. Ama ben tahmin edilemeyeni değil, eğitim dışında örnekte bulunmayanı atmak istiyorum. Tabii ki onları bir şekilde işaretlemek ve sadece onları atmak değil - tanımlamak bile ilginç.

Belki de, iki tür olabilen gözlemlerdeki aykırı değerleri kaldırmaktan bahsediyoruz - yanıtın büyüklüğüne ve tahmin edicilerin büyüklüğüne göre (her ikisi de tek bir gözlemde birleştirilebilir). Aslında emisyonlara birincisi denir ve ikincisi genellikle bir şekilde farklı olarak adlandırılır. Bu bilim, lineer regresyon için iyi kurulmuştur. Muhtemelen, her bir gözlemin sınava göre bir anlamda aykırı olup olmadığını testten kontrol etmek mümkündür.

 
Alexey Vyazmikin # :

İlginç, bakmak zorunda kalacak. Ama ben tahmin edilemeyeni değil, eğitim dışında örnekte bulunmayanı atmak istiyorum. Tabii ki onları bir şekilde işaretlemek ve sadece onları atmak değil - tanımlamak bile ilginç.

Ahşap modeller ile mümkündür..
Modeli kurallara genişletin, kuralları gerekli istatistiklere göre analiz edin (tekrarlanabilirlik başka bir şeydir..), kuralın yeni verilerde görünüp görünmediğine bakın..

Paket "intrees" 5 satır kod ve git
 
mytarmailS # :
Vladimir'in bununla ilgili bir makalesi vardı, paketin adını hatırlamıyorum, ancak örnekten tahmin edilemez satırlar attı.

paket   Gürültü FiltreleriR. Makaleye göz atın.

 
elibrarius # :
En uygun meta-parametreler, bir test bölümü için değil, çapraz doğrulama veya ileriye doğru yürüme yoluyla toplanan birkaç yapıştırılmış olanlar için seçilmelidir. Geçenlerde tartışıldı .

CV sonuçlarını kullanmanın en iyi yolu nedir? bulunan en iyi model parametrelerini alın ve ardından tüm veri kümesi üzerinde eğitin veya yalnızca iyi veri kümelerini seçmek için kullanın

örneğin, çıktı böyle bir tablodur

        iterations      test-Logloss-mean       test-Logloss-std        train-Logloss-mean      train-Logloss-std
0        0        0.689013          0.005904          0.681549          0.007307
1        1        0.685340          0.011887          0.660894          0.001061
2        2        0.685858          0.012818          0.641069          0.004738
3        3        0.685975          0.023640          0.629656          0.000656
4        4        0.686613          0.024923          0.612977          0.002072
...     ...     ...     ...     ...     ...
95        95        0.863043          0.402531          0.123702          0.028628
96        96        0.866321          0.406193          0.122224          0.028623
97        97        0.869681          0.409679          0.120777          0.028611
98        98        0.873030          0.413121          0.119361          0.028595
99        99        0.874569          0.419064          0.117974          0.028572
 
Vladimir Perervenko # :

paket   Gürültü FiltreleriR. Makaleye göz atın.

Gürültü tahmincileriyle her şey az çok netse, o zaman gürültü örnekleriyle o kadar da değil. Bunları nasıl tanımlayacağım hakkında daha fazla bilgi edinmek istiyorum (teori anlamında, kullanılan paketlerin/fonksiyonların adlarını değil, elbette R'nin her zaman makalelere bağlantıları olmasına rağmen). Her zaman piyasada olma arzusu bir hata olarak kabul edildiğinden, sınıflandırma yapılırken “ticaret yapmayın” sınıfının olması gerektiği açıktır. Ancak bu sınıfın az çok resmi bir biçimde nasıl doğru bir şekilde tanımlanacağı çok açık değildir.