Ticarette makine öğrenimi: teori, pratik, ticaret ve daha fazlası - sayfa 2112

 
Alexey Vyazmikin :

y için - ızgara bölümlemesi ve tüm örnekteki her sınıfın hedefinin toplamının yüzdesi olarak X sapması için. %5 filtreleyin. Farklı alanlarda farklı sınıfların hakim olduğu görülebilir, bir ayna değişikliği vardır - daha sonra belirli bir sınıf nedeniyle iyileşme gerçekleşir (histogram eksiye gider), ancak bazen olmaz. Bütün bunlar eğitimde kullanılmalı ama benim bildiğim standart öğretim yöntemleri bunu pek dikkate almıyor. Genetikle büstün daha etkili olması mümkündür (daha doğrusu eleme için) - yapılmalıdır.

Örneklerin %65'inin 1. sınıf olduğu iyi bir kuantum bulduğunuzu varsayalım.
Ayrılık ortada olur mesela, bırakın bu kuantumunuza göre bölsünler.

1) Gerekli örneklerin% 65'i ile kuantumunuzdan tüm örnekler ve kuantumunuzdan daha az olan bir grup kuantum, sol dalda bölünmeyi bırakacaktır. Sonuç olarak, %65 değil, farklı bir yüzde elde ederiz - diğer kuantalardan örneklerle seyreltme nedeniyle çok daha küçük bir yüzde.

2) İkincisi - eğer kuantumunuz ağaçtaki ilk bölünme değilse, o zaman önceki tüm bölünmeler örneklerin yaklaşık %50'si kadar numuneden çıkarıldı. Ve ağacın 5. seviyesinde, örneklerin 1/(2^5)=1/32'si, ilk durumda olduğu gibi aynı inceltilmiş kuantumlarla karıştırılacak olan kuantumunuzda kalacaktır. Onlar. Örneklerin %65'inin eğitim sonucunda sayfada kalması olası değildir.

Tek seçenek, nicelemeden sonra sütunları kategorik özellikler olarak işaretlemektir - o zaman bu ağaçtaki ilk bölünmeyse, örneklerin %65'i diğer nicemlerle karışmadan sol dala gidecektir. Ağaçtaki ilk yarık değilse, yine üst yarıklarla inceliriz.

 
elibrarius :

Örneklerin %65'inin 1. sınıf olduğu iyi bir kuantum bulduğunuzu varsayalım.
Ayrılık ortada olur mesela, bırakın bu kuantumunuza göre bölsünler.

1) Gerekli örneklerin% 65'i ile kuantumunuzdan tüm örnekler ve kuantumunuzdan daha az olan bir grup kuantum, sol dalda bölünmeyi bırakacaktır. Sonuç olarak, %65 değil, farklı bir yüzde elde ederiz - diğer kuantalardan örneklerle seyreltme nedeniyle çok daha küçük bir yüzde.

2) İkincisi - eğer kuantumunuz ağaçtaki ilk bölünme değilse, o zaman önceki tüm bölünmeler örneklerin yaklaşık %50'si kadar numuneden çıkarıldı. Ve ağacın 5. seviyesinde, örneklerin 1/(2^5)=1/32'si, ilk durumda olduğu gibi aynı inceltilmiş kuantumlarla karıştırılacak olan kuantumunuzda kalacaktır. Onlar. Örneklerin %65'inin eğitim sonucunda sayfada kalması olası değildir.

Tek seçenek, nicelemeden sonra sütunları kategorik özellikler olarak işaretlemektir - o zaman bu ağaçtaki ilk bölünmeyse, örneklerin %65'i diğer nicemlerle karışmadan sol dala gidecektir. Ağaçtaki ilk yarık değilse, yine üst yarıklarla inceliriz.

1-2 - evet, öyle olabilir, ancak zorunlu değil, böyle bir olasılığı en aza indirecek bir yaklaşıma ihtiyaç vardır.

Kategorik özelliklere gelince, bu doğrudur, ancak MQ için kategorik özelliklere sahip bir model yorumlayıcı yoktur.

Kuantum segmentlerinin tek bir değer altında konsolidasyonunda ve bu değerlerin oluştuğu ayrı bir örnek oluşturulmasında bir çözüm gördüğüm sürece - bu alt küme ile kesin olarak böyle çalışacağız. Bunu yaprakları aramak için yapacağım, ancak başlangıçta farklı yöntemlerle hızlı bir şekilde niceleme yapmanız gerekiyor.

 
Alexey Vyazmikin :

Sonuçların garip olduğu ortaya çıktı - test ve eğitim örneklerinde Geri çağırma 0.6-0.8 , ve 0.009 dönüşümü olmayan ve 0.65 dönüşümü olan sınavda - burada bir sorun var :(

CatBoost dönüşüm algoritmasını öğrenmiş gibi geliyor :)

Eski ve yeni satırları işaretlemek mümkün mü? Daha sonra dönüştürülen örnekten dönüştürülen satırları çıkarmak ve bunun bir yorumlama sorunu olup olmadığını veya yüksek kaliteli eğitim olup olmadığını görmek mümkündür.

öyle olmalı, yeni verilerde bir sınıfın daha az örneği var. Burada, genelleme yeteneği daha iyi olmalı, hemen test cihazına girmelisin

yeniden örnekleme verilerime yardımcı olmuyor

sona yeni satırlar eklenir, orijinal veri kümesini çıkarırsanız olduğu gibi. Bu yöntem, minör sınıfa en yakın komşu örneklerini ekler. Onlar. inandırıcı yeni etiketler ve özellikler yaratır

 
Alexey Vyazmikin :

1-2 - evet, öyle olabilir, ancak zorunlu değil, böyle bir olasılığı en aza indirecek bir yaklaşıma ihtiyaç vardır.

Kategorik özelliklere gelince, bu doğrudur, ancak MQ için kategorik özelliklere sahip bir model yorumlayıcı yoktur.

Kuantum segmentlerinin tek bir değer altında konsolidasyonunda ve bu değerlerin oluştuğu ayrı bir örnek oluşturulmasında bir çözüm gördüğüm sürece - bu alt küme ile kesin olarak böyle çalışacağız. Bunu yaprakları aramak için yapacağım, ancak başlangıçta farklı yöntemlerle hızlı bir şekilde niceleme yapmanız gerekiyor.

Bu bir ağaç oluşturma algoritmasıdır. Değiştiremezsiniz. Sadece kendi Catboost'unuzu yazarsanız

 
Maksim Dmitrievski :

öyle olmalı, yeni verilerde bir sınıfın daha az örneği var. Burada, genelleme yeteneği daha iyi olmalı, hemen test cihazına girmelisin

yeniden örnekleme verilerime yardımcı olmuyor

Orijinal veri kümesini çıkarırsanız, sonuna yeni satırlar eklenir. Bu yöntem, minör sınıfa en yakın komşu örneklerini ekler. Onlar. inandırıcı yeni etiketler ve özellikler yaratır

Bu nedenle, Geri Çağırma yüksek kalmalı, aksi takdirde bir anlam ifade etmez. Numunenin dengesine bağlı değildir.

Nasıl çalıştığını anladım, teşekkürler.

"Küme Merkezleri" kümeleme ile ilgili bir yöntem var - veya buradan denenecek başka bir şey.

5 главных алгоритмов сэмплинга
5 главных алгоритмов сэмплинга
  • habr.com
Работа с данными — работа с алгоритмами обработки данных. И мне приходилось работать с самыми разнообразными на ежедневной основе, так что я решил составить список наиболее востребованных в серии публикаций. Эта статья посвящена наиболее распространённым способам сэмплинга при работе с данными.
 
elibrarius :

Bu bir ağaç oluşturma algoritmasıdır. Değiştiremezsiniz. Sadece kendi Catboost'unuzu yazarsanız

Bahsettiğimiz şey bu - kendi algoritmanızı yapmanız gerekiyor.

 
Alexey Vyazmikin :

Bu nedenle, Geri Çağırma yüksek kalmalı, aksi takdirde bir anlam ifade etmez. Numunenin dengesine bağlı değildir.

Nasıl çalıştığını anladım, teşekkürler.

"Küme Merkezleri" kümeleme ile ilgili bir yöntem var - veya buradan denenecek başka bir şey.

bu, aksine, etiketleri ana sınıftan kaldırır

 
Maksim Dmitrievski :

bu, aksine, etiketleri ana sınıftan kaldırır

O halde sıfırları akıllıca kaldıralım, belki bu bir etki yaratır.

 
Alexey Vyazmikin :

O halde sıfırları akıllıca kaldıralım, belki bu bir etki yaratır.

bir not defterinde sadece yöntemi değiştirin ve bu kadar

from imblearn.under_sampling import ClusterCentroids
cc = ClusterCentroids(random_state= 0 )
X_resampled, y_resampled = cc.fit_resample(X, y)

bu yüzden örnek

https://imbalanced-learn.readthedocs.io/en/stable/under_sampling.html

Ramak Kala'yı tercih ederim (resimlerden)

3. Under-sampling — imbalanced-learn 0.5.0 documentation
  • imbalanced-learn.readthedocs.io
On the contrary to prototype generation algorithms, prototype selection algorithms will select samples from the original set . Therefore, is defined such as and . In addition, these algorithms can be divided into two groups: (i) the controlled under-sampling techniques and (ii) the cleaning under-sampling techniques. The first group of methods...
 
Maksim Dmitrievski :

not defterinde sadece yöntemi değiştirin ve bu kadar

Ben bile yanlış yerde değiştirdim - yemin ederim

---------------------------------------------------------------------------
NameError                                 Traceback (most recent call last)
< ipython-input-2-e8cb95eddaea > in < module > ()
      1 cc = ClusterCentroids(random_state=0)
----> 2 X_resampled, y_resampled = cc.fit_resample(X, y)

NameError: name 'X' is not defined

Lütfen orada neyin yanlış olduğuna bakın.