Ticarette makine öğrenimi: teori, pratik, ticaret ve daha fazlası

Forester 2020.11.12 13:32 #21111

Alexey Vyazmikin :

y için - ızgara bölümlemesi ve tüm örnekteki her sınıfın hedefinin toplamının yüzdesi olarak X sapması için. %5 filtreleyin. Farklı alanlarda farklı sınıfların hakim olduğu görülebilir, bir ayna değişikliği vardır - daha sonra belirli bir sınıf nedeniyle iyileşme gerçekleşir (histogram eksiye gider), ancak bazen olmaz. Bütün bunlar eğitimde kullanılmalı ama benim bildiğim standart öğretim yöntemleri bunu pek dikkate almıyor. Genetikle büstün daha etkili olması mümkündür (daha doğrusu eleme için) - yapılmalıdır.

Örneklerin %65'inin 1. sınıf olduğu iyi bir kuantum bulduğunuzu varsayalım.
Ayrılık ortada olur mesela, bırakın bu kuantumunuza göre bölsünler.

1) Gerekli örneklerin% 65'i ile kuantumunuzdan tüm örnekler ve kuantumunuzdan daha az olan bir grup kuantum, sol dalda bölünmeyi bırakacaktır. Sonuç olarak, %65 değil, farklı bir yüzde elde ederiz - diğer kuantalardan örneklerle seyreltme nedeniyle çok daha küçük bir yüzde.

2) İkincisi - eğer kuantumunuz ağaçtaki ilk bölünme değilse, o zaman önceki tüm bölünmeler örneklerin yaklaşık %50'si kadar numuneden çıkarıldı. Ve ağacın 5. seviyesinde, örneklerin 1/(2^5)=1/32'si, ilk durumda olduğu gibi aynı inceltilmiş kuantumlarla karıştırılacak olan kuantumunuzda kalacaktır. Onlar. Örneklerin %65'inin eğitim sonucunda sayfada kalması olası değildir.

Tek seçenek, nicelemeden sonra sütunları kategorik özellikler olarak işaretlemektir - o zaman bu ağaçtaki ilk bölünmeyse, örneklerin %65'i diğer nicemlerle karışmadan sol dala gidecektir. Ağaçtaki ilk yarık değilse, yine üst yarıklarla inceliriz.

Bu kaosun bir düzeni Elliot Dalga Teorisine dayalı Alt sistem "Varlık Yönetimi"

Aleksey Vyazmikin 2020.11.12 13:42 #21112

elibrarius :

Örneklerin %65'inin 1. sınıf olduğu iyi bir kuantum bulduğunuzu varsayalım.
Ayrılık ortada olur mesela, bırakın bu kuantumunuza göre bölsünler.

1) Gerekli örneklerin% 65'i ile kuantumunuzdan tüm örnekler ve kuantumunuzdan daha az olan bir grup kuantum, sol dalda bölünmeyi bırakacaktır. Sonuç olarak, %65 değil, farklı bir yüzde elde ederiz - diğer kuantalardan örneklerle seyreltme nedeniyle çok daha küçük bir yüzde.

2) İkincisi - eğer kuantumunuz ağaçtaki ilk bölünme değilse, o zaman önceki tüm bölünmeler örneklerin yaklaşık %50'si kadar numuneden çıkarıldı. Ve ağacın 5. seviyesinde, örneklerin 1/(2^5)=1/32'si, ilk durumda olduğu gibi aynı inceltilmiş kuantumlarla karıştırılacak olan kuantumunuzda kalacaktır. Onlar. Örneklerin %65'inin eğitim sonucunda sayfada kalması olası değildir.

Tek seçenek, nicelemeden sonra sütunları kategorik özellikler olarak işaretlemektir - o zaman bu ağaçtaki ilk bölünmeyse, örneklerin %65'i diğer nicemlerle karışmadan sol dala gidecektir. Ağaçtaki ilk yarık değilse, yine üst yarıklarla inceliriz.

1-2 - evet, öyle olabilir, ancak zorunlu değil, böyle bir olasılığı en aza indirecek bir yaklaşıma ihtiyaç vardır.

Kategorik özelliklere gelince, bu doğrudur, ancak MQ için kategorik özelliklere sahip bir model yorumlayıcı yoktur.

Kuantum segmentlerinin tek bir değer altında konsolidasyonunda ve bu değerlerin oluştuğu ayrı bir örnek oluşturulmasında bir çözüm gördüğüm sürece - bu alt küme ile kesin olarak böyle çalışacağız. Bunu yaprakları aramak için yapacağım, ancak başlangıçta farklı yöntemlerle hızlı bir şekilde niceleme yapmanız gerekiyor.

Ekonometri: Durum Uzay Modeli Rastgele alıntıları unutun Fiyat neden hareket ediyor?

Maxim Dmitrievsky 2020.11.12 13:51 #21113

Alexey Vyazmikin :

Sonuçların garip olduğu ortaya çıktı - test ve eğitim örneklerinde Geri çağırma 0.6-0.8 , ve 0.009 dönüşümü olmayan ve 0.65 dönüşümü olan sınavda - burada bir sorun var :(

CatBoost dönüşüm algoritmasını öğrenmiş gibi geliyor :)

Eski ve yeni satırları işaretlemek mümkün mü? Daha sonra dönüştürülen örnekten dönüştürülen satırları çıkarmak ve bunun bir yorumlama sorunu olup olmadığını veya yüksek kaliteli eğitim olup olmadığını görmek mümkündür.

öyle olmalı, yeni verilerde bir sınıfın daha az örneği var. Burada, genelleme yeteneği daha iyi olmalı, hemen test cihazına girmelisin

yeniden örnekleme verilerime yardımcı olmuyor

sona yeni satırlar eklenir, orijinal veri kümesini çıkarırsanız olduğu gibi. Bu yöntem, minör sınıfa en yakın komşu örneklerini ekler. Onlar. inandırıcı yeni etiketler ve özellikler yaratır

İlginç ve Mizah Çoklu Zaman Çerçevesi Göstergeleri kafa derisi soyma

Forester 2020.11.12 14:06 #21114

Alexey Vyazmikin :

1-2 - evet, öyle olabilir, ancak zorunlu değil, böyle bir olasılığı en aza indirecek bir yaklaşıma ihtiyaç vardır.

Kategorik özelliklere gelince, bu doğrudur, ancak MQ için kategorik özelliklere sahip bir model yorumlayıcı yoktur.

Kuantum segmentlerinin tek bir değer altında konsolidasyonunda ve bu değerlerin oluştuğu ayrı bir örnek oluşturulmasında bir çözüm gördüğüm sürece - bu alt küme ile kesin olarak böyle çalışacağız. Bunu yaprakları aramak için yapacağım, ancak başlangıçta farklı yöntemlerle hızlı bir şekilde niceleme yapmanız gerekiyor.

Bu bir ağaç oluşturma algoritmasıdır. Değiştiremezsiniz. Sadece kendi Catboost'unuzu yazarsanız

Aleksey Vyazmikin 2020.11.12 14:21 #21115

Maksim Dmitrievski :

öyle olmalı, yeni verilerde bir sınıfın daha az örneği var. Burada, genelleme yeteneği daha iyi olmalı, hemen test cihazına girmelisin

yeniden örnekleme verilerime yardımcı olmuyor

Orijinal veri kümesini çıkarırsanız, sonuna yeni satırlar eklenir. Bu yöntem, minör sınıfa en yakın komşu örneklerini ekler. Onlar. inandırıcı yeni etiketler ve özellikler yaratır

Bu nedenle, Geri Çağırma yüksek kalmalı, aksi takdirde bir anlam ifade etmez. Numunenin dengesine bağlı değildir.

Nasıl çalıştığını anladım, teşekkürler.

"Küme Merkezleri" kümeleme ile ilgili bir yöntem var - veya buradan denenecek başka bir şey.

5 главных алгоритмов сэмплинга

habr.com

Работа с данными — работа с алгоритмами обработки данных. И мне приходилось работать с самыми разнообразными на ежедневной основе, так что я решил составить список наиболее востребованных в серии публикаций. Эта статья посвящена наиболее распространённым способам сэмплинга при работе с данными.

Süper Sinyal Göstergesi Rastgele yürüyüş hakkında bir balıkçı

Aleksey Vyazmikin 2020.11.12 14:22 #21116

elibrarius :

Bu bir ağaç oluşturma algoritmasıdır. Değiştiremezsiniz. Sadece kendi Catboost'unuzu yazarsanız

Bahsettiğimiz şey bu - kendi algoritmanızı yapmanız gerekiyor.

Maxim Dmitrievsky 2020.11.12 14:25 #21117

Alexey Vyazmikin :

Bu nedenle, Geri Çağırma yüksek kalmalı, aksi takdirde bir anlam ifade etmez. Numunenin dengesine bağlı değildir.

Nasıl çalıştığını anladım, teşekkürler.

"Küme Merkezleri" kümeleme ile ilgili bir yöntem var - veya buradan denenecek başka bir şey.

bu, aksine, etiketleri ana sınıftan kaldırır

Aleksey Vyazmikin 2020.11.12 14:34 #21118

Maksim Dmitrievski :

bu, aksine, etiketleri ana sınıftan kaldırır

O halde sıfırları akıllıca kaldıralım, belki bu bir etki yaratır.

Maxim Dmitrievsky 2020.11.12 14:36 #21119

Alexey Vyazmikin :

O halde sıfırları akıllıca kaldıralım, belki bu bir etki yaratır.

bir not defterinde sadece yöntemi değiştirin ve bu kadar

from imblearn.under_sampling import ClusterCentroids
cc = ClusterCentroids(random_state= 0 )
X_resampled, y_resampled = cc.fit_resample(X, y)

bu yüzden örnek

https://imbalanced-learn.readthedocs.io/en/stable/under_sampling.html

Ramak Kala'yı tercih ederim (resimlerden)

3. Under-sampling — imbalanced-learn 0.5.0 documentation

imbalanced-learn.readthedocs.io

On the contrary to prototype generation algorithms, prototype selection algorithms will select samples from the original set . Therefore, is defined such as and . In addition, these algorithms can be divided into two groups: (i) the controlled under-sampling techniques and (ii) the cleaning under-sampling techniques. The first group of methods...

Aleksey Vyazmikin 2020.11.12 14:41 #21120

Maksim Dmitrievski :

not defterinde sadece yöntemi değiştirin ve bu kadar

Ben bile yanlış yerde değiştirdim - yemin ederim

---------------------------------------------------------------------------
NameError                                 Traceback (most recent call last)
< ipython-input-2-e8cb95eddaea > in < module > ()
      1 cc = ClusterCentroids(random_state=0)
----> 2 X_resampled, y_resampled = cc.fit_resample(X, y)

NameError: name 'X' is not defined

Lütfen orada neyin yanlış olduğuna bakın.

Ticarette makine öğrenimi: teori, pratik, ticaret ve daha fazlası - sayfa 2112