Ticarette makine öğrenimi: teori, pratik, ticaret ve daha fazlası - sayfa 2944

 
Aleksey Vyazmikin #:

Söylemesi zor :) Matematik bu videoda görülebilir

Hayır, boş. Bousting hakkında olduğunu söylemeyi unuttum.

 
Stanislav Korotky #:

Lütfen ağaçlar üzerinde sınıflandırma algoritmasında aşağıdaki formülün nasıl elde edildiğini açıklayınız(PDF'ye bağlantı verebilir siniz):


İnternette bulabildiğim tüm materyallerde formül sihirli bir şekilde "tavandan alınıyor".

Sınıflara göre özetleme yapılıyorsa, payda Gini endeksi veya düğüm saflığıdır. Ne kadar küçük olursa o kadar iyidir. Payda ise sayfadaki satır sayısıdır.

Kriter ne kadar büyükse o kadar iyidir - sınıflar daha temiz bir şekilde ayrılır, ancak sayfalar aşırı derecede kesilmez.

Gini endeksi, sınıflandırma hata oranından daha hassas olduğu düşünüldüğü için seçilmiş gibi görünmektedir.

 
Aleksey Nikolayev #:

Eğer sınıf bazında özetlenirse, payda Gini endeksi veya düğüm saflığıdır. Ne kadar küçükse o kadar iyidir. Pay, sayfadaki satır sayısıdır.

Kriter ne kadar büyük olursa o kadar iyidir - sınıflar daha temiz bir şekilde, ancak aşırı yaprak parçalanmadan ayrılır.

Gini endeksi, sınıflandırma hata oranından daha hassas olduğu düşünüldüğü için seçilmiş gibi görünmektedir.

Hayır, düğüme isabet eden kayıtlar üzerinden özetleme. Soru, bilgi verilebilirliğin ölçüsü ile ilgili değildir. Ağaçlar arasında "kalıntıların" aktarılmasıyla ilgilidir - olasılıktan logit'e ve tekrar geriye doğru sürekli bir yeniden hesaplama vardır.

 
Stanislav Korotky #:

Hayır, düğüme isabet eden kayıtlara göre özetleme. Soru, bilgi verilebilirlik ölçüsü ile ilgili değildir. Ağaçlar arasında "kalıntıların" aktarılmasıyla ilgilidir - olasılıktan logit'e ve tekrar geriye doğru sürekli bir yeniden hesaplama vardır.

Peki genel olarak bir kayıt için frekans nasıl sayılabilir? Bir sınıf için nasıl olacağı açıktır.

 
Stanislav Korotky #:

Hayır, düğüme isabet eden kayıtlara göre özetleme. Soru, bilgi verilebilirlik ölçüsü ile ilgili değildir. Ağaçlar arasında "kalıntıların" aktarılmasıyla ilgilidir - olasılıktan logit 'e ve tekrar geriye doğru sürekli bir yeniden hesaplama vardır.

Yoksa lojistik regresyon ile sınıflandırma hakkında mı? Her iki durumda da, bir yerden koparılmış bir formül yeterli değildir, metnin tamamına ihtiyacınız vardır.

 
Aleksey Nikolayev #:

Yoksa lojistik regresyon ile sınıflandırmadan mı bahsediyoruz? Her halükarda, bir yerden koparılmış bir formül yeterli değildir, metnin tamamına ihtiyacınız vardır.

ln(odds) anlamında logit fonksiyonu. Olasılık değerleri [0,1] bölgesini artı veya eksi sonsuza çevirmek için buna ihtiyacınız vardır - aksi takdirde gradyanla eğitemezsiniz.

Örneğin, işte metin - https://medium.com/swlh/gradient-boosting-trees-for-classification-a-beginners-guide-596b594a14ea

Ve işte video - https://www.youtube.com/watch?v=hjxgoUJ_va8.

NOT. IMHO, hem orada hem de orada materyalde hatalar var.
Gradient Boosting Trees for Classification: A Beginner’s Guide
Gradient Boosting Trees for Classification: A Beginner’s Guide
  • Aratrika Pal
  • medium.com
Introduction Machine learning algorithms require more than just fitting models and making predictions to improve accuracy. Nowadays, most winning models in the industry or in competitions have been using Ensemble Techniques to perform better. One such technique is Gradient...
 
Aleksey Nikolayev #:

Eğer sınıf bazında özetlenirse, payda Gini endeksi veya düğüm saflığıdır. Ne kadar küçükse o kadar iyidir. Pay, sayfadaki satır sayısıdır.

Kriter ne kadar büyükse o kadar iyidir - sınıflar daha temiz bir şekilde, ancak aşırı yaprak parçalanmadan ayrılır.

Gini endeksi, sınıflandırma hata oranından daha hassas olduğu düşünüldüğü için seçilmiş gibi görünmektedir.

Oh!
Nihayet birisi Gini endeksini biliyor.... 18'de bunun kodunu araştırmıştım. https://www.mql5.com/ru/blogs/post/723619
Нужна ли деревьям и лесам балансировка по классам?
Нужна ли деревьям и лесам балансировка по классам?
  • www.mql5.com
Я тут читаю: Флах П. - Машинное обучение. Наука и искусство построения алгоритмов, которые извлекают знания из данных - 2015 там есть несколько страниц посвященных этой теме. Вот итоговая: Отмеченный
 
Stanislav Korotky #:

ln(odds) anlamında logit fonksiyonu. Olasılık değerleri bölgesini [0,1] artı veya eksi sonsuza çevirmek gerekir - aksi takdirde gradyan ile eğitmek mümkün olmayacaktır.

Evet, bir sınıfa ait olma olasılığını (ondan logit fonksiyonu) aradığınızda lojistik regresyon için kullanılır.

Görünüşe göre yazar bousting'in iç yüzünü popüler bir şekilde sunmak istiyor, ancak problemin çok karmaşık bir varyantını ele almış. Kendi başlarına anlaşılması kolay olmayan logit regresyon, ağaçlar ve bousting'i karıştırıyor. Bousting'in özü funcan olmadan mantıksal olarak ifade edilemez. Logit regresyonun özünü anlamak için bir teorisyene (muhtemelen binom dağılımı) ihtiyacınız vardır.

 
Forester #:
Oh!
Nihayet birisi Gini endeksini biliyor... 18'de bunun kodunu arıyordum. h ttps:// www.mql5.com/ru/blogs/post/723619

Bir de Gini katsayısı vardır. MOE'de de kullanılır, ancak bu farklıdır).

 
Stanislav Korotky #:

Lütfen bousting ile ağaçlarda sınıflandırma algoritmasında aşağıdaki formülün nasıl elde edildiğini açıklayınız(PDF'ye bağlantı verebilir siniz):


İnternette bulabildiğim tüm materyallerde formül sihirli bir şekilde "tavandan alınıyor".

Formülü nereden aldınız? "Tavandan" alışılagelmiş kolektif çiftçiliğe bakılırsa, büyük olasılıkla Sovyet.

İyi kurulmuş algoritmaları olan profesyonel matematik kullanmanız gerekir.

R'nin çok sayıda ahşap modeli var ve profesyonel R dili ile diğerleri arasındaki fark, algoritmanın yazarlarına ve ilgili yayına zorunlu referanslar. Hızlı bir bakışta, R paketlerinden ilgili referanslara sahip olmayan az ya da çok karmaşık bir işlev hatırlayamıyorum.


R dışında her şeyi unutun. Bugün istatistiksel hesaplamalar için tek profesyonel ortamdır.