Ticarette makine öğrenimi: teori, pratik, ticaret ve daha fazlası - sayfa 3167

 
mytarmailS #:

Bu rakamları hiç kendi gözlerinizle gördünüz mü?

0,99 eğitim/test, model birkaç yinelemeye indirgenmiştir. Sınıfları iyi tahmin eden yalnızca birkaç kural kalmıştır.

 
Maxim Dmitrievsky #:

0,99 eğit/test, model birkaç yinelemeye indirgenmiştir. Sınıfları iyi tahmin eden yalnızca birkaç kural kalmıştır.

TP=10 ve SL=1000 ?)

 
Forester #:

TP=10 ve SL=1000 ?)

Hayır, çok fazla işlem yapmak istiyorsanız eğlencelidir.

her barda yenilerini açmak
 
Vladimir Perervenko #:

Ne demek ev yapımı? Teorik bir gerekçe, iyi bir makale var. RLTv3.2.6 adında bir paket var. Oldukça iyi çalışıyor. Sürüme dikkat edin.


İyi şanslar.

Bana göre, belirli bir örnekle aşağıdaki koşullar yerine getirilirse, ev yapımı değil.

Başlangıçta, şimdi çok daha az, site mutfakta otururken bir şeyler icat eden, kafalarından terminoloji kullanan ve "araştırmaya" başlayan ve sadece "araştırmak" değil, mevcut ve genel olarak kabul edilen şeyleri çürüten kendi kendine yapılmış "dahilerle" doluydu.

Tüm bu insanlar, ciddi dergilerde yayınlanan ve daha sonra ilgili eğitime sahip insanlar tarafından genellikle yıllarca tartışılan teorik kanıtlara sahip olmadıkları için ev yapımı kodlarının bir kuruş bile etmediğini fark etmiyorlar. Daha sonra kod yazılır ve çok sayıda kullanıcı tarafından test edilir ve ancak bundan sonra endüstriyel kullanım için uygun hale gelir.

Yerel "dahileri" tartışmanın bir anlamı yok.

Ama katbust.

Çekirdek olmayan bir kuruluşun ve profesyonel olarak çok benzer bir gelişimin el altından yapıldığını anlamak için katbust ve XGBoost ile ilgili belgeleri karşılaştıralım.

 
Maxim Dmitrievsky #:
Ve asıl kendini yetiştirmiş ve kendi kendini yetiştirmiş adam Breiman'dır, çünkü R'de yazmamıştır. Tam bir kolhoznik.

Tamamen cahil görünmemek için R öğrenin: pratik olarak R'deki tüm paketler R'de YAZILMAMIŞTIR. Genellikle C++ veya Fortran'dır ve R sadece erişimdir. Bu yüzden R'deki hesaplama açısından yoğun algoritmalar C++'dan daha kötü çalışmaz.

 
СанСаныч Фоменко #:

Tamamen cahil görünmemek için R öğrenin: R'deki neredeyse tüm paketler R'de YAZILMAMIŞTIR. Genellikle C++ veya Fortran'dır ve R sadece erişimdir. Bu yüzden R'de hesaplama açısından yoğun algoritmalar C++'dan daha kötü çalışmaz.

Olamaz, bunu ilk kez duyuyorum.

Daha aydınlatıcı bilgiler olacak mı? )

Ben çoktan catbuster'a ulaştım... )))

 
mytarmailS boyut azaltma için bilinen basit bir algoritma yardımıyla fazlalıkları kaldırırız (modeli iyileştiririz), model daha tekrarlanabilir hale gelir.

ve belki de son dekoratif dokunuş


MO'nun bu tür veriler üzerinde nasıl eğitileceğini merak ediyorum.

Bu bir test örneğidir.

Hiç kendi başınıza böyle rakamlar gördünüz mü?




Mutlak fiyat değerleriyle bağlantılı olduğu için büyük olasılıkla yeniden eğitilmiştir.

 

Etiketleri yeniden etiketleyen ve özellikleriniz için daha öngörülebilir hale getiren bir işlev yazıldığında, model daha kararlı hale gelir.

Küçük bir veri setiniz varsa, kontrol için bırakabilir ve verilerinizden emin olabilirsiniz (veya hayal kırıklığına uğrayabilirsiniz).

Python'cular için:

    c = coreset[coreset.columns[1:-4]] // ваш датасет без меток. Нужно брать только трейн/тест данные, на остальных не делать кластеризацию, иначе подгонка
    kmeans = KMeans(init='k-means++', n_clusters=clusters).fit(c) // кол-во кластеров - гиперпараметр
    coreset['clusters'] = kmeans.predict(c)
    mean_labels = coreset.groupby('clusters')['labels'].apply(lambda x: x.mean()) // считаем среднее по меткам каждого кластера
    coreset['labels'] = coreset.apply(lambda row: 0 if mean_labels[row['clusters']] < 0.5 else 1, axis=1) // если среднее больше 0.5, то для всех элементов кластера ставим метку 1 и наоборот
Kümeler temsili ise model daha kararlıdır. Bu yüzden kaba kuvvet yöntemiyle küme sayısı ve hangi çiplerin kümeleneceği belirlenir.
 
Aleksey Nikolayev #:

Anladığım kadarıyla, etkileşimli bir oturumda R ile çalışmak için komutlar yorumlanmış. Önce fonksiyonları tanımlamak için tüm betiği yüklüyorsunuz, sonra da her birinden sonra enter tuşuna basarak komutları satır satır giriyorsunuz. Bu muhtemelen bilimsel yayınlarda bir standart gibi bir şey - sadece komut satırına güvenin ve Rstudio gibi ortamlardan kaçının.

Kısalık adına CTree'yi veri toplama ve sınıf şablonlarından çağırdım, ki bu da kaçınılmaz görünüyor.

Anormallik tespiti buradaki hedeflere dahildir - yangınların anormal derecede sık olduğu yerleri arar.


NOT. Bir süre önce size Poisson dağılımının kullanımı hakkında yazmıştım ve burada çalışma koduna geliştirildi.

Henüz hepsini denemedim - görevlerimden birinde takıldım.

Kesinlikle kendi verilerim üzerinde çalıştırmayı deneyeceğim. Bu konuda farklı çözümler biriktiriyorum.

Pausson dağılımı ile ilgili olarak - teoride ilginç, ancak verilere baktığımda, dizide, diyelim ki bir satırda 20 sıfır olabilir ve sonra sıfırlar ve birlerin bir karışımı olabilir ve bu atlamalar önemlidir, dağılımla tutarsız görünüyorlar.

 
Aleksey Vyazmikin #:

Pausson dağılımıyla ilgili olarak - teoride biraz ilginç, ancak verilere baktığımda, diyelim ki, bir sırada 20 sıfır olabilir ve sonra sıfırlar ve birlerin bir karışımı olabilir ve bu ihmaller önemlidir, dağılımla tutarsız görünüyorlar.

Buradaki fikir, örnekleri birbirinden farklı ve içinde homojenlik olan gruplara ayırmaktır. Belirli özelliklerin bunu yapmaya izin verdiği kesin değildir. Örneğin, durağan olmama nedeniyle, herhangi birinin bunu yapabildiği de bir gerçek değildir.

Sadece ilgilendiğim konuya değindiği için bu makaleyi ayrıntılı olarak incelemeyi planlamıyorum. CHAID biraz daha yakın, ancak tam olarak aynı değil.