Ticarette makine öğrenimi: teori, pratik, ticaret ve daha fazlası - sayfa 1296

 
Dmitry :

Rönesans'ın başlangıcında Bizans artık yoktu, Konstantinopolis Osmanlı İmparatorluğu'nun başkentiydi ve Haçlı Seferleri bundan 200 yıl önce sona erdi.

Şaka yapma yani...

Canlanma 4 aşamaya ayrılmıştır:

  1. Proto-Rönesans ( XIII yüzyılın 2. yarısı - XIV yüzyıl)
  2. Erken Rönesans (15. yüzyılın başları - 15. yüzyılın sonları)
  3. Yüksek Rönesans (15. yüzyılın sonları - 16. yüzyılın ilk 20 yılı)
  4. Geç Rönesans (16. yüzyılın ortası - 1590'lar)

Dördüncü haçlı seferi 1202-1204 (bu XIII yüzyılın başlangıcıdır)

Avrupa'nın en zengin ve en büyük şehrini yağmalayarak ... Onlar (haçlılar) başkenti Konstantinopolis - Latin İmparatorluğu olan bir devlet yarattılar. 50 yıldan fazla bir süredir fatihlere karşı bir mücadele vardı. 1261'de Latin İmparatorluğu düştü. Bizans restore edildi, ancak eski gücüne asla ulaşamadı.

50 yıllık soygun ve Bizans'taki yaşam boyunca, yeni zenginleşen Avrupalılar (özellikle tüm kargo taşımacılığını ve ilçelerini gerçekleştiren Venedik) güzel bir yaşam için bir zevk geliştirdiler, yaratıcı insanlara iyi ödeme yapmaya başladılar. Daha sonra öğretmenlerden daha iyi performans gösteren yaratıcı işe alınan/eğitilen öğrenciler vb. Böylece gitti - sessizce gitti.

 
CatBoost içindeki örnek hakkında bir görüşe ihtiyacımız var, orada eğitim için iki örnek gerekiyor. Birincisi optimizasyon fonksiyonunun çalışması, ikincisi ise modelin seçimi yani. bu fonksiyonun yeniden eğitimden kaçınmak için çalışmasını durdurması gerektiğinde ve bunun için eğitim sonuçları ikinci örneğe uygulanır. Bence, aslında, 2014-2016 eğitim örneğinde, diyelim ki kalıpları aradığımızı ortaya koyuyor, sonra 2016-2017 için bu kalıbı kontrol ediyoruz ve modeli zaten 2018 için üçüncü örnekte bağımsız olarak test ediyoruz. -2019. Bu kadar büyük bir zaman yayılımıyla, hatta daha doğrusu, test için büyük bir örneğe ihtiyacımız olduğuna dair şüpheyle bile kafam karıştı, çünkü uzun bir süre boyunca bir tür kararlı kalıp yakalamak istiyoruz, ancak bu kalıbın süresi bizim tarafımızdan bilinmiyor... Test örneğine 2-3 ay dahil etmenin yeterli olduğu yönünde bence döngüsel olan ve daha erken ve daha sonra tekrar edecek herhangi bir eğilimin ortaya çıkacağı, ancak daha sonra bir risk var. eğitim örneğinde bu döngüsellik algılanmadan önce, model başka bir şeyi açıklayan çok fazla ağacı perçinler ve ancak o zaman test örneğindeki eğilimi tanımlayan ağaçları oluşturur. Genel olarak, şüpheliyim, üç örneğin her birinin ne kadar uzun olması gerektiğini belirlemeye yardımcı olacak bir deneyin nasıl yapılacağını anlayamıyorum. Bu konuda herhangi bir fikri olan var mı?
 
elibrarius :

50 yıllık soygun ve Bizans'taki yaşam boyunca, yeni zenginleşen Avrupalılar (özellikle tüm kargo taşımacılığını ve ilçelerini gerçekleştiren Venedik) güzel bir yaşam için bir zevk geliştirdiler, yaratıcı insanlara iyi ödeme yapmaya başladılar. Daha sonra öğretmenlerden daha iyi performans gösteren yaratıcı işe alınan/eğitilen öğrenciler vb. Böylece gitti - sessizce gitti.

Ama tabii ki bu IMHO

Bir Avrupa yayınında, Konstantinopolis'in düşmesinin bir nimet olduğunu, yüzbinlerce kurban ve yıkıma rağmen, eğitimli insanlar arasından isteyerek işe alınan bir göçmen kalabalığının Avrupa'ya döküldüğünü ve bu sayede mümkün olduğunu söylediler. Orta Çağ dönemlerinden çıkışa katkıda bulunan Roma İmparatorluğu döneminden kayıp bilginin bir kısmını iade etmek.

Onlar. savaş gibi küfürler bile şimdi bile tüm insanlık için bir iyilik olarak sunuluyor... tarih galipler tarafından yazılmıştır.

 
Alexey Vyazmikin :
ancak eğitim örneğinde bu döngüsellik algılanmadan önce, modelin başka bir şeyi tanımlayan çok fazla ağaç oluşturması ve ancak o zaman test örneğindeki eğilimi tanımlayan ağaçlar oluşturması riski vardır.

Ne ağaçlar ne de NN'ler hatları zamana göre ayırmazlar, hatta onları karıştırırlar. Bu nedenle, "daha sonra" hiçbir ağaç inşa edilmez. Hepsi eşit olarak karışık verilere dayanmaktadır. 2014 ve 2016'dan gelen hatlar yan yana olabilir.

NN için satırları karıştırmazsanız, o zaman sadece ilk örnekler için yeniden eğitilecek ve bir çıkmaza ulaşacak ve son veriler onu öğrenmeyi bitirmeyecektir. Satırları karıştırdıktan sonra, NN eşit olarak öğrenir. r=1 (bir ağacı eğitmek için satır oranı) ise, ağaçlar satırları karıştıramaz, ancak fazla sığdırmayı önlemek için genellikle <1 olarak ayarlanır, bu nedenle r=0.5'te yalnızca almamak için karıştırmamız gerekir. 2014 ve 2015 verileri.

Alexey Vyazmikin :
Üç örneğin her birinin ne kadar uzun olması gerektiğini belirlemeye yardımcı olacak bir deneyin nasıl yürütüleceğini çözemiyorum. Bu konuda herhangi bir fikri olan var mı?

Bunun da optimize edilmesi gerektiğini düşünüyorum. Ancak örneklemin temsili olması ve tüm rastgele sapmaların ortalamasını alması için satır sayısının en az 1000-10000 olması gerektiğini düşünüyorum. Aksi takdirde, küçük bir örneğe rastgele bir önyargı sığdırabilirsiniz.

 
Alexey Vyazmikin :

Bir Avrupa yayınında, Konstantinopolis'in düşmesinin bir nimet olduğunu, yüzbinlerce kurban ve yıkıma rağmen, eğitimli insanlar arasından isteyerek işe alınan bir göçmen kalabalığının Avrupa'ya döküldüğünü ve bu sayede mümkün olduğunu söylediler. Orta Çağ dönemlerinden çıkışa katkıda bulunan Roma İmparatorluğu döneminden kayıp bilginin bir kısmını iade etmek.

Onlar. savaş gibi küfürler bile şimdi bile tüm insanlık için bir iyilik olarak sunuluyor... tarih galipler tarafından yazılmıştır.

Neyse ki, elbette, herkes kendisi için algılar. Avrupalılar için bu kesinlikle bir finans ve beyin hırsızlığıdır. Bizanslılar için bu iyi değil, çoğu için ölümdü.

Tam hatırlamıyorum ama Bizans'ın en parlak döneminde yıllık vergiler 2-4 bin ton altın civarındaydı. Bizim zamanımız için bile, bu birçok eyalet için çok iyi bir miktar. Ancak rakamlarda yanılıyor olabilirim - birkaç yıl önce bir film izledim, orada söylendi. İlginizi çekiyorsa bir göz atın. Filmin başında tesadüfen rastladım - madeni para olarak sadece birkaç yüz ton çıkarıldı.


 
elibrarius :

Ne ağaçlar ne de NN'ler hatları zamana göre ayırmazlar, hatta onları karıştırırlar. Bu nedenle, "daha sonra" hiçbir ağaç inşa edilmez. Hepsi eşit olarak karışık verilere dayanmaktadır. 2014 ve 2016'dan gelen hatlar yan yana olabilir.

Pek mümkün değil, fikir sahibi oldum.

Bakın, eğitim örneğinde bir ağaç oluşturduk, örneğin %10'unu kapladı (Recall) ve diyelim ki 20 ağaç, her biri orada Recall'a %3-%7 ekler, ancak bu bizim eğitim örneğimizde, test örneği, belki sadece 5 ve 6 ağaç genellikle tamlık ve doğruluk açısından bir tür yanıt verecektir ve önceki ve sonraki ağaçlar gürültü olacaktır, ancak "sonraki" olanlar algoritma tarafından kesilirse, o zaman bunlar "önce" kalacaktır. Böylece, sınıflandırmaya yardımcı olan ve buna müdahale eden veya sadece pasif davranan ağaçları alan bir model elde ederiz. Bu nedenle, soru tam olarak test örneğinin boyutunda ve içeriğinde ortaya çıkar.

Toplamda yaklaşık 14k satırım var, 3 örneğe ayrılmaları gerekiyor.

Numunenin farklı parçalarını kesmek ve daha sonra ortaya çıkan modelleri kararlılık için tüm numune üzerinde test etmenin etkili olduğu bu tür modeller için mümkündür ... düşüncesinde.

 
elibrarius :

Neyse ki, elbette, herkes kendisi için algılar. Avrupalılar için bu kesinlikle bir finans ve beyin hırsızlığıdır. Bizanslılar için bu iyi değil, çoğu için ölümdü.

Tam hatırlamıyorum ama Bizans'ın en parlak döneminde yıllık vergiler 2-4 bin ton altın civarındaydı. Bizim zamanımız için bile, bu birçok eyalet için çok iyi bir miktar. Ama rakamlarda yanılıyor olabilirim - birkaç yıl önce bir film izledim, orada söylendi. İlginizi çekiyorsa bir göz atın. Filmin başında tesadüfen rastladım - madeni para olarak sadece birkaç yüz ton çıkarıldı.


Videoyu izleyeceğim, teşekkürler ama Japonlardan veya bağımsız birinden izlemeyi tercih ederim...

 
Alexey Vyazmikin :
belki sadece 5. ve 6. ağaç genel olarak tamlık ve doğruluk açısından bir tür yanıt verecektir ve önceki ve sonraki ağaçlar gürültü olacaktır, ancak "sonra" olanlar algoritma tarafından kesilirse, o zaman "önce" olanlar kalacak.

Ve zaten inşa edilmiş bir ormandan ağaçları hangi algoritma budayacak? Orman ya belli bir miktara ulaştığında ya da iyi öğrendiğini düşündüğünde başka bir yöntemle büyümesini bitirir. Eğitim sırasında bir kırpma varsa, bunun trendeki (ve varsa geçerli) hata üzerinde olumlu bir etkisi vardır.

Eh, genel olarak, elbette, ağaçların bir kısmı lehte, bir kısmı da aleyhte oy verecek. Ve bundan kurtulmak imkansızdır, çünkü tek tek ağaçların aksine, seslerin ortalamasından dolayı ormanı iyi öğrenmeyi mümkün kılan tam da budur. Yükseltme yaparken, yalnızca ilk ağaç verilerden öğrenir, geri kalan her şey hatalardan.

 
elibrarius :

Ve zaten inşa edilmiş bir ormandan ağaçları hangi algoritma budayacak? Orman ya belli bir miktara ulaştığında ya da iyi öğrendiğini düşündüğünde başka bir yöntemle büyümesini bitirir. Eğitim sırasında bir kırpma varsa, bunun trendeki (ve varsa geçerli) hata üzerinde olumlu bir etkisi vardır.

Hangi algoritma kesecek - CatBoost eğitim sırasında bunu böyle yapar, orada 10 (kaç) yeni ağaç sonucu iyileştirmezse, o zaman modelin bu son 10 ağaç olmadan alınacağı ve buna göre modelin alınacağı bir parametre ayarlayabilirsiniz. olanın en iyisi.

elibrarius :

Yükseltme yaparken, yalnızca ilk ağaç verilerden öğrenir, geri kalan her şey hatalardan.

İlginç bir söz. Ancak, sonraki ağaçlar mevcut ağaç kompozisyonundan kaynaklanan hatayı azaltmak için inşa edilir, ancak neden örnekleme kullanmadıklarını anlamıyorum, bize daha ayrıntılı anlatın, belki derin bir şey anlamıyorum ...

 
Alexey Vyazmikin :

İlginç bir söz. Ancak, sonraki ağaçlar mevcut ağaç kompozisyonundan kaynaklanan hatayı azaltmak için inşa edilir, ancak neden örnekleme kullanmadıklarını anlamıyorum, bize daha ayrıntılı anlatın, belki derin bir şey anlamıyorum ...

Evet, hatayı azaltmak için hataları hedef alırlar, sonra çıkarırlar.

İşte güçlendirme algoritması, sadece kendim çalışıyorum https://neurohive.io/en/osnovy-data-science/gradientyj-busting/


1. Doğrusal regresyon veya karar ağacını verilere sığdırın (burada kodda seçilen karar ağacı) [ x'i girdi olarak ve y'yi çıktı olarak çağırın] (1 ağaç veri üzerinde eğitilir)

2. Hata paylarını hesaplayın. Gerçek hedef eksi öngörülen hedef [e1 = y - y_predicted1]

3. Aynı girdi değişkenleriyle hedef değişken olarak varyanslar için yeni bir model belirleyin [e1_predicted olarak adlandırın] (2 ve ağaçların geri kalanı hatalardan öğrenir)

4. Öngörülen Sapmaları Önceki Tahminlere Ekle
[y_predicted2 = y_predicted1 + e1_predicted]

5. Kalan sapmaların başka bir modelini kurun. onlar. [e2 = y - y_predicted2] ve fazla uydurmaya başlayana veya toplam sabit olana kadar 2 ila 5 arasındaki adımları tekrarlayın . Fazla takma yönetimi, doğrulama verilerinin doğruluğu sürekli kontrol edilerek kontrol edilebilir.


Bunun klasik bir güçlendirme olduğunu anlıyorum. Belki de kedi baskınında kendilerine ait bir şey buldular ...

Градиентый бустинг — просто о сложном
Градиентый бустинг — просто о сложном
  • 2018.11.27
  • neurohive.io
Хотя большинство победителей соревнований на Kaggle используют композицию разных моделей, одна из них заслуживает особого внимания, так как является почти обязательной частью. Речь, конечно, про Градиентный бустинг (GBM) и его вариации. Возьмем, например. победителя Safe Driver Prediction, Michael Jahrer. Его решение — это комбинация шести...