Ticarette makine öğrenimi: teori, pratik, ticaret ve daha fazlası - sayfa 2412

 
mytarmailS :

Alexei, bir python veya r-ku alır ve öğretirdin, orada kodlamak için bir şeyler denerdin ... inan bana, bin soru ortadan kalkardı ...

Ne güzel bir dilek, ayrıca bir iki yabancı dil öğrenmek ve diğer tüm yetkinlikleri başkalarına bağımlı olmamak için öğrenmek de faydalı olacaktır. Ancak her konuda yetenekli değilim ve kodlamada yüksek sonuçlar elde edemeyeceğimi ve çok fazla emek harcanacağını anlıyorum.

mytarmailS :

Zaten test edildiyse ve çalışıyorsa, özellik seçim yöntemlerinin etkinliğini test etmenin anlamı nedir? aksi halde var olmayacaklardı

Burada daha çok yöntemin uygulanmasının etkinliği ile ilgiliydi, yani. tahmin edicileri hariç tutmadan bir örnek göndermeye kıyasla sonucu nihai olarak ne kadar iyileştirebileceğine göre. Onlar. gerçek deney.


mytarmailS :

Sorun, işaretlerin reddedilmesinde değil, işaretlerin kendisinde, 10 gösterge girerseniz, maviye dönene kadar seçin ve HERHANGİ bir seçim algoritmasından aynı sonucu alacaksınız ...

Şimdi yaklaşık 5k tahmincim var, bu yüzden bu yaklaşım ilginç.

mytarmailS :

Videoda duydunuz mu? on binlerce işaret arasından seçim yapıyorlar ve orada da MGUA'dan bahsediyorlar, genel olarak milyarlarca işaret yaratmaktan ve numaralandırmaktan bahsediyoruz.

Milyonlarca fikir üreten ve bunları otomatik olarak kontrol eden sistemler hakkında konuşmamız gereken şey bu, işin özü bu, bu bireysel kararlar ve özellik seçimi bu sürecin küçük bir son kısmı ve bunda ilginç bir şey yok, siz herhangi bir algoritma al ve git, konuşacak bir şey yok, sadece ilginç değil

Sadece çok sayıda özellik üzerinde çalışıyorum ve bunları bir şablondan oluşturmak için yöntemler geliştiriyorum. Özellik ikilileştirme süreci, muhtemelen yeni tahminci içindeki çeşitli göstergelerin korunmasıyla, 5000'den 50.000'i oluşturacaktır ve modelin zaten oluşturulacağı yeni, zengin özellikler oluşturmak için karşılıklı ilişkiler için incelenmeleri gerekir. .

Genel olarak, faaliyetim hakkında neden bu kadar ilkel bir fikir olduğunu bilmiyorum ...

 
Alexey Vyazm

Genel olarak, faaliyetim hakkında neden bu kadar ilkel bir fikir olduğunu bilmiyorum ...

Alexey, tüm 5k ikili özelliklerinizin 2-3 ana bileşenle değiştirilebileceğini nasıl anlamazsınız, bu 2-3 özellik ve hepsi bu)) ama bunu bilmek için yapılmalı ...

Ayrıca, 5k özellikli tüm harika modelinizin daha yüksek bir model için diğer yüzlerce özellikten sadece biri olabileceğini ve bunun karşılığında daha da yüksek bir model için bir özellik olacağını anlamıyorsunuz...

Şimdi düşündüğüm kategoriler bunlar


Aynı Ivakhnenko MGUA'yı okuyun, ne kadar iyi gelişmiş ve derin kavramlar, okuduğumda Moskova Bölgesi'nde birinci sınıf öğrencisi gibi hissediyorum ...

 
mytarmailS :
Alexey, tüm 5k ikili özelliklerinizin 2-3 ana bileşenle değiştirilebileceğini nasıl anlamazsınız, bu 2-3 özellik ve hepsi bu)) ama bunu bilmek için yapılmalı ...

Anlayışımla ilgili bu tür sonuçlar nereden geliyor? Gerçek bir uygulama deneyimi olmadığı için MGUA konusu benden etkilenmez. İşaretlerimi 2-3'e sıkıştırmaya hazır mısın? Ona bakmak ve yaklaşımımla karşılaştırmak benim için ilginç olacak. Bunun için her şeyi zaten keskinleştirdiğiniz için, o zaman zor olmayacağını düşünüyorum?

mytarmailS :
Ayrıca, 5k özellikli tüm harika modelinizin daha yüksek bir model için diğer yüzlerce özellikten sadece biri olabileceğini ve bunun karşılığında daha da yüksek bir model için bir özellik olacağını anlamıyorsunuz...

Şimdi düşündüğüm kategoriler bunlar

Bunu uzun zamandır uygulamaya koyuyorum, modellerden yapraklar çıkarıyorum - daha sonra daha küresel modeller için zengin bir bileşen.

Bulduğum şeylerin çoğunun başka isimleri var ve genel kullanım için uygulanıyor, ancak her şeyi sıfırdan yaptığınızda, sadece teori değil, nasıl ve neden çalıştığına dair derin bir anlayış var.

 
mytarmailS :
Aynı Ivakhnenko MGUA'yı okuyun, ne kadar iyi gelişmiş ve derin kavramlar, okuduğumda Moskova Bölgesi'nde birinci sınıf öğrencisi gibi hissediyorum ...

Bir şeyler yapmak gerekiyor - kontrol etmek için zaten yeterince düşünce var, kodlamanız ve doğrulamanız gerekiyor.

 
mytarmailS :

Ayrıca, 5k özellikli tüm harika modelinizin daha yüksek bir model için diğer yüzlerce özellikten sadece biri olabileceğini ve bunun karşılığında daha da yüksek bir model için bir özellik olacağını anlamıyorsunuz...

Matrix filminin hayranı mısınız?

 

Sonra ortaya çıkan modelin analizi ile tahmin edicileri / özellikleri / özellikleri seçme yöntemini nasıl geliştirebilirim diye düşündüm.

Algoritmanın uygulanması için kendime fikirler verdim, ancak bunları saygın toplulukla paylaşmaya karar verdim, belki bu algoritmanın uygulanmasına başlamadan önce, algoritmaya yapıcı eleştiriler veya eklemeler / iyileştirmeler olacaktır. Hiçbir şeyin gerekçe ile işe yaramayacağı fikri ilginçtir.


CatBoost modeli oluştururken kullanım sıklıklarına göre tahmin edicilerin seçimi (Özelliğin önemi)

Buradaki fikir, her algoritmanın kendi ağaç oluşturma özelliklerine sahip olmasıdır ve belirli bir algoritmanın algoritması tarafından daha sık kullanılan tahmin edicileri, bu durumda CatBoost'u seçeceğiz.

Ancak, zaman ölçeğindeki tekdüzeliği değerlendirmek için birden fazla örnek kullanacağız ve verilerini tek bir tabloda özetleyeceğiz. Bu yaklaşım, modellerden birinde tahmin edicinin seçiminde güçlü bir etkiye sahip olan rastgele olayları ayıklamamıza izin verecektir. Modelin üzerine inşa edildiği örüntüler, yeni veriler üzerinde doğru sınıflandırmaya katkıda bulunabilecek tüm örneklem boyunca gerçekleşmelidir. Bu özellik, piyasadan elde edilen veriler için geçerlidir, yani. Gizli döngüselliğe sahip olanlar da dahil olmak üzere eksiksizliği olmayan veriler, ör. geçici değil, olaylı. Aynı zamanda, farklı zaman aralıklarında modeller oluştururken en sık talep edilen tahmincileri seçmenize izin verecek şekilde, bölümlerden birinde ilk %30 - %50 arasında yer almayan tahmincileri cezalandırmak istenir.

Ayrıca, rastgelelik faktörünü azaltmak için, farklı Seed değerlerine sahip modeller kullanmanız gerekir, bu tür modellerin 25'ten 100'e kadar olması gerektiğini düşünüyorum.Sonuçta ortaya çıkan modelin kalitesine bağlı olarak bir katsayı eklemeye değer mi yoksa sadece hepsinin ortalamasını almak mı? tahmin ediciler üzerindeki sonuçlar - Henüz bilmiyorum, ama bence basit bir tane ile başlamalıyız, yani. sadece ortalama.

Önemli bir konu, niceleme tablosunun kullanılmasıdır, ilkelerin seçiminde belirleyici bir rol oynayabilir. Tablo sabit değilse, her model alt örnek için kendi tablosunu oluşturacaktır, bu da elde edilen sonuçların karşılaştırılmasına olanak vermeyecektir, bu nedenle tablo tüm örnekler için ortak olmalıdır.

Kuantizasyon tablosunu alabilirsiniz:

  1. CatBoost için hiperparametreleri tüm eğitim örneğinin nicelemelerinin türüne ve sayısına göre ayarlayarak ve sonuçları csv'ye kaydederek.
  2. CatBoost için hiperparametreleri bölümlerin türüne ve sayısına göre kuantlara ayarlayarak, örnekleme sitelerinden birini seçerek, diyelim ki en iyisi ve sonuçları csv'ye kaydedin.
  3. Çeşitli tablolardan en iyi seçenekleri seçen ayrı bir komut dosyası kullanarak bir tablo alın.
Eğitim sırasında tabloya zorla yükleme yapılarak her numune için daha önce elde edilen tablolar kullanılır.
 
Shap değerlerini bota bağlayabilir ve herhangi bir veride çıktıdaki özelliklerin etkileşimini görebilirsiniz, bu Alexei gibi iç çamaşırına dalmayı sevenler içindir :) Lime gibi benzer kütüphaneler de var ve bağımlı değil belirli bir model. Tabii ki, yüzlerce anlamsız işareti analiz ederseniz, böyle bir girişim mahkumdur. Bu basit bir rutin iştir ve birinin sizin için ücretsiz olarak yapması pek olası değildir, çünkü bilinen bir sonucu olan inanılmaz bir zaman öldürücüdür.
 
Maksim Dmitrievski :
Shap değerlerini bota bağlayabilir ve çıktıdaki özelliklerin etkileşimini herhangi bir veride görebilirsiniz, bu Alexey gibi iç çamaşırına dalmayı sevenler için :)

Metrik sorusu açık, farklı seçenekler var - hangi göstergenin daha iyi olacağını denemeniz gerekiyor - modele etkisi, bölme sayısı, bölmeden sonra doğru örneklerin sayısı - metrikler farklı. Soru, görev için kullanımlarının doğruluğu. Bu arada hatırladığım kadarıyla komut satırı için erken buildlerde shap değerleri kullanılamıyordu ama görselleştirme için script yapabilirsiniz.

 
Maksim Dmitrievski :
Tabii ki, yüzlerce anlamsız işareti analiz ederseniz, böyle bir girişim mahkumdur. Bu basit bir rutin iştir ve birinin sizin için ücretsiz olarak yapması pek olası değildir, çünkü bilinen bir sonucu olan inanılmaz bir zaman öldürücüdür.

Neden karamsarlık - özü, teoride herhangi bir hedef / temel strateji için uygun olan bir dizi özelliğin oluşturulmasında ve belirli bir hedef için en iyilerinin seçilmesindedir.

Manipülasyonlardan sonra sınıflandırma kalitesindeki artıştan şüphe duyuyor musunuz?
 
Alexey Vyazmikin :

Neden karamsarlık - özü, teoride herhangi bir hedef / temel strateji için uygun olan bir dizi özelliğin oluşturulmasında ve belirli bir hedef için en iyilerinin seçilmesindedir.

Manipülasyonlardan sonra sınıflandırma kalitesindeki artıştan şüphe duyuyor musunuz?
Bunun neden işe yarayabileceğinin tam resmini göremiyorum.