Ticarette makine öğrenimi: teori, pratik, ticaret ve daha fazlası - sayfa 2424

 
aşkın hayalperest :

Aslında, ispat yükü kovuşturmaya aittir, bu nedenle ürünün kalitesiz olduğunu (ilan edilenle eşleşmediğini) kanıtlamak zorunda olan sizsiniz.

Pekala, ben sadece mantığa ve sağduyuya hitap ediyorum 🧐

Eh, sanık değilsin))) Bilakis bilirkişi) O zaman kendi bilirkişi değerlendirmeni yap

 
YURY_PROFIT :

Eh, sanık değilsin))) Bilakis bilirkişi) O zaman kendi bilirkişi değerlendirmeni yap

Burada ben bir uzmanım ve sizden kanıt isteyeceğim 😉 - sonuçta suçlayan sizsiniz.

Ve sonra aniden orada zaten bir milyon kazandınız ve her şey sizin için yeterli değil.

 
Igor Makanu :

ne tür bir aptallık, kullanıcılar var, ürün / mal / hizmet üreticileri var

Kendi arabanı mı yarattın? ve otomobil üreticisinden hazır satın aldı

Not: Bilimsel bir bakış açısıyla mümkün... Pisagor teoremini duydunuz mu? seninki nerede? )))


bu özel kaynaklarla ilgili bir mizah, işte az önce okuduklarımdan: "3 element bir araya geldi, bir incir fotoğrafçısı, bir incir modeli ve bir incir cosplayi"


konuya göre ... iyi, sanki Market ürünün yeni sürümlerini yayınlamanıza izin veriyormuş gibi ve bazı ürün yazarlarının danışmanlarını yeni tarihsel veriler üzerinde yeniden optimize etmeleri önemli değil ...... "genel olarak , unsurlar bir araya geldi" - bu arada, "elemanlardan" biri - IMHO, alıcıların düşük hazırlığı, birkaç kişi ürünü niteliksel olarak kontrol edebiliyor, ancak her yerde aynı - yukarıda belirtilen arabaların alıcıları dahil - pazarlama, tabiri caizse

Aptallığı nerede gördün? O mesajda, ilk olarak, entelektüel çalışma anlamına geliyordu ve ikinci olarak, "onu kullanmayı ÖĞRENMEDİM" yazıyordu.

Metin yayınlarını eleştirmek için yazarla aynı seviyede olmanız gerekir. Pisagor ile bazı saçma karşılaştırmalar yapıldı. Neden bu?

Daha uygun bir örnek olabilir: Bir kuantum bilgisayar satın aldınız, ancak ayrıntılı talimatları okuduktan sonra bile nasıl kullanılacağını öğrenemiyorsunuz.

Umarım temel farkı anlamışsınızdır.

 
Sıcak Şilili çocuklar
 
Seviye, belirli konuların (bağlantıların) ve diğer şeylerin algılanmasıyla hemen görülebilir. Konuda 2-3 kişi gerisi her zamanki gibi flu
 
mytarmailS :

"Oynat/durdur oynat" ile "aç/açma" veya "satın al/satın alma" arasındaki temel fark nedir?

Bence hiçbir şey, olağan sınıflandırma ..


başka bir robotu başlat/durdur - teorik olarak kendi alım/satımından daha kolay olmalı...

daha az piyasa gürültüsü (gürültü kontrollü bir robot tarafından filtrelenir), çözümün bulunması daha kolaydır - çünkü daha az değişmez vardır

 
Maksim Kuznetsov :

başka bir robotu başlat/durdur - teorik olarak kendi alım/satımından daha kolay olmalı...

daha az piyasa gürültüsü (gürültü kontrollü bir robot tarafından filtrelenir), çözümün bulunması daha kolaydır - çünkü daha az değişmez vardır

Fark yoktur, start-stop, gürültünün olacağı diğer işaretler tarafından kontrol edilecektir.
 
Maksim Kuznetsov :

başka bir robotu başlat/durdur - teorik olarak kendi alım/satımından daha kolay olmalı...

daha az piyasa gürültüsü (gürültü kontrollü bir robot tarafından filtrelenir), çözümün bulunması daha kolaydır - çünkü daha az değişmez vardır

xs..

bana ne yaptığını göster, yoksa hala şüpheciyim. Ağı başka bir ağla filtreledim ve şöyle böyle ve sen bir çeşit TSshku ve normları mı filtreledin?

 

Bu yüzden, daha önce duyurduğum araştırmanın ilk aşamasını gerçekleştirdim, gerçekte ne olduğunu anlamaya çalışalım. Hemen yazacağım ve düşüneceğim, sonucu kendim bilene kadar, çok fazla bilgim var ve onu nasıl doğru analiz edeceğim, aynı soru.

Sırayla başlayacağım, 2014'ten 2021'in ilk yarısına kadar bir örnek aldım (%60 - tren, %20 - test, %20 - sınav), 5336 öngörücü, tüm parametreleri düzelttim - derinliği olan bir ağaç 6 ve rastgele tohumlu 100 set, kontrol numunesinde yeni 100 ağaçtan sonra sonuçlarda herhangi bir gelişme olmaması durumunda otomatik durdurma ile hız öğrenme 0.03 ve 1000 yineleme (ağaçlar), ayarların geri kalanı anlamlı değildir, ancak değiştirilebilir parametreler nicelemenin türü ve kuantum sınırlarının sayısıdır. Kuantum sınırlarının sayısı 8'den 512'ye bir ilerlemede artar ve niceleme türü - 6 farklı seçenek, nicemleme tablolarını ayrı bir dosyaya kaydederken.

Tüm modelleri eğittikten sonra, "Balances_Exam" sütununa göre sıraladığımız bağımsız bir örnek olan 42 model için bir tablo elde ederiz.

Ekran görüntüsü, gizli merkezi değerlere sahip bir tablo gösterir ve ilk beş ve en kötü beş gösterilir, tüm örnek için göstergelerin ortalama değeri hesaplanır.



Sonuç olarak, iki model seçildi - açık yeşil renkle vurgulandı, sırasıyla kuanta sayısı - 8 ve 128 ve niceleme türünde farklılık gösteriyor - Medyan ve UniformAndQuantiles.

Daha sonra test içindeki numuneyi 8 parçaya böldüm, böylece her parçada 6 ay oldu ve modelleri birinci ve ikinci sabit kuantum tabloları ile ayrı ayrı eğittim, her biri için diyelim ki proje için 5 ayar kullanıldı. rastgele tohum parametresinin yinelendiği eğitim için - 8'lik bir adımla 8'den 800'e kadar 100 seçenek :

  1. Test alt örneğinde kontrolü durdurmadan 1000 ağacı eğitiyoruz;
  2. İyileştirme olmadan 100 yinelemeden sonra bir alt örnek testinde durmak için kontrollü bir alt örnek üzerinde 1000 ağacı eğitiriz;
  3. Test alt örneğinde kontrolü durdurmadan 100 ağacı eğitiyoruz;
  4. Test alt örneğinde kontrolü durdurmadan 50 ağacı eğitiyoruz;
  5. Test alt örneğinde kontrolü durdurmadan 5 ağacı eğitiyoruz.

Eğitimi tamamladıktan sonra, ortaya çıkan modeller, CatBoost tahmincileri hakkında istatistik elde etmek için aşağıdaki seçeneklere göre analiz edildi:

  1. TahminValuesChange;
  2. KayıpFonksiyonDeğiştirme;
  3. Dahili ÖzellikÖnem.

Daha sonra, numunenin her 1/8'inin Tohumu için sonuçların ortalamasını ayrı ayrı aldım ve bunları, varlığını ayrı ayrı kontrol ederken, her segmentteki öngörücü anlamlılık göstergesinin ortalama değerine göre sıralanan genel bir tabloya indirdim. her segmentte ve bu gösterge için tablo sıralamasını kullanan önemli bir tahmin edici. Tanımlanan prosedür, her proje ve her model istatistiği türü için yapıldı.

Aşağıda 5. eğitim seçeneği ve model analizinin ilk versiyonu için tablodan bir alıntı bulunmaktadır.

Ardından, ilk n tahmin ediciye dahil olmayan eğitim tahmincilerinden hariç tutmak için ayarlar oluşturdum, kriterleri karşılayan yeterli tahminci yoksa, ayarlar dosyası oluşturulmadı. Her istatistik ve proje çeşidi için ayarlar yapılır. Eğitim için kullanılan tahmin edicilerin sayısıyla ilgili aşağıdaki kısıtlamalar kullanılmıştır: 5/25/50/100/300/500/1000/2000/3000. Böylece bir dizi ayar elde edildi.

Daha sonra trende sabit bir kuantum tablosu ayarı ile eğitim yaptım - %60 test - %20 sınav - %20 numune ile maksimum 1000 ağaç sayısı ve stop eğitimini test numunesi üzerinde yaptım, eğitim tüm ayarlar için yapıldı ve iki kuantum tabloları için seçenekler, her biri 100 rastgele tohum modeli - 8'lik bir adımla 8'den 800'e kadar 100 seçenek . Ek olarak, iki kuantum tablosu için öngörücüler hariç tutulmadan, ancak rastgele tohum numaralandırmasıyla ayrı eğitim gerçekleştirildi - 8'lik adımlarla 8'den 800'e 100 seçenek.

Aşağıda, Medyan yöntemini kullanan 8 sınır için bir döküm ayarına sahip bir tablo bulunmaktadır - ilk ve son 5 en iyi seçenek.

Aşağıda, UniformAndQuantiles yöntemini kullanarak 128 sınırın dökümünü içeren bir tablo bulunmaktadır - ilk ve son 5 en iyi seçenek.


Çıkarılabilecek ilk sonuç, modelin, kullanımı rastgele tohumdan etkilenen, kullanılan tahmin edicilere bağlı bir potansiyele sahip olduğudur. Ve yüksek sesle düşünerek, ayarları / yöntemi seçme hedefinin en iyi sonuç değil, ortalama kâr veya diğer göstergeler olması gerektiğini varsayacağım. İlk değişkende eğitim dışındaki örnekteki (Balans_Exam sütunu) finansal sonucun ortalama değerinin 2222.39 ve ikinci değişkende 1999.13 olduğunu not ediyorum.

Ardından, modellerin metrik göstergelerinin ortalama değerlerinin, eğitimleri için ayarlara ayrılmış bir tablosunu derliyoruz.

Aşağıda, tahmin edicilerin hariç tutulmasından sorumlu farklı ayarlar için Medyan yöntemini kullanan 8 sınır için bir döküm ayarına sahip bir tablo bulunmaktadır - ilk 10 en iyi seçenek ortalama değerlerdir.


Aşağıda, UniformAndQuantiles yöntemini kullanarak 128 kenarlık için bir döküm ayarı içeren bir tablo bulunmaktadır.   tahmin edicilerin hariç tutulmasından sorumlu farklı ayarlar için - ilk 10 en iyi seçenek - ortalama değerler.


Burada "Dosya_Adı" sütununda ne olduğunu deşifre etmek için aşağıdaki tabloyu kullanmanızı öneririm.



Gözlenen kombinasyonların sayısını azaltarak adım adım analiz etmeye çalışalım.

Aşağıdaki tablo, iki kuantum tablosuna göre hangi "Projelerin" ilk on içinde olduğunu hesaplamaktadır.

Ve burada her iki tabloda da ilk projeden (Exp_000) ve beşinci projeden ( Exp_004) iyi temsilciler olduğunu görüyoruz, hangisi daha iyi ve hangisinin reddedileceği net değil, ancak ikisinin de zirveye çıktığı gerçeği on, düşünmek için bir nedendir. Belki de tüm tablo için bazı katsayılarla istatistik almalısınız - bilmiyorum - seçenekler sunar. Ancak, Exp_004 seçeneğinin iyi olduğunu, çünkü yapılandırma dosyalarının oluşturulması için verilerin hazırlanmasının en az zaman aldığını not ediyorum, bu mantıklı, çünkü toplamda 5 ağaç var. İlk eğitim için ağaç sayısı seçimi konusunda nihai sonuçlar çıkarmak için çok erken olduğunu düşünüyorum, ne düşünüyorsunuz?

Aşağıdaki tabloda, bir düzine iki kuantum tablosu için, tahmin edici analizinin türüne ve modelde kullanılan marjinal tahmin edici sayısına bakalım.



Tablodan, ilk analiz yönteminin daha fazla yanıt gösterdiği görülebilir ve ayrıca tablo boyunca, modelde kullanılan tahmin edici sayısı için ayarların çoğunun 50 parçayı geçmediğini görüyoruz.

Şimdi modellerin sonuçlarına bakmayı öneriyorum, ilk kuantum tablosu için - CB_Svod_Exp_000_x_000000002 ve ikincisi için - CB_Svod_Exp_004_x_000000002 için ayarları çoğunlukta olan proje örneklerini alalım.


Aşağıda, CB_Svod_Exp_000_x_000000002 - ilk 5 en iyi ve 5 en kötü seçenek - tahmin edicilerin seçimini ayarlamak için Medyan yöntemine göre 8 sınır için bir arıza ayarına sahip bir tablo bulunmaktadır.



Aşağıda, 128'lik bir arıza ayarına sahip bir tablo bulunmaktadır.   UniformAndQuantiles yöntemiyle sınırlar   tahmin edici seçim ayarları   CB_Svod_Exp_004_x_000000002 - en iyi 5 en iyi ve en kötü 5 seçenek.

Aşağıda karşılaştırma için özet tablolar bulunmaktadır - ilk satır orijinal kuantum tablosundan alınan verilerdir, ikincisi rastgele tohum sayımından sonraki verilerdir ve üçüncü satır zaten tahminci seçim prosedüründen sonraki seçim sonuçlarına dayanmaktadır:

1. Medyan yöntemini kullanan 8 kenarlıklı bölmeli tablo



2. için arıza ayarı içeren tablo   128     yönteme göre sınırlar   ÜniformaVe Nicelikler



İki tablodan alınan puanlar, eğitim ve test örneklemlerinde performansta bir düşüşe ve bağımsız örneklerde performansta bir iyileşmeye işaret etmektedir, başka bir deyişle, tahmin edicilerin özelliklerindeki iyileşme ve sayılarındaki azalma nedeniyle uydurma etkisi azalmıştır. .


Hangi ön sonuçlar çıkarılabilir:

1. CatBoost örneğini basitçe besleyebilirsiniz, ancak tahmin edicilerle manipülasyon, finansal sonuç da dahil olmak üzere modeli önemli ölçüde iyileştirebilir.

2. İyi bir sonuç elde etmek için, örneklemde bulunan çok sayıda tahmin ediciyi kullanmak her zaman gerekli değildir - ortalama olarak değerlendirdiğimiz iyi sonuçlara ulaşmak için sadece 1 kullanmanın yeterli olduğu ortaya çıktı. Tüm tahmin edicilerin %'si.

Bu fikri geliştirmek için diğer numuneler üzerinde deneyler yapmanız gerekir ve sonuç tekrarlanırsa, umut verici sonuçlar bulmak için kombinasyon sayısını azaltmayı düşünebilirsiniz. Amaç, test ve muayene örneklerine bakmadan en iyi ortalamaları bulmaya izin verecek, eğitim örneğini %40 oranında artıracak ve yine de sabit bir yanıtla tahmin edicilerin tespitini ekleyecek kör bir yöntem geliştirmektir.

Elde edilen finansal sonucu dikkate alarak, yararlılıkları/verimliliklerine yönelik bir düzeltme faktörü ekleyerek değerlendirme sırasında tahmin edicilerin ek filtrelemesini düşünebilirsiniz.

Finansal göstergelere bakmamın nedeni, piyasada farklı olayların oluşabileceği ve eğer model daha yüksek kârlı olayları seçmeyi tercih ederse, o zaman modelin bu yaklaşımını beğeniyorum, modelin tahmini istatistiksel göstergelerine bakıyorum ve modelin tahmini istatistiksel göstergelerine bakıyorum. grafiğin kendisi.

Umarım not ilginç gelmiştir, yorumlarınızı bekliyorum!

Tüm tabloları içeren bir dosya eklendi - kimin umurunda ve kim düşünmek istiyor.

Dosyalar:
CB_Svod_Si_Q.zip  697 kb
 
Peki, şimdi, ancak 5-15 adetlik artışlarla alabilirsiniz, göstergeler daha da kötü olmayacak

Veya tüm tahmin edicileri önce korelasyonla (saniyeler içinde) ayıklayın ve ardından kalan 5-15'i alın (olabildiğince çok alırsanız)

Ekonometri bu şekilde size zaman kazandırır