Ticarette makine öğrenimi: teori, pratik, ticaret ve daha fazlası - sayfa 897

 
Alexey Vyazmikin :

oob (çanta dışı) tahmini

 
Maksim Dmitrievski :

oob (çanta dışı) tahmini

Bu yöntemi burada https://habr.com/company/ods/blog/324402/ okudum, ancak puanın değiştirilen verilerdeki kalıp aramasını nasıl etkileyebileceğini göremedim. Belki doğru konuşmuyorum ama örnekte basit bir örnek var diyelim ki böyle bir kalıbımız var

"

1+2=3

...

1+2=3,5

...

1+2=3.8

...

1+2=3,5

...

1+2=3

"

"...", kuralın değiştiği belirli bir süre değildir. İdeal olarak, kuralları değiştirmenin bir kalıbı olsa bile. Ormanlar, örneğin n satırından sonra kuralın değişeceği ve n*x'ten sonra kuralın orijinal durumuna döneceği bu örüntüyü nasıl bulacak? Ancak, kural değişikliğinin doğası yalnızca bir zaman aralığı değil, verileri örneklemde bulunan diğer koşulların etkisiyse, ancak etkilerinin modeli yalnızca olayların sırası ile değerlendirilebilirse (yani, her veri satırının sunulduğu sıra ile)? Öte yandan ormanlar, farklı yöntemler kullanarak parçaları çıkarırlar, sadece yatay (öngörücüler kümesi) bir deseni değil, aynı zamanda dikey bir deseni (geçmiş n'ye göre öngörücülerdeki değişiklikler) nasıl görebilirler?

 
Alexey Vyazmikin :

Daha sonra cevaplayacağım, akşam .. Aniden pizza ve hafif istedim

 
Maksim Dmitrievski :

Daha sonra cevaplayacağım, akşam .. Aniden pizza ve hafif istedim

Bahar - aniliği açıklayabilir :)

Bir cevap bekleyeceğim, muhtemelen aptal sorularıma zaman ayırdığınız için teşekkürler.

 
Alexey Vyazmikin :

Bahar - aniliği açıklayabilir :)

Bir cevap bekleyeceğim, muhtemelen aptal sorularıma zaman ayırdığınız için teşekkürler.

tam tersine, doğru mantıklı sorular, son zamanlarda kendime sordum

 
Alexey Vyazmikin :

"...", kuralın değiştiği belirli bir süre değildir. İdeal olarak, kuralları değiştirmenin bir kalıbı olsa bile. Ormanlar, örneğin n satırından sonra kuralın değişeceği ve n*x'ten sonra kuralın orijinal durumuna döneceği bu örüntüyü nasıl bulacak? Ancak, kural değişikliğinin doğası sadece bir zaman aralığı değil, diğer koşulların etkisiyse, veriler örnekte mevcutsa, ancak etkilerinin modeli yalnızca olayların sırası ile değerlendirilebilirse (yani, her veri satırının sunulduğu sıra ile)? Öte yandan ormanlar, farklı yöntemler kullanarak parçaları çıkarırlar, sadece yatay (öngörücüler kümesi) bir deseni değil, aynı zamanda dikey bir deseni (geçmiş n'ye göre öngörücülerdeki değişiklikler) nasıl görebilirler?

Pekala, pek desen değişikliği değil. Aksine, daha kaba bir yaklaşım. Örnek yeterince büyükse, örneğin, ormanlar rastgele alt kümeler üzerinde eğitilir, parçalar çıkarılır, evet ve oob'da (kalan parçalar), model doğrulanır ve hatalar karşılaştırılır. +- hataları aynıysa, ormanlar yeniden eğitilmez, bu da gelecekte doğru tahminlerin olasılığının daha yüksek olduğu anlamına gelir. Oob'daki hata tatmin edici değilse, ayarlarla biraz oynayabilirsiniz, örneğin eğitim alt kümesini azaltın (modele daha fazla gürültü ekleyin) ve doğrulamayı artırın. Böylece model, eğitim örneklerine daha kötü yaklaşır, hata daha büyük olacaktır, ancak yeni verilerde tam olarak aynı hatayı alma şansı vardır, yani. model her iki alt örnekte de kararlı olacaktır. Ve alt örneklerin kendileri rastgele seçildiğinden, eğitim alt kümesinde çok sayıda bilinmeyen ele alınmaktadır. vakalar. Bunun her derde deva olmadığı açıktır, ancak sadece ağaçların aksine işte daha fazla esneklik sağlar. Aynısı NS toplulukları için de geçerlidir.

 
Maksim Dmitrievski :

Pekala, pek desen değişikliği değil. Aksine, daha kaba bir yaklaşım. Örnek yeterince büyükse, örneğin, ormanlar rastgele alt kümeler üzerinde eğitilir, parçalar çıkarılır, evet ve oob'da (kalan parçalar), model doğrulanır ve hatalar karşılaştırılır. +- hataları aynıysa, ormanlar yeniden eğitilmez, bu da gelecekte doğru tahminlerin olasılığının daha yüksek olduğu anlamına gelir. Oob'daki hata tatmin edici değilse, ayarlarla biraz oynayabilirsiniz, örneğin eğitim alt kümesini azaltın (modele daha fazla gürültü ekleyin) ve doğrulamayı artırın. Böylece model, eğitim örneklerine daha kötü yaklaşır, hata daha büyük olacaktır, ancak yeni verilerde tam olarak aynı hatayı alma şansı vardır, yani. model her iki alt örnekte de kararlı olacaktır. Ve alt örneklerin kendileri rastgele seçildiğinden, eğitim alt kümesinde çok sayıda bilinmeyen ele alınmaktadır. vakalar. Bunun her derde deva olmadığı açıktır, ancak sadece ağaçların aksine işte daha fazla esneklik sağlar. Aynısı NS toplulukları için de geçerlidir.

Düşündüğüm şey buydu, eğer ilkelse, o zaman kurallar basitçe kontrol edilir, koşullu olarak bağımsız her ağacın örneğinde ve geçiş nedeniyle, hata, yeniden eğitim durdurulur, ancak aynı şekilde tüm geçici kalıplar kesilir. nedenselliği kurulamayan (ve bu nedensellik, ancak ağaç, sonucunu örüntünün korunduğu örnekle karşılaştırırsa, tesadüfen kurulabilir).

Ve örneği kesip daha küçük parçalar üzerinde antrenman yaparsanız (diyelim ki bir yıl 12 aya bölünür ve 2-3 yıl böyle alınır) ve sonra, bir ağaç söz konusu olduğunda, her ağaçtan tüm kuralları bir büyük ağırlık ve bunları 24 örnekle karşılaştırın (kural örnek seçeneklerin %x'inden daha azında çalışıyorsa, atın), o zaman farklı kuralların farklı periyotlarda çalışacağını göremiyor muyuz? Daha sonra zaman hesaplaması (finansal raporlar) nedeniyle finansal piyasalarda olması gereken döngüsellik hakkında bir varsayımda bulunabilirsiniz.

Örneğin, birçok kişi tahmin edicileri tahmin etmek için bir ön yöntem olarak korelasyon analizi hakkında yazıyor, ancak tabloya bakıyorum ve anlayamıyorum, korelasyon küçük ve ağaç inşaattan sonra bu öğeye büyük önem veriyor. Bu neden oluyor?


"arr_TimeH" adlı bir tahminci alır ve bunun hakkında düşünürseniz, farklı zamanlarda piyasadan farklı davranışlar bekleyebileceğiniz açık hale gelir, örneğin, borsa açılışında sabah 10'da güçlü bir hareket olacaktır, çünkü bilgi (birikmiş olaylar) alım satım olmadığı için çalışılıyor ve zamanın geri kalanında durum farklı olabilir, aynı planlı haberler gelebilir, bunun ardından çok güçlü bir piyasa hareketi olabilir, diğer taraftan bir akşam seansı var, hareket genellikle bir önceki güne göre değişiyor, daha az genlik olabilir, yani zaman açıkça piyasanın durumunu etkiler ve ağaç bunu gördü, ancak korelasyon analizi yok. Bu nedenle, ticaret için ML yöntemlerinin ticaret için ayarlanması gerektiğini ve yalnızca veri ön işleme de dahil olmak üzere halihazırda kurulmuş geleneklere güvenmekle kalmaması gerektiğini düşünüyorum.


PS Plakaları Photoshop'ta tasarladım, rengi vurgulamak için istediğim zaman onay işaretleri koydum ve önemi değerlendirmek için onay işaretlerinin renginin ölçeklerin rengiyle çakıştığını gördüğümde çıldırdım - tonuna kadar! Nasıl yani? Görünüşe göre buna bilinçsizce dikkat ettim ve seçimimi etkiledi, belki insanlar sezgisel olarak ticaret yapıyorlar, yani. anlamadıkları bir sistemde.

 
Alexey Vyazmikin :

Örneğin, birçok kişi tahmin edicileri tahmin etmek için bir ön yöntem olarak korelasyon analizi hakkında yazıyor, ancak tabloya bakıyorum ve anlayamıyorum, korelasyon küçük ve ağaç inşaattan sonra bu öğeye büyük önem veriyor. Bu neden oluyor?

Belki de zaman tahmincilerinizin (ay, hafta, gün, saat...) kombinasyonu ile ağaç sadece belirli bir AL/SAT çubuğuna gider.

Bu, büyük çubukların Zamanını hatırlamak ve bu özelliğin fiyat hareketi ile ilişkisi neredeyse sıfır olacak olsa da, tarihte karlı bir şekilde ticaret yapmak gibidir.

 
Ivan Negreshniy :

Belki de zaman tahmincilerinizin (ay, hafta, gün, saat...) kombinasyonu ile ağaç sadece belirli bir AL/SAT çubuğuna gider.

Bu, büyük çubukların Zamanını hatırlamak ve bu özelliğin fiyat hareketi ile korelasyonu neredeyse sıfır olacak olsa da, tarihte karlı bir şekilde ticaret yapmak gibidir.

Belki öyledir, ancak yalnızca iki öngörücü vardır - haftanın günü ve saat, yani. bu öznitelikle 5*14=70 grup elde etmek mümkündür ve örneklemde 403933 satır vardır, yani. 5770 hat gruba düşerken, 33000 hedef hattın her gruba 471 hedef hattı düştüğü ortaya çıktı. Ve başka tahmin edicilerin olduğunu da hesaba katarsak, o zaman zaten çok sayıda grubumuz olacak. Bu, bir elmayı uzunlamasına ve parçalara ayırmak, dilimleri işaretlemek ve bazı işaretlerin diğerlerinden daha fazla olduğu dilimleri tablete yazmak gibidir ve çok fazla dilim olduğu için dilimler olacaktır ve sadece bir işaretle . Bu nedenle, soru ortaya çıkıyor, belirli bir örneklem büyüklüğü için kaç tahmin edici olmalı? Elma dilimleri ne büyüklükte olmalıdır?

Eh, kendi içinde, gün ve saatlerde bir düzenlilik vardır ve burada kronometrik faktörlerin etkisi vardır - bir ticaret seansının açılması , işlem seanslarının süresi, haberler (esas olarak aynı anda yayınlanan ekonomik / istatistiksel ve haftanın günü).

 
Alexey Vyazmikin :

Belki öyledir, ancak yalnızca iki öngörücü vardır - haftanın günü ve saat, yani. bu özelliğe göre 5*14=70 grup elde etmek mümkündür ve örneklemde 403933 satır vardır yani. 5770 hat gruba düşerken, 33000 hedef hattın her gruba 471 hedef hattı düştüğü ortaya çıktı. Ve başka tahmin edicilerin olduğunu da hesaba katarsak, o zaman zaten çok sayıda grubumuz olacak. Bu, bir elmayı uzunlamasına ve parçalara ayırmak, dilimleri işaretlemek ve bazı işaretlerin diğerlerinden daha fazla olduğu dilimleri tablete yazmak gibidir ve çok fazla dilim olduğu için dilimler olacaktır ve sadece bir işaretle . Bu nedenle, soru ortaya çıkıyor, belirli bir örneklem büyüklüğü için kaç tahmin edici olmalı? Elma dilimleri ne büyüklükte olmalıdır?

Eh, kendi içinde, gün ve saatlerde bir düzenlilik vardır ve burada kronometrik faktörlerin etkisi vardır - bir ticaret seansının açılması , işlem seanslarının süresi, haberler (esas olarak aynı anda yayınlanan ekonomik / istatistiksel ve haftanın günü).

Maxim Dmitrievsky, bu sorunu nasıl çözersiniz?

Genel olarak, hangi seçenekler var? Elma dilimleri değişebilir..
Topluluktaki her ns için, bir veya başka bir bağlam ekleyin ve bu bağlamları belirli bir kontrol ns'de kullanın?
Bağlam derken, örneğin, bazı temel tanım, kavram, tahmin edici ve artı bazı verilerle bir bağlantıyı kastediyorum.