Ticarette makine öğrenimi: teori, pratik, ticaret ve daha fazlası - sayfa 3142

 
Maxim Dmitrievsky #:

birkaç O.C.D. grafiği, olur mu?

Yeni bir öğretmen için değil.

Tahmin edici değerlerin kabalaştırılması sorununu çözmeye çalışıyorum. Bana öyle geliyor ki, tahmin edici değeri modelin eğitildiği değerden biraz farklıysa bir sınıflandırma hatası oluşabilir. Bir keresinde aynı öğretmenle tüm tahmin edicileri nominal forma dönüştürmeyi denedim, ancak herhangi bir sonuç vermedi. Bununla birlikte, nominal değişkenlerin değer sayısı birdi. Belki de birkaç yüze ihtiyacımız vardır? Çalışıyorum ama önümde başka birçok ilginç soru var.

 
Forester #:

Bu uzun bir arama, özellikle de birkaç saniye ararsanız.

Evet, uzun, gerçekten acelesi yok ama yine de uzun.

Sorun şu ki, tahmin edicilerin tahmin gücü çiplerden yalnızca biri. Ve ön işlememde bunlardan birçoğu var ve her biri bunu haklı çıkarmak için bir dizi istatistik gerektiriyor.

Yukarıda uzun süredir çözüm bulamadığım bir sorundan daha bahsettim.

 
СанСаныч Фоменко #:

Yeni bir öğretmen için, hayır.

Tahmin edici değerlerin kabalaştırılması sorununu çözmeye çalışıyorum. Bana öyle geliyor ki, tahmin edici değeri modelin eğitildiği değerden biraz farklıysa bir sınıflandırma hatası oluşabilir. Bir keresinde aynı öğretmenle tüm tahmin edicileri nominal forma dönüştürmeyi denedim, ancak herhangi bir sonuç vermedi. Bununla birlikte, nominal değişkenlerin değer sayısı birdi. Belki de birkaç yüze ihtiyacımız vardır? Çalışıyorum ama önümde başka birçok ilginç soru var.

"

İdeal bir model düşük yanlılık ve düşük varyansa sahip olmalıdır. Ancak gerçekte yanlılık ve varyans arasında bir "değiş tokuş" söz konusudur. Modelin karmaşıklığını artırmak (örneğin, daha fazla parametre eklemek) yanlılığı azaltabilir ancak varyansı artırabilir. Tersine, modeli basitleştirmek varyansı azaltabilir ancak önyargıyı artırabilir.


"

Varsayımsal olarak krank milini tatmin edici bir seviyeye kadar bükebilir ve boşlukları keskinleştirebilirsiniz, ancak bu fazla ileri gitmeyecektir çünkü artık "tasarım gereği" değildir.
 
Maxim Dmitrievsky #:

"

İdeal bir model düşük yanlılık ve düşük varyansa sahip olmalıdır. Ancak gerçekte yanlılık ve varyans arasında bir "değiş tokuş" söz konusudur. Modelin karmaşıklığını artırmak (örneğin, daha fazla parametre eklemek) yanlılığı azaltabilir ancak varyansı artırabilir. Tersine, modeli basitleştirmek varyansı azaltabilir ancak önyargıyı artırabilir.


"

Varsayımsal olarak krank milini tatmin edici bir seviyeye kadar bükebilir ve boşlukları keskinleştirebilirsiniz, ancak bu fazla ileri gitmeyecektir çünkü artık "tasarım gereği" değildir.

Bazı nedenlerden dolayı, üçüncü bileşen genellikle unutulur - telafi edilemez hata. Eğer yeterince büyükse (ve bana öyle geliyor ki fiyatların SB'ye yakınlığı nedeniyle bizde çok fazla var), ilk ikisinden daha önemli olabilir.

Her halükarda, bunlar tek bir soruda toplanabilecek çok önemli şeylerdir: Elimizdeki fiyat örnekleminden (ve diğer mevcut verilerden) çıkarılabilecek maksimum bilgi nedir?

 
Aleksey Nikolayev #:

Nedense insanlar genellikle üçüncü bileşeni, yani telafi edilemeyen hatayı unutmaktadır. Eğer yeterince büyükse (ve bana öyle geliyor ki ülkemizde fiyatların SB'ye yakınlığı nedeniyle önemsiz değil), ilk ikisinden daha önemli olabilir.

Her halükarda, bunlar tek bir soruda toplanabilecek çok önemli şeylerdir: Elimizdeki fiyat örnekleminden (ve diğer mevcut verilerden) çıkarılabilecek maksimum bilgi nedir?

Bu nedenle, tüm vakaları tahmin etmeye çalışmamalı, ancak mo aracılığıyla tahmin edilenleri çıkarmalıyız.

Buna "heterojen tritment etkisi" denir ve bir krank milini bükmeye değil, çalışan parçaları bulup çalışmayanları atmaya benzetilebilir.

Bu durumda X'in nitelikleri bağlamsal hale gelir ve klasik anlamda Y için "belirleyici" değildir. Kozul'da bunlara "ortak değişkenler" denmesinin nedeni budur.

Sonuç, maksimum bilgi hakkındaki sorunuza (neyi ölçeceğinize bağlı olarak) cevap verecektir. Genellikle ATE veya CATE olarak ölçülür.


 
Aleksey Nikolayev #:

Bir soru: Mevcut fiyat örnekleminden (ve diğer mevcut verilerden) çıkarılabilecek maksimum bilgi miktarı nedir?

Bence görevi doğru bir şekilde belirlememiz gerekiyor.

Bilgiyi tanımlayın

"Maksimum bilgiyi" tanımlayın (en azından ne zaman duracağınızı anlamak için).

Her hedefin farklı bir kümeye sahip olacağının farkına varın, bu yüzden hedefi beyan etmemiz gerekir.


Ama ilginç bir soru, hoşuma gitti.
 
Aleksey Nikolayev #:

Nedense insanlar genellikle üçüncü bileşeni, yani telafi edilemeyen hatayı unutmaktadır. Eğer yeterince büyükse (ve bana öyle geliyor ki ülkemizde fiyatların SB'ye yakınlığı nedeniyle önemsiz değil), ilk ikisinden daha önemli olabilir.

Her halükarda, bunlar tek bir soruda toplanabilecek çok önemli şeylerdir: Elimizdeki fiyat örnekleminden (ve diğer mevcut verilerden) çıkarılabilecek maksimum bilgi nedir?

Bu bir tez araştırması meselesi, hamur biçen bir robot yapmak değil.

Maksimum bilgiye değil, yeterli minimum bilgiye ihtiyacımız var. Bu nedenle kendimizi aşağıdakilerle sınırlayabiliriz:

1. Sınıflandırma aşamasında %20'den daha az sınıflandırma hatası veren bir model oluşturmak. Ve "modelin" tahmin edicilerin tam ön işlemesini ve model değerlendirme araçlarını içerdiği anlaşılmalıdır.

2. Modeli, en azından aynı oranda kaybeden / karlı işlem veren bir Uzman Danışmana yerleştirin. Kâr faktörü 4'ün üzerindeyse, atılacak bir adım daha vardır.

3. OOS'de hiçbir şeyin değişmediğinden emin olun ve modelde değil, ön işlemede yatan OOS'deki bu kararlılığın nedenlerini anlayın.

Ve %20'ye hangi hatalar girdi - ilginç mi?

 

Hataları sınıflandırmak daha kolay olmaz mıydı?

ne kadar çok hata bulursak, model o kadar iyi kalacaktır. bilgi maksimizasyonu değil, niteliksel (kelime oyununu mazur görün).

 
mytarmailS #:
Snalo'nun görevi düzgün bir şekilde belirlemesi gerektiğini düşünüyorum.

Bilgileri tanımlayın

"Maksimum bilgiyi" tanımlayın (en azından ne zaman duracağınızı anlamak için).

Her hedefin farklı bir kümeye sahip olacağının farkına varın, bu nedenle hedefi beyan etmemiz gerekir.


Ama ilginç bir soru, hoşuma gitti.

Bence Maxim'in yukarıdaki seçeneği çok iyi. San Sanych'in haklı olarak belirttiği gibi, önemli olan bilginin kendisi değil, depozitonun katlanmasına nasıl yardımcı olduğudur).

Basitleştirmek için bir ticaret stratejisini bir tritent ve Y'yi bir kâr olarak düşünürsek, tanım (kâr beklentisini maksimize eden TS) oldukça sıradan hale gelir.

 
СанСаныч Фоменко #:

Bu bir tez araştırması meselesi, hamur biçen bir robot yaratmak değil.

Maksimum bilgiye değil, yeterli minimum bilgiye ihtiyacımız var. Bu yüzden kendimizi aşağıdakilerle sınırlayabiliriz:

1. Sınıflandırma aşamasında %20'den daha az sınıflandırma hatası veren bir model oluşturun. Ve "modelin" tahmin edicilerin tam ön işlemesini ve model değerlendirme araçlarını içerdiği anlaşılmalıdır.

2. Modeli, en azından aynı oranda kaybeden / karlı işlem veren bir Uzman Danışmana yerleştirin. Kâr faktörü 4'ün üzerindeyse, atılacak bir adım daha vardır.

3. OOS üzerinde hiçbir şeyin değişmediğini doğrulayın ve modelde değil, ön işlemede yatan OOS üzerindeki bu kararlılığın nedenlerini anlayın.

Peki %20'nin içine hangi hatalar girdi - ilginç mi?

Biri diğerine hiçbir şekilde müdahale etmez. Açıkçası, maksimum sadece ulaşılamaz değil, aynı zamanda hesaplanması da imkansızdır, ancak bir şekilde tahmin etmeye çalışabilir ve örneğin en azından kabaca yayılma ile karşılaştırabiliriz. Maxim'in önerdiği gibi maksimumun bir varyantını kastediyorum.