Segment aralıklarını birleştirmek için algoritma - oluşturmaya yardımcı olun - sayfa 7

 
Aleksey Nikolayev :

Soru konu dışı ve daha felsefi. Özellikleri segmentlere ayırarak sınıflandırma yaklaşımının, çıktıların girdilere sürekli olmayan bir bağımlılığını ima ettiği anlaşıldı mı? Diğer bir deyişle, bir özellik değerleri kümesiyle bir anlaşma açıldığında ve birincisine çok, çok yakın bir başkasıyla açılmadığında bir durum ortaya çıkabilir (sınır yakınında, ancak karşı tarafında). Bunun yanlış bir yaklaşım olduğunu söylemiyorum. Sadece sormak istiyorum - bunun arkasında herhangi bir tüccarın sezgisi var mı yoksa keyfi bir seçim mi?

Evet, teoride bu mümkün. Bununla birlikte, artırma yöntemi, farklı öngörücüler üzerinde birçok ardışık ağacın inşa edilmesini ima eder; bu, başka bir özellik için istenen sınırın seçilebileceği anlamına gelir (eğer istatistiksel bir gerekçe varsa), böylece "hata" eşitlenir.

Aleksey Nikolaev :

Olası bir alternatif olarak, lojistik regresyon yoluyla sınıflandırma veya en yakın komşular yöntemi önerilebilir. Orada, çıktıda, örneğin bir işlemin hacmini belirlemek için kullanılabilecek bir sınıfa ait olma olasılığının bir tahminini alabilirsiniz. Herhangi bir özel algoritmada ısrar etmiyorum, sadece tüccarın belirli bir MO algoritması seçme yönü ile ilgileniyorum.

CatBoost ayrıca bir sınıfa ait olma olasılığının bir tahminini verir, ancak benim gözlemime göre, her şey tam tersi - yeterince sık olmayan nadir gözlemlere daha fazla güven ve bu onların fazla tahmin edilmesine yol açar ve bağımsız bir örnek üzerinde bu ya yanlış sınıflandırmaya ya da daha nadir olarak yüksek bir puan oluşmasına yol açacaktır.

Ticaret için neden CatBoost kullanıyorum:

1. Hızlı algoritma.

2. Kutudan çıktığı gibi ML'deki birçok gelişmeyi içeren modern ve gelişen algoritma.

3. Modeli Python ve R olmadan MT5'te uygulamanın çevrimdışı yolu.

 
Aleksey Vyazmikin :

Buradaki soru, "birçok değerli segmentin ve toksik olanın" nasıl tanımlanacağıdır - yani. değiştirilebilirliklerini belirlemek veya daha önce önerdiğim gibi bunu iki geçişte yapmak gerekiyor. Veya başka bir seçeneğiniz var mı?

Yolu sadece iki geçişte biliyorum. Önce bir harita oluşturuyoruz, sonra bir yol seçiyoruz. Harita olmadan da hemen gidebilirsiniz, ancak bunlar çok daha büyük riskler, özellikle yol boyunca vadiler ve bataklıklar olduğunda ve pusula, yıldızlar ve güneş olmadığında)

Soru, eylemlerin maliyeti ve ilk verilerin mevcudiyetidir. Görünüşe göre buradan görevi ayarlamak gerekiyor. Koşullar değişebilir. Noktaların ve segmentlerin sayısını biliyoruz. Segmentlerin sayısını bilmiyoruz ama noktaların sayısını biliyoruz Noktaların ve segmentlerin sayısını bilmiyoruz, sadece onlardan oldukça fazla olduğunu biliyoruz. Bir noktadan gelen parça sayısının en fazla N olduğunu biliyoruz.

Genel olarak, bu kısım önce resmileştirilmelidir.

 
Aleksey Vyazmikin :

Evet, teoride bu mümkün. Bununla birlikte, artırma yöntemi, farklı öngörücüler üzerinde birçok ardışık ağacın inşa edilmesini ima eder; bu, başka bir özellik için istenen sınırın seçilebileceği anlamına gelir (eğer istatistiksel bir gerekçe varsa), böylece "hata" eşitlenir.

Bazen bunun bir hata olmadığı hissi vardır ve yanıtın özelliklere (sorunlarımızda) bağımlılığı iyi olabilir.   bazen gergin olmak.

Alexey Vyazmikin :

CatBoost ayrıca bir sınıfa ait olma olasılığının bir tahminini verir, ancak benim gözlemime göre, her şey tam tersi - yeterince sık olmayan nadir gözlemlere daha fazla güven ve bu onların fazla tahmin edilmesine yol açar ve bağımsız bir örnek üzerinde bu ya yanlış sınıflandırmaya ya da daha nadir olarak yüksek bir puan oluşmasına yol açacaktır.

Demek istediğim, her belirli özellik kümesi için eğitilmiş model, "0 veya 1" yanıtını vermek yerine, yanıtı 0 ila 1 aralığında bir sayı olarak verir. Örneğin, lojistik regresyon tam olarak bu şekilde çalışır. Rastgele ormanlarda, bu da mümkün görünüyor, ancak tam olarak bunu mu kastediyorsunuz yoksa metriklerden mi bahsediyorsunuz anlamıyorum.

 
Dmitry Fedoseev :

Dmitry, lütfen bana yardım et, algoritmada cut[] dizisini int'den float'a değiştirmem gerekiyor, ancak derleyici hatalar veriyor.

 
Valeriy Yastremskiy :

Yolu sadece iki geçişte biliyorum. Önce bir harita oluşturuyoruz, sonra bir yol seçiyoruz. Harita olmadan da hemen gidebilirsiniz, ancak bunlar çok daha büyük riskler, özellikle yol boyunca vadiler ve bataklıklar olduğunda ve pusula, yıldızlar ve güneş olmadığında)

Cesur gezginleri tam bir karanlık bekliyor :)

Valeriy Yastremskiy :

Soru, eylemlerin maliyeti ve ilk verilerin mevcudiyetidir. Görünüşe göre buradan görevi ayarlamak gerekiyor. Koşullar değişebilir. Noktaların ve segmentlerin sayısını biliyoruz. Segmentlerin sayısını bilmiyoruz ama noktaların sayısını biliyoruz Noktaların ve segmentlerin sayısını bilmiyoruz, sadece onlardan oldukça fazla olduğunu biliyoruz. Bir noktadan gelen parça sayısının en fazla N olduğunu biliyoruz.

Genel olarak, bu kısım önce resmileştirilmelidir.

Eh, aramanın başlangıcındaki noktaların ve segmentlerin sayısını biliyoruz, hatta bir - 40 parçaya sığabilecek olası maksimum segmenti bile biliyoruz (segment iki hedef türünden en az %5 puan içeriyorsa). seçenekler).

Aslında, numaralandırma için farklı sayıda segment olabilir - şimdi bunu 1'den 263'e kadar anladım, ancak yinelemeler olabilir.

 
Aleksey Nikolayev :

Bazen bunun bir hata olmadığı hissi vardır ve yanıtın özelliklere (sorunlarımızda) bağımlılığı iyi olabilir.   bazen gergin olmak.

Sınıflardan birinin daha büyük bir yüzdesinin segmentindeki istatistiksel bir isabetten bahsedersek, evet, yan yana bulunan segmentler hedefe farklı bir yatkınlığa sahip olabilir. Hatta öğrenmeyi kolaylaştırmak için bir dönüşüm yapmayı denemek istiyorum, dönüşümün özü, segmentlerin hedefe ait olma türüne ve olasılık derecesine göre sıralanması olacak, bu yüzden sol tarafta olacak sıfırlar için segmentler ve birimler için sağda - merkezde zayıf bir şekilde ifade edilir.

Aleksey Nikolaev :

Demek istediğim, her belirli özellik kümesi için eğitilmiş model, "ya 0 ya da 1" yanıtını vermek yerine, yanıtı 0 ile 1 aralığında bir sayı olarak verir. Örneğin lojistik regresyon tam olarak bu şekilde çalışır. Rastgele ormanlarda, bu da mümkün görünüyor, ancak tam olarak bunu mu kastediyorsunuz yoksa metriklerden mi bahsediyorsunuz anlamıyorum.

Bu, x ekseninde eğitimden sonra CatBoost modelidir, olasılık ölçeği mavi eğridir - örneklerin sayısı, sayılarının azaldığı görülebilir.

Aqua - sınıf 0 ve magnetta - sınıf 1. Kırmızı eğri - kayıp, açık yeşil - kar.

ve bu zaten bağımsız bir örnek üzerinde aynı model.

Lojistik regresyonun farklı bir dağılımı olacağını düşünüyor musunuz?

Parametre ayarlaması olmadan lojistik regresyon algoritmasının kendisi CatBoost'a kaybeder.

 
Aleksey Vyazmikin :

Lojistik regresyonun farklı bir dağılımı olacağını düşünüyor musunuz?

Parametre ayarlaması olmadan lojistik regresyon algoritmasının kendisi CatBoost'a kaybeder.

Hayır, pratikte algoritmaları karşılaştırmaktan bahsetmiyorum. Bir algoritma seçerken ve onu eğitirken, sınıfların a) birbirinden açıkça ayrılmış, b) karışık, c) bazı noktaların karışımı a ) ve B). (a) noktası için net bir sınıflandırma gereklidir, (b) için bulanık bir sınıflandırma ve (c) için bir şekilde bunları karıştırmak gerekir, ancak onları sallamamak gerekir.

Belki de sorumu MO başlığına taşımalıyım.

 
Aleksey Nikolayev :

Hayır, pratikte algoritmaları karşılaştırmaktan bahsetmiyorum. Bir algoritma seçerken ve onu eğitirken, sınıfların a) birbirinden açıkça ayrılmış, b) karışık, c) bazı noktaların karışımı a ) ve B). (a) noktası için net bir sınıflandırma gereklidir, (b) için bulanık bir sınıflandırma ve (c) için bir şekilde bunları karıştırmak gerekir, ancak onları sallamamak gerekir.

Belki de sorumu MO başlığına taşımalıyım.

Net bir ayrımla, belki de herhangi bir algoritma başa çıkacaktır. Soru, karışık sınıfların alanlarını çıkarmak için hangi algoritmanın alt uzayı en iyi şekilde tahsis edebileceğidir.

Ticarette işaretleme sorunu, işaretleme doğruluğunun şüpheli olmasıdır - bu nedenle öğrenmede ek zorluk.

Şu anda mevcut olan pek çok ML yöntemiyle çalışmadım, bu yüzden avantajlarını ve dezavantajlarını yeterince değerlendiremiyorum.

 
Fraktal kümeler şeklinde geleceğe uzayı tahmin edebilir.
 
Veniamin Skrepkov :
Fraktal kümeler şeklinde geleceğe uzayı tahmin edebilir.

Bana nasıl yapacağımı gösterebilir misin?