Ticarette makine öğrenimi: teori, pratik, ticaret ve daha fazlası - sayfa 3312

 
Ivan Butko #:

Lütfen bana neyin çöp olmadığını söyleyebilir misiniz? Hiç kimsenin temiz girdi verisinden bahsettiğini görmedim. Ama forumda her zaman saçmalıklar duyuyorum.

Nedir bunlar? Çöpten bahsediyorsanız, o zaman çöp yememişsinizdir, aksi takdirde karşılaştıracak bir şey yoktur

Bu yönlü bir hareket, bir vektör.

Ama onu çöpten çıkarmak zorlu bir iş.

Örneğin, göstergemi nöroniklere tahmin ediciler olarak yüklemeye çalışır ve çöp ve çöp toplayıcı işaretlerini belirlemeye çalışırdım.

 
СанСаныч Фоменко #:

Ne demek istediğimi açıklayayım.

Herhangi bir MO algoritması hatayı azaltmaya çalışır. Hata azaltma çöp üzerinde daha etkilidir, çünkü hata azaltma için "uygun" değerler çöpte çok daha yaygındır. Sonuç olarak, çöp için tahmin edicilerin "öneminin" çöp olmayanlara göre daha yüksek olacağı kesindir. Bu nedenle, asıl model uydurma işleminden çok daha fazla emek gerektiren bir ön işleme söz konusudur.

Ele aldığımız bu yapay örnekte (piyasa verisi değil),
U ekseni fişi çöp değildir ve sınıfları tanımlamada çok iyidir. X ekseni fişi saçmadır çünkü iki sınıf yaklaşık eşit olarak karıştırılmıştır.

Ağaç, verileri resimdeki 1 ve 2 örneklerinde, sınıfların mutlak saflığı, yani sınıf olasılığı =% 100 ile Y=0,5 üzerinden sadece 1 bölünme ile kolayca bölecektir. X eksenindeki bölünmeyi test ederken, saflık yaklaşık %50 olacaktır, algoritma Y üzerinden daha temiz bölünmeyi seçecektir. Yani, X üzerinden çöp bir bölünmenin seçileceği ifadeniz bu örneklerde yanlıştır.

3. örnek daha karmaşıktır. U<0,2 olan yaprak algoritma tarafından seçilecektir, sınıfın saflığı = %100 olduğundan U>0,8 olan yaprak da seçilecektir.
0,2'den 0,8'e kadar olan yaprağın saflığı yaklaşık %50'dir, yani herhangi bir X ekseni bölünmesi kadar çöptür.
Sınıf olasılığı %50 olan yaprakları kullanmayacağınız için daha fazla bölmenin bir anlamı yoktur.
Aptalca bir şey yapar ve bu çöp kısmı bir yaprakta 1 örneğe bölerseniz, hem Y hem de X üzerindeki bölünmeler kullanılacaktır. Bir yaprakta 1 örneğimiz varsa, o zaman saflığı elbette =% 100'dür. Ancak bunlar temsili sayfalar değildir. Sadece yeni başlayanlar bunu yapacaktır.

İlk 3 yaprak yeterlidir veya yaprakları en azından yapraktaki toplam örnek sayısının %1-5-10'u kadar bölmeyi bırakabilirsiniz. Ve bu örnekte örneğin >%90 saflıkta yapraklar kullanın ve bunlar ilk 2 yaprak olacaktır: U<0.2 ve U>0.8. Yaprakların geri kalanı eşit olmayan karışım nedeniyle %50 +-%10 olacaktır.


 
Renat Akhtyamov #:

... Göstergemi öngörü olarak nöroniklere şarj etmeyi ve çöp ve çöpçü işaretlerini belirlemeye çalışırdım

Peki seni denemekten alıkoyan ne?

 
Andrey Dik #:

Neyin çöp olup olmadığını kimse bilemez, bunlar varsayımsaldır.

Neyin ne olduğunu tam olarak bilseydik, 3 bin sayfalık bir konu başlığı olmazdı)).

Kişi basitçe şu veya bu sınırların ötesine geçmenin "saçmalık" olduğu varsayımında bulunur, bu sınırlar da varsayımsaldır. Bu nedenle "çöp içeri - çöp dışarı" ifadesi güzel bir ifadeden başka bir şey değildir, bir araştırmacı için çöp olan başka bir araştırmacı için çöp değildir. Eliot'un dalgaları gibi.

Herkes için imza atmaya gerek yoktur.

Büyük olasılıkla hangi örneklerin "saçma" olduğunu ve hangilerinin olmadığını bilmiyorsunuz. Sizin için bu varsayımsal bir kavram. Neyin ne olduğunu bilseydiniz, bu başlıkta oturup herkes için derin düşünülmüş genellemeler yazmazdınız.

Savunma Bakanlığı'nın temellerini ne zaman öğreneceksiniz? Bu retorik bir soru.

 
Vladimir Perervenko #:

Herkes için imza atmak zorunda değilsiniz.

Büyük olasılıkla hangi örneklerin "saçma" olduğunu ve hangilerinin olmadığını bilmiyorsunuz. Sizin için bu varsayımsal bir kavram. Neyin ne olduğunu bilseydiniz, bu başlıkta oturup herkes için derin genellemeler yazmazdınız.

Savunma Bakanlığı'nın temellerini ne zaman öğreneceksiniz? Bu retorik bir soru.


Gönderiniz, neyin saçmalık neyin saçmalık olmadığını bildiğinizi göstermiyor.
Ayrıca, komik olan da bu, neyin çöp olmadığını biliyorsanız, MO'ya gerek yoktur.

IO'nun amacı ve hedefi budur - sinekleri pirzolalardan ayırmak.

Eğer biliyorsan, burada ne yapıyorsun?

 

Fizikte, ihtiyacımız olan sinyali etkileyen sinyaller genellikle çöp olarak kabul edilir. Herhangi bir sinyal, herhangi bir eylem bir şeyden kaynaklanır, buna çöp denir çünkü gerekli değildir ve araştırmacının ihtiyaç duyduğu sinyalin doğru bir değerlendirmesini vermez. Yani doğada çöp diye bir şey yoktur))))))))))

Burada, fiyat, verimsizlik ya da başka bir şeyin kalıplarını ararken, değerlendirme için sinyal, bazı gerçek olayların ya da bunların toplamının fiyat üzerindeki etkisidir. Ve diğer tüm etkiler saçma olacaktır.

Elbette yargının doğruluğunu iddia etmiyorum))))

 
Valeriy Yastremskiy #:

Fizikte, ihtiyacımız olan sinyali etkileyen sinyaller genellikle çöp olarak kabul edilir. Herhangi bir sinyal, herhangi bir eylem bir şeyden kaynaklanır, buna çöp denir çünkü gerekli değildir ve araştırmacının ihtiyaç duyduğu sinyalin doğru bir değerlendirmesini vermez. Yani doğada çöp diye bir şey yoktur))))))

Burada, fiyat, verimsizlik ya da başka bir şeyin kalıplarını ararken, değerlendirme için sinyal, bazı gerçek olayların ya da bunların toplamının fiyat üzerindeki etkisidir. Ancak diğer tüm etkiler saçma olacaktır.

Elbette yargının doğruluğunu iddia etmemek))))

DSP teorisine girersek, şöyle devam eder:

başlangıçta çöp içermeyen faydalı bir sinyal bilinir (örneğin bir trend çizgisi veya bir eğri)

daha sonra, bir sonraki adımda, faydalı sinyal toplam sinyal kütlesinden çıkarılır ve ihtiyaç duyulmayan sinyaller, yani çöpler belirlenir.

 
Özellik çöpü belirli hedef özelliklerle ilişkili olarak değerlendirilir ve bunun tersi de geçerlidir. Sebep-sonuç ilişkisi yoksa veri kümesinin tamamı ya da bileşenlerinden biri çöptür. Ve genellikle bu özellikler değil, yanlış işaretlemedir.

Çünkü çöp bile faydalı olacak şekilde bölümlere ayrılabilir. Örneğin, türe veya boyuta göre sıralama.
 
Ivan Butko #:

Lütfen bana neyin çöp olmadığını söyleyebilir misiniz? Hiç kimsenin temiz girdi verisinden bahsettiğini görmedim. Ama forumda her zaman saçmalıklar duyuyorum.

Nedir bunlar? Çöpten bahsediyorsanız, o zaman çöp yememişsinizdir, aksi takdirde karşılaştıracak bir şey yoktur

Çöp DEĞİL, bir öğretmenle ilişkili olan/öğretmenden etkilenen bir tahmin edicidir. İşte çöpü çöp DEĞİL'den ayırmak için algoritmalarla dolu bir proxy paketi. Bu arada, R'de tek olmaktan çok uzak.

Örneğin, öğretmen fiyat artışı için mashka, herhangi bir yumuşatma algoritması gibi çöptür.

proxy: Distance and Similarity Measures
proxy: Distance and Similarity Measures
  • cran.r-project.org
Provides an extensible framework for the efficient calculation of auto- and cross-proximities, along with implementations of the most popular ones.
 
mytarmailS #:
Ön işleme normalleştirmeyle ilgilidir, saçmalıkla değil.
Enkaz, özellik seçimi ve kısmen özellik mühendisliğidir

Sanych, olgunlaşmamış insanları saçmalıklarla beslemeyi bırak.

Modellerin bir parçası olarak özellik seçimini kastediyorsanız, buna tamamen katılmıyorum, çünkü modellerin bir parçası olarak özellik seçimi sadece herhangi bir çöpü sıralar.