Ticarette makine öğrenimi: teori, pratik, ticaret ve daha fazlası - sayfa 2812

 
Maxim Dmitrievsky #:

Bir yıldan uzun bir süre önce, ben RL algoritmalarını yazarken burada tartışılmıştı.

Henüz geri dönmek istemiyorum ve ben de istemiyorum.
Ben etiketlerin konumundan değil, örneğin bazı çok karmaşık çok detaylı ajan davranış politikalarının konumundan bakıyorum.
 
mytarmailS #:
Etiketlerin konumundan değil, örneğin temsilcinin davranışının bazı çok karmaşık çok adımlı politikalarının konumundan bahsediyorum
Tablo RL ile karıştırıyorsunuz, tablolarda bir durumdan diğerine geçişlerin yönleri optimize edilir, bunlar politikalardır. Bu tablolar daha sonra sinir ağları ile değiştirildi. Bu, örneğin oyunlarda olduğu gibi ajanın birçok durumu olduğunda geçerlidir. Sadece 2-3 alış/satış durumunuz vs. vardır. Daha sonra bu durumlara geçişleri bir ödül fonksiyonu aracılığıyla, örneğin bazı karlılık koşullarına sahip işlemleri örnekleyerek optimize edersiniz ve politikalar NS aracılığıyla optimize edilir. Bir politika, ortam ile geçiş yapmak istediğiniz durum arasındaki ilişkidir. Örneğin, gösterge değerlerinin alım satımların yönü ile ilişkisi.

NS zaten her şeye yaklaştığında ve eylemlerinizin hatasını size gösterdiğinde, tablo üzerinden 100500 geçişlik çoklu geçiş yapmanın bir anlamı yoktur. Önce zıplamanız, sonra ateş etmeniz, yeniden doldurmanız, ganimet toplamanız, diğer tarafa koşmanız vb. gerekiyorsa bu gereklidir. Bu çok fazla eylem gerçekleştirmektir ve sadece 2-3 tane var. Patron patron olmasına rağmen :)

Orada ajanın çevreyi de etkilediğini, değiştirdiğini ve çevrenin ajan üzerinde olduğunu eklemeyi unuttum. Bu yüzden tüm kombinasyonlardan geçmek için binlerce tekrar öğrenmeniz gerekir. Bizim durumumuzda öyle değil, çevre değişmiyor, bu yüzden bunu 1 seferde yapabiliriz. Böyle bir ortamda pekiştirmeli öğrenme, pekiştirmeli öğrenmenin anlamını tamamen yitirir. Hedefe giden en kısa yolu 1 geçişte bulabilirsiniz.
 
Çözüm şeması basittir, veri kümesinin ön işlemi yapılır. Standart analizi yapılır. Geri kalanından, her girdi bir hedef değişken olarak alınır ve her ML'deki çıktı bir fic olarak alınır. Her bir girdinin tahmini değerlendirilir, kötü "tahmin edilebilir" olanlar dışarı atılır. Filtreden geçen girdiler, ML'deki çıktı tahmini ile çalışma modeline dahil edilir. Tahmini etkilemeyen fişleri bu şekilde dışarı atardım.
 
Maxim Dmitrievsky #:
Bu, örneğin oyunlarda çok sayıda aracı durumu olduğunda geçerlidir. Sadece 2-3 alış/satış durumunuz vs. var.

Hayır, bu çok ilkel, aksi takdirde hiç bu yönde olmazdı.


Durum bir alım/satım değildir, alım/satım bir eylemdir ve durum kabaca mevcut ortamın küme numarasıdır ve her durum kümesinin kendi eylemi vardır ...

Ancakeylemin al/satgibi ilkel olması gerekmez, örneğin.... ajanın gelecek hakkında akıl yürütmesi olabilir .

Mesela şimdi [i]'den satın alırsam ve [i + 1] ticaret mumunda fiyat düşecek, ancak belirli bir fiyatın altına düşmeyecekse, bir sonraki [i + 2] mumunu bekleyeceğim, ancak fiyat daha da düşerse geri döneceğim, değilse satın almaya devam edeceğim [i... 20].

Bunlar gelecek hakkında önemsiz olmayan akıl yürütmelerdir ve bilinçli poziya'nın keşfine yol açar....

Ancak akıl yürütme seçeneklerinin bu tür sayısız kombinasyonu vardır, böylece hepsini gözden geçirmek zorunda kalmayız, bir Q fonksiyonu eğitiriz, yani ajan sadece iyi bir Q değerine sahip olan seçenekleri akıl yürütmek için alır,

Q nöronu veya matrisi önceden eğitilir...

Ben böyle görüyorum.

 
peregrinus_vik #:
Çözüm şeması basittir.

)))) evet, tabii...

"Basit" diyenlerden korkuyorum.

 
mytarmailS #:

Hayır, bu çok ilkel, aksi takdirde bu yönde olmazdı...


durum bir by\sel değildir, by\sel bir eylemdir ve durum kabaca mevcut ortamın küme numarasıdır ve her durum kümesinin kendi eylemi vardır ...

Ancakeylem bir bayt gibi ilkel olmak zorunda değildir; örneğin.... bir temsilcinin gelecek hakkındaki düşünceleri olabilir .

Mesela şimdi [i] 'den satın alırsam ve ticaret mumunda [i + 1] fiyat düşecek, ancak bir fiyatın altına düşmeyecek, bir sonraki mumu [i + 2] bekleyeceğim, ancak fiyat daha da düşerse tersine döneceğim, değilse satın almaya devam edeceğim [i... 20].

Bunlar gelecek hakkında önemsiz olmayan akıl yürütmelerdir ve gerçekleşmiş konumun keşfedilmesine yol açar....

Ancak, bu tür sayısız muhakeme seçeneği kombinasyonu vardır, böylece hepsini gözden geçirmek zorunda kalmayız, Q fonksiyonunu eğitiriz, yani ajan sadece iyi bir Q değerine sahip olan seçenekleri muhakeme için alır,

Q nöronu veya matrisi önceden eğitilir...

Ben böyle görüyorum.

Katılıyorum, alım satım yok, ticaret yok bir devlet değildir. Çok sayıda devlet vardır.))))))

 
Valeriy Yastremskiy #:

Katılıyorum, alım satım değil ticaret eyaletler değildir. Çok sayıda eyalet var.)))))

Çok fazla durum yoktur (eğer bu bir kümeyse).

Gelecekteki eylemler hakkında akıl yürütmek için bir sürü seçenek vardır.

Ancak her durumda en doğru eylemleri bulmak için muhakeme gereklidir, dahası her mumda gözden geçirilmelidir.

 
mytarmailS #:

Hayır, bu çok ilkel, aksi takdirde bu yönde olmazdı...


durum bir by\sel değildir, by\sel bir eylemdir ve durum kabaca mevcut ortamın küme numarasıdır ve her durum kümesinin kendi eylemi vardır ...

Ancakeylem bir bayt gibi ilkel olmak zorunda değildir; örneğin.... bir temsilcinin gelecek hakkındaki düşünceleri olabilir .

Mesela şimdi [i] 'den satın alırsam ve ticaret mumunda [i + 1] fiyat düşecek, ancak bir fiyatın altına düşmeyecek, bir sonraki mumu [i + 2] bekleyeceğim, ancak fiyat daha da düşerse tersine döneceğim, değilse satın almaya devam edeceğim [i... 20].

Bunlar gelecek hakkında önemsiz olmayan akıl yürütmelerdir ve gerçekleşmiş konumun keşfedilmesine yol açar....

Ancak, bu tür sayısız muhakeme seçeneği kombinasyonu vardır, böylece hepsini gözden geçirmek zorunda kalmayız, Q fonksiyonunu eğitiriz, yani ajan sadece iyi bir Q değerine sahip olan seçenekleri muhakeme için alır,

Q nöronu veya matrisi önceden eğitilir...

Ben böyle görüyorum.

Doğru görmeye başladığınızda, hayranlık faktörü ortadan kalkar.

Bir acentenin politikasını tarif ediyorsunuz, çok yönlü bir yaklaşım. Bunun hakkında her şeyi yazdım. Mantıklı olsun diye inek diliyle yazıyorum ama unutmuşum.

Kesinlikle, çok ilkel.

Burada yasaklanmadan önce ajanslar hakkında ağzından köpükler saçan biri var :)

 
Valeriy Yastremskiy #:

Katılıyorum, alım satım değil ticaret eyaletler değildir. Çok sayıda eyalet var.))))

Temsilci durumları ya da eylem durumları. Ne hakkında yazdığınızı anlamak için birkaç ay kitap okumanızı ve aynı sonuçlara varmanızı öneririm) çevrenin ajanın eylemlerine tepkisi olmadan optimize edilecek hiçbir şey yoktur, tek geçişte yapılır.

Çevre durumları, ajan durumları, çevredeki değişiklikleri dikkate alarak ajanın durumdan duruma geçiş matrisleri (politikalar) vardır. Ortamınız statiktir, aracının eylemleri nedeniyle değişmez. Yani, sadece ajanın statik bir ortamdaki eylemlerinin matrisini, yani hedefleri tanımlamanız gerekir. Hedeflerin işaretlenmesi tek geçişte yapılır.
 
Maxim Dmitrievsky #:
Temsilci durumları ya da eylemleri. Ne hakkında yazdığınızı anlamak için birkaç ay kitap okumanızı ve aynı sonuçlara varmanızı öneririm ) çevrenin ajanın eylemlerine tepkisi olmadan, optimize edilecek hiçbir şey yoktur, tek geçişte yapılır.

Çevre durumları, ajan durumları, çevredeki değişiklikleri dikkate alarak ajanın durumdan duruma geçiş matrisleri (politikalar) vardır. Ortamınız statiktir, aracının eylemleri nedeniyle değişmez. Yani, sadece ajanın statik bir ortamdaki eylemlerinin matrisini, yani hedefleri tanımlamanız gerekir. Hedeflerin işaretlenmesi tek geçişte yapılır.
Eğer acenteyi kârlı olmayan işlemler için cezalandırmak istersem--
Hedef, "istediğin gibi işlem yap, ama kaybettiğin işlem olmasın ve piyasanın içinde ol".

Bunu fiyat artışlarıyla nasıl açıklıyorsunuz?