Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 3162

 
Ivan Butko #:

Господа, 

Так а в чем собственно вопрос? 
 
mytarmailS #:
Так а в чем собственно вопрос? 

Мнение относительно попытки обучения форексу методом обучения агентов в игры. 

Есть ли рыба, может пробовали подобное, есть опыт. 
 
Ivan Butko #:

Мнение относительно попытки обучения форексу методом обучения агентов в игры. 

Есть ли рыба, может пробовали подобное, есть опыт. 
Ну это типичная задача RL или deepRL или оптимизации
По сути это все одно и тоже но другое) 
 
Forester #:

Я очередную проблему нашел.
Подобрал неплохой вариант с обучением раз в неделю на 5000 строках М5 (3,5 недель). И решил сместить все данные на 300 строк - типа обучение не по субботам, а по вторникам. В итоге модель на ООС из прибыльной стала убыточной.
Эти новые 300 строк ( около 8% от общего количества) вывели на первое место другие фичи и другие сплиты, которые стали лучшими для немного измененных данных.
Повторил смещение на 300 для 50000 строк. Казалось бы всего 0,8% новых строк. Но изменения на ООС тоже значительные, хоть  и не такие сильные, как с 5000 строками.

В общем есть подгонка не только под размер окна, но и под начало окна. Небольшие смещения сильно меняют результат. Нет сильных фич, все на грани 50/50 ± 1-2%.

Вроде бы это обычная проблема для деревьев - отсутствие робастности.

Есть слабая надежда, что возможно некоторое улучшение за счёт перехода к более продуманным (с точки зрения матстата) правилам сплита. Это что-то вроде тех же "деревьев разности", ссылку на статью о которых недавно давал. Или вроде основанных на статистике хи-квадрат CHAID.

Это, конечно, не панацея и не факт что вообще эти конкретные примеры правил сплита будут работать у нас. Но это пример того, что к правилам сплита можно и нужно относиться творчески.

Основная идея, которую стоит взять из матстата, это остановка роста дерева по достижению критического значения p-value, а не по каким-то левым соображениям.
 
Forester #:

Я очередную проблему нашел.
Подобрал неплохой вариант с обучением раз в неделю на 5000 строках М5 (3,5 недель). И решил сместить все данные на 300 строк - типа обучение не по субботам, а по вторникам. В итоге модель на ООС из прибыльной стала убыточной.
Эти новые 300 строк ( около 8% от общего количества) вывели на первое место другие фичи и другие сплиты, которые стали лучшими для немного измененных данных.
Повторил смещение на 300 для 50000 строк. Казалось бы всего 0,8% новых строк. Но изменения на ООС тоже значительные, хоть  и не такие сильные, как с 5000 строками.

В общем есть подгонка не только под размер окна, но и под начало окна. Небольшие смещения сильно меняют результат. Нет сильных фич, все на грани 50/50 ± 1-2%.

Какая модель?

 
СанСаныч Фоменко #:

Какая модель?

деревянная
 
Forester #:
деревянная
Нужно найти корсет (coreset), который имеет закономерности, и только на нем обучаться. Он может быть на любом куске графика, ищется через перебор. Иначе шум не позволяет модели сосредоточиться. Сейчас в тренде корсеты - небольшие репрезентативные подвыборки. Это довольно просто и дает результаты.
 

интересная статья про деревья и обучение с  подкреплением в них..

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4760114/

============================

основная мысль

2.2 Мотивация

Короче говоря, предлагаемая модель деревьев обучения с подкреплением (RLT) представляет собой традиционную модель случайных лесов со специальным типом выбора переменных разделения и подавлением переменных шума.  Эти функции становятся доступными благодаря реализации механизма обучения с подкреплением на каждом внутреннем узле.  Давайте сначала рассмотрим пример шахматной доски, демонстрирующий влияние обучения с подкреплением: предположим, что  X  ~  uni f  [0, 1]  p  и  E  (  Y  |  X  ) =  I  {  I  (  X  (1)  0,5) =  I  (  X  (2)  >0,5)}  , так что  p  1  = 2 и р  2  =  р  -2.  Сложность оценки этой структуры с помощью обычных случайных лесов заключается в том, что ни одна из двух сильных переменных не показывает незначительных эффектов.  Немедленное вознаграждение, т. е. уменьшение ошибок предсказания, от разделения на эти две переменные асимптотически идентично вознаграждению, полученному при разделении на любую из шумовых переменных.  Следовательно, когда  p  относительно велико, маловероятно, что либо  X  (1)  , либо  X  (2)  будут выбраны в качестве переменной разделения.  Однако, если мы заранее знаем, что расщепление либо на  X  (1)  , либо на  X  (2) принесет значительные выгоды в будущем для более поздних разделений, мы могли бы с уверенностью заставить разделить любую переменную независимо от немедленных вознаграждений.

=========================

Ну и пакет на R соответственно

https://cran.r-project.org/web/packages/RLT/RLT.pdf

Reinforcement Learning Trees
Reinforcement Learning Trees
  • www.ncbi.nlm.nih.gov
In this paper, we introduce a new type of tree-based method, reinforcement learning trees (RLT), which exhibits significantly improved performance over traditional methods such as random forests (Breiman, 2001) under high-dimensional settings. The innovations are three-fold. First, the new method implements reinforcement learning at each...
 
Forester #:
деревянная

Какое точное название? Или самопальная?

Использую много лет разные "деревянные" модели и ничего подобного  не наблюдал.

 
mytarmailS #: Однако, если мы заранее знаем, что расщепление либо на  X  (1)  , либо на  X  (2) принесет значительные выгоды в будущем для более поздних разделений, мы могли бы с уверенностью заставить разделить любую переменную независимо от немедленных вознаграждений.

Могу заставить, но не знаю по какой фиче надо Х1, Х2 или Х157

Причина обращения: