Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 3165

 
СанСаныч Фоменко #:

Знания бывают разные: знания, высосанные из собственного пальца, и знания результатов других людей, которые удосужились оформить эти знания в виде кода, многократно проверенного другими людьми и практикой.

Знания других людей множатся, а ваши уменьшаются. В целом это нормально, нельзя знать все. Но ненормально проповедовать пакетное мышление среди тех, у которых знаний больше, чем у вас.

Или вы какой-то заслуженный мастер в ML, профессор может быть или крутой управляющий? Возможно, мы чего-то не знаем.
 
Maxim Dmitrievsky #:

Знания других людей множатся, а ваши уменьшаются. В целом это нормально, нельзя знать все. Но ненормально проповедовать пакетное мышление среди тех, у которых знаний больше, чем у вас.

Или вы какой-то заслуженный мастер в ML, профессор может быть или крутой управляющий? Возможно, мы чего-то не знаем.

Просто достал, гуру! Про меня не известно, а про Вас точно известно - смотрим в Ваш маркет!

 
СанСаныч Фоменко #:

Просто достал, гуру! Про меня не известно, а про Вас точно известно - смотрим в Ваш маркет!

У вас кроме болезненного восприятия окружающего мира и святой веры в пакеты что-нибудь осталось, или копилка исчерпана? )

каждый день приходится читать про пакеты, в которых вы ни в зуб ногой

или у вас день сурка? 
 
Forester #:

 пора завершить эту эпопею с попытками найти закономерности в случайных данных.

да..

или пора перестать думать по инерции, и трезво смотреть и оценивать результаты

 
Forester #:

Результаты обучения через корсет часто неплохие

с 10 по 21 год был найден корсет с фракцией 30% (30% случайной истории из этого участка участвовало в обучении), остальные года вообще чистый OOS

В терминале это так выглядит


 

Существует много методов определения coreset. Вот некоторые из наиболее популярных методов:

  • Случайный подмножество: Просто выберите случайное подмножество точек из исходного датасета. Это самый простой способ получить coreset, но он не всегда обеспечивает наилучшее качество.
  • Опорные точки: Выберите точки из исходного датасета, которые имеют большое влияние на прогноз алгоритма машинного обучения. Это более эффективный способ получить coreset, чем случайный подмножество, но он может быть более сложным.
  • Кластеризация: Сгруппируйте точки из исходного датасета на основе их сходства. В качестве coreset выберите одну точку из каждой группы. Это эффективный способ получить coreset, который хорошо представляет исходный датасет, но он может быть более сложным.
  • Гемометрический ядро: Выберите точки из исходного датасета с помощью гемометрического ядра. Это мощный метод получения coreset, который может быть использован для улучшения качества алгоритмов машинного обучения.
  • Расширенный случайный подмножество: Этот метод выбирает случайные точки из исходного датасета, но с бОльшей вероятностью выбирает точки, которые имеют большое влияние на прогноз алгоритма машинного обучения. Это эффективный способ получить coreset, который обеспечивает хорошее качество и может быть использован для различных задач машинного обучения.

Важно отметить, что нет универсального способа получения coreset, который подходит для всех задач машинного обучения. Выбор метода получения coreset зависит от конкретной задачи и от доступного вычислительного ресурса.

*Bard

 
Maxim Dmitrievsky #:

Результаты обучения через корсет часто неплохие

с 10 по 21 год был найден корсет с фракцией 30% (30% случайной истории из этого участка участвовало в обучении), остальные года вообще чистый OOS

В терминале это так выглядит


Ну тоже есть периоды просадки длительностью в полгода - год. Вы готовы к этому? Особенно если просадка начнется сразу при запуске в реал?

 
Forester #:

Ну тоже есть периоды просадки длительностью в полгода - год. Вы готовы к этому? Особенно если просадка начнется сразу при запуске в реал?

Обычно диверсифицируют.

На других инструментах эти участки будут прибыльные. А если общая тенденция у всех будет также, как на представленном графике, то это - гарантированная инвестиционная стабильность.  

Просто нужно создать портфель из инструментов, которые создадут самый большой фактор восстановления
 
Forester #:

Ну тоже есть периоды просадки длительностью в полгода - год. Вы готовы к этому? Особенно если просадка начнется сразу при запуске в реал?

Не готов ставить на 20 лет :) это, скорее, исследование предельных случаев

меня устраивают 10 лет обучения - 1 год ООС, вполне

но шума очень много, иногда модель выбрасывает почти все семплы как бесполезные, остается 3 сделки

еще есть куски истории, которые не предсказываются нормально никогда

в целом, не сильно благодарное занятие

Это как крутить крутилку старого приемника и случайно попадать на какую-то волну с шумом.

 

в который раз убеждаюсь , чтобы прогнозировать нужна модель

модель удаляет лишнее(шум) оставляя нужное(сигнал) по возможности усиливая нужное(сигнал), так же модель более детерминированая , больше повторяемости в паттернах..

как пример

цены хай лоу минутки


дальше строим простейшее упрощение цены  (создаем модель)

далее удалаем лишнее(улучшаем модель) с помощью простого извесного алгоритма по уменьшению размерности, модель стала более повторяемой

и последний возможно декоративный штрих


Интересно как будет обучаться на таких данных МО?

это тест выборка 

Confusion Matrix and Statistics

          Reference
Prediction    -1     1
        -1 24130  2780
        1   4478 23613
                                          
               Accuracy : 0.868           
                 95% CI : (0.8652, 0.8709)
    No Information Rate : 0.5201          
    P-Value [Acc > NIR] : < 2.2e-16       
                                          
                  Kappa : 0.7363          
                                          
 Mcnemar's Test P-Value : < 2.2e-16       
                                          
            Sensitivity : 0.8435          
            Specificity : 0.8947          
         Pos Pred Value : 0.8967          
         Neg Pred Value : 0.8406          
             Prevalence : 0.5201          
         Detection Rate : 0.4387          
   Detection Prevalence : 0.4893          
      Balanced Accuracy : 0.8691          
                                          
       'Positive' Class : -1  

Видели такие циферки у себя когда нибудь?