Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 1776

 
Maxim Dmitrievsky:

где-то в туториалах видел.. вроде, при дообучении так удобнее или что-то с этим связано

Максим, вы сейчас вроде бы кластеризацией занимаетесь.
Вот тут показано, что леса схожи с кластеризацией.

https://habr.com/ru/company/ods/blog/324402/

Раздел "Схожесть случайного леса с алгоритмом k-ближайших соседей".

Открытый курс машинного обучения. Тема 5. Композиции: бэггинг, случайный лес
Открытый курс машинного обучения. Тема 5. Композиции: бэггинг, случайный лес
  • habr.com
Пятую статью курса мы посвятим простым методам композиции: бэггингу и случайному лесу. Вы узнаете, как можно получить распределение среднего по генеральной совокупности, если у нас есть информация только о небольшой ее части; посмотрим, как с помощью композиции алгоритмов уменьшить дисперсию и таким образом улучшить точность модели; разберём...
 
elibrarius:


Есть Вопрос?

 
elibrarius:

Максим, вы сейчас вроде бы кластеризацией занимаетесь.
Вот тут показано, что леса схожи с кластеризацией.

https://habr.com/ru/company/ods/blog/324402/

Раздел "Схожесть случайного леса с алгоритмом k-ближайших соседей".

ну как занимаюсь.. начал и подзабил ) Лес тоже может кластеризовать, да

что касается кластеризации как есть - она неплохо разделяет приращения на 3 группы, в т.ч. на новых данных. Есть смысл использовать как категориальные фичи, этим хотел заняться
 
Maxim Dmitrievsky:


Есть Вопрос?

 
ПОБЕДА братцы!!!!! Они победили......

ЭТО ПОБЕДА!!!!! Братцы!!!! УРРРААААААААА!!!!!. Всех с праздником.

Потому как только мы забудем эту войну сразу же начнётся другая. Давайте помнить о ней всегда!!!!!!!! ПОБЕДАААААААААА!!!!!!! Пиу, пиу (это я так с воображаемого ТТ-шки вверх стреляю и бегу по улице в форме офицера)

 
Вот видите, мы по одну сторону барикад! Всех с праздником!
 
mytarmailS:

Ну так что там? какой акураси получился?

10 моделей CatBoost с глубиной дерева 6, остановка обучения при 100 новых деревьях не улучшающих результат, сидирование с шагом 100.

Accuracy=70.72461682377491
Accuracy=70.86133697920415
Accuracy=70.77066992876159
Accuracy=70.64690220910988
Accuracy=70.78506152406995
Accuracy=70.88004605310499
Accuracy=70.69871195221991
Accuracy=70.59509246599985
Accuracy=70.58501834928403
Accuracy=70.71454270705908

Выборка обучения 80% 2018 и 2019 года, 20% выборка для контроля остановки обучения. Независимая выборка январь-май 2020

Если помучить выборку разными способами разбиения и построить больше моделей то думаю,  что 72 можно получить.

Баланс классификации


 
Aleksey Vyazmikin:

10 моделей CatBoost с глубиной дерева 6, остановка обучения при 100 новых деревьях не улучшающих результат, сидирование с шагом 100.

Выборка обучения 80% 2018 и 2019 года, 20% выборка для контроля остановки обучения. Независимая выборка январь-май 2020

Если помучить выборку разными способами разбиения и построить больше моделей то думаю,  что 72 можно получить.

Баланс классификации


Ну че.. славненько и правдоподобно. Хотелось бы увидеть еще баланс самой торговли и график с входами.

Я так понял это ансамбль из 10 моделей?   Чем отличаются модели друг от друга?

 

Где то  слышал такую умную мысль, что то  типа  - если есть признаки хоть с какой статистической значимостью даже с самой минимальной соединив их вместе можно получить точность близкую к 100%

Решил проверить...

Сделал синтетическую дату с бинарной целевой, к каждому значению целевой привязка фичи с некой вероятностью попадания.

сделал 10 таких фичей с вероятностями  в 51:49 на одно значение целевой и 49:51 на другое

Обучал форест.

получил на новых данных 

 Accuracy : 0.5145   

тут уже  не 10 признаков, а 100

 Accuracy : 0.534 

с 1000 признаков получилось 

Accuracy : 0.558 

Вывод такой : нужно улучшать качество признаков, на количестве далеко не уедешь...

попробуем увеличить вероятность скажем на 55:45

10 признаков дают

Accuracy : 0.6055 

100 признаков дают 

Accuracy : 0.7985    

попробуем еще увеличить вероятность  60:40

10 признаков

Accuracy : 0.729 

100 признаков

 Accuracy : 0.968 


Итак получается чтобы жить в Сочи на каждой свече надо иметь 100 правил/фичей/АМО  которые дают 60% правильных ответов... и еще должны быть разными при том всем... Интересно возможно ли такое сделать?

 
mytarmailS:

Где то  слышал такую умную мысль, что то  типа  - если есть признаки хоть с какой статистической значимостью даже с самой минимальной соединив их вместе можно получить точность близкую к 100%

Решил проверить...


Корреляция EURCAD на дневных данных с парами :

AUDCHF CADCHF CHFJPY EURCHF
EURCAD -0.22 -0.33 -0.39 0.37


Коэффициент детерминации самой простой линейной регрессии EURCAD = a*AUDCHF + b*CADCHF + c*CHFJPY + d*EURCHF + k

R^2 = 0.99622555