Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 3008

 

А по мне все просто и банально.

1. Сам работал и работаю: есть учитель и к нему надо подобрать/обработать признаки.

2. Как утверждает  mytarmailS   можно поставить обратную задачу: есть признаки и к ним подобрать/создать учителя. Что-то в этом мне не нравится. Не пытаюсь пойти этим путем.


В реальности  оба пути одинаковы: ошибка классификации по имеющейся паре "учитель-признаки" не должна превосходить 20% вне выборки. Но самое важное, должно быть теоретическое доказательство, что предсказательная способность имеющихся признаков не меняется, или слабо меняется в будущем. Во все пароходе это самое важное. 


Замечу, что в моих рассуждениях отсутствует выбор модели. По моему убеждению модель играет крайне малую роль, так как она не имеет отношения к стабильности предсказательной способности признаков:  стабильность предсказательной способности - это свойство пары "учитель-признаки".

1. У кого-то еще есть пара "учитель-признаки" с ошибкой классификации менее 20%? 

2. У кого-то есть фактическое доказательство изменчивости предсказательной способности для использованных признаков менее 20%? 


Есть? Тогда есть ЧТО обсуждать


Нет? Все остальное бла-бла-бла.

 
СанСаныч Фоменко #:

А по мне все просто и банально.

1. Сам работал и работаю: есть учитель и к нему надо подобрать/обработать признаки.

2. Как утверждает  mytarmailS   можно поставить обратную задачу: есть признаки и к ним подобрать/создать учителя. Что-то в этом мне не нравится. Не пытаюсь пойти этим путем.


В реальности  оба пути одинаковы: ошибка классификации по имеющейся паре "учитель-признаки" не должна превосходить 20% вне выборки. Но самое важное, должно быть теоретическое доказательство, что предсказательная способность имеющихся признаков не меняется, или слабо меняется в будущем. Во все пароходе это самое важное. 


Замечу, что в моих рассуждениях отсутствует выбор модели. По моему убеждению модель играет крайне малую роль, так как она не имеет отношения к стабильности предсказательной способности признаков:  стабильность предсказательной способности - это свойство пары "учитель-признаки".

1. У кого-то еще есть пара "учитель-признаки" с ошибкой классификации менее 20%? 

2. У кого-то есть фактическое доказательство изменчивости предсказательной способности для использованных признаков менее 20%? 


Есть? Тогда есть ЧТО обсуждать


Нет? Все остальное бла-бла-бла.

Учитель это набор признаков и меток, а не то, что вы написали :) вернее, это вообще человек, либо алгоритм, который формирует эти данные 😀

Выбор модели играет значение, нужно выбирать сильную. Но поскольку все сильные модели примерно одинаковых сильных качеств, то выбор между ними уже непринципиален.

Иногда знание правильных определений помогает правильно мыслить.
 
СанСаныч Фоменко #:
Но самое важное, должно быть теоретическое доказательство, что предсказательная способность имеющихся признаков не меняется, или слабо меняется в будущем. Во все пароходе это самое важное.

К сожалению этого никто не нашел, иначе был бы не тут а на тропических островах))

СанСаныч Фоменко #: По моему убеждению модель играет крайне малую роль, так как она не имеет отношения к стабильности предсказательной способности признаков:  стабильность предсказательной способности - это свойство пары "учитель-признаки".

Да. Даже 1 дерево или регрессия может найти закономерность, если она есть и не меняется.

СанСаныч Фоменко #:

1. У кого-то еще есть пара "учитель-признаки" с ошибкой классификации менее 20%?

Легко. Могу негенерить десятки датасетов. Вот как раз сейчас исследую ТП=50 и СЛ=500. Там и в разметке учителя в среднем 10% ошибки. Если будет 20% то это будет сливная модель.
Так что не в ошибке классификации суть, а в результате сложения всех прибылей и убытков.

Как видите, у верхней модели ошибка 9,1%, а заработать что-то можно при ошибке 8,3%.
На графиках только ООС, получено валкинг-форвардом с переобучением раз в неделю, всего 264 переобучений за 5 лет.
Интересно, что модель отработала в 0 при ошибке классификации 9,1%, а 50/500 = 0,1, т.е. 10% должно быть. Получается что 1%съел спред (минимальный на бар, реальный будет больше).

 

Для начала надо понять что в модели полно мусора внутри..

Если разложыть обученую деревяную модель на правила внутри и статистику по этим правилам

типа :

     len  freq   err                                                                                 condition pred
315    3 0.002 0.417    X[,1]>7.49999999999362e-05 & X[,2]<=-0.00026499999999996 & X[,4]<=0.000495000000000023    1
483    3 0.000 0.000     X[,1]<=0.000329999999999941 & X[,8]>0.000724999999999976 & X[,9]>0.000685000000000047    1
484    3 0.002 0.273      X[,1]>0.000329999999999941 & X[,8]>0.000724999999999976 & X[,9]>0.000685000000000047   -1
555    3 0.001 0.333   X[,5]<=0.000329999999999941 & X[,7]>0.000309999999999921 & X[,8]<=-0.000144999999999951   -1
687    3 0.001 0.250 X[,2]<=-0.00348499999999996 & X[,7]<=-0.000854999999999939 & X[,9]<=-4.99999999999945e-05    1
734    3 0.003 0.000    X[,7]>-0.000854999999999939 & X[,8]>0.000724999999999865 & X[,9]<=0.000214999999999965    1
1045   3 0.003 0.231   X[,1]<=-0.000310000000000032 & X[,4]>0.000105000000000022 & X[,4]<=0.000164999999999971   -1
1708   3 0.000 0.000    X[,3]>0.00102499999999994 & X[,6]<=0.000105000000000022 & X[,7]<=-0.000650000000000039    1
1709   3 0.002 0.250     X[,3]>0.00102499999999994 & X[,6]<=0.000105000000000022 & X[,7]>-0.000650000000000039   -1
1984   3 0.001 0.000     X[,1]<=0.000329999999999941 & X[,8]>0.000724999999999976 & X[,9]>0.000674999999999981    1
2654   3 0.003 0.000        X[,4]<=0.00205000000000011 & X[,5]>0.0014550000000001 & X[,9]<=0.00132999999999994    1
2655   3 0.000 0.000         X[,4]<=0.00205000000000011 & X[,5]>0.0014550000000001 & X[,9]>0.00132999999999994   -1
2656   3 0.001 0.200         X[,3]<=0.00245499999999998 & X[,4]>0.00205000000000011 & X[,5]>0.0014550000000001   -1
2657   3 0.000 0.000          X[,3]>0.00245499999999998 & X[,4]>0.00205000000000011 & X[,5]>0.0014550000000001    1
2852   3 0.000 0.000                X[,2]<=-0.001135 & X[,8]>-0.000130000000000075 & X[,8]>0.00128499999999998   -1
2979   3 0.001 0.200     X[,1]>0.000930000000000097 & X[,1]>0.00129000000000012 & X[,8]<=-0.000275000000000025   -1


и проанализоровать зависимость ошибки правила err от частоты freq его появления в выборке


то получим 


То нам интересна вот эта область 


Где правила работают очень хорошо , но попадаються на столько редко что есть смысл сомниваться в подлиности статистики по ним, ведь 10-30 наблюдений это не статистика

 
mytarmailS #:

Для начала надо понять что в модели полно мусора внутри..

Если разложыть обученую деревяную модель на правила внутри и статистику по этим правилам

типа :

и проанализоровать зависимость ошибки правила err от частоты freq его явления в выборке

то получим 

Просто лучик солнца во мгле последних постов
Если правильно разобрать ошибки модели, можно найти что-нибудь интересное. Примем очень быстро и безо всяких gpu, смс и регистраций.
 
Maxim Dmitrievsky #:
Просто лучик солнца во мгле последних постов
Если правильно разобрать ошибки модели, можно найти что-нибудь интересное. Примем очень быстро и безо всяких gpu, смс и регистраций.

об этом будет статья , если будет..

 
mytarmailS #:

об этом будет статья , если будет..

Норм, моя последняя статья про это же. Но если твой способ быстрее, это плюс.
 
Maxim Dmitrievsky #:
Норм, моя последняя статья про это же. Но если твой способ быстрее, это плюс.

в каком смысле быстрее?

 
mytarmailS #:

в каком смысле быстрее?

По скорости 
 
Maxim Dmitrievsky #:
По скорости 

гдето секунд 5-15   на 5к выборке

Причина обращения: