Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 155

 
J.B:

Это эмпирическая оценка прироста качества классификации с - без данного фактора, всё просто, взаимная информация и детерминация в нелинейных многофакторных системах работают ненадежно. Ну и цифры 4-5% понятное дело не догма, просто нужно понимать, что используя «все рынки» и потоки информации без динамики цены данного инструмента можно предсказать его будущее на некоторый горизонт на <5% хуже, всегото. То есть если у Вас вероятность предсказания будущего приращения на минуту в перед данного актива к примеру 70%, то исключив из данных для анализа цену предсказуемого ряда получите 70 - (70-50)*0.5 = 69% почти в пределах шума разница. Ну, разумеется это если у Вас в руках реалтаймовые данные со всех рынков мира и не только с рынков, но без инсайда, а если только цена одного инструмента… увы какой бы ИИ вы не наворотили, проще терминатора создать чем обыграть рынок с такими данными.

Ну, ок.

Положим, я не классифицирую прирост на вверх/вниз, а строю регрессионную модель.  Поэтому R^2 или иная метрика детерминированности (например, робастная метрика абсолютных отклонений) вполне подходит.

 По поводу взаимной информации - голословно или есть веские доказательства, что метрика работает ненадежно? Я сомневаюсь.

Update: я проводил множество исследования на синтетических и реальных данных с применением взаимной информации. Если зависимость стационарна, метрика работает хорошо везде. Если зависимость на грани шума, метрика может показать нулевую зависимость. Но в целом не вижу причин, почему в многомерных нелинейных системах она работает хуже, чем, например, F1. Можно тут почитать: https://habrahabr.ru/company/aligntechnology/blog/303750/

 

Но когда я все же делал классификацию инкремента ценового движения, я получил примерно такую картинку (для 5 валютных пар вместе всятых, то есть, одна модель на всех):

 

 


То есть как минимум медана значений точности на 50 отложенных выборках в районе 57% на максимуме. Для отдельных валютных пар добиваюсь медианной точности выше 60%. Это только на данных временного ряда.

 
Alexey Burnakov:

1) Это не наивный взгляд. Это направление поиска. И не обязательно нейронная сеть. Тезис такой: из прошлых значений временного ряда цен можно вытащить информацию, достаточную для прибыльной (преодолевающей издержки) торговли независимо от временного промежутка реального форвард теста.

Также выложу пару графиков на эту тему. Сейчас готовлю материал для статьи. 

 

2) PS: Лично у меня, с учетом борьбы со всеми факторами, ведущими к переобучению, и попытке взять наиболее консервативное и надежное состояние модели, получается, что больше 30-40% в год (при макс.просадке 25%) не выжать. Но уже это превосходит медианный выхлоп от хедж-фондов. Все остальные космические проценты якобы получаемые в долгосроке чисто на тех.анализе по временному ряду - это ложь.

1)Конечно, искать нужно повсюду, я просто предложил использовать больше информации и только, ну и к тому же устоявшегося трейдера нельзя сбить с собственного пути, можно только добавить инфы к его существующей модели.

2) медианные ретурны даже американских хедж фондов печальные ниже индексов, самые крутые еле еле 15-20% дают в среднем за 10 лет,  хотя модели в торговлю не допускаются с шарпом* ниже 2-3 и конечно же и емкости там $10^6-9, по расчетам у всех хотя бы 20-30% должно бы быть но....

 
J.B:

1)Конечно, искать нужно повсюду, я просто предложил использовать больше информации и только, ну и к тому же устоявшегося трейдера нельзя сбить с собственного пути, можно только добавить инфы к его существующей модели.

2) медианные ретурны даже американских хедж фондов печальные ниже индексов, самые крутые еле еле 15-20% дают в среднем за 10 лет,  хотя модели в торговлю не допускаются с шарпом* ниже 2-3 и конечно же и емкости там $10^6-9, по расчетам у всех хотя бы 20-30% должно бы быть но....

1) это да

 

2) ну да... а вот этот Шарп 2-3 как посчитан? Как в фондах считают, точнее КАК определяют, что это реальная оценка Шарпа на реальной торговле? 

 
Alexey Burnakov:

PS: Лично у меня, с учетом борьбы со всеми факторами, ведущими к переобучению, и попытке взять наиболее консервативное и надежное состояние модели, получается, что больше 30-40% в год (при макс.просадке 25%) не выжать. Но уже это превосходит медианный выхлоп от хедж-фондов. Все остальные космические проценты якобы получаемые в долгосроке чисто на тех.анализе по временному ряду - это ложь.

))) Улыбнуло!

Это с каким плечом вы делаете эти 30-40% в год? 

 
Дмитрий:

))) Улыбнуло!

Это с каким плечом вы делаете эти 30-40% в год? 

Максимум загрузка депозита 10% (1:10).

 

Ну, оговорюсь, иногда я видел примеры как годами делали и больше. Но это было либо руками, либо с просадками на грани фола. 

 
Alexey Burnakov:

Максимум загрузка депозита 10% (1:10).

 

Ну, оговорюсь, иногда я видел примеры как годами делали и больше. Но это было либо руками, либо с просадками на грани фола. 

Я не про загрузку депозита, я про плечо - с каким плечом вы зарабатываете эти 30-40% годовых?
 
mytarmailS:

Парни есть идейка, стоит проверить, у меня она возникла уже давно, хотел проверить но не смог разобраться с пакетом и как то забыл и забросил, а тут читал ветку J.B и вспомнил, оказывается он тоже что то похожее делал:)

Речи идет о кросс корреляции - те мы можем вычислить на сколько один ВР  отстает от другого ВР и вообще есть ли между ними связь...

суть именно моей была идеи в том чтобы мониторить одновременно большое количество пар и построив что то на подобе кросс кореляцыонной матрицы сравнивать каждую пару с каждой и находить такие пары которые какое то время ходят друг за другом но одна отстает на какое то время и торговать это отставание, так как в рынке нет ничего более постоянного чем временное то пере расчеты думаю нужно  делать постоянно на каждом новом баре, чтобы сразу замечать когда появляется новая зависимость и также чтобы сразу замечать когда эта же зависимость пропала...

можно брать что угодно, любые предикторы но думаю лучше всего подойдут именно пары так как маркетмейкеры когда ведут цену по своему инструменту практически всегда ориентируються на один или связку из других инструментов, а вот классич. индикаторы врятли подойдут

так же можно попробовать и нейросеть обучать на таких динамически изменяющихся предикторах, кароч все ограничено только фантазией...

Я бы и сам это попробовал бы реализовать но пока занят другим проектом и не хочу распыляться

стандартная функция кросскореляции в Р-ке    ccf() 

продвинутый пакет с предварительной спектральной разбивкой на уровни и потом уже проверкой на кросскореляцию   "wavemulcor" , так же в нем можно одновременно сравнивать много ВР

К сожалению это провально, пары ходят сами по себе, другое дело энтропия, вот это по интересней будет.
 
Дмитрий:
Я не про загрузку депозита, я про плечо - с каким плечом вы зарабатываете эти 30-40% годовых?
Ооо, вижу вы не понимаете что такое плечо. Я же указал в скобках 1:10 плечо ЗАДЕЙСТВУЮ максимум (если несколько сделок оказывается в рынке).
 
И кстати да, я уже начал писать статью, как будет готова я обязательно сообшю об этом в этой ветке. Там будет изложен мой трактат.... :-)
 
Alexey Burnakov:
Ооо, вижу вы не понимаете что такое плечо. Я же указал в скобках 1:10 плечо ЗАДЕЙСТВУЮ максимум (если несколько сделок оказывается в рынке).

10%  - это загрузка депозита.

Если у вас депозит 1000 долларов, вы загружаете его на 10% - открываете сделку на 100 долларов.

А теперь, ВНИМАНИЕ, в зависимости от плеча, предоставляемого брокером/кухней вы можете покупать разные лоты - на 10 000 долларов (1:100), на 5 000 долларов (1:50), 20 000 (1:200).

 

П.С. ёкерныйбабай........