Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 2877

 
Aleksey Nikolayev #:

Уже обсуждали с вами ассоциативные правила. Для меня они плохо согласуются с моим общим подходом поиска отличий цены от СБ. Проблема в том, что СБ вполне неплохо создаёт видимость наличия правил - проблема лишь в том что они будут разными на разных участках.

Тогда буст,  но чтобы приготовить данные как вы хотите(без структуры)  вам надо понять как это вообще делаеться по уму, для этого стоит изучить как готовятся данные для асоциативных правил
 

Хорошо поработали, даже для себя кое-что интересное взял в контексте меняющейся длины окна.

появятся еще вопросы - набросайте, потом поспрашиваю после НГ

 
Maxim Dmitrievsky #:

так все понятно, можно через хэш ф-ии попробовать. Только стесняюсь спросить, по какому принципу выбирать вектора произвольной длины, вернее длину для них :) и из каких данных

вариантов может быть очень много

первый вариант приятнее, но нужно закладывать что-то в логику 

Очень важный вопрос, постоянно кручусь около него) Пускай речь просто про длину используемой истории. Нужен разумный компромисс между актуальностью и длиной для расчётов. Чем короче, тем актуальнее, но чем длиннее, тем расчёты точнее. Иногда хороший компромисс недостижим в принципе.

 
Maxim Dmitrievsky #:

Хорошо поработали, даже для себя кое-что интересное взял в контексте меняющейся длины окна.

появятся еще вопросы - набросайте, потом поспрашиваю после НГ

Ок, С Наступающим всех нас!)

 
Aleksey Nikolayev #:

Ок, С Наступающим всех нас!)

Взаимно :)

 

Не совсем понял, что  вы получили из Этого разговора c GPT.

Он иногда и не про то отвечает. Вот например

В идеале, алгоритм должен получать на вход всю доступную историю, которая очевидно со временем растёт. Он сам должен определять на какие куски её нарезать и что с ними делать.

*Да, в идеале алгоритм должен быть способен работать с произвольным числом признаков

Спросили про меняющуюся длину строк, а он ответил про меняющуюся длину столбцов.

Практически длину истории можно перебирать переобучением модели. Например обучить на 1 дне, на 3, 7, на месяце, 2, ... на 1 годе, 2,3 ... какая длина истории будет хорошо предсказывать - ту и использовать.
 
Aleksey Nikolayev #:

Очень важный вопрос, постоянно кручусь около него) Пускай речь просто про длину используемой истории. Нужен разумный компромисс между актуальностью и длиной для расчётов. Чем короче, тем актуальнее, но чем длиннее, тем расчёты точнее. Иногда хороший компромисс недостижим в принципе.

Тоже сильно давно задавался эти  вопросом, имхо, это один из самых важных моментов чтоб работающую ТС построить. Для себя пользуюсь таким подходом - на заведомо большой истории, грубо анализирую какие-то характеристики фин. актива, нахожу координаты смены тенденций - тренда, волатильности и т. д. и затем  работаю от последней точки изменения, в предположение, что данная глобальная характеристика ещё какое то время сохранится.

 
elibrarius #:

Не совсем понял, что  вы получили из Этого разговора c GPT.

Он иногда и не про то отвечает. Вот например

Спросили про меняющуюся длину строк, а он ответил про меняющуюся длину столбцов.

Практически длину истории можно перебирать переобучением модели. Например обучить на 1 дне, на 3, 7, на месяце, 2, ... на 1 годе, 2,3 ... какая длина истории будет хорошо предсказывать - ту и использовать.

Про столбцы пока речи не было вообще - до этого пока далеко. Путаница из-за отсутствия проговаривания того, что признаки - это цена (бары, ренко и тд). То есть речь о произвольной длине вектора однородных признаков. Если помимо произвольной длины вектора признаков хотеть ещё и произвольные их виды, то это уже явный перебор.

 
Aleksey Nikolayev #:

Проблема в том, что СБ вполне неплохо создаёт видимость наличия правил - проблема лишь в том что они будут разными на разных участках.

тогда если подумать, это не проблема произвольного количества признаков, это проблема инвариантности признаков в первую очередь

https://homes.esat.kuleuven.be/~tuytelaa/tutorial-ECCV06.pdf
 
Aleksey Nikolayev #:

Очень важный вопрос, постоянно кручусь около него) Пускай речь просто про длину используемой истории. Нужен разумный компромисс между актуальностью и длиной для расчётов. Чем короче, тем актуальнее, но чем длиннее, тем расчёты точнее. Иногда хороший компромисс недостижим в принципе.

Нужен критерий, а он единственный - ошибка подгонки модели.

Вот картинка


Это выборка в 2000 бар, 43 переменных. Видим, что количество деревьев свыше 100 бессмысленно увеличивать. Менял размер выборки. Результат - свыше 1500 бар картинка не меняется. Это означает, что количество паттернов в моих предикторах для моего учителя около 100 штук и их все можно найти в 1500 барах истории. Далее эти паттерны повторяются.