Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 3170

 

Добавил визуализацию графиков на подвыборках test и exam, а train подрезал - убрал начальный кусок, что бы сопаставими картинки были.

Фактически это последовательные по времени участки выборки train->test->exam.

После просмотра gif становится понятно, что test и exam выборки скорей уменьшили амплитуду колебания, чем получили тенденцию в каком либо направлении.

Однако, если присмотреться, то видно, что при некоторых итерациях происходит улучшение на этих выборках, т.е. можно предположить, что это те правила (в виде квантовых отрезков), которые показывают стабильность на разных выборках. Так же можно отметить, что разные участки по разному меняются от итерации к итерации, т.е. улучшение на test не имеет прямой зависимости от улучшения на exam.

Как я писал выше - это объясняется изменением смещения вероятности принадлежности к классу отдельно взятого квантового отрезка.

Сами квантовые отрезки, как сигнал для пропуска сигнала целевой, т.е. введения его в ноль, или иными словами разделения выборки на две части, отбираются согласно их стоимостной оценки. Т.е. оценивается стоимость уменьшения ошибочных сигналов. На каждой итерации происходит перерасчет и убирается вариант с наименьшей ценой.

Вот как меняется цена по одному из методов расчета. Ниже гиф, на котором каждая точка - квантовый отрезок (ость x - порядковый номер).

Будет ли существенно меняться результат на выборках test/exam, если на первой итерации цену выбрать случайным образом?

 

Между 4 и 5 итерациями видно, как подвыборка test резко теряет число правильных откликов целевой, что сразу приводит к расхождению (увеличивается дельта) с выборкой exam.


 
Aleksey Vyazmikin #:

Будет ли существенно меняться результат на выборках test/exam, если на первой итерации цену выбрать случайным образом?

Сам себе и отвечу - да, будет.

Случайным образом сделал выбор первого квантового отрезка для исключения сигнала (строки) 1000 раз.

Вот пару примеров гифок, как проходил процесс с разными рандомными первыми квантовыми отерзками (это могут быть и листья).


А вот статичные картинки в момент промежуточной итерации - разные этапы отбора и рандома.

Какой можно сделать вывод?

1. Вам может повезти, и случайным образом будет найдена рабочая модель :)

2. Без снижения числа ложных закономерностей построить модель затруднительно, пользуясь только принципом жадности.

3. Нужно разрабатывать методы оценки закономерности, наблюдаемые в квантовом отрезке или листе.

4. Рандом не доказывает, что человек успешный в машинном обучении.

5. Для успешной работы требуется логически обоснованная модель.

6. Успех на выборке test не всегда значит успех на выборке exam, и наоборот.

Какие то ещё можно сделать выводы?

 
Aleksey Vyazmikin #:
...

Какой можно сделать вывод?

1. Вам может повезти, и случайным образом будет найдена рабочая модель :)

2. Без снижения числа ложных закономерностей построить модель затруднительно, пользуясь только принципом жадности.

3. Нужно разрабатывать методы оценки закономерности, наблюдаемые в квантовом отрезке или листе.

4. Рандом не доказывает, что человек успешный в машинном обучении.

5. Для успешной работы требуется логически обоснованная модель.

6. Успех на выборке test не всегда значит успех на выборке exam, и наоборот.

Какие то ещё можно сделать выводы?

я упустил из виду по ходу ветки, извините, способ вашего квантования, напомните, пожалуйста.

квантование временного ряда очень важно, к примеру, квантуя цену методом ренко получим СБ (по крайней мере соответствующе статистически), так что выражение "квантуй не квантуй, всё равно получишь ххх" представляется как минимум недосказанным, ведь если существует квантование, уничтожающее информацию, то, возможно, существует квантование информацию извлекающее. при условии, в тиковом потоке информация имеется, конечно (мы на это люто надеемся, ибо применение МО оказалось бы бессмысленным в противном случае).

 

Andrey Dik #:

квантуя цену методом ренко получим СБ (по крайней мере соответствующе статистически)

Думаю не большее СБ, чем просто бары.

Andrey Dik #: при условии, в тиковом потоке информация имеется, конечно (мы на это люто надеемся, ибо применение МО оказалось бы бессмысленным в противном случае).
Тики тут вроде еще никто не исследовал с помощью МО.
 
Forester #:

Думаю не большее СБ, чем просто бары.

думаю гораздо большее СБ, т.к. статистика по барам сильно отличается от характеристик СБ

Forester #:

Тики тут вроде еще никто не исследовал с помощью МО.

вслух может быть и нет, по крайней мере не квантуя ряд.

 

перспективным видится действовать "методом от противного". т.е. искать не закономерности, а состояния ценового (тикового) ряда (не хочется употреблять "временной ряд"), которые не достижимы никогда и не встречаются на истории.

это позволит использовать граничные условия для построения выгодной для трейдунов стратегии. 

 
Andrey Dik #:

я упустил из виду по ходу ветки, извините, способ вашего квантования, напомните, пожалуйста.

Под понятием "квантовый отрезок" скрывается простая суть - это диапазон предиктора, который имеет цифровое значение на каждой строке выборки. Всё что попало в диапазон стало единицей.

Методы разбиения на диапазоны могут быть разные, и использую я, как варианты встроенные в CatBoost (в бустингах часто используют как для уменьшения требующейся оперативной памяти, так и снижения размерности), так и некоторые свои, к примеру разные числовые последовательности.

После того, как предиктор поделён на диапазоны с помощью полученной сетки тем или иным способом, поочерёдно берётся каждый отрезок и оценивается на предмет ценности информации в нём.

Ценной информацией считается смещение вероятности принадлежать к какому либо классу на 5% и более от среднего значения по выборке, а так же учитывается количество сигналов и их распределенность по выборке.

Если выборка с бинарной целевой, то получаем две группы квантовых отрезков, в которых смещена вероятность попадания 0 или 1 соответственно.

Создаём новую выборку, где у каждого квантового отрезка свой столбец - есть сигнал в диапазоне - ставим "1", нет "0".

 
Что мешает преобразовать/проквановать ряд как это сделал я например тут https://www.mql5.com/ru/forum/86386/page3166#comment_48559717
 или что то похожее..  И получить хороший результат
 
Aleksey Vyazmikin #:

Сам себе и отвечу - да, будет.

Случайным образом сделал выбор первого квантового отрезка для исключения сигнала (строки) 1000 раз.

Вот пару примеров гифок, как проходил процесс с разными рандомными первыми квантовыми отерзками (это могут быть и листья).


А вот статичные картинки в момент промежуточной итерации - разные этапы отбора и рандома.

Какой можно сделать вывод?

1. Вам может повезти, и случайным образом будет найдена рабочая модель :)

2. Без снижения числа ложных закономерностей построить модель затруднительно, пользуясь только принципом жадности.

3. Нужно разрабатывать методы оценки закономерности, наблюдаемые в квантовом отрезке или листе.

4. Рандом не доказывает, что человек успешный в машинном обучении.

5. Для успешной работы требуется логически обоснованная модель.

6. Успех на выборке test не всегда значит успех на выборке exam, и наоборот.

Какие то ещё можно сделать выводы?

Можно сделать вывод, что ты страдал фигней несколько лет. А можно было просто делать случайный перебор, чем сейчас с успехом занимаешься.
Причина обращения: