Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 2726

 
Aleksey Vyazmikin #:

Тогда надо учиться предсказывать схожие фазы рынка, хотя нет, надо учиться предсказывать, как измениться вероятней рынок.

Если каждый тренд не похож на новый, то это единственный способ.

Я же скорей считаю, что есть несколько разных форм тенденций у тренда и флэта, и они изменяются не так сильно.

Наверное это можно проверить каким то образом, если сделать адекватно разметку, порезав график на тенденции.

Ваши предположения кажутся слишком сильными. В том смысле, что если бы получилось их реализовать, то это был бы практически грааль. Хотелось бы решить более скромную и конкретную задачу - найти некий общий способ поиска компромисса между достаточной длиной трейна и отсутствия в нём устаревших примеров.

На мой взгляд, этот вопрос принципиален для применений МО и матстата именно в нашей области.

 
Aleksey Nikolayev #:

найти некий общий способ поиска компромисса между достаточной длиной трейна и отсутствия в нём устаревших примеров.

Можно ещё посмотреть с часто высказываемой точки зрения "надо не пытаться прогнозировать рынок в будущем, а надо определять его состояние в настоящем". Нужен осмысленный способ выделения этого самого "настоящего". Причём, таких "настоящих" может быть несколько (разные масштабы "настоящего", что ли) - главное чтобы не слишком много и чтобы выделение каждого было осмысленным.

 
Aleksey Nikolayev #:

Ваши предположения кажутся слишком сильными. В том смысле, что если бы получилось их реализовать, то это был бы практически грааль. Хотелось бы решить более скромную и конкретную задачу - найти некий общий способ поиска компромисса между достаточной длиной трейна и отсутствия в нём устаревших примеров.

На мой взгляд, этот вопрос принципиален для применений МО и матстата именно в нашей области.

А экспериментально не пробовали? Ведь согласно Вашему теоретическому подходу в этом вопросе после критичного увеличения объёма выборки закономерности в ней будут поступать старые, уже не работающие, а значит обучение должно ухудшиться в качественном смысле и на новых данных результаты будут хуже при увеличении выборки.

 
Aleksey Nikolayev #:

Получается апостериорный анализ уже обученной модели. Хотелось бы дополнить его априорным анализом для этапа выбора обучающей выборки.

Тоже так думаю. Остановился пока на использовании последней сформированной вершины зигзага для простоты, но хотелось бы что-нибудь более продуманное.

я начинаю вытаскивать только работающие куски с новых данных и применять фильтр в виде второй модели, чтобы работал как на старых так и на новых, потом проверяю еще на других новых данных, по типу как в статье

тоже своего рода подгонка, но на базе ошибок модели. Как бы выбираем хотя бы те варианты, которые она способна классифицировать хорошо, значит в них что-то есть кроме рандома (как минимум на обучении и валидации и какой-нибудь другой валидации)

Если априорно что-то закладывать, наверное есть смысл взять любой долгоиграющий мониторинг, это даст хотя бы какую-то адекватную разметку. Признаки подобрать.


Придумал новый спамер фичей и целевых (вроде должны получаться информативными и так и получаются по сравнению с обычным случайным семплингом). Но есть несколько вариантов, не проверял еще.

 
Aleksey Vyazmikin #:

А экспериментально не пробовали? Ведь согласно Вашему теоретическому подходу в этом вопросе после критичного увеличения объёма выборки закономерности в ней будут поступать старые, уже не работающие, а значит обучение должно ухудшиться в качественном смысле и на новых данных результаты будут хуже при увеличении выборки.

Вы наверняка понимаете, что это совершенно необозримая вычислительная задача - для большого числа моментов времени провести обучение на большом числе вариантов для длины истории. Даже если каким-то чудом удастся собрать всю эту статистику, то потом возникнет вопрос осмысленной систематизации этой кучи информации. Наверняка для каждого момента окажется оптимальной какая-то своя длина истории. И как это интерпретировать и, главное, как экстраполировать в будущее?

Хотелось бы зайти с другой стороны - придумать какие-нибудь эвристики для резкого сокращения числа вариантов для длины истории на обучение (буквально до нескольких вариантов).

 
Maxim Dmitrievsky #:

я начинаю вытаскивать только работающие куски с новых данных и применять фильтр в виде второй модели, чтобы работал как на старых так и на новых, потом проверяю еще на других новых данных, по типу как в статье

тоже своего рода подгонка, но на базе ошибок модели. Как бы выбираем хотя бы те варианты, которые она способна классифицировать хорошо, значит в них что-то есть кроме рандома (как минимум на обучении и валидации и какой-нибудь другой валидации)

Если априорно что-то закладывать, наверное есть смысл взять любой долгоиграющий мониторинг, это даст хотя бы какую-то адекватную разметку. Признаки подобрать.


Придумал новый спамер фичей и целевых (вроде должны получаться информативными и так и получаются по сравнению с обычным случайным семплингом). Но есть несколько вариантов, не проверял еще.

Надо поразмышлять над этим. Пока не очень понимаю как перевести это на язык своих представлений и понятий.

 
Aleksey Nikolayev #:

Надо поразмышлять над этим. Пока не очень понимаю как перевести это на язык своих представлений и понятий.

Еще переход с тиков на бары снижает сильно предсказательные способности 

но убирает потенциальные конфликты с дц :)

 
Maxim Dmitrievsky #:

Еще переход с тиков на бары снижает сильно предсказательные способности 

но убирает потенциальные конфликты с дц :)

Кстати, тоже важный практически и интересный теоретически вопрос. Можно же сформулировать его как зависимость реального бид-аск спреда от объёма (ликвидности, волатильности), посчитать соответствующую регрессию, сравнить форекс с биржевыми инструментами и тд. Другое дело, что интересно это только тем, чьи ТС торгуют большими объёмами)

 
Aleksey Nikolayev #:

Вы наверняка понимаете, что это совершенно необозримая вычислительная задача - для большого числа моментов времени провести обучение на большом числе вариантов для длины истории. Даже если каким-то чудом удастся собрать всю эту статистику, то потом возникнет вопрос осмысленной систематизации этой кучи информации. Наверняка для каждого момента окажется оптимальной какая-то своя длина истории. И как это интерпретировать и, главное, как экстраполировать в будущее?

Хотелось бы зайти с другой стороны - придумать какие-нибудь эвристики для резкого сокращения числа вариантов для длины истории на обучение (буквально до нескольких вариантов).

Задача с экспериментом решаемая, я делал нечто похожее.

Я пришел к мысли тогда, что нужно копать в сторону методов оценки сопоставимости выборки. Но, реализовать не смог - не понял формулы.

 
Aleksey Vyazmikin #:

Задача с экспериментом решаемая, я делал нечто похожее.

Технически вполне решаема, наверное. Вопрос в способе интерпретации результатов подобного эксперимента.

Aleksey Vyazmikin #:

Я пришел к мысли тогда, что нужно копать в сторону методов оценки сопоставимости выборки. Но, реализовать не смог - не понял формулы.

В матстате есть множество тестов на проверку однородности выборок, например. Если конечно я правильно понимаю вашу терминологию.