Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 1193

 
Maxim Dmitrievsky:

цель это офигенный бот на МО, остальное фигня все. Если писать для маркета то там важнее промоушн а не производительность торговли, плюс тупые покупатели весь мозг вынесут (есть опыт). Ты можешь взять почти любой индикатор или советник из кодбазы и напродавать его в маркете.. или выложить 200 стаких как Грибачев, каждый день новый, но это не путь самурая 

нужно сажать жену или наемную рабыню за комп что бы они общались с покупателями тогда, сам же не будешь на это время тратить :)

я это предвидел уже, поэтому и не считаю нужным "пыхтеть" и что то стоящее в Маркет выкладывать - поддержку продукта я не сумею обеспечить, т.к. это займет много времени, а всякий хлам туда складировать, с надеждой, что найдется пипл, который захочет 30$ подарить, как то совесть не позволяет )))

ЗЫ: сетки ордеров по простейшему индикатору... это вечно, вечно работает (то в + то в - ) и вечно востребовано юзерами ))))

 
Igor Makanu:

я это предвидел уже, поэтому и не считаю нужным "пыхтеть" и что то стоящее в Маркет выкладывать - поддержку продукта я не сумею обеспечить, т.к. это займет много времени, а всякий хлам туда складировать, с надеждой, что найдется пипл, который захочет 30$ подарить, как то совесть не позволяет )))

ЗЫ: сетки ордеров по простейшему индикатору... это вечно, вечно работает (то в + то в - ) и вечно востребовано юзерами ))))

мартины, сетки да.. жахальщики всякие, это вечное :)

 

Тут пришла в голову идея - определять переобучения посредством МО. Я всё ковыряю кэтбуст, там можно получить предсказание в вероятностном выражении - раскидал на группы от 0 до 9 вероятности - для удобства восприятия и дальнейшего анализа - посмотрел распределения, стандартное отклонение, эксцесс, асимметрию, в том числе с разбивкой на целевые и распределение ошибки, правильности ответов в каждой группе. Сейчас буду вытаскивать разные стандартные показатели для оценки модели, типа AUC F1 и прочие, там можно будет посмотреть и динамику обучения, но пока не знаю, как лучше её описать.

На графике две модельки - группа распределения * группа верной классификации. Синяя модель лучше на экзаменационной выборке.


Какие ещё предикторы можно придумать для оценки модели?

 
Aleksey Vyazmikin:

Тут пришла в голову идея - определять переобучения посредством МО. Я всё ковыряю кэтбуст, там можно получить предсказание в вероятностном выражении - раскидал на группы от 0 до 9 вероятности - для удобства восприятия и дальнейшего анализа - посмотрел распределения, стандартное отклонение, эксцесс, асимметрию, в том числе с разбивкой на целевые и распределение ошибки, правильности ответов в каждой группе. Сейчас буду вытаскивать разные стандартные показатели для оценки модели, типа AUC F1 и прочие, там можно будет посмотреть и динамику обучения, но пока не знаю, как лучше её описать.

На графике две модельки - группа распределения * группа верной классификации. Синяя модель лучше на экзаменационной выборке.


Какие ещё предикторы можно придумать для оценки модели?

классно, вообще-то все так и делают

для оценки модели используются метрики а не предикторы, стандатных обычно достаточно, но можно придумывать свои

обычно чем больше ошибка у леса тем меньше разброс (дисперсия) значений, т.е. просто белый шум вокруг 0.5, в этом смысле синяя линия хуже чем красная
 
Maxim Dmitrievsky:

классно, вообще-то все так и делают

для оценки модели используются метрики а не предикторы, стандатных обычно достаточно, но можно придумывать свои

обычно чем больше ошибка у леса тем меньше разброс (дисперсия) значений, т.е. просто белый шум вокруг 0.5, в этом смысле синяя линия хуже чем красная

Ха, так дело в поиске критерия оценки, а не просто оценки с помощью разных расчетных формул! Все эти подходы с формулами оценивают модель стационарно, но не говорят о её способности продолжить работу дальше, а я именно этого хочу добиться, поэтому и генерирую предикторы, что бы была возможность найти закономерность из совокупности разных показателей с помощью МО.

Про разброс - очень странное Вы сообщили утверждение, возможно оно учитывает только сам факт нахождение значений без учета их значения классификации и процента правильных ответов. На графике от нуля до 5 по оси x произведение скопления нулей и их правильной классификации, а от 5 напротив - единиц.

Вот на графике эти модели, но показано распределение целевых "1"

как видно, у красной модели процент распределения смещен за 5, а значит "единицы" не имеют шанса на верную классификацию, а те что имеют шанс - их меньше, чем у синей модели - 23% и 28% соответственно.

А вот как меняется верность классификации

Конечно, можно и такую приплюснутою модель применять, но надо сдвинуть деление классификации с 0,5 на 0,7 к примеру, только там совсем уже мало остаётся материала для обработки, но с другой стороны такие зажатые модели можно объединять...

 
Aleksey Vyazmikin:

Ха, так дело в поиске критерия оценки, а не просто оценки с помощью разных расчетных формул! Все эти подходы с формулами оценивают модель стационарно, но не говорят о её способности продолжить работу дальше, а я именно этого хочу добиться, поэтому и генерирую предикторы, что бы была возможность найти закономерность из совокупности разных показателей с помощью МО.

Про разброс - очень странное Вы сообщили утверждение, возможно оно учитывает только сам факт нахождение значений без учета их значения классификации и процента правильных ответов. На графике от нуля до 5 по оси x произведение скопления нулей и их правильной классификации, а от 5 напротив - единиц.

Вот на графике эти модели, но показано распределение целевых "1"

как видно, у красной модели процент распределения смещен за 5, а значит "единицы" не имеют шанса на верную классификацию, а те что имеют шанс - их меньше, чем у синей модели - 23% и 28% соответственно.

А вот как меняется верность классификации

Конечно, можно и такую приплюснутою модель применять, но надо сдвинуть деление классификации с 0,5 на 0,7 к примеру, только там совсем уже мало остаётся материала для обработки, но с другой стороны такие зажатые модели можно объединять...

то что она смещенная просто говорит в пользу какого-то класса, это может быть на трендовом рынке, т.е. обучающей выборке (грубо).

А если взять синюю то у вас получается резкое снижение вероятностей, т.е. если, в идеале, вероятость сигнала должна быть 1, то у вас она 0.6-0.7 максимум, т.е. оба класса крутятся вокруг 0.5, с небольшими отклонениями в сторону то одного, то другого класса, по факту там шум а не сигналы, или модель сильно регуляризована

способность продолжать работу на тестовой выборке по ошибкам.. если удается приблизиться к ошибкам на трейне то модель хорошая, как правило

 
Maxim Dmitrievsky:

то что она смещенная просто говорит в пользу какого-то класса, это может быть на трендовом рынке, т.е. обучающей выборке (грубо).

Мы сравниваем модель в одинаковых условиях, вот те же модели на других данных целевые единицы попали под классификацию 1 - 35% против 39%

верность классификации

а так-как скопление всех значений ближе к центру, то и получаем произведение

Maxim Dmitrievsky:

А если взять синюю то у вас получается резкое снижение вероятностей, т.е. если, в идеале, вероятость сигнала должна быть 1, то у вас она 0.6-0.7 максимум, т.е. оба класса крутятся вокруг 0.5, с небольшими отклонениями в сторону то одного, то другого класса, по факту там шум а не сигналы

способность продолжать работу на тестовой выборке по ошибкам.. если удается приблизиться к ошибкам на трейне то модель хорошая, как правило

Почему это вероятность должна быть "1" - скорей это самоуверенность, напротив думаю, что в правильной (идеальной) модели должно быть два горба между 0,1 и 0,3 и 0,7 и 0,9 - так-как это будет свидетельствовать об устойчивости и адекватности, но таких моделей пока не наблюдаю по факту.

Про приближение значений оценочных коэффициентов - да, согласен - буду смотреть на дельту и проводить ещё ряд измерений по динамике - у кэтбуста можно посмотреть как меняются показатели при добавлении деревьев к модели.
 
Aleksey Vyazmikin:

Мы сравниваем модель в одинаковых условиях, вот те же модели на других данных целевые единицы попали под классификацию 1 - 35% против 39%

верность классификации

а так-как скопление всех значений ближе к центру, то и получаем произведение

Почему это вероятность должна быть "1" - скорей это самоуверенность, напротив думаю, что в правильной (идеальной) модели должно быть два горба между 0,2 и 0,4 и 0,7 и 0,9 - так-как это будет свидетельствовать об устойчивости и адекватности, но таких моделей пока не наблюдаю по факту.

Про приближение значений оценочных коэффициентов - да, согласен - буду смотреть на дельту и проводить ещё ряд измерений по динамике - у кэтбуста можно посмотреть как меняются показатели при добавлении деревьев к модели.

чем выше вероятность события, тем точнее сигнал, это как бы исходит даже из определения :) 2 горба не будет на зашумленных данных, и хотя бы потому, что будут существовать переходные состояния, но модель хотя бы в должной степени должна захватывать крайние значения, иначе она вообще никогда не уверена насчет входов

 
И потом алгоритм обучения заточен на разбивку логлосс по 0,5 - поэтому как бы логично, что там скопление основное.
 
Aleksey Vyazmikin:
И потом алгоритм обучения заточен на разбивку логлосс по 0,5 - поэтому как бы логично, что там скопление основное.

логлосс вообще смотреть почти бесполезно, это ни о чем не говорящая метрика в плане разбиения на классы