Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 3532

 
Aleksey Vyazmikin #:

Вот описывал этот метод - ниже вставка - итерации по нему там показаны.

На рисунке получены листья на глубине дерева = 2. Вы делали глубину всех веток до 100. Или число листьев доводили до 100.
Это самописное дерево или Катбуст?
 
Aleksey Vyazmikin #:

Вот пример первых экспериментов, на рисунке вероятность выбора устойчивого квантового отрезка на каждой итерации - отдельно для каждого класса (думаю, по названию кривой понятно), где в названии кривой буква D - там использовался описанный метод - красная кривая.

В целом можно говорить о положительном эффекте. Да, пока он не значителен, но есть разные вариации по реализации процесса. Я доволен, предварительным положительным результатом.

Очень странно, что на первой итерации/глубине/листе у вас вероятность устойчивого кванта 80%, (я так понимаю это хорошо). И потом из за каких-то манипуляций она падает до 30%. Непонятно, в чем положительный эффект вы увидели, это же ухудшение.

 
Forester #:
На рисунке получены листья на глубине дерева = 2. Вы делали глубину всех веток до 100. Или число листьев доводили до 100.

Пока максимальное число итераций - 300. Я хотел бы пояснить, что на рисунке показаны только выбранные алгоритмом сплиты, там нет кандидатов, а оценка на графике происходит и по выбранным и по кандидатам. Ну и отмечу, что алгоритм в виде дерева представлен для наглядного понимания процесса, на самом деле дерево, как таковое, не строится - графы\ветки не просчитываются, каждая итерация почти как запуск алгоритма с начала, но без учёта выбывших строк в выборке на прошлых итерациях.

Forester #:
Это самописное дерево или Катбуст?

Самописный алгоритм.

Forester #:

Очень странно, что на первой итерации/глубине/листе у вас вероятность устойчивого кванта 80%, (я так понимаю это хорошо). И потом из за каких-то манипуляций она падает до 30%. Непонятно, в чем положительный эффект вы увидели, это же ухудшение.

Положительный эффект я измерял через средний показатель на каждой итерации, возможно нужно доработать это измерение, но пока не придумал, как бы это сделать лучше. Вот как выглядит разница между двумя графиками.

На каждой итерации происходит добавление и выбытие отобранных квантовых отрезков.

На графиках ниже можно видеть для конкретного предиктора на каждой итерации процент квантовых отрезков из числа прошедших отбор, которые сохраняют смещение вероятности на отложенных выборках. При этом -100 - ни один из квантовых отрезков не оказался эффективным на новых данных.


 
Aleksey Vyazmikin #:

Вот описывал этот метод - ниже вставка - итерации по нему там показаны.


Правила вытаскиваете, получается. Но в виде признаков и меток. Чем сложнее правило, тем в нем больше шума, вероятность отнесения к конкретному классу уменьшается.
 
Maxim Dmitrievsky #:
Правила вытаскиваете, получается. Но в виде признаков и меток. Чем сложнее правило, тем в нем больше шума, вероятность отнесения к конкретному классу уменьшается.

В целом - да - одна из задач. Вот и ищу методы поддержания вероятности на должном уровне.

 
Maxim Dmitrievsky #:
Чем сложнее правило, тем в нем больше шума, вероятность отнесения к конкретному классу уменьшается.

Вообще, это утверждение не совсем уж подтверждается - многое зависит от того, как считать. Т.е. если считать все "правила" на итерации, то наоборот будет медленный рост из глубин....

Важным фактором является не сложность правила само по себе, а малое число примеров для оценки смещения вероятности. Как раз это основное проявление недостаточности объёма выборки.
 
Aleksey Vyazmikin #:

Вообще, это утверждение не совсем уж подтверждается - многое зависит от того, как считать. Т.е. если считать все "правила" на итерации, то наоборот будет медленный рост из глубин....

Важным фактором является не сложность правила само по себе, а малое число примеров для оценки смещения вероятности. Как раз это основное проявление недостаточности объёма выборки.

Нужно будет больше погрузиться в дисциплину statistical learning, чтобы вести дискуссию

 
Maxim Dmitrievsky #:

Нужно будет больше погрузиться в дисциплину statistical learning, чтобы вести дискуссию

Найдёте нечто новое - пишите - послушаю с интересом!

 
Aleksey Vyazmikin #:

Найдёте нечто новое - пишите - послушаю с интересом!

Сейчас пока не в приоритете. Мне просто не нравится сам подход ковыряния в данных, когда есть универсальные решения. Они может не такие точные и прозрачные, зато избавляют от рутины.

Поймал себя на мысли, что свой подход тоже уже не смогу объяснить нормальным человечьим языком. Чистая эмпирика, уже без теории.

То есть, сначала нужно что-то просто сделать, допустим, за год, и увидеть, что это хорошо. А потом еще 10 лет пытаться дать теоретическое обоснование, почему это работает. :)

 
Maxim Dmitrievsky #:

Сейчас пока не в приоритете. Мне просто не нравится сам подход ковыряния в данных, когда есть универсальные решения. Они может не такие точные и прозрачные, зато избавляют от рутины.

В этом копании я ищу уверенность, что не потеряю деньги, вложив их единожды в ТС. Кажется, что чем лучше понимаешь и контролируешь процесс, тем больше уверенность и ниже тревожность.

Я готов обсуждать любые подходы, так что рассказывайте о своём :)

Maxim Dmitrievsky #:

Поймал себя на мысли, что свой подход тоже уже не смогу объяснить нормальным человечьим языком. Чистая эмпирика, уже без теории.

Так, глядишь, и к взаимопониманию придём...

Maxim Dmitrievsky #:

То есть, сначала нужно что-то просто сделать, допустим, за год, и увидеть, что это хорошо. А потом еще 10 лет пытаться дать теоретическое обоснование, почему это работает. :)

Тут согласен, поэтому я всё же хочу попробовать свой метод на каких то данных с имеющейся закономерностью. В открытом доступе подходящего пока ничего не нашёл.