Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 3141

 
СанСаныч Фоменко #:

Поэтому несколько месяцев назад поменял учителя и теперь пытаюсь набрать к нему предикторов, которые способны предсказывать классы, причем эта способность не должна меняться со временем. 

Как то долго ищете, особенно если поиск несколько секунд

СанСаныч Фоменко #: для 100 предикторов работают менее секунды) 
 
СанСаныч Фоменко #:

Никакого перебора нет.

Три строчки кода на R, которые вычисляют способность предиктора предсказывать отдельный класс учителя - некая величина. У разных предикторов она разная, по моим алгоритмам (их несколько у меня, для 100 предикторов работают менее секунды) чем больше, тем лучше. Кроме этого у разных предикторов при движении окна величина способности предсказывать отдельный класс меняется не очень - в пределах 10% sd, а у некоторых более 100% sd. Отбираю 5-8 предикторов, которые скармливаю модели.

ну пару графиков с ООС можно?

 
Maxim Dmitrievsky #:

ну пару графиков с ООС можно?

Для нового учителя нет.

Пытаюсь решить проблему огрубления значений предикторов. Как мне кажется ошибка классификации может возникать, если при предсказании значение предиктора чуть-чуть отличается от значения, на котором обучалась модель. Когда-то пытался преобразовать все предикторы в номинальный вид причем с тем же учителем, но это не дало результата. Правда количество значений номинальных переменных было единицы. Может надо несколько сотен? Работаю, но мешает много других интересных вопросов.

 
Forester #:

Как то долго ищете, особенно если поиск несколько секунд

Да, долго, правда не спешу, но все равно долго.

Проблема в том, что предсказательная способность предикторов это только одна из фишек. А их много в моем препроцессинге и каждая требует набора статистики для обоснования.

Выше назвал еще одну проблему, для которой не могу найти решения очень давно.

 
СанСаныч Фоменко #:

Для нового учителя нет.

Пытаюсь решить проблему огрубления значений предикторов. Как мне кажется ошибка классификации может возникать, если при предсказании значение предиктора чуть-чуть отличается от значения, на котором обучалась модель. Когда-то пытался преобразовать все предикторы в номинальный вид причем с тем же учителем, но это не дало результата. Правда количество значений номинальных переменных было единицы. Может надо несколько сотен? Работаю, но мешает много других интересных вопросов.

"

Идеальная модель должна иметь низкое смещение и низкую дисперсию. Однако, в реальности, существует так называемый "trade-off" между смещением и дисперсией. Увеличение сложности модели (например, добавление большего количества параметров) может уменьшить смещение, но увеличить дисперсию. И наоборот, упрощение модели может уменьшить дисперсию, но увеличить смещение.


"

Гипотетически можно выгнуть коленвал до удовлетворительного уровня и подточить зазоры, но это далеко не поедет, потому что уже не "by design".
 
Maxim Dmitrievsky #:

"

Идеальная модель должна иметь низкое смещение и низкую дисперсию. Однако, в реальности, существует так называемый "trade-off" между смещением и дисперсией. Увеличение сложности модели (например, добавление большего количества параметров) может уменьшить смещение, но увеличить дисперсию. И наоборот, упрощение модели может уменьшить дисперсию, но увеличить смещение.


"

Гипотетически можно выгнуть коленвал до удовлетворительного уровня и подточить зазоры, но это далеко не поедет, потому что уже не "by design".

Почему-то часто забывают про третье слагаемое - неустранимую ошибку. Если она достаточно большая (а мне кажется, что у нас она немалая по причине близости цен к СБ), то она может быть и поважнее первых двух.

В любом случае, это очень важные вещи, которые можно всунуть в один вопрос: А какой вообще максимум информации можно вытащить из имеющейся у нас выборки цен (и прочих доступных данных)?

 
Aleksey Nikolayev #:

Почему-то часто забывают про третье слагаемое - неустранимую ошибку. Если она достаточно большая (а мне кажется, что у нас она немалая по причине близости цен к СБ), то она может быть и поважнее первых двух.

В любом случае, это очень важные вещи, которые можно всунуть в один вопрос: А какой вообще максимум информации можно вытащить из имеющейся у нас выборки цен (и прочих доступных данных)?

поэтому не надо пытаться предсказывать все случаи, а вытащить те, что предсказываются через мо

это называется "гетерогенный тритмент эффект", что можно сравнить не с выгибанием коленвала, а поиском рабочих деталей и выбрасыванием нерабочих

тогда признаки X становятся контекстными и не являются "предикторами" для Y в классическом понимании. Поэтому в козуле их называют "ковариатами".

Итогом будет ответ на Ваш вопрос (смотря в чем мерить) по поводу максимума информации. Обычно мерят в АТЕ или CATE.


 
Aleksey Nikolayev #:

Можно всунуть в один вопрос: А какой вообще максимум информации можно вытащить из имеющейся у нас выборки цен (и прочих доступных данных)?

Я думаю что снало нужно поставить задачу грамотно. 

Дать определение информации

Дать определение "максимум информации' (хотя бы для того того чтобы понять когда остановиться) 

Понять что для каждой целевой будет свой набор, а значит надо объявить целевую


Но вопрос интересный, мне нравиться
 
Aleksey Nikolayev #:

Почему-то часто забывают про третье слагаемое - неустранимую ошибку. Если она достаточно большая (а мне кажется, что у нас она немалая по причине близости цен к СБ), то она может быть и поважнее первых двух.

В любом случае, это очень важные вещи, которые можно всунуть в один вопрос: А какой вообще максимум информации можно вытащить из имеющейся у нас выборки цен (и прочих доступных данных)?

Это вопрос диссертабельных  исследований, а не создания робота, который косит бабло.

Нам не нужен максимум информации, нам нужен достаточный минимум. Поэтому можно ограничиться следующим:

1. Создать модель, которая на этапе классификации дает ошибку классификации менее 20%. Причем следует понимать, что "модель" включает полный препроцессинг предикторов, а также инструменты по оценке модели.

2. Вставить модель в советник, который дает, как минимум, такое же соотношение убыточных/прибыльных сделок. Если профит фактор выше 4, то осталось сделать еще один шаг.

3. Убедиться на ООС, что ничего не поменялось, причем понимать причины такой стабильности на ООС, которая кроется в препроцессинге, а не в модели.

 А то, какие ошибки попали в 20% - разве это интересно?

 

не проще ли классифицировать ошибки?

чем больше ошибок найдем, тем более качественнее модель останется. не максимизация информации, а качественизация (пардон за каламбур)

Причина обращения: