Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 3141
Вы упускаете торговые возможности:
- Бесплатные приложения для трейдинга
- 8 000+ сигналов для копирования
- Экономические новости для анализа финансовых рынков
Регистрация
Вход
Вы принимаете политику сайта и условия использования
Если у вас нет учетной записи, зарегистрируйтесь
Поэтому несколько месяцев назад поменял учителя и теперь пытаюсь набрать к нему предикторов, которые способны предсказывать классы, причем эта способность не должна меняться со временем.
Как то долго ищете, особенно если поиск несколько секунд
Никакого перебора нет.
Три строчки кода на R, которые вычисляют способность предиктора предсказывать отдельный класс учителя - некая величина. У разных предикторов она разная, по моим алгоритмам (их несколько у меня, для 100 предикторов работают менее секунды) чем больше, тем лучше. Кроме этого у разных предикторов при движении окна величина способности предсказывать отдельный класс меняется не очень - в пределах 10% sd, а у некоторых более 100% sd. Отбираю 5-8 предикторов, которые скармливаю модели.
ну пару графиков с ООС можно?
ну пару графиков с ООС можно?
Для нового учителя нет.
Пытаюсь решить проблему огрубления значений предикторов. Как мне кажется ошибка классификации может возникать, если при предсказании значение предиктора чуть-чуть отличается от значения, на котором обучалась модель. Когда-то пытался преобразовать все предикторы в номинальный вид причем с тем же учителем, но это не дало результата. Правда количество значений номинальных переменных было единицы. Может надо несколько сотен? Работаю, но мешает много других интересных вопросов.
Как то долго ищете, особенно если поиск несколько секунд
Да, долго, правда не спешу, но все равно долго.
Проблема в том, что предсказательная способность предикторов это только одна из фишек. А их много в моем препроцессинге и каждая требует набора статистики для обоснования.
Выше назвал еще одну проблему, для которой не могу найти решения очень давно.
Для нового учителя нет.
Пытаюсь решить проблему огрубления значений предикторов. Как мне кажется ошибка классификации может возникать, если при предсказании значение предиктора чуть-чуть отличается от значения, на котором обучалась модель. Когда-то пытался преобразовать все предикторы в номинальный вид причем с тем же учителем, но это не дало результата. Правда количество значений номинальных переменных было единицы. Может надо несколько сотен? Работаю, но мешает много других интересных вопросов.
"
Идеальная модель должна иметь низкое смещение и низкую дисперсию. Однако, в реальности, существует так называемый "trade-off" между смещением и дисперсией. Увеличение сложности модели (например, добавление большего количества параметров) может уменьшить смещение, но увеличить дисперсию. И наоборот, упрощение модели может уменьшить дисперсию, но увеличить смещение.
"
Гипотетически можно выгнуть коленвал до удовлетворительного уровня и подточить зазоры, но это далеко не поедет, потому что уже не "by design"."
Идеальная модель должна иметь низкое смещение и низкую дисперсию. Однако, в реальности, существует так называемый "trade-off" между смещением и дисперсией. Увеличение сложности модели (например, добавление большего количества параметров) может уменьшить смещение, но увеличить дисперсию. И наоборот, упрощение модели может уменьшить дисперсию, но увеличить смещение.
"
Гипотетически можно выгнуть коленвал до удовлетворительного уровня и подточить зазоры, но это далеко не поедет, потому что уже не "by design".Почему-то часто забывают про третье слагаемое - неустранимую ошибку. Если она достаточно большая (а мне кажется, что у нас она немалая по причине близости цен к СБ), то она может быть и поважнее первых двух.
В любом случае, это очень важные вещи, которые можно всунуть в один вопрос: А какой вообще максимум информации можно вытащить из имеющейся у нас выборки цен (и прочих доступных данных)?
Почему-то часто забывают про третье слагаемое - неустранимую ошибку. Если она достаточно большая (а мне кажется, что у нас она немалая по причине близости цен к СБ), то она может быть и поважнее первых двух.
В любом случае, это очень важные вещи, которые можно всунуть в один вопрос: А какой вообще максимум информации можно вытащить из имеющейся у нас выборки цен (и прочих доступных данных)?
поэтому не надо пытаться предсказывать все случаи, а вытащить те, что предсказываются через мо
это называется "гетерогенный тритмент эффект", что можно сравнить не с выгибанием коленвала, а поиском рабочих деталей и выбрасыванием нерабочих
тогда признаки X становятся контекстными и не являются "предикторами" для Y в классическом понимании. Поэтому в козуле их называют "ковариатами".
Итогом будет ответ на Ваш вопрос (смотря в чем мерить) по поводу максимума информации. Обычно мерят в АТЕ или CATE.
Можно всунуть в один вопрос: А какой вообще максимум информации можно вытащить из имеющейся у нас выборки цен (и прочих доступных данных)?
Почему-то часто забывают про третье слагаемое - неустранимую ошибку. Если она достаточно большая (а мне кажется, что у нас она немалая по причине близости цен к СБ), то она может быть и поважнее первых двух.
В любом случае, это очень важные вещи, которые можно всунуть в один вопрос: А какой вообще максимум информации можно вытащить из имеющейся у нас выборки цен (и прочих доступных данных)?
Это вопрос диссертабельных исследований, а не создания робота, который косит бабло.
Нам не нужен максимум информации, нам нужен достаточный минимум. Поэтому можно ограничиться следующим:
1. Создать модель, которая на этапе классификации дает ошибку классификации менее 20%. Причем следует понимать, что "модель" включает полный препроцессинг предикторов, а также инструменты по оценке модели.
2. Вставить модель в советник, который дает, как минимум, такое же соотношение убыточных/прибыльных сделок. Если профит фактор выше 4, то осталось сделать еще один шаг.
3. Убедиться на ООС, что ничего не поменялось, причем понимать причины такой стабильности на ООС, которая кроется в препроцессинге, а не в модели.
А то, какие ошибки попали в 20% - разве это интересно?
не проще ли классифицировать ошибки?
чем больше ошибок найдем, тем более качественнее модель останется. не максимизация информации, а качественизация (пардон за каламбур)