Создать модель, которая на этапе классификации дает ошибку классификации менее 20 - Общее обсуждение

Forester 2023.07.14 14:59 #31401

СанСаныч Фоменко #:

Поэтому несколько месяцев назад поменял учителя и теперь пытаюсь набрать к нему предикторов, которые способны предсказывать классы, причем эта способность не должна меняться со временем.

Как то долго ищете, особенно если поиск несколько секунд

СанСаныч Фоменко #: для 100 предикторов работают менее секунды)

Maxim Dmitrievsky 2023.07.14 15:40 #31402

СанСаныч Фоменко #:

Никакого перебора нет.

Три строчки кода на R, которые вычисляют способность предиктора предсказывать отдельный класс учителя - некая величина. У разных предикторов она разная, по моим алгоритмам (их несколько у меня, для 100 предикторов работают менее секунды) чем больше, тем лучше. Кроме этого у разных предикторов при движении окна величина способности предсказывать отдельный класс меняется не очень - в пределах 10% sd, а у некоторых более 100% sd. Отбираю 5-8 предикторов, которые скармливаю модели.

ну пару графиков с ООС можно?

СанСаныч Фоменко 2023.07.14 15:46 #31403

Maxim Dmitrievsky #:

ну пару графиков с ООС можно?

Для нового учителя нет.

Пытаюсь решить проблему огрубления значений предикторов. Как мне кажется ошибка классификации может возникать, если при предсказании значение предиктора чуть-чуть отличается от значения, на котором обучалась модель. Когда-то пытался преобразовать все предикторы в номинальный вид причем с тем же учителем, но это не дало результата. Правда количество значений номинальных переменных было единицы. Может надо несколько сотен? Работаю, но мешает много других интересных вопросов.

Bayesian regression - Делал Предсказание рынка на основе Пересчёт баров в истории

СанСаныч Фоменко 2023.07.14 16:06 #31404

Forester #:

Как то долго ищете, особенно если поиск несколько секунд

Да, долго, правда не спешу, но все равно долго.

Проблема в том, что предсказательная способность предикторов это только одна из фишек. А их много в моем препроцессинге и каждая требует набора статистики для обоснования.

Выше назвал еще одну проблему, для которой не могу найти решения очень давно.

Предложения по продвижению платформы Как выглядит справедливая формула Исследования в мат. пакетах

Maxim Dmitrievsky 2023.07.14 17:42 #31405

СанСаныч Фоменко #:

Для нового учителя нет.

Пытаюсь решить проблему огрубления значений предикторов. Как мне кажется ошибка классификации может возникать, если при предсказании значение предиктора чуть-чуть отличается от значения, на котором обучалась модель. Когда-то пытался преобразовать все предикторы в номинальный вид причем с тем же учителем, но это не дало результата. Правда количество значений номинальных переменных было единицы. Может надо несколько сотен? Работаю, но мешает много других интересных вопросов.

"

Идеальная модель должна иметь низкое смещение и низкую дисперсию. Однако, в реальности, существует так называемый "trade-off" между смещением и дисперсией. Увеличение сложности модели (например, добавление большего количества параметров) может уменьшить смещение, но увеличить дисперсию. И наоборот, упрощение модели может уменьшить дисперсию, но увеличить смещение.

"

Гипотетически можно выгнуть коленвал до удовлетворительного уровня и подточить зазоры, но это далеко не поедет, потому что уже не "by design".

Машинное обучение и нейронные Обсуждение статьи "Random Decision Не Грааль, просто обычненький

Aleksey Nikolayev 2023.07.14 20:52 #31406

Maxim Dmitrievsky #:

"

Идеальная модель должна иметь низкое смещение и низкую дисперсию. Однако, в реальности, существует так называемый "trade-off" между смещением и дисперсией. Увеличение сложности модели (например, добавление большего количества параметров) может уменьшить смещение, но увеличить дисперсию. И наоборот, упрощение модели может уменьшить дисперсию, но увеличить смещение.

"

Гипотетически можно выгнуть коленвал до удовлетворительного уровня и подточить зазоры, но это далеко не поедет, потому что уже не "by design".

Почему-то часто забывают про третье слагаемое - неустранимую ошибку. Если она достаточно большая (а мне кажется, что у нас она немалая по причине близости цен к СБ), то она может быть и поважнее первых двух.

В любом случае, это очень важные вещи, которые можно всунуть в один вопрос: А какой вообще максимум информации можно вытащить из имеющейся у нас выборки цен (и прочих доступных данных)?

Любые вопросы новичков по Самая банальная стратегия торговли Честная и очень прибыльная

Maxim Dmitrievsky 2023.07.15 01:48 #31407

Aleksey Nikolayev #:

Почему-то часто забывают про третье слагаемое - неустранимую ошибку. Если она достаточно большая (а мне кажется, что у нас она немалая по причине близости цен к СБ), то она может быть и поважнее первых двух.

В любом случае, это очень важные вещи, которые можно всунуть в один вопрос: А какой вообще максимум информации можно вытащить из имеющейся у нас выборки цен (и прочих доступных данных)?

поэтому не надо пытаться предсказывать все случаи, а вытащить те, что предсказываются через мо

это называется "гетерогенный тритмент эффект", что можно сравнить не с выгибанием коленвала, а поиском рабочих деталей и выбрасыванием нерабочих

тогда признаки X становятся контекстными и не являются "предикторами" для Y в классическом понимании. Поэтому в козуле их называют "ковариатами".

Итогом будет ответ на Ваш вопрос (смотря в чем мерить) по поводу максимума информации. Обычно мерят в АТЕ или CATE.

В догонку Bayesian regression - Делал Вопрос для человека, хорошо

mytarmailS 2023.07.15 06:26 #31408

Aleksey Nikolayev #:

Можно всунуть в один вопрос: А какой вообще максимум информации можно вытащить из имеющейся у нас выборки цен (и прочих доступных данных)?

Я думаю что снало нужно поставить задачу грамотно.

Дать определение информации

Дать определение "максимум информации' (хотя бы для того того чтобы понять когда остановиться)

Понять что для каждой целевой будет свой набор, а значит надо объявить целевую

Но вопрос интересный, мне нравиться

нужен совет от профи Помощь в кодировании Глюк в MetaEditorMT5

СанСаныч Фоменко 2023.07.15 07:11 #31409

Aleksey Nikolayev #:

Почему-то часто забывают про третье слагаемое - неустранимую ошибку. Если она достаточно большая (а мне кажется, что у нас она немалая по причине близости цен к СБ), то она может быть и поважнее первых двух.

В любом случае, это очень важные вещи, которые можно всунуть в один вопрос: А какой вообще максимум информации можно вытащить из имеющейся у нас выборки цен (и прочих доступных данных)?

Это вопрос диссертабельных исследований, а не создания робота, который косит бабло.

Нам не нужен максимум информации, нам нужен достаточный минимум. Поэтому можно ограничиться следующим:

1. Создать модель, которая на этапе классификации дает ошибку классификации менее 20%. Причем следует понимать, что "модель" включает полный препроцессинг предикторов, а также инструменты по оценке модели.

2. Вставить модель в советник, который дает, как минимум, такое же соотношение убыточных/прибыльных сделок. Если профит фактор выше 4, то осталось сделать еще один шаг.

3. Убедиться на ООС, что ничего не поменялось, причем понимать причины такой стабильности на ООС, которая кроется в препроцессинге, а не в модели.

А то, какие ошибки попали в 20% - разве это интересно?

[СЕРВИСДЕСК] Ошибка получения времени Новые веяния в техническом Фактор восстановления

Andrey Dik 2023.07.15 07:31 #31410

не проще ли классифицировать ошибки?

чем больше ошибок найдем, тем более качественнее модель останется. не максимизация информации, а качественизация (пардон за каламбур)

Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 3141