Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 3405

 
Aleksey Vyazmikin #:

Вот результаты - 

Ниего не понятно.. Объясни нормально словами, что помогло что нет, что лучше что хуже и что лучше всего

 
mytarmailS #:

Ниего не понятно.. Объясни нормально словами, что помогло что нет, что лучше что хуже и что лучше всего

Ну, лучше слов тут говорят графики - если кратко - то особого эффекта улучшения нет (относительно оригинала), но в то же время  "отсев линейных признаков" показал себя лучше, если измерять средним значением баланса  моделей на независимой выборке. В то же время балансировка и отсев abess смогли выделить значимые предикторы, на которых можно уже строить модель - можно считать, что костяк. Возможно, стоит в цикле сделать десяток балансировок, и вытащить все получившиеся предикторы.

Очевидно одно, методы эти хоть и быстры, но далеки от оптимума.

 
Aleksey Vyazmikin #:

Ну, лучше слов тут говорят графики - если кратко - то особого эффекта улучшения нет (относительно оригинала), но в то же время  "отсев линейных признаков" показал себя лучше, если измерять средним значением баланса  моделей на независимой выборке. В то же время балансировка и отсев abess смогли выделить значимые предикторы, на которых можно уже строить модель - можно считать, что костяк. Возможно, стоит в цикле сделать десяток балансировок, и вытащить все получившиеся предикторы.

Ну чтобы графики говорили лучше слов не плохо было бы оъяснить что они вообще значат, что на них , как считалось итд..

Aleksey Vyazmikin #:

Очевидно одно, методы эти хоть и быстры, но далеки от оптимума.

Что значит далеки от оптимума?

Вот взять отбор линейно зависимых признаков, суть метода выкинуть те признаки которые по сути дублируют другие.

У тебя было 2410 признаков , после отбора осталось 500 , модель работает так же или даже лучше , метод сработал на 100% 

В чем тут далекость от оптимума? 

Такое впечатление что ты до сих пор не понял что  делал вообще.

 
mytarmailS #:

Ну чтобы графики говорили лучше слов не плохо было бы оъяснить что они вообще значат, что на них , как считалось итд..

Тут я уже писал, что это фин результат 100 обученных моделей CatBoost. Модели с разными значениями seed - а так одинаковые гиперпараметры.

mytarmailS #:

Вот взять отбор линейно зависимых признаков, суть метода выкинуть те признаки которые по сути дублируют другие.

У тебя было 2410 признаков , после отбора осталось 500 , модель работает так же или даже лучше , метод сработал на 100% 

В чем тут далекость от оптимума? 

Методов разных много. И смысл в предложенном методе есть, что показали тесты.

Однако, используя другой подход, можно получить потенциально результат лучше, в подтверждение привёл график.

Вообще же, я считаю, что по одной выборке не совсем корректно делать окончательные выводы.

mytarmailS #:
Такое впечатление что ты до сих пор не понял что  делал вообще.

Это признак мании величия :)))

 
Aleksey Vyazmikin #:


Это признак мании величия :)))

Алексей,

ты противопоставляешь очищение выборки от лишних признаков и метод по улучшнеию качества классификации.

Это разные задачи как классификация и кластеризация  как теплое и мягкое.

И если ты это делаешь, а ты это делаешь то это не моя мания величия , нееееет))))

Это ты откровенно тупишь, без обид


Но за эксперимент спасибо

 
mytarmailS #:

Алексей,

ты противопоставляешь очищение выборки от лишних признаков и метод по улучшнеию качества классификации.

Это разные задачи как классификация и кластеризация  как теплое и мягкое.

И если ты это делаешь, а ты это делаешь то это не моя мания величия , нееееет))))

Это ты откровенно тупишь, без обид

По факту важны предикторы те, с которыми модель показала/может показать лучший результат. И целью является отобрать подобные предикторы не заглядывая в будущее. Как это будет сделано - вопрос уже второй. Результатом для меня было бы снижение разброса фин результата модели - этого нет.

Я согласен, что нужны идеальные условия для оценки эффективности того или иного метода. Почему модель может обучаться лучше на линейно зависимых предикторах - потому что в модели появляется фактически коэффициент усиления определенных предикторов по значимости за счет выбора одной и той же информации для сплита в разных деревьях.

И, бросайте привычку разбрасывать песок в песочнице - он же может попасть в глаза...

 
Aleksey Vyazmikin #:

Тут я уже писал, что это фин результат 100 обученных моделей CatBoost. Модели с разными значениями seed - а так одинаковые гиперпараметры.

А почему только сиды разные? почему не на выборках разных?

В бусте также можно и баланс классов установить, ты делал это?

 
mytarmailS #:

А почему только сиды разные? почему не на выборках разных?

Это сарказм? Seed влияет на генератор случайных чисел, который тут влияет на отбор признака при выборе его после подсчета эффективности. Т.е. выбран будет по сути не всегда лучший.

mytarmailS #:
В бусте также можно и баланс классов установить, ты делал это?

Разумеется.

 
Aleksey Vyazmikin #:

Это сарказм? Seed влияет на генератор случайных чисел, который тут влияет на отбор признака при выборе его после подсчета эффективности. Т.е. выбран будет по сути не всегда лучший.

А в чем ты сарказм увидел?

почему гонять одну модель 100 раз на трех одинаковых выборках это не сарказм

а сделать 500 выборок и прогнать модель это саркам?

или ты думаешь что разные сиды как то выборку меняют, может это сарказм?

 
mytarmailS #:

А в чем ты сарказм увидел?

В абсурдности предложения.

mytarmailS #:
почему гонять одну модель 100 раз на трех одинаковых выборках это не сарказм

Модель не одна, мы создаём разные модели за счет разного seed.

Использование сопоставимых данных обучения допускает возможность сопоставить и результат от этого обучения.

mytarmailS #:
а сделать 500 выборок и прогнать модель это саркам?

С какой целью? Опишите цели и задачи постановки такого эксперимента и что он может показать.

mytarmailS #:
или ты думаешь что разные сиды как то выборку меняют, может это сарказм?

Меняют предикторы, используемые для построения модели и их очерёдность выбора.

Соответственно, допускаем, что изначально есть лишние/ненужные предикторы, которые ухудшают результат, а значит задачей является их исключить из обучения.

Причина обращения: