Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 2589

 
Aleksey Nikolayev #:

При выборе модели предлагается оптимизировать не по прибыли на ООС, а по отношению этой прибыли к прибыли на трейне. Либо выкидывать модели с малым таким отношением и из оставшихся брать максимум по прибыли на ООС. Это если понять цитаты буквально, без домыслов.

В моём выше примере с монетами и 10000 людей. Пусть орел - 1, решка - 0. Если действовать по данному алгоритму, то мы тоже нифига не получим. Оно и понятно для описываемого контекста. Другими словами, если наткнулись на какой-то эдж, то там не так важно берешь ли ты просто винрейт или отношение прибыли на IS и OOS или ещё что-то, а если эджа нет, то ничего из подобных методов не будет работать.


Точно! Нам надо сначала оценить наличие эджа. А уже потом уже думать, как отбирать. Например, так: смотрим на IS доля моделей по какой-то метрике выше некоторого порога. Например, винрейт выше 55% - 45% моделей. Ранжируем по винрейту, берем некоторый ТОП. Смотрим как на OOS по этому топу результаты легли? Из отобранных винрейт выше 55% дают те же 45% (отношение дающих столько на OOS ко всем отобранным) моделей? - Думаю, смело эту группу моделей можно выкидывать. Если же видно что такой отбор ТОПа работает, значит эдж есть, по тому как сильно выражен этот эффект можно оценивать качество закономерности (эджа). Решили, что она достаточна сильна. Все, дальше отобрать - дело техники - да хоть по тому же винрейту, PF, можно не заморачиваться заумными метриками и логиками, причем по винрейту и PF прямо на IS.

 
mytarmailS #:
Алексей, а можно кусок из цытаты где говориться про прибыль, максимум прибыли, выкидывание моделей....

А то пока звучит как лютая отсебятина а ты декларируешь как -
 буквально,  без домыслов

У меня вольный перевод) Суть в том, что изначально обучается много моделей и в итоге нужно выбрать рабочую (model evaluation). Товарищ утверждает, что все обычно выбирают ту модель, которая просто даёт максимальный результат на ООС и это неверный подход. Во второй его цитате утверждается как это надо делать.

You know you are doing well if the average for the out-of-sample models is a significant percentage of the in-sample score. Это перевёл как максимизацию отношения прибыли на ООС к прибыли на трейн.

Generally speaking, you are really getting somewhere if the out-of-sample results are more than 50 percent of the in-sample. Это можно перевести как отбрасывание моделей, где отношение прибыли на ООС к прибыли на трейне меньше чем 0.5
 

Ну как бы это уже вопрос отбора моделей, да, как при оптимизации. Можно придумать свои критерии субъективные.

Неплохо если есть пачка моделей немного различающихся по параметрам, то есть допускающих разброс, но они все проходят ООС. Но это не панацея естественно.

 
Aleksey Nikolayev #:
Алексей, а есть ли методики по восстановлению поверхности оптимизации?
Типа запустил алгоритм поиска параметров, он что то нашёл, а ты по данным появившемся в результате поиска от алгоритма востанавливаешь оптимизацонную поверхность.. 
Речь идёт об эвристических алгоритмах,   те не о полном переборе естественно.. 
Я гуглил но без результата
 
mytarmailS #:
Алексей, а есть ли методики по восстановлению поверхности оптимизации?
Типа запустил алгоритм поиска параметров, он что то нашёл, а ты по данным появившемся в результате поиска от алгоритма востанавливаешь оптимизацонную поверхность.. 
Речь идёт об эвристических алгоритмах,   те не о полном переборе естественно.. 
Я гуглил но без результата

Дополнить метрики качества модели для недостающих входящих, условно, наборов значений гиперараметров? Ну бустинг простой обучить. А для чего это может понадобиться?

 
Replikant_mih #:

Дополнить метрики качества модели для недостающих входящих, условно, наборов значений гиперараметров? Ну бустинг простой обучить. А для чего это может понадобиться?

 Может и простой интерполяцыей можно, посмотрим,  хотелось сначала узнать нету ли готового...
А зачем? Я практически уверен что смогу предсказать будет ли работать модель на новых данных если увижу ОП модели


 
mytarmailS #:
Алексей, а есть ли методики по восстановлению поверхности оптимизации?
Типа запустил алгоритм поиска параметров, он что то нашёл, а ты по данным появившемся в результате поиска от алгоритма востанавливаешь оптимизацонную поверхность.. 
Речь идёт об эвристических алгоритмах,   те не о полном переборе естественно.. 
Я гуглил но без результата

В пространстве параметров модели? Оно ж имеет огромную размерность. Такое возможно разве что для совсем простых моделей с малым числом предикторов. 

Не очень понятно, как вообще можно построить поверхность в пространстве огромной размерности. У нас просто точек может быть очень мало в сравнении с этой размерностью. Разве что какими-нибудь способами визуализации с понижением размерностей типа PCA и тд, но смысл неясен.

 
Maxim Dmitrievsky #:

Ну как бы это уже вопрос отбора моделей, да, как при оптимизации. Можно придумать свои критерии субъективные.

Неплохо если есть пачка моделей немного различающихся по параметрам, то есть допускающих разброс, но они все проходят ООС. Но это не панацея естественно.

Ранее у вас была идея совмещения стандартных метрик с кастомными, которую я понял так, что обучение моделей идёт по стандартным, а отбор по кастомным.

 
Aleksey Nikolayev #:

Ранее у вас была идея совмещения стандартных метрик с кастомными, которую я понял так, что обучение моделей идёт по стандартным, а отбор по кастомным.

да, по факту комбинированный критерий лучше

обучение по стандартным, но есть так называемые Evaluation metrics типа acсuracy или roc, остановка бусинга происходит по ним, хотя обучается он через минимизацию логлосса. Затем отбор по кастомным своим.

затем еще можно погонять модели в оптимизаторе МТ5 для подстройки параметров стоп лосса и тп, и еще много всякой неблагодарной возни :)

 
Aleksey Nikolayev #:

В пространстве параметров модели? Оно ж имеет огромную размерность. Такое возможно разве что для совсем простых моделей с малым числом предикторов. 

Не очень понятно, как вообще можно построить поверхность в пространстве огромной размерности. У нас просто точек может быть очень мало в сравнении с этой размерностью. Разве что какими-нибудь способами визуализации с понижением размерностей типа PCA и тд, но смысл неясен.

Да, именно так я и представляю..  Восстановить ОП и потом через PCA  визуализировать...
Суть задуманого я уже объяснял,  на пред. Странице есть картинки