Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 3416

 
Полезное исследование :)
 
mytarmailS #:

Нет, не правильно.. попробую еще раз обьяснить,  забудь про модели пока вообще..

Есть у тебя много ТС оптимизированыйх на трейн и есть тест.


Создаем датасет для модели :

таргет = По тест мы смотрим работала ли ТС на тест  (это целевая ДА/НЕТ)

дата =  (признаки) это параметры ТС , кривая капитала, сделки, ФВ, шарп (если ТС на основе МО то кишки модельки)


Далее трейним уже как бы реальную модель отвечать будет работать конкретная ТС на тесте или нет

не вкупаю пока суть, если пример сделаешь - может дойдет )

или статью
 

Есть еще одна неочевидная вещь, которая может влиять на результаты обучения. Это, например, обучать классификатор не только прогнозировать метки бай/селл, но одновременно обучать его классифицировать котиков (грубый пример). То есть учить основной задаче и разным побочным задачам. 

Это может как-то повлиять на внутреннюю структуру модели. Не видел таких исследований.

 
Forester #:

Вроде все просто - см комментарии на русском.

Спасибо, попробую разобраться.

Forester #:

А что такое среднее от всех? Это и есть центр кластера по этому столбцу.

Вероятно - разная терминология скорей всего.

Forester #:
Вот нашел в старом файле свой тест kmeans c ф-ей предикта:

Спасибо за код! Жаль, что он не компилируется.

 
mytarmailS #:
Откуда береться смещение?

Если примеров в листах не достаточно и модели будут лить то зачем вообще говорить пр эти листы. 

Если нет смещения, то модель будет работать адекватно на новых данных.

Листья, попадающие под отбор содержат обычно 5% откликов от всей выборки, что при выборке в пару тысяч примеров мало для какого либо интервального анализа.

В прошлом году всем этим занимался.

 
Aleksey Vyazmikin #:

Спасибо за код! Жаль, что он не компилируется.

Немного доработать придется. Например

dt.MatrixLearn
заменить на
MatrixLearn
У меня она была в классе dt. Может еще что-то где-то подправить. Но суть, думаю, ясна.
 
Maxim Dmitrievsky #:

Есть еще одна неочевидная вещь, которая может влиять на результаты обучения. Это, например, обучать классификатор не только прогнозировать метки бай/селл, но одновременно обучать его классифицировать котиков (грубый пример). То есть учить основной задаче и разным побочным задачам. 

Это может как-то повлиять на внутреннюю структуру модели. Не видел таких исследований.

Не уверен работает ли такое жля деревянных моделей
 
Forester #:

Немного доработать придется. Например

заменить на У меня она была в классе dt. Может еще что-то где-то подправить. Но суть, думаю, ясна.

Да, главное, что есть функция для предсказания, как я понимаю - она самописная и в класс изначально не входила.

Жаль, что в стандартной функции кластеризации не предусмотрели seed для рандомизатора, что полезно для отладки.

 
Aleksey Vyazmikin #:

Да, главное, что есть функция для предсказания, как я понимаю - она самописная и в класс изначально не входила.

Жаль, что в стандартной функции кластеризации не предусмотрели seed для рандомизатора, что полезно для отладки.

Самописная. Но там есть проверочный код - результаты отнесения к кластерам из нее и из KMeansGenerate на обучающей матрице полностью совпадали, когда я проверял.


Каждый Restarts    - с разными стартовыми точками начинает. Рандомизация есть, но (наверное) не повторяемая - не проверял. Думаю, это можно доработать, если очень надо...

 
Maxim Dmitrievsky #:

Есть еще одна неочевидная вещь, которая может влиять на результаты обучения. Это, например, обучать классификатор не только прогнозировать метки бай/селл, но одновременно обучать его классифицировать котиков (грубый пример). То есть учить основной задаче и разным побочным задачам. 

Это может как-то повлиять на внутреннюю структуру модели. Не видел таких исследований.

Обычный мультикласс. Не 2-м классам обучение, а например 5-ти. Модель просто отдаст часть ответов/листьев другим классам и будет реже предсказывать основные. Мне кажется лучше несколько однозадачных моделей.
Причина обращения: