Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 2426

 
Aleksey Vyazmikin:

Спасибо!

Попробую разобраться, но сходу сложно - всё же синтаксис кода существенно отличается от C++.

Много не знакомых функцый, потому что язык высокоуровневый. 
Зато то что ты пишешь в 300 строчек на с++  я напишу в 3  строчки ))

 
Aleksey Vyazmikin:

А в какой момент я тюню на test, на Ваш взгляд? Выборка "test" используется для остановки обучения, в Проектах, кроме одного, её вообще нет, потом я использовал её при окончательном обучении - ну можно заменить на фиксированное число деревьев - 50/100/300/500/800 и посмотреть результат по всем выборкам, тогда полагаете будет получен значительно хуже результат?

Да - остановка обучения тоже подгонка под тест. Других деталей вашей системы я не знаю, больше сказать ничего не могу.
В кросвалидации все данные являются тестом и все они же являются трейном. Просто по очереди. Вы как раз хотели увеличить трейн участок на 40%.
 
mytarmailS:
Много не знакомых функцый, потому что язык высокоуровневый. 
Зато то что ты пишешь в 300 строчек на с++  я напишу в 3  строчки ))

Не думаю, что все мои извращения сможете легко реализовать в R :)

 
elibrarius:
Да - остановка обучения тоже подгонка под тест. Других деталей вашей системы я не знаю, больше сказать ничего не могу

Согласен, что это в теории увеличивает результат на выборке test, но я оцениваю результат по выборке exam!

Ну, а все детали, мне казалось, я описал, если есть вопросы спрашивайте.

elibrarius:
В кросвалидации все данные являются тестом и все они же являются трейном. Просто по очереди. Вы как раз хотели увеличить трейн участок на 40%.

Хорошо, с какой целью Вы используете кросвалидацию? Я пока вижу её смысл в поиске гиперпараметров модели, так как в среднем она покажет какие настройки лучше из всех на рандомных участках.

 
Aleksey Vyazmikin:

Не думаю, что все мои извращения сможете легко реализовать в R :)

Ахахах))))

Если я свои извращения могу реализовать, то твои как отдохнуть) 

 
Aleksey Vyazmikin:

Хорошо, с какой целью Вы используете кросвалидацию? Я пока вижу её смысл в поиске гиперпараметров модели, так как в среднем она покажет какие настройки лучше из всех на рандомных участках.

Именно для этого. Вам что-то еще нужно? И конкретный набор признаков. С разными признаками и гиперпараметры будут скорее всего другими. Вот те , что отберете с лучшими гиперпараметрами и нужно запускать в работу.

Aleksey Vyazmikin:
Ну, а все детали, мне казалось, я описал, если есть вопросы спрашивайте.

Глубоко вникать - лень.

 
mytarmailS:

Ахахах))))

Если я свои извращения могу реализовать, то твои как отдохнуть) 

Ну, я вот, раз делать скрипт для подготовки данных, то нужно ещё сделать файл с перечислением исключенных столбцов, к которым относятся:

1. Столбцы с коррелирующими предикторами (кстати, а как выбирается, какой столбец откидывать, допустим 5 коррелирующих предикторов?).

2. Столбцы, отброшенные из первого файла-таблицы, за исключением столбца с целевой.

Плюс в файл нужно написать столбец с меткой целевой, его желательно искать по названию столбца.

Структура файла такая

5336    Auxiliary
5337    Auxiliary
5338    Label
5339    Auxiliary
5340    Auxiliary
 
elibrarius:

Именно для этого. Вам что-то еще нужно? И конкретный набор признаков. С разными признаками и гиперпараметры будут скорее всего другими. Вот те , что отберете с лучшими гиперпараметрами и нужно запускать в работу.

Глубоко вникать - лень.

Мне нужно отобрать нужные предикторы за меньшее число времени. Перебирать предикторы ещё - это увеличить время на обработку в сотни раз. Мой метод построен на логике, что хороший предиктор (в том числе подходящий под конкретный метод обучения) будет востребован моделью на всех интервалах выборки, что исключает подгонку под участок выборки.

 
Aleksey Vyazmikin:

Ну, я вот, раз делать скрипт для подготовки данных, то нужно ещё сделать файл с перечислением исключенных столбцов, к которым относятся:

1. Столбцы с коррелирующими предикторами (кстати, а как выбирается, какой столбец откидывать, допустим 5 коррелирующих предикторов?).

2. Столбцы, отброшенные из первого файла-таблицы, за исключением столбца с целевой.

Плюс в файл нужно написать столбец с меткой целевой, его желательно искать по названию столбца.

Структура файла такая

Пусть это станет твоим домашним заданием)...
В коде все для этого есть...
Для вопросов есть сайт stackowerflow и другие ...
Не мучь старика))
 
Aleksey Vyazmikin:

Мне нужно отобрать нужные предикторы за меньшее число времени. Перебирать предикторы ещё - это увеличить время на обработку в сотни раз. Мой метод построен на логике, что хороший предиктор (в том числе подходящий под конкретный метод обучения) будет востребован моделью на всех интервалах выборки, что исключает подгонку под участок выборки.

Чтобы было на всех - надо кросс валидацией проверять. А вы проверяете только тестом или экзаменом.
Если кроссвалидацию делать по 10% от выборки, то надо 10 раз обучить, а не сотни. А если 20%, то 5 раз.