Попробуйте сделать скрипт для подготовки данных. Сделайте файл с перечислением исключенных столбцов, отброшенных из первого файла-таблицы - Общее обсуждение

mytarmailS 2021.07.17 12:53 #24251

Aleksey Vyazmikin:

Спасибо!

Попробую разобраться, но сходу сложно - всё же синтаксис кода существенно отличается от C++.

Много не знакомых функцый, потому что язык высокоуровневый.

Зато то что ты пишешь в 300 строчек на с++ я напишу в 3 строчки ))

Forester 2021.07.17 13:15 #24252

Aleksey Vyazmikin:

А в какой момент я тюню на test, на Ваш взгляд? Выборка "test" используется для остановки обучения, в Проектах, кроме одного, её вообще нет, потом я использовал её при окончательном обучении - ну можно заменить на фиксированное число деревьев - 50/100/300/500/800 и посмотреть результат по всем выборкам, тогда полагаете будет получен значительно хуже результат?

Да - остановка обучения тоже подгонка под тест. Других деталей вашей системы я не знаю, больше сказать ничего не могу.
В кросвалидации все данные являются тестом и все они же являются трейном. Просто по очереди. Вы как раз хотели увеличить трейн участок на 40%.

Есть ли закономерность в Помощь в кодировании как я могу получить

Aleksey Vyazmikin 2021.07.17 13:52 #24253

mytarmailS:
Много не знакомых функцый, потому что язык высокоуровневый.

Зато то что ты пишешь в 300 строчек на с++ я напишу в 3 строчки ))

Не думаю, что все мои извращения сможете легко реализовать в R :)

Aleksey Vyazmikin 2021.07.17 13:59 #24254

elibrarius:
Да - остановка обучения тоже подгонка под тест. Других деталей вашей системы я не знаю, больше сказать ничего не могу

Согласен, что это в теории увеличивает результат на выборке test, но я оцениваю результат по выборке exam!

Ну, а все детали, мне казалось, я описал, если есть вопросы спрашивайте.

elibrarius:
В кросвалидации все данные являются тестом и все они же являются трейном. Просто по очереди. Вы как раз хотели увеличить трейн участок на 40%.

Хорошо, с какой целью Вы используете кросвалидацию? Я пока вижу её смысл в поиске гиперпараметров модели, так как в среднем она покажет какие настройки лучше из всех на рандомных участках.

Есть ли закономерность в Результаты работы советника Profit Отличный советник в бэктесте!

mytarmailS 2021.07.17 14:00 #24255

Aleksey Vyazmikin:

Не думаю, что все мои извращения сможете легко реализовать в R :)

Ахахах))))

Если я свои извращения могу реализовать, то твои как отдохнуть)

Forester 2021.07.17 14:18 #24256

Aleksey Vyazmikin:

Хорошо, с какой целью Вы используете кросвалидацию? Я пока вижу её смысл в поиске гиперпараметров модели, так как в среднем она покажет какие настройки лучше из всех на рандомных участках.

Именно для этого. Вам что-то еще нужно? И конкретный набор признаков. С разными признаками и гиперпараметры будут скорее всего другими. Вот те , что отберете с лучшими гиперпараметрами и нужно запускать в работу.

Aleksey Vyazmikin:
Ну, а все детали, мне казалось, я описал, если есть вопросы спрашивайте.

Глубоко вникать - лень.

Aleksey Vyazmikin 2021.07.17 14:45 #24257

mytarmailS:

Ахахах))))

Если я свои извращения могу реализовать, то твои как отдохнуть)

Ну, я вот, раз делать скрипт для подготовки данных, то нужно ещё сделать файл с перечислением исключенных столбцов, к которым относятся:

1. Столбцы с коррелирующими предикторами (кстати, а как выбирается, какой столбец откидывать, допустим 5 коррелирующих предикторов?).

2. Столбцы, отброшенные из первого файла-таблицы, за исключением столбца с целевой.

Плюс в файл нужно написать столбец с меткой целевой, его желательно искать по названию столбца.

Структура файла такая

5336    Auxiliary
5337    Auxiliary
5338    Label
5339    Auxiliary
5340    Auxiliary

Обсуждение статьи "Работа с Архив котировок Как Подтянуть данные с

Aleksey Vyazmikin 2021.07.17 14:51 #24258

elibrarius:

Именно для этого. Вам что-то еще нужно? И конкретный набор признаков. С разными признаками и гиперпараметры будут скорее всего другими. Вот те , что отберете с лучшими гиперпараметрами и нужно запускать в работу.

Глубоко вникать - лень.

Мне нужно отобрать нужные предикторы за меньшее число времени. Перебирать предикторы ещё - это увеличить время на обработку в сотни раз. Мой метод построен на логике, что хороший предиктор (в том числе подходящий под конкретный метод обучения) будет востребован моделью на всех интервалах выборки, что исключает подгонку под участок выборки.

Есть ли закономерность в Собираю команду для развития Группировка листьев - требуются

mytarmailS 2021.07.17 14:56 #24259

Aleksey Vyazmikin:

Ну, я вот, раз делать скрипт для подготовки данных, то нужно ещё сделать файл с перечислением исключенных столбцов, к которым относятся:

1. Столбцы с коррелирующими предикторами (кстати, а как выбирается, какой столбец откидывать, допустим 5 коррелирующих предикторов?).

2. Столбцы, отброшенные из первого файла-таблицы, за исключением столбца с целевой.

Плюс в файл нужно написать столбец с меткой целевой, его желательно искать по названию столбца.

Структура файла такая

Пусть это станет твоим домашним заданием)...

В коде все для этого есть...

Для вопросов есть сайт stackowerflow и другие ...

Не мучь старика))

Forester 2021.07.17 15:21 #24260

Aleksey Vyazmikin:

Мне нужно отобрать нужные предикторы за меньшее число времени. Перебирать предикторы ещё - это увеличить время на обработку в сотни раз. Мой метод построен на логике, что хороший предиктор (в том числе подходящий под конкретный метод обучения) будет востребован моделью на всех интервалах выборки, что исключает подгонку под участок выборки.

Чтобы было на всех - надо кросс валидацией проверять. А вы проверяете только тестом или экзаменом.
Если кроссвалидацию делать по 10% от выборки, то надо 10 раз обучить, а не сотни. А если 20%, то 5 раз.

Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 2426