Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 385
Вы упускаете торговые возможности:
- Бесплатные приложения для трейдинга
- 8 000+ сигналов для копирования
- Экономические новости для анализа финансовых рынков
Регистрация
Вход
Вы принимаете политику сайта и условия использования
Если у вас нет учетной записи, зарегистрируйтесь
Это они такие задания дают? я так понял это хэджфонд, если зарегаться что это даст?
погоняю с разными моделями, пока что так же как у вас получилось 0.5
Ну, 0.5 и 0.513 отличается, конечно маловато как для торговли, но всё же. Они называют себя хедж-фондом, какая у них юридическая структура не знаю, в Америке вроде как нет такого типа организаций формально, но могу ошибаться. Зарегаетесь сможете участвовать в прогнозировании ранка на неделю в перед, на таких датасетах, кому то удается >10k$ на этом поднять, но лично знаю тех кто только заработал пару сотен баксов)))
т.е. как это происходит? они кидают датасет, я должен обучить сеть по нему и че потом? я думаю он с подвохом, нужно сделать feature selection )
https://docs.microsoft.com/ru-ru/azure/machine-learning/machine-learning-data-science-select-features
т.е. как это происходит? они кидают датасет, я должен обучить сеть по нему и че потом? я думаю он с подвохом, нужно сделать feature selection )
https://docs.microsoft.com/ru-ru/azure/machine-learning/machine-learning-data-science-select-features
Зарегайтесь почитайте рулсы там пол страницы. Просто скачиваете сет, обучаетесь, прогоняете на тестовом и отправляете им, там есть пример как должен выглядеть результат, чтобы id были и названия колонок как у них.
да, попробую потом.. короче ниче не сапасает этот датасет, он безнадежен, нет закономерностей )
У numerai правила изменялись пару раз в этом году.
Раньше было просто и хорошо - обучить модель на train таблице, проверить ошибку на test таблице, послать им прогнозы, они их экстраполируют на свою скрытую проверочную таблицу, считают на нём ошибку. У кого ошибка меньше на скрытой таблице, тот и победил. Было очень хорошо и правильно что ошибка на test датасете реально совпадала с той что получается на их скрытом датасете, можно было проверять свою модель.
Потом они что-то поменяли, и ошибка на test таблице перестала коррелировать с ошибкой на их скрытой проверочной таблице. Все лидеры из топа пропали; побеждать стали просто рандомные люди, кому подфортило попасть своей моделью в их скрытую проверочную таблицу. Имхо фэйл со стороны numerai, какая-то рандомная муть а не конкурс.
Потом они увидели что все адекваты свалили подальше от их рандомного конкурса, поняли свою ошибку, и опять что-то поменяли. Теперь прогнозы оцениваются по нескольким критериям. Больше всего меня бесит критерий "уникальность", если кто-то раньше посылал похожие результаты то твои отвергнут как плагиат. Т.е. если несколько людей пользуются одним фрейворком для создания модели, то деньги заберёт тот кто пораньше проснулся и отправил прогноз.
Точность модели теперь вообще бесполезна при расчёте прибыли. Можно получить ошибку 0, быть в 1 месте в топе, и ничего не заработать потому что топ показывает результат на тестовых данных которые они сами дают скачать, топ больше не показывает результат их скрытой проверочной таблицы.
Текущая итерация их конкурса - имхо ерунда, никакой прозрачности, всё запутано. Жду когда они опять что-нибудь поменяют в конкурсе, надеюсь будет снова адекватно.
да, попробую потом.. короче ниче не сапасает этот датасет, он безнадежен, нет закономерностей )
Попробуй вот эту таблицу. Обучай модель только на тех строках, где data_type=="validation". Это и есть те данные которые используются для оценки модели и попадания в топ. Если добьёшься 100% точности, то будешь на первом месте в топе. Вот только денежный приз за такой чит не дадут.
о, найс, попробую завтра.. отлично для тренировки )
Попробуй вот эту таблицу. Обучай модель только на тех строках, где data_type=="validation". Это и есть те данные которые используются для оценки модели и попадания в топ. Если добьёшься 100% точности, то будешь на первом месте в топе. Вот только денежный приз за такой чит не дадут.
опять 0.5
Важно разобраться как совпадает результат на тренировочном и оценочном датасетах. Я вижу там блок split dataset, по логике (может я и не прав) там данные рандомно делятся на две группы, на первой группе обучается модель, на второй группе модель только предсказывает и оценивается.
Какой результат будет если предсказать те-же данные на которых шло обучение?
А потом предсказать те данные на которых обучение не шло, и сравнить точность модели в обоих случаях.
Если на обучаемых данных она предсказывает с 100% точностью, а на оценочных - 50% - то модель слишком переобучается, это плохо.
Важно разобраться как совпадает результат на тренировочном и оценочном датасетах. Я вижу там блок split dataset, по логике (может я и не прав) там данные рандомно делятся на две группы, на первой группе обучается модель, на второй группе модель только предсказывает и оценивается.
Какой результат будет если предсказать те-же данные на которых шло обучение?
А потом предсказать те данные на которых обучение не шло, и сравнить точность модели в обоих случаях.
Если на обучаемых данных она предсказывает с 100% точностью, а на оценочных - 50% - то модель слишком переобучается, это плохо.
На обучающих тоже 50% предсказывает, убрал сплит дату и подал тот же сет в качестве тестового
Ну во первых тут сет очень большой, во вторых вообще не известна природа фичей ну и линейные модели типа векторов и фореста тут явно не подходят, нужно делать сложную неросеть, может быть в этом причина. Я пока еще не понял как модифицировать нейронку в этой студии до более сложной, например convolution попробовать сделать
От такую вот: https://gallery.cortanaintelligence.com/Experiment/Neural-Network-Convolution-and-pooling-deep-net-2
почитаю, попробую.. я все еще нуб в сетках.. )