Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 385

 
Maxim Dmitrievsky:


Это они такие задания дают? я так понял это хэджфонд, если зарегаться что это даст?

погоняю с разными моделями, пока что так же как у вас получилось 0.5

Ну, 0.5 и 0.513 отличается, конечно маловато как для торговли, но всё же. Они называют себя хедж-фондом, какая у них юридическая структура не знаю, в Америке вроде как нет такого типа организаций формально, но могу ошибаться. Зарегаетесь сможете участвовать в прогнозировании ранка на неделю в перед, на таких датасетах, кому то удается >10k$ на этом поднять, но лично знаю тех кто только заработал пару сотен баксов)))
 
Алёша:
Ну, 0.5 и 0.513 отличается, конечно маловато как для торговли, но всё же. Они называют себя хедж-фондом, какая у них юридическая структура не знаю, в Америке вроде как нет такого типа организаций формально, но могу ошибаться. Зарегаетесь сможете участвовать в прогнозировании ранка на неделю в перед, на таких датасетах, кому то удается >10k$ на этом поднять, но лично знаю тех кто только заработал пару сотен баксов)))


т.е. как это происходит? они кидают датасет, я должен обучить сеть по нему и че потом? я думаю он с подвохом, нужно сделать feature selection )

https://docs.microsoft.com/ru-ru/azure/machine-learning/machine-learning-data-science-select-features

Выбор признаков в процессе обработки и анализа данных группы
Выбор признаков в процессе обработки и анализа данных группы
  • 2017.03.24
  • bradsev
  • docs.microsoft.com
В этой статье описаны цели выбора характеристик и приводятся примеры, поясняющие его роль в совершенствовании данных в процессе машинного обучения. Эти примеры взяты из Студии машинного обучения Azure. Реконструирование признаков: этот процесс направлен на создание дополнительных признаков на основе соответствующих существующих необработанных...
 
Maxim Dmitrievsky:


т.е. как это происходит? они кидают датасет, я должен обучить сеть по нему и че потом? я думаю он с подвохом, нужно сделать feature selection )

https://docs.microsoft.com/ru-ru/azure/machine-learning/machine-learning-data-science-select-features

Зарегайтесь почитайте рулсы там пол страницы. Просто скачиваете сет, обучаетесь, прогоняете на тестовом и отправляете им, там есть пример как должен выглядеть результат, чтобы id были и названия колонок как у них.
 
Алёша:
Зарегайтесь почитайте рулсы там пол страницы. Просто скачиваете сет, обучаетесь, прогоняете на тестовом и отправляете им, там есть пример как должен выглядеть результат, чтобы id были и названия колонок как у них.

да, попробую потом.. короче ниче не сапасает этот датасет, он безнадежен, нет закономерностей )
 

У numerai правила изменялись пару раз в этом году.

Раньше было просто и хорошо - обучить модель на train таблице, проверить ошибку на test таблице, послать им прогнозы, они их экстраполируют на свою скрытую проверочную таблицу, считают на нём ошибку. У кого ошибка меньше на скрытой таблице, тот и победил. Было очень хорошо и правильно что ошибка на test датасете реально совпадала с той что получается на их скрытом датасете, можно было проверять свою модель.

Потом они что-то поменяли, и ошибка на test таблице перестала коррелировать с ошибкой на их скрытой проверочной таблице. Все лидеры из топа пропали; побеждать стали просто рандомные люди, кому подфортило попасть своей моделью в их скрытую проверочную таблицу. Имхо фэйл со стороны numerai, какая-то рандомная муть а не конкурс.

Потом они увидели что все адекваты свалили подальше от их рандомного конкурса, поняли свою ошибку, и опять что-то поменяли. Теперь прогнозы оцениваются по нескольким критериям. Больше всего меня бесит критерий "уникальность", если кто-то раньше посылал похожие результаты то твои отвергнут как плагиат. Т.е. если несколько людей пользуются одним фрейворком для создания модели, то деньги заберёт тот кто пораньше проснулся и отправил прогноз.
Точность модели теперь вообще бесполезна при расчёте прибыли. Можно получить ошибку 0, быть в 1 месте в топе, и ничего не заработать потому что топ показывает результат на тестовых данных которые они сами дают скачать, топ больше не показывает результат их скрытой проверочной таблицы.
Текущая итерация их конкурса - имхо ерунда, никакой прозрачности, всё запутано. Жду когда они опять что-нибудь поменяют в конкурсе, надеюсь будет снова адекватно.

 
Maxim Dmitrievsky:

да, попробую потом.. короче ниче не сапасает этот датасет, он безнадежен, нет закономерностей )
Попробуй вот эту таблицу. Обучай модель только на тех строках, где data_type=="validation". Это и есть те данные которые используются для оценки модели и попадания в топ. Если добьёшься 100% точности, то будешь на первом месте в топе. Вот только денежный приз за такой чит не дадут.
Файлы:
 
Dr. Trader:
Попробуй вот эту таблицу. Обучай модель только на тех строках, где data_type=="validation". Это и есть те данные которые используются для оценки модели и попадания в топ. Если добьёшься 100% точности, то будешь на первом месте в топе. Вот только денежный приз за такой чит не дадут.

о, найс, попробую завтра.. отлично для тренировки )
 
Dr. Trader:
Попробуй вот эту таблицу. Обучай модель только на тех строках, где data_type=="validation". Это и есть те данные которые используются для оценки модели и попадания в топ. Если добьёшься 100% точности, то будешь на первом месте в топе. Вот только денежный приз за такой чит не дадут.


опять 0.5



 

Важно разобраться как совпадает результат на тренировочном и оценочном датасетах. Я вижу там блок split dataset, по логике (может я и не прав) там данные рандомно делятся на две группы, на первой группе обучается модель, на второй группе модель только предсказывает и оценивается.

Какой результат будет если предсказать те-же данные на которых шло обучение? 
А потом предсказать те данные на которых обучение не шло, и сравнить точность модели в обоих случаях.

Если на обучаемых данных она предсказывает с 100% точностью, а на оценочных - 50% - то модель слишком переобучается, это плохо.

 
Dr. Trader:

Важно разобраться как совпадает результат на тренировочном и оценочном датасетах. Я вижу там блок split dataset, по логике (может я и не прав) там данные рандомно делятся на две группы, на первой группе обучается модель, на второй группе модель только предсказывает и оценивается.

Какой результат будет если предсказать те-же данные на которых шло обучение? 
А потом предсказать те данные на которых обучение не шло, и сравнить точность модели в обоих случаях.

Если на обучаемых данных она предсказывает с 100% точностью, а на оценочных - 50% - то модель слишком переобучается, это плохо.


На обучающих тоже 50% предсказывает, убрал сплит дату и подал тот же сет в качестве тестового

Ну во первых тут сет очень большой, во вторых вообще не известна природа фичей ну и линейные модели типа векторов и фореста тут явно не подходят, нужно делать сложную неросеть, может быть в этом причина. Я пока еще не понял как модифицировать нейронку в этой студии до более сложной, например convolution попробовать сделать

От такую вот: https://gallery.cortanaintelligence.com/Experiment/Neural-Network-Convolution-and-pooling-deep-net-2

почитаю, попробую.. я все еще нуб в сетках.. )

Причина обращения: