Попробуйте сделать feature selection machine-learning-data-science-select-features - Общее обсуждение

Алёша 2017.06.05 15:55 #3841

Maxim Dmitrievsky:

Это они такие задания дают? я так понял это хэджфонд, если зарегаться что это даст?

погоняю с разными моделями, пока что так же как у вас получилось 0.5

Ну, 0.5 и 0.513 отличается, конечно маловато как для торговли, но всё же. Они называют себя хедж-фондом, какая у них юридическая структура не знаю, в Америке вроде как нет такого типа организаций формально, но могу ошибаться. Зарегаетесь сможете участвовать в прогнозировании ранка на неделю в перед, на таких датасетах, кому то удается >10k$ на этом поднять, но лично знаю тех кто только заработал пару сотен баксов)))

Требуется помощь профессиональных програмистов Совет программистам [ВНИМАНИЕ, ТЕМА ЗАКРЫТА!] Любой

Maxim Dmitrievsky 2017.06.05 16:00 #3842

Алёша:
Ну, 0.5 и 0.513 отличается, конечно маловато как для торговли, но всё же. Они называют себя хедж-фондом, какая у них юридическая структура не знаю, в Америке вроде как нет такого типа организаций формально, но могу ошибаться. Зарегаетесь сможете участвовать в прогнозировании ранка на неделю в перед, на таких датасетах, кому то удается >10k$ на этом поднять, но лично знаю тех кто только заработал пару сотен баксов)))

т.е. как это происходит? они кидают датасет, я должен обучить сеть по нему и че потом? я думаю он с подвохом, нужно сделать feature selection )

https://docs.microsoft.com/ru-ru/azure/machine-learning/machine-learning-data-science-select-features

Выбор признаков в процессе обработки и анализа данных группы

2017.03.24
bradsev
docs.microsoft.com

В этой статье описаны цели выбора характеристик и приводятся примеры, поясняющие его роль в совершенствовании данных в процессе машинного обучения. Эти примеры взяты из Студии машинного обучения Azure. Реконструирование признаков: этот процесс направлен на создание дополнительных признаков на основе соответствующих существующих необработанных...

Алёша 2017.06.05 16:17 #3843

Maxim Dmitrievsky:

т.е. как это происходит? они кидают датасет, я должен обучить сеть по нему и че потом? я думаю он с подвохом, нужно сделать feature selection )

https://docs.microsoft.com/ru-ru/azure/machine-learning/machine-learning-data-science-select-features

Зарегайтесь почитайте рулсы там пол страницы. Просто скачиваете сет, обучаетесь, прогоняете на тестовом и отправляете им, там есть пример как должен выглядеть результат, чтобы id были и названия колонок как у них.

Maxim Dmitrievsky 2017.06.05 16:47 #3844

Алёша:
Зарегайтесь почитайте рулсы там пол страницы. Просто скачиваете сет, обучаетесь, прогоняете на тестовом и отправляете им, там есть пример как должен выглядеть результат, чтобы id были и названия колонок как у них.

да, попробую потом.. короче ниче не сапасает этот датасет, он безнадежен, нет закономерностей )

Dr. Trader 2017.06.05 17:10 #3845

У numerai правила изменялись пару раз в этом году.

Раньше было просто и хорошо - обучить модель на train таблице, проверить ошибку на test таблице, послать им прогнозы, они их экстраполируют на свою скрытую проверочную таблицу, считают на нём ошибку. У кого ошибка меньше на скрытой таблице, тот и победил. Было очень хорошо и правильно что ошибка на test датасете реально совпадала с той что получается на их скрытом датасете, можно было проверять свою модель.

Потом они что-то поменяли, и ошибка на test таблице перестала коррелировать с ошибкой на их скрытой проверочной таблице. Все лидеры из топа пропали; побеждать стали просто рандомные люди, кому подфортило попасть своей моделью в их скрытую проверочную таблицу. Имхо фэйл со стороны numerai, какая-то рандомная муть а не конкурс.

Потом они увидели что все адекваты свалили подальше от их рандомного конкурса, поняли свою ошибку, и опять что-то поменяли. Теперь прогнозы оцениваются по нескольким критериям. Больше всего меня бесит критерий "уникальность", если кто-то раньше посылал похожие результаты то твои отвергнут как плагиат. Т.е. если несколько людей пользуются одним фрейворком для создания модели, то деньги заберёт тот кто пораньше проснулся и отправил прогноз.
Точность модели теперь вообще бесполезна при расчёте прибыли. Можно получить ошибку 0, быть в 1 месте в топе, и ничего не заработать потому что топ показывает результат на тестовых данных которые они сами дают скачать, топ больше не показывает результат их скрытой проверочной таблицы.
Текущая итерация их конкурса - имхо ерунда, никакой прозрачности, всё запутано. Жду когда они опять что-нибудь поменяют в конкурсе, надеюсь будет снова адекватно.

FAQ по сервису Сигналы Вопрос по входным параметрам FOREX - Тенденции, прогнозы

Dr. Trader 2017.06.05 17:16 #3846

Maxim Dmitrievsky:

да, попробую потом.. короче ниче не сапасает этот датасет, он безнадежен, нет закономерностей )

Попробуй вот эту таблицу. Обучай модель только на тех строках, где data_type=="validation". Это и есть те данные которые используются для оценки модели и попадания в топ. Если добьёшься 100% точности, то будешь на первом месте в топе. Вот только денежный приз за такой чит не дадут.

Файлы:

numerai_tournament_data.zip 2704 kb

Эконометрика: прогноз на один Психология. Отсутствие денег позор Помогите с ошибкой в

Maxim Dmitrievsky 2017.06.05 17:20 #3847

Dr. Trader:
Попробуй вот эту таблицу. Обучай модель только на тех строках, где data_type=="validation". Это и есть те данные которые используются для оценки модели и попадания в топ. Если добьёшься 100% точности, то будешь на первом месте в топе. Вот только денежный приз за такой чит не дадут.

о, найс, попробую завтра.. отлично для тренировки )

Maxim Dmitrievsky 2017.06.06 01:55 #3848

Dr. Trader:
Попробуй вот эту таблицу. Обучай модель только на тех строках, где data_type=="validation". Это и есть те данные которые используются для оценки модели и попадания в топ. Если добьёшься 100% точности, то будешь на первом месте в топе. Вот только денежный приз за такой чит не дадут.

опять 0.5

Dr. Trader 2017.06.06 03:24 #3849

Важно разобраться как совпадает результат на тренировочном и оценочном датасетах. Я вижу там блок split dataset, по логике (может я и не прав) там данные рандомно делятся на две группы, на первой группе обучается модель, на второй группе модель только предсказывает и оценивается.

Какой результат будет если предсказать те-же данные на которых шло обучение?
А потом предсказать те данные на которых обучение не шло, и сравнить точность модели в обоих случаях.

Если на обучаемых данных она предсказывает с 100% точностью, а на оценочных - 50% - то модель слишком переобучается, это плохо.

Распределение ценовых приращений Обучение ИИ торговле на Обсуждение статьи "Глубокие нейросети

Maxim Dmitrievsky 2017.06.06 03:39 #3850

Dr. Trader:

Важно разобраться как совпадает результат на тренировочном и оценочном датасетах. Я вижу там блок split dataset, по логике (может я и не прав) там данные рандомно делятся на две группы, на первой группе обучается модель, на второй группе модель только предсказывает и оценивается.

Какой результат будет если предсказать те-же данные на которых шло обучение?
А потом предсказать те данные на которых обучение не шло, и сравнить точность модели в обоих случаях.

Если на обучаемых данных она предсказывает с 100% точностью, а на оценочных - 50% - то модель слишком переобучается, это плохо.

На обучающих тоже 50% предсказывает, убрал сплит дату и подал тот же сет в качестве тестового

Ну во первых тут сет очень большой, во вторых вообще не известна природа фичей ну и линейные модели типа векторов и фореста тут явно не подходят, нужно делать сложную неросеть, может быть в этом причина. Я пока еще не понял как модифицировать нейронку в этой студии до более сложной, например convolution попробовать сделать

От такую вот: https://gallery.cortanaintelligence.com/Experiment/Neural-Network-Convolution-and-pooling-deep-net-2

почитаю, попробую.. я все еще нуб в сетках.. )

Как совместить информацию по Народ обьясните Рыночный этикет или правила

Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 385