Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 377

 
Vladimir Perervenko:

После разделения на train/test/valid перемешать train. Остальные наборы не перемешивать. 
Это валидно для классификации нейросетями. Более того при обучении глубоких нейросетей перемешивают каждый minibatch перед подачей нейросети. 

Удачи


можно ссыль где почитать про перемешку? потому что чисто интуитивно, в этом нет никакого смысла ) так же как и в том, что бы предикторы коррелировали с целевой (с этим разобрались, с горем пополам)
 
Vladimir Perervenko:

После разделения на train/test/valid перемешать train. Остальные наборы не перемешивать. 
Это валидно для классификации нейросетями. Более того при обучении глубоких нейросетей перемешивают каждый minibatch перед подачей нейросети. 

Удачи

Пример перемешивания train и valid между собой нашел в функции расчета ансамблей в ALGLIB. Видимо это один из методов.

Перемешал только train

Средняя ошибка на обучающем     (80.0%) участке =0.396 nLearns=2 NGrad=1208 NHess=0 NCholesky=0 codResp=6
Средняя ошибка на валидационном (20.0%) участке =0.391 nLearns=2 NGrad=1208 NHess=0 NCholesky=0 codResp=6
Полный участок (обучающий + валидационный):
Средняя ошибка обучения=0.395 nLearns=2 NGrad=1208 NHess=0 NCholesky=0 codResp=6
Средняя ошибка на тестовом      (20%) участке =0.398 nLearns=2 NGrad=1208 NHess=0 NCholesky=0 codResp=6

Ошибка на всех участках стала одинаковой, т.е. как и в случае перемешивания train и valid между собой. Видимо эффект одинаковый.

 
elibrarius:

Пример перемешивания train и valid между собой нашел в функции расчета ансамблей в ALGLIB. Видимо это один из методов.

Перемешал только train

Средняя ошибка на обучающем     (80.0%) участке =0.396 nLearns=2 NGrad=1208 NHess=0 NCholesky=0 codResp=6
Средняя ошибка на валидационном (20.0%) участке =0.391 nLearns=2 NGrad=1208 NHess=0 NCholesky=0 codResp=6
Полный участок (обучающий + валидационный):
Средняя ошибка обучения=0.395 nLearns=2 NGrad=1208 NHess=0 NCholesky=0 codResp=6
Средняя ошибка на тестовом      (20%) участке =0.398 nLearns=2 NGrad=1208 NHess=0 NCholesky=0 codResp=6

Ошибка на всех участках стала одинаковой, т.е. как и в случае перемешивания train и valid между собой. Видимо эффект одинаковый.


Какая ошибка на файле, отдельном от этих?

 
СанСаныч Фоменко:


Какая ошибка на файле, отдельном от этих?

На тестовом имеете в виду?

Средняя ошибка на тестовом      (20%) участке =0.398 nLearns=2 NGrad=1208 NHess=0 NCholesky=0 codResp=6

Участок для test2 еще не делал. Буду только по test1 отсеивать. (Может в будущем сделаю)

 
elibrarius:

На тестовом имеете в виду?

Средняя ошибка на тестовом      (20%) участке =0.398 nLearns=2 NGrad=1208 NHess=0 NCholesky=0 codResp=6

Участок для test2 еще не делал. Буду только по test1 отсеивать. (Может в будущем сделаю)


Вне всех этих выборок
 
СанСаныч Фоменко:

Вне всех этих выборок
Вне нету, все данные использовал.
 
elibrarius:
Вне нету, все данные использовал.

А можно поделить исходных файл на 80/20? А потом на 80% все Ваши упражнения, а потом на 20% без всякого перемешивания.
 
СанСаныч Фоменко:

А можно поделить исходных файл на 80/20? А потом на 80% все Ваши упражнения, а потом на 20% без всякого перемешивания.

С перемешиванием:

Средняя ошибка на обучающем     (51.0%) участке =0.683 (68.3%) nLearns=2 NGrad=725 NHess=0 NCholesky=0 codResp=6
Средняя ошибка на валидационном (13.0%) участке =0.685 (68.5%) nLearns=2 NGrad=725 NHess=0 NCholesky=0 codResp=6
Полный участок (обучающий + валидационный):
Средняя ошибка обучения=0.683 (68.3%) nLearns=2 NGrad=725 NHess=0 NCholesky=0 codResp=6
Средняя ошибка на тестовом      (16.0%) участке =0.661 (66.1%) nLearns=2 NGrad=725 NHess=0 NCholesky=0 codResp=6
Средняя ошибка на тестовом 2     (20.0%) участке =0.671 (67.1%) nLearns=2 NGrad=725 NHess=0 NCholesky=0 codResp=6

Без перемешивания

 Средняя ошибка на обучающем     (51.0%) участке =0.516 (51.6%) nLearns=2 NGrad=1063 NHess=0 NCholesky=0 codResp=6
 Средняя ошибка на валидационном (13.0%) участке =0.376 (37.6%) nLearns=2 NGrad=1063 NHess=0 NCholesky=0 codResp=6
 Полный участок (обучающий + валидационный):
 Средняя ошибка обучения=0.491 (49.1%) nLearns=2 NGrad=1063 NHess=0 NCholesky=0 codResp=6
 Средняя ошибка на тестовом      (16.0%) участке =0.344 (34.4%) nLearns=2 NGrad=1063 NHess=0 NCholesky=0 codResp=6
 Средняя ошибка на тестовом 2     (20.0%) участке =0.326 (32.6%) nLearns=2 NGrad=1063 NHess=0 NCholesky=0 codResp=6

Всего 2 цикла переобучения, для скорости... спать уже пора)

 
elibrarius:

С перемешиванием:

Средняя ошибка на обучающем     (51.0%) участке =0.683 (68.3%) nLearns=2 NGrad=725 NHess=0 NCholesky=0 codResp=6
Средняя ошибка на валидационном (13.0%) участке =0.685 (68.5%) nLearns=2 NGrad=725 NHess=0 NCholesky=0 codResp=6
Полный участок (обучающий + валидационный):
Средняя ошибка обучения=0.683 (68.3%) nLearns=2 NGrad=725 NHess=0 NCholesky=0 codResp=6
Средняя ошибка на тестовом      (16.0%) участке =0.661 (66.1%) nLearns=2 NGrad=725 NHess=0 NCholesky=0 codResp=6
Средняя ошибка на тестовом 2     (20.0%) участке =0.671 (67.1%) nLearns=2 NGrad=725 NHess=0 NCholesky=0 codResp=6

Без перемешивания

 Средняя ошибка на обучающем     (51.0%) участке =0.516 (51.6%) nLearns=2 NGrad=1063 NHess=0 NCholesky=0 codResp=6
 Средняя ошибка на валидационном (13.0%) участке =0.376 (37.6%) nLearns=2 NGrad=1063 NHess=0 NCholesky=0 codResp=6
 Полный участок (обучающий + валидационный):
 Средняя ошибка обучения=0.491 (49.1%) nLearns=2 NGrad=1063 NHess=0 NCholesky=0 codResp=6
 Средняя ошибка на тестовом      (16.0%) участке =0.344 (34.4%) nLearns=2 NGrad=1063 NHess=0 NCholesky=0 codResp=6
 Средняя ошибка на тестовом 2     (20.0%) участке =0.326 (32.6%) nLearns=2 NGrad=1063 NHess=0 NCholesky=0 codResp=6

Всего 2 цикла переобучения, для скорости... спать уже пора)


Ваша модель ничему не учится - все от балды. Где-то что-то выхватывает, а потом выясняется, что это не имеет отношения

Начните с datamining. Целевая, потом поиск предикторов, которые имеют отношение к целевой, потом определение предсказательной способности отобранных предикторов для конкретной целевой, а только потом модель


Все остальное - интеллектуальная игра в цифирь.

 

https://www.youtube.com/channel/UCLk-Oih8VlqF-StidijTUnw

нашел себе занятие на выходные :) ар для нубасов

А вот чел занимается алготорговлей даже


Основы анализа данных
Основы анализа данных
  • www.youtube.com
Канал содержит курсы по анализу данных. Все курсы бесплатны и легки в освоении Прохожу обучение в бесплатной школе Дениса Коновалова http://superpartnerka.bi...
Причина обращения: