При перемешивании усилить значимость свежих данных, чтобы модель быстрее схватывала новые тенденции рынка - Общее обсуждение

Forester 2018.01.21 19:14 #5951

Aleksey Terentev:
Пробуйте кросс-валидацию (K-fold).

Как она поможет усилить влияние свежих данных?

Aleksey Terentev 2018.01.21 20:11 #5952

elibrarius:
Как она поможет усилить влияние свежих данных?

Ну сами прикиньте, Вы модель обучаете скармливая отдельные блоки данных, что даст модели некоторую независимость от последовательности таймсерии, что и приводит к тому, что новые данные будут оценены без "предвзятости".

Forester 2018.01.21 20:26 #5953

Aleksey Terentev:
Ну сами прикиньте, Вы модель обучаете скармливая отдельные блоки данных, что даст модели некоторую независимость от последовательности таймсерии, что и приводит к тому, что новые данные будут оценены без "предвзятости".

"независимость от последовательности таймсерии" обеспечивается перемешиванием. Без него, модель вообще не к чему не приходит.

А вопрос про то, как при перемешивании усилить значимость свежайших данных, чтобы модель быстрее схватывала новые тенденции рынка.

Обсуждение статьи "Градиентный бустинг От теории к практике. Как определить закономерности, на

Yuriy Asaulenko 2018.01.21 20:30 #5954

elibrarius:

"независимость от последовательности таймсерии" обеспечивается перемешиванием. Без него, модель вообще не к чему не приходит.

А вопрос про то, как при перемешивании усилить значимость свежайших данных, чтобы модель быстрее схватывала новые тенденции рынка.

Проводится предварительное обучение на старых данных. Завершающие этапы обучения проводятся на новых данных.

Forester 2018.01.21 20:41 #5955

Т.е обучение в 2 шага?
Обучение на большом объеме данных + дообучение полученной модели на свежих данных.
Можно попробовать.

У меня была мысль, просто добавить свежие данные 2 -3 раза в общий массив обучающих данных. Даже при перемешивании из значимость повысится.

Обсуждение статьи "Нейросети это "Новый нейронный" - проект Фракталы массивы

Dr. Trader 2018.01.21 20:51 #5956

elibrarius:

Я вот и подумал, если все перемешивается, то как сделать, чтобы свежие данные сильнее влияли на обучение?

Есть такой трюк - продублировать самые свежие обучающие примеры несколько раз.
А например в пакете gbm можно выставить некий коэфициент важности каждого обучающего примера, но это не нейронка, я просто как пример привёл.

elibrarius:

"независимость от последовательности таймсерии" обеспечивается перемешиванием. Без него, модель вообще не к чему не приходит.

В большинстве моделей вообще нету такого понятия как зависимость от последовательности примеров. В нейронках например вычисляется ошибка для каждого обучающего примера, затем суммма всех ошибок влияет на изменения весов. От перемены мест слагаемых сумма не меняется.

Но при этом часто в моделях есть параметр batch.size или подобное, он влияет на то какой процент от обучающих данных брать для обучения. Если взять очень малый процент данных для обучения, и отключить перемешивание - то модель каждый раз будет брать один и тотже небольшой набор, и всё закончится плохо. Конкретно про darch не знаю, но отключение перемешивания не должно вызывать полный провал, у вас что-то не так с другими параметрами.

Aleksey Terentev:
Пробуйте кросс-валидацию (K-fold).

Полностью поддерживаю. Какие-бы громкие заявления ни делал автор модели о её защите от оверфита, только k-fold покажет правда ли это.

Распределение ценовых приращений Используете ли вы CExpert Последовательность выполнение Init() и

Alexander Ivanov 2018.01.22 03:53 #5957

Вам пора округлиться и сделать вывод.

И показать практику.

Maxim Dmitrievsky 2018.01.22 03:54 #5958

Alexander Ivanov:
Вам пора округлиться и сделать вывод.

И показать практику.

скоро будет.. "почти доделал"

такой жести я еще никогда в жизни не делал

Alexander Ivanov 2018.01.22 04:15 #5959

Maxim Dmitrievsky:

скоро будет.. "почти доделал"

такой жести я еще никогда в жизни не делал

Ух, протирают ручки попробовать демку 😀👍👍👍 как свежий вкусный бабушкин пирожок😂😀

sibirqk 2018.01.22 04:49 #5960

Имхо конечно, но тут каждую страницу ветки, нужно начинать с лозунга от СанСаныча - "Мусор на входе - мусор на выходе". И все свои когнитивно-креативные таланты в первую очередь нацеливать на уменьшение мусора на входе, а уж потом пытаться экстремально нагружать компутерное железо.

Рынок -- управляемая динамическая Раздельное тестирование качества входов От теории к практике

Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 596