Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 613

 
Vladimir Perervenko:

Удивили. Что это за модель, что считается больше часа??

Максимум 1-2 минуты должно быть.

88-50-20-2 сеть, 86400 строк обучающих данных по 88 предикторов. + по 28800 на валидацонные данные и на тестовый участок (впрочем они быстро считаются).

 
Vizard_:

Учитель, стесняюсь спросить. А скока моделька стоить то должна?
Ну чтоб точно не копейки приносила? Мож и формула(цена-качество) какая есть?)))


Ну явно не две копейки, Фокусник.....Ты то должен это понимать, не маленький небось.....

Поиск обобщающей модели в области многомерного прастранства данных дело не быстрое с точки зрения оптимизации, потому как увеличение требований и введение всё более строгих правил при построении модели с целью снижения эффекта переобучения влёчёт за собой рост времени на поиск такой модели. Тоесть данные нужно перетряхивать тщательно....

Почему один и тот же файл на AWS и у Решетого тернируется разное количество времени??? AWS 2-5 минут, Решетов 3 часа и его модель в два раза лучше моделей AWS/ Почему???

 
elibrarius:

88-50-20-2 сеть, 86 400 строк обучающих данных по 88 предикторов. + по 28 800 на валидацонные данные и на тестовый участок (впрочем они быстро считаются)


С таким набором Решетов считал бы вечно :-)

Открою Вам секрет Форекса. Альфа в данных может быть только на очень коротком участке. Мне с моими данными пока не удаётся увеличить этот параметр более 50 строк. Тоесть у меня 100 столбцов и 50 строк. Это охватывает порядка двух недель рынка. Тоесть если я начинаю увеличивать интервал обучения, качество модели опускается ниже 75% и качество на ООС становится таким что работать по нему нельзя, на свой страх и риск. Поэтому не понимаю что вы хотите сделать с этими тысячами записями??? Построить модель по всему рынку с примлемым уровнем качества обучения у Вас не получится, чем больше участок обучения тем хуже модель. А если она показывает хорошый результат на таком участке, то это не имеет ничего общего с понятием обобщения..... Ну Вы понимаете о чём я......

АП знаете почему нельзя строить модели на длинном участке с хорошими показателями??? Потому что таких данных... входных.... которые смогли бы построить такую модель НЕСУЩЕСТВУЕТ в природе в принципе..... Нет таких данных иначе они бы давно уже использовались повсеместно. Я имею общедоступные данные....... а не инсайд или ещё какие нибудь.... Так что... не понимаю зачем столько строк????

 
Mihail Marchukajtes:

С таким набором Решетов считал бы вечно :-)

Открою Вам секрет Форекса. Альфа в данных может быть только на очень коротком участке. Мне с моими данными пока не удаётся увеличить этот параметр более 50 строк. Тоесть у меня 100 столбцов и 50 строк.

нельзя строить такие модели, длина выборки должна быть минимум раз в 5 больше кол-ва фичей, а увас кол-во фичей больше выборки и проклятие рамерности

Вы не открываете секрет форекса а показываете невежество

 
Mihail Marchukajtes:
  Поэтому не понимаю что вы хотите сделать с этими тысячами записями??? Построить модель по всему рынку с примлемым уровнем качества обучения у Вас не получится, чем больше участок обучения тем хуже модель. А если она показывает хорошый результат на таком участке, то это не имеет ничего общего с понятием обобщения..... Ну Вы понимаете о чём я......

Это М1, всего то 60 дней. Так что совсем не по всему рынку, а за последние 3 месяца.

При удвоении длительности модель уже не строилась.... Оптимизировать конечно надо длительность, но до этого еще не дошел. Тут бы с количеством слоев разобраться для начала.

Если хотя бы 10 моделей строить, то их расчет часов 8-10 будет идти(((

Есть 3 формулы по расчету, найти мин и мах, посчитать их, потом 2-3 между ними, и по 2-3 снаружи. И потом из всего этого выбирать лучшие модели, ну и если они уже посчитаны - в ансамбль их.

ПС Хм. Это с 2-мя скрытыми слоями, и еще столько же с 1-м слоем.

В общем сутки будет определять модель.

 
elibrarius:

В общем сутки будет определять модель.


видеокарту хорошую ннада для такого дата сатанизма, это уже не хухры-мухры :)

майнеры уродцы ценник задрали в 3 раза на все нормальные карточки

 
elibrarius:

Это М1, всего то 60 дней. Так что совсем не по всему рынку, а за последние 3 месяца.

При удвоении длительности модель уже не строилась.... Оптимизировать конечно надо длительность, но до этого еще не дошел. Тут бы с количеством слоев разобраться для начала.

Если хотя бы 10 моделей строить, то их расчет часов 8-10 будет идти(((

Есть 3 формулы по расчету, найти мин и мах, посчитать их, потом 2-3 между ними, и по 2-3 снаружи. И потом из всего этого выбирать лучшие модели, ну и если они уже посчитаны - в ансамбль их.

ПС Хм. Это с 2-мя скрытыми слоями, и еще столько же с 1-м слоем.

В общем сутки будет определять модель.

По хорешему, Вам с такими данными стоит опробовать построить модель на принципе фрактального анализа. Когда несколько таймфреймов на вход идут. Тут Максим выкладывал хорошее видео по фрактальности мира.
А вообще могу в ЛС подсказать выделенный сервер на i7 3-4Ghz и ssd, всего за $7-8 в месяц. Считают нормально, и комп не будет занят столько.
 

А меня сейчас не покидает мысль, что на вход (и, возможно, выход) можно подавать распределения котировок на опр. глубину, или моменты распределений

получится некое сглаживание и вероятностная картина и, возможно, ограниченное кол-во определенных вариантов, что важно. Но пока не делал - для этого надо дисперсионный анализ подкачать.

Если брать во внимание фракталы, то мб. отношения распределений между разными тф. Но тему нужно серьезно прорабатывать, рисовать схемку

 
Mihail Marchukajtes:

Поиск обобщающей модели в области многомерного прастранства данных дело не быстрое с точки зрения оптимизации, потому как увеличение требований и введение всё более строгих правил при построении модели с целью снижения эффекта переобучения влёчёт за собой рост времени на поиск такой модели. Тоесть данные нужно перетряхивать тщательно....

Почему один и тот же файл на AWS и у Решетого тернируется разное количество времени??? AWS 2-5 минут, Решетов 3 часа и его модель в два раза лучше моделей AWS/ Почему???

Модель Решетова не эталон. Например поиск набора предикторов в ней происходит перебором различных вариантов - модель берёт случайный набор предикторов, обучается, и запоминает результат. Это повторяется в цикле огромное число раз, в итоге самый лучший результат используется как финальная модель. Этот процесс можно заметно ускорить если сначала сделать отбор предикторов специальным алгоримом, а потом обучить модель Решетова всего один раз на этом конкретном наборе. И вы получите качество модели Решетова при скорости сравнимой с AWS. "Стоимость" такой модели заметно упадёт, но качество останется на прежнем уровне. 

 
Aleksey Terentev:
По хорешему, Вам с такими данными стоит опробовать построить модель на принципе фрактального анализа. Когда несколько таймфреймов на вход идут. Тут Максим выкладывал хорошее видео по фрактальности мира.
А вообще могу в ЛС подсказать выделенный сервер на i7 3-4Ghz и ssd, всего за $7-8 в месяц. Считают нормально, и комп не будет занят столько.
Несколько ТФ и использую) Просто анализ каждую минуту. Сервер не нужен, спасибо!
Причина обращения: