Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 2738

 
mytarmailS #:
СФ и МД болеют идеей про связь целевой с признаками, один заболел давно, другой только начал..
Им в голову не приходит что любой алгоритм по отбору признаков этим и занимается, и таких алгоритмов уже наплодили десятки точно.. 
Но..  Птушник верит в свою гениальность и твёрдо верит что он что то создаёт новое, уникальное... 
ЦИРК...  Професура МО)))) 

Надеюсь что никто здесь в свою гениальность не верит, а личные пересечения это всего лишь вампирство психологическое)))) И если оно приносит психологическую пользу какой то из сторон, то имеет место быть)))

Инструментарий у всех примерно одинаков, данные тем более пока одинаковы, а представления ... 

У меня маленькая кувалда, а не большой молоток, и совсем не огромный большущий молоточек)))))))

 
Valeriy Yastremskiy #:

Инструментарий у всех примерно одинаков, данные тем более пока одинаковы, а представления ... 

++++
Представление решает все
 
mytarmailS #:
Алексей это задача на обычный перебор, все как ты любиш,  в чем проблема? 

Так это делает скрипт или нет?

Просто удивляюсь, как тут многие легко теряют нить беседы.

 

Могу выложить выборку с кучей предикторов, кто сможет отобрать лучшие - тот молодец - сделаем конкурс.

Лучшие определим на независимой выборке, после обучения модели на отобранных предикторах.

Есть у кого желание поучаствовать, или все только на словах такие способные?

 

Слишком общая тема. Часто распадается на составляющие. Давно пора разделить на несколько потоков. Например: 1. МО: препроцессинг данных. 2. МО выбор модели. 3. МО.Обучение и оптимизация моделей. 4. МО.Внедрение моделей. 5.МО. Автоматизация МО.

Разделение очень крупное и приблизительное, но будет понятно о чем идет речь в ветке. А так обо всем и ни о чем.

 И конечно нужно приводить воспроизводимые примеры кода, иначе никакой практической пользы от разговоров. 

Удачи всем

 
Aleksey Vyazmikin #:

Так это делает скрипт или нет?

Просто удивляюсь, как тут многие легко теряют нить беседы.

Алексей, ты просил дать пример как смотреть на важность признаков с скользящем окне.

Я написал для тебя скрипт..

Потом тебе захотелось перебора в разных масштабах  или чего тыт там хочешь, с какого черта скрипт из прошлого должен уметь выполнять твои желания в будущем?

так что  Просто удивляюсь, как тут многие легко теряют нить беседы. это про тебя

 
Vladimir Perervenko #:

Слишком общая тема. Часто распадается на составляющие. Давно пора разделить на несколько потоков. Например: 1. МО: препроцессинг данных. 2. МО выбор модели. 3. МО.Обучение и оптимизация моделей. 4. МО.Внедрение моделей. 5.МО. Автоматизация МО.

Разделение очень крупное и приблизительное, но будет понятно о чем идет речь в ветке. А так обо всем и ни о чем.

 И конечно нужно приводить воспроизводимые примеры кода, иначе никакой практической пользы от разговоров. 

Удачи всем

Скорей нужно делить по решаемым задачам,  но это слишком индивуально..

Например в ветке по препроцессинга два человека не найдут общего, если один прогнозирует ЗЗ на всей выборке, а другой использует МО для выделения 10-20 кластеров из всех данных для каких то нужд... Итд... 

Те тот же срач будет и там, только более размазаный по темам
 
Valeriy Yastremskiy #:

ССФ мало что нового высказал, конечно цель найти корреляцию признаков предикторов и результата это очевидная цель. Новое уловил только, что у него порядка 200 найденных значимых признаков на всем обучении, но для конкретных данных, ряда он использует всего лишь 5 процентов от них. 

Понимаю это так, что есть некие способы быстро определить состояние / свойства ряда для отбора более значимых предикторов именно для последних данных. Вопрос обьема или длинны конечно возникает для правильного отбора. Но видимо это работает даже всего лишь на 200 найденных и отобранных предикторов на всем большом обучении.

Понимаю в общем это так. На разных участках ряд имеет стабильные по некоторым показателям свойства, но на разных участках эти показатели и их количество различны. МО находит некие различные состояния достаточной продолжительности стабильности ряда, которые можно описать разными моделями и соответственно настройками модели - предикторами. Общее количество предикторов это общее количество настроек для разных моделей, и соответственно определяя модель, можно быстро найти ранее найденные для нее настройки.


Когда-то выкладывал в этой ветке таблицу, но  сейчас ее нет под рукой, поэтому на словах уточню свою мысль.

Опираюсь на понятие связи предиктора и учителя. "Связь" - это НЕ корреляция и не "важность" предикторов из подгонки практически любой модели МО. Последняя отражает частоту использования предиктора в алгоритме, поэтому большую величину "важности" могут получить кольца Сатурна или кофейная гуща. Есть пакеты, которые позволяют вычислить "связь" между предиктором и учителем, например, на основе теории информации.

Итак, на словах о таблице, которую я здесь выкладывал.

Таблица содержала численную оценку "связи" каждого предиктора и учителя. Было получено несколько сотен значений "связи" при движении окна. Эти значения для конкретного предиктора менялись. Я вычислил среднее и sd для каждой "связи", что позволило:

- выделить предикторы, которые имеют "связь" слишком небольшую - шум;

- выделить предикторы, значение "связи" которых слишком изменчиво. Удалось найти предикторы, которые имеют достаточно большое значение "связи" и sd  менее 10%.   


Еще раз, проблема построения ТС на основе МО - это поиск предикторов, которые имеют большое значение "связи" и небольшое значение  sd при движении окна. По-моему мнению именно такие предикторы обеспечит стабильность ошибки предсказания в будущем.


Написанное выше высказываю НЕ первый раз. К сожалению, дискуссия постоянно уходит в шум и самолюбование.

 
mytarmailS #:

Алексей, ты просил дать пример как смотреть на важность признаков с скользящем окне.

Я написал для тебя скрипт..

Потом тебе захотелось перебора в разных масштабах  или чего тыт там хочешь, с какого черта скрипт из прошлого должен уметь выполнять твои желания в будущем?

так что  Просто удивляюсь, как тут многие легко теряют нить беседы. это про тебя

Да как так то, я просил скрипт сделать - да, цитирую " Можете сделать скрипт на R для вычислений под мою выборку - я запущу его ради эксперимента. Эксперимент должен выявить оптимальный размер выборки. ", но это уже в ответ на то, что сделали.

Ранее я писал "... И как смотреть в динамике предлагаете, как реализоать? " - тут я спрашивал как раз про реализацию оценки предикторов в динамике, т.е. регулярная оценка каким то окном и то не понятно - окно на каждом новом примере или по прошествии каждых n примеров. Если Вы так и сделали, то я этого не понял.

То, что Вы выложили код - великолепно, но просто мне сложно понять, что он конкретно делает или чего доказывает по сути, поэтому стал задавать дополнительные вопросы. Вот что там означают две картинке с графиками?

 
СанСаныч Фоменко #:

Когда-то выкладывал в этой ветке таблицу, но  сейчас ее нет под рукой, поэтому на словах уточню свою мысль.

Опираюсь на понятие связи предиктора и учителя. "Связь" - это НЕ корреляция и не "важность" предикторов из подгонки практически любой модели МО. Последняя отражает частоту использования предиктора в алгоритме, поэтому большую величину "важности" могут получить кольца Сатурна или кофейная гуща. Есть пакеты, которые позволяют вычислить "связь" между предиктором и учителем, например, на основе теории информации.

Итак, на словах о таблице, которую я здесь выкладывал.

Таблица содержала численную оценку "связи" каждого предиктора и учителя. Было получено несколько сотен значений "связи" при движении окна. Эти значения для конкретного предиктора менялись. Я вычислил среднее и sd для каждой "связи", что позволило:

- выделить предикторы, которые имеют "связь" слишком небольшую - шум;

- выделить предикторы, значение "связи" которых слишком изменчиво. Удалось найти предикторы, которые имеют достаточно большое значение "связи" и sd  менее 10%.   


Еще раз, проблема построения ТС на основе МО - это поиск предикторов, которые имеют большое значение "связи" и небольшое значение  sd при движении окна. По-моему мнению именно такие предикторы обеспечит стабильность ошибки предсказания в будущем.


Написанное выше высказываю НЕ первый раз. К сожалению, дискуссия постоянно уходит в шум и самолюбование.

Так у Вас такой же подход, как и у меня по сути, любопытно! Только, возможно "связь" у нас ищется по разному. В качестве окон я беру 10 участков выборки и на них ищу "связь", а Вы как делаете?

Что за алгоритм у Вас для поиска связи, можете описать?