Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 3555

 
Maxim Dmitrievsky #:
Часто достаточно посмотреть на распределения внутри бинов, они должны быть стандартными. Потому что теория МО работает только с такими.
И среди 10 бинов/кластеров 2-3 такими будут. Останется правильно из разметить.

Часто это вопрос репрезентативности выборки. В теории может и есть какой то смысл, но по факту - я не вижу зависимости в своих экспериментах.

К тому же, нормальное распределение как раз нужно полностью иметь для вероятностной оценки, а когда берёте только кусочек из него, то смысловая нагрузка условия теряется же.

Но, Вы конечно пробуйте сами, не верьте никому.

 
Aleksey Vyazmikin #:

Часто это вопрос репрезентативности выборки. В теории может и есть какой то смысл, но по факту - я не вижу зависимости в своих экспериментах.

К тому же, нормальное распределение как раз нужно полностью иметь для вероятностной оценки, а когда берёте только кусочек из него, то смысловая нагрузка условия теряется же.

Но, Вы конечно пробуйте сами, не верьте никому.

Есть зависимость и она работает. Это матстат.
 
Maxim Dmitrievsky #:
Есть зависимость и она работает. Это матстат.

В статье лишь говорится о лучшем обучении на нормально распределенных данных, к тому же делается оговорка, что это имеет значение только для некоторых типов методов построения моделей.

И я согласен, что для обучения это может быть полезно в некотором роде. Но, речь то не об этом. Вы берёте подвыборку из этого распределения, и думаете, что есть связь из какого распределения подвыборка, но это не так, все оставшиеся предикторы в ней растеряли примеры из своих распределений по разному - не обязательно пропорционально - почти случайно. Таким образом, из чего вы выбираете бин не имеет значения, важней устойчивость смещения вероятности на протяжении всей истории. Ну а, если будите делать новые метки, то как раз это и нужно контролировать для верной разметки.

 
Aleksey Vyazmikin #:

В статье лишь говорится о лучшем обучении на нормально распределенных данных, к тому же делается оговорка, что это имеет значение только для некоторых типов методов построения моделей.

И я согласен, что для обучения это может быть полезно в некотором роде. Но, речь то не об этом. Вы берёте подвыборку из этого распределения, и думаете, что есть связь из какого распределения подвыборка, но это не так, все оставшиеся предикторы в ней растеряли примеры из своих распределений по разному - не обязательно пропорционально - почти случайно. Таким образом, из чего вы выбираете бин не имеет значения, важней устойчивость смещения вероятности на протяжении всей истории. Ну а, если будите делать новые метки, то как раз это и нужно контролировать для верной разметки.

Ничего не понял, опять новые определения.
Речь о том, о чем она есть. Ни о чем другом.
Или о центральной предельной теореме.
Наверное, нет смысла продолжать спорить. Мне ведь больше заняться нечем.
Достаточно сделать все правильно и увидеть, что это хорошо. Сравнить распределения, например, во время кластеризации и на валидации.
 
Maxim Dmitrievsky #:
Достаточно сделать все правильно и увидеть, что это хорошо.

Это самое главное.

 

Мало кто задумывается, но квантование может увеличивать число предикторов, фокусируясь на разной информации из общего потока.

Как вариант, вот берём отклонения от МА (поток данных) с равным шагом, допустим 100, и получаем канал - данные о номере канала в разный момент времени скажут о текущем положении цены, силе волатильности, текущей тенденции, волатильности тенденции (за время отклонения от средней цены).

Теперь изменим таблицу квантования, и будем смотреть только на то, что творится возле уровней.

Такие данные уже могут подсказать о ситуативном поведении цены, особенно если допускаем, что уровни значимы для рынка, то сможем оценить попытки пробития уровня, его сопротивление им, да и в целом - значим уровень или нет. Так же это могут быть сигнальные точки для принятия решения об открытии позиции.

Если таблицы строить чисто по размаху показателей за всю выборку, то она может оказаться мало полезной, хотя исходные данные и будут ценными, но они окажутся неверно обработанными.

 
Aleksey Vyazmikin #:

берём отклонения от МА (поток данных) с равным шагом, допустим 100, и получаем канал - данные о номере канала в разный момент времени скажут о текущем положении цены, силе волатильности, текущей тенденции, волатильности тенденции (за время отклонения от средней цены).

Оригинально. Заберу в тему что подать на вход нейросети

 
Aleksey Vyazmikin #:

Мало кто задумывается, но квантование может увеличивать число предикторов, фокусируясь на разной информации из общего потока.

Как вариант, вот берём отклонения от МА (поток данных) с равным шагом, допустим 100, и получаем канал - данные о номере канала в разный момент времени скажут о текущем положении цены, силе волатильности, текущей тенденции, волатильности тенденции (за время отклонения от средней цены).

Теперь изменим таблицу квантования, и будем смотреть только на то, что творится возле уровней.

Такие данные уже могут подсказать о ситуативном поведении цены, особенно если допускаем, что уровни значимы для рынка, то сможем оценить попытки пробития уровня, его сопротивление им, да и в целом - значим уровень или нет. Так же это могут быть сигнальные точки для принятия решения об открытии позиции.

Если таблицы строить чисто по размаху показателей за всю выборку, то она может оказаться мало полезной, хотя исходные данные и будут ценными, но они окажутся неверно обработанными.

"Мусор на входе - мусор на выходе".

Бессмысленно брать предикторы,которые неизвестно как связаны с учителем.

 
СанСаныч Фоменко #:

"Мусор на входе - мусор на выходе".

Бессмысленно брать предикторы,которые неизвестно как связаны с учителем.

НЕмусор автоматически сделает входные данные - полезными

Полезными - рабочими

Рабочими - прибыльными



Если у вас нет таких - то вы не знаете мусор это или нет. 

А если пробовали и не работает - то это другое дело. 

Вот в таком ключе нужно парировать. Пробовали или нет и какой результат (характер результата)

 
Ivan Butko #:

НЕмусор автоматически сделает входные данные - полезными

Полезными - рабочими

Рабочими - прибыльными



Если у вас нет таких - то вы не знаете мусор это или нет. 

А если пробовали и не работает - то это другое дело. 

Вот в таком ключе нужно парировать. Пробовали или нет и какой результат (характер результата)

Ну, фраза "Мусор на входе - мусор на выходе" так же хороша, как и "То-то и оно!", годится для любого случая из жизни с одинаковым успехом, т.е., бесполезна. Но звучит глубокомысленно.))