Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 3186

 
fxsaber #:

Похоже, у меня получилась интересная Random-генерация.


Классная идея! Осталось только придумать как её использовать 😆 По сути получается ценовой ВР с теми же сессионными характеристиками, той же волатильностью что и у реального, но при этом стационарный. С постоянным мат ожиданием и видимо постоянной дисперсией. И хвосты гаусовы. При этом на мульене реализаций прибыль в среднем ноль минус суммарный спред. 

 
fxsaber #:

Уверен, что разрушил гораздо меньше, чем альтернативные решения. Однако, и этого хватило.

Я думаю вы сильно переоцениваете этот метод, возможно я чего то не понимаю..

 
Я вообще не понял смысла произошедшего, но это для меня нормальное состояние.
 
fxsaber #:.

ЗЫ В общем, если есть интерес попробовать найти различия между двумя рядами, могут их предоставить.

Гляньте, что я вам писал. Сам смогу посмотреть только осенью.

 
Aleksey Nikolayev #

Forester #:

Провёл эксперимент с выборкой, по которой публиковал гифки, тут уже единиц 47% в выборке, данные свёл в таблицу.

 


Описание содержания столбцов:

  • Генерация - указан номер случайной генерации целевой с фиксированным числом "1" и "0", последней строкой - оригинальная целевая
  • % Похожести всех - указан процент похожести целевой
  • % Похожести "1" - указан процент похожести целевой, но только для отклика "1"
  • % Похожести "0" - указан процент похожести целевой, но только для отклика "0"
  • Q_All - сколько было всего найдено квантовый отрезков с использованием 870 квантовый таблиц и 6533 предиктра
  • Q_All% - сколько "Q_All" в процентом выражении от выборки с оригинальной целевой
  • Q отобрано - показывает, сколько было отобрано квантовых отрезков (отбираются только те, что не пересекаются по диапазону)
  • Q отобрано% - сколько "Q отобрано" в процентом выражении от выборки с оригинальной целевой
  • Предикторов - для скольких предикторов из выборки удалось найти квантовый отрезок, отвечающий заданным критериям
  • Предикторов % - сколько "Предикторов" в процентом выражении от выборки с оригинальной целевой

Поясню, что для одного предиктора может быть по итогу отобрано более одного квантового отрезка, при этом эти отрезки по диапазону значения предиктора не должны пересекатся.

Что мне не нравится - так это то, что в районе 50% целевых остались на своих местах, что может негативно влиять на оценку результата.

По факту получается, что достаточно много было найдено квантовых отрезков на случайных целевых, но из-за того что это были какие то скопления (предположительно), то разные таблицы перекрывали их координаты в основном, поэтому после отбора не перекрывающих друг друга диапазонов, оказалось, что качество (полезность) у этих квантовых отрезков хуже (меньше) чем у оригинальных в 10 раз. Соответственно, в среднем на выборке с оригинальной целевой, было найдено квантовых отрезков больше для разных предикторов в 3,5 раза.

Что скажите по результатам?

Добавлено:

Бинарный график последовательности целевой рандома и оригинала выглядит так


 
Aleksey Vyazmikin #:

Провёл эксперимент с выборкой, по которой публиковал гифки, тут уже единиц 47% в выборке, данные свёл в таблицу.

 


Описание содержания столбцов:

  • Генерация - указан номер случайной генерации целевой с фиксированным числом "1" и "0", последней строкой - оригинальная целевая
  • % Похожести всех - указан процент похожести целевой
  • % Похожести "1" - указан процент похожести целевой, но только для отклика "1"
  • % Похожести "0" - указан процент похожести целевой, но только для отклика "0"
  • Q_All - сколько было всего найдено квантовый отрезков с использованием 870 квантовый таблиц и 6533 предиктра
  • Q_All% - сколько "Q_All" в процентом выражении от выборки с оригинальной целевой
  • Q отобрано - показывает, сколько было отобрано квантовых отрезков (отбираются только те, что не пересекаются по диапазону)
  • Q отобрано% - сколько "Q отобрано" в процентом выражении от выборки с оригинальной целевой
  • Предикторов - для скольких предикторов из выборки удалось найти квантовый отрезок, отвечающий заданным критериям
  • Предикторов % - сколько "Предикторов" в процентом выражении от выборки с оригинальной целевой

Поясню, что для одного предиктора может быть по итогу отобрано более одного квантового отрезка, при этом эти отрезки по диапазону значения предиктора не должны пересекатся.

Что мне не нравится - так это то, что в районе 50% целевых остались на своих местах, что может негативно влиять на оценку результата.

По факту получается, что достаточно много было найдено квантовых отрезков на случайных целевых, но из-за того что это были какие то скопления (предположительно), то разные таблицы перекрывали их координаты в основном, поэтому после отбора не перекрывающих друг друга диапазонов, оказалось, что качество (полезность) у этих квантовых отрезков хуже (меньше) чем у оригинальных в 10 раз. Соответственно, в среднем на выборке с оригинальной целевой, было найдено квантовых отрезков больше для разных предикторов в 3,5 раза.

Что скажите по результатам?

Вопрос к Алексею. Я в теории статистики не силен. Всего лишь предложил перемешивание целевой, вместо генерации.
 
Forester #:
Вопрос к Алексею. Я в теории статистики не силен. Всего лишь предложил перемешивание целевой, вместо генерации.

Понимаю.

У меня к Вам другое предложение, что если сделать более управляемым процесс построения леса, и взять в качестве корня для каждого дерева конкретную подвыборку отобранного квантового отрезка?

Глубину сделать в районе 2-3 сплитов, что бы примеров классифицируемого класса листом было не менее 1%.

Думаю, модель будет более устойчивой.

 
Aleksey Vyazmikin #:

Провёл эксперимент с выборкой, по которой публиковал гифки, тут уже единиц 47% в выборке, данные свёл в таблицу.

 


Описание содержания столбцов:

  • Генерация - указан номер случайной генерации целевой с фиксированным числом "1" и "0", последней строкой - оригинальная целевая
  • % Похожести всех - указан процент похожести целевой
  • % Похожести "1" - указан процент похожести целевой, но только для отклика "1"
  • % Похожести "0" - указан процент похожести целевой, но только для отклика "0"
  • Q_All - сколько было всего найдено квантовый отрезков с использованием 870 квантовый таблиц и 6533 предиктра
  • Q_All% - сколько "Q_All" в процентом выражении от выборки с оригинальной целевой
  • Q отобрано - показывает, сколько было отобрано квантовых отрезков (отбираются только те, что не пересекаются по диапазону)
  • Q отобрано% - сколько "Q отобрано" в процентом выражении от выборки с оригинальной целевой
  • Предикторов - для скольких предикторов из выборки удалось найти квантовый отрезок, отвечающий заданным критериям
  • Предикторов % - сколько "Предикторов" в процентом выражении от выборки с оригинальной целевой

Поясню, что для одного предиктора может быть по итогу отобрано более одного квантового отрезка, при этом эти отрезки по диапазону значения предиктора не должны пересекатся.

Что мне не нравится - так это то, что в районе 50% целевых остались на своих местах, что может негативно влиять на оценку результата.

По факту получается, что достаточно много было найдено квантовых отрезков на случайных целевых, но из-за того что это были какие то скопления (предположительно), то разные таблицы перекрывали их координаты в основном, поэтому после отбора не перекрывающих друг друга диапазонов, оказалось, что качество (полезность) у этих квантовых отрезков хуже (меньше) чем у оригинальных в 10 раз. Соответственно, в среднем на выборке с оригинальной целевой, было найдено квантовых отрезков больше для разных предикторов в 3,5 раза.

Что скажите по результатам?

Добавлено:

Бинарный график последовательности целевой рандома и оригинала выглядит так


Десять симуляций - это ни о чём, нужны тысячи - для статистической значимости.

Тоже не готов давать экспертное заключение по конкретному случаю, а всего лишь указал на возможные проблемы и обычные способы их решения.

 
Aleksey Vyazmikin #:

Что скажите по результатам?

Добавлено:

Бинарный график последовательности целевой рандома и оригинала выглядит так

Вы делаете какую-то бессмысленную и беспощадную чушь. У Сабера это хотя бы за полчаса произошло и забылось.
 
Aleksey Nikolayev #:

Десять симуляций - это ни о чём, нужны тысячи - для статистической значимости.

Тоже не готов давать экспертное заключение по конкретному случаю, а всего лишь указал на возможные проблемы и обычные способы их решения.

Тысячи - тут вычислительных ресурсов слишком много надо - один проход - примерно 40 минут - расчет основной на видеокарте.

Я вообще подумал, что тест такой позволяет только проверить возможность наличия таких скоплений на разных диапазонах предиктора.

А нужно всё же смотреть на вероятность попадания в конкретный диапазон квантового отрезка, который был уже изначально отобран.

И всё же хотелось бы услышать мнение по вопросу отличия целевой в процентном выражении для достоверности подобного теста.

Причина обращения: