Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 2975

 
Forester #:

Та простая функция тоже сделает неравномерную по значениям сетку. Равномерная - это Uniform.

Она работает с числом повторов/дубликатов. Все примерно то же самое. Функцию не нашел (быстрым просмотром), поэтому точно сказать не могу...  варианты учета дублей описал ранее, думаю там одно из них или что-то близкое.

Думаю, что речь просто об учете весов в случае повтора значений, т.е. некая объемность появляется и сетка сжимается на этом отрезке.

Думаю, у Вас получилось бы разобраться!

 
Aleksey Vyazmikin #:

Думаю, что речь просто об учете весов в случае повтора значений, т.е. некая объемность появляется и сетка сжимается на этом отрезке.

Думаю, у Вас получилось бы разобраться!

Возможно, но я не вижу там рыбы.  Не пользуюсь квантизацией вообще. Предпочитаю float данные исследовать.

 
Forester #:

Возможно, но я не вижу там рыбы.  Не пользуюсь квантизацией вообще. Предпочитаю float данные исследовать.

Насколько понимаю, "квантизация" (гистограммы) используется в бустинге для ускорения, чтобы вариантов перебора для сплитов было поменьше. Если это так, то решение хорошо своей универсальностью, но может быть плохим в отдельном конкретном случае - реальная граница может быть потеряна.

 
Aleksey Nikolayev #:

Насколько понимаю, "квантизация" (гистограммы) используется в бустинге для ускорения, чтобы вариантов перебора для сплитов было поменьше. Если это так, то решение хорошо своей универсальностью, но может быть плохим в отдельном конкретном случае - реальная граница может быть потеряна.

Да, всё верно. Ускоряет и можно отнести к регуляризации. Но и теряет точный сплит.

 
Forester #:

Возможно, но я не вижу там рыбы.  Не пользуюсь квантизацией вообще. Предпочитаю float данные исследовать.

Жаль, что не верите мне.

Могу эффективность продемонстрировать на Вашей выборке, сравните обучаемость.

 
Forester #:

Да, всё верно. Ускоряет и можно отнести к регуляризации. Но и теряет точный сплит.

Точный сплит на истории. Если известна природа распределения значений предикторов, то квантование может выцепить именно диапазон с характерным устойчивым поведением. Для трейдинга как раз актуально.

 
Aleksey Vyazmikin #:

Точный сплит на истории. Если известна природа распределения значений предикторов, то квантование может выцепить именно диапазон с характерным устойчивым поведением. Для трейдинга как раз актуально.

Задачу поиска диапазонов/сплитов решает дерево при обучении. Там хоть какая-то осмысленная формула есть разделяющая строки по отношению к целевой.
В квантовании просто счетчик + пропуск дублей. Квантование происходит без какой либо проверки на целевой ф-ии.

Если дерево с обучением на целевую не дает устойчивости (или дает очень слабую), то как ее даст счетчик не имеющий отношения к целевой? Только рандом и иногда случайно хорошие отрезки, которые во временем перестанут быть таковыми.

 
Forester #:
Задачу поиска диапазонов/сплитов решает дерево при обучении. Там хоть какая-то осмысленная формула есть разделяющая строки по отношению к целевой.
В квантовании просто счетчик + пропуск дублей. Квантование происходит без какой либо проверки на целевой ф-ии.

Если дерево с обучением на целевую не дает устойчивости (или дает очень слабую), то как ее даст счетчик не имеющий отношения к целевой? Только рандом и иногда случайно хорошие отрезки, которые во временем перестанут быть таковыми.

Квантовые таблицы нужно подбирать для каждого предиктора. Допустим, что попал удачный рандом - вот это я и хочу выявить. Случайно или нет. Не со 100% достоверностью, но даже отсеяв 30% рандома можно улучшить качество обученной модели.

Я разрабатываю свою функцию (алгоритм) оценки сплита, которая должна уменьшить недостаток деревьев - жадность.

Странно конечно, я не первый год занимаюсь этой темой, провел кучу экспериментов с разными выборками, имею статистику эффективности подхода, говорю, что метод рабочий, а встречаюсь с недоверием.

 
Aleksey Vyazmikin #:

Квантовые таблицы нужно подбирать для каждого предиктора. Допустим, что попал удачный рандом - вот это я и хочу выявить. Случайно или нет. 

Как он может быть НЕ случайным по отношению к целевой, если целевая не участвует в выборе точки квантования? Только случайным.

 
Forester #:

Как он может быть НЕ случайным по отношению к целевой, если целевая не участвует в выборе точки квантования? Только случайным.

Случайно попало, но закономерность не случайная. Т.е. она сохраниться в будущем. Оценка происходит с учетом целевой же.

С другой стороны, никто не мешает более точно сразу разбить предиктор на квантовые отрезки с учетом целевой.
Причина обращения: