Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 2847

 
На первом графике можно видеть выбросы и ряды весьма похожие друг на друга - некий забор и деревья. Как посчитать процент выбрасов-деревьев? Провести максимально близкую линию к кромке забора?
 
Aleksey Vyazmikin #:
На первом графике можно видеть выбросы и ряды весьма похожие друг на друга - некий забор и деревья. Как посчитать процент выбрасов-деревьев? Провести максимально близкую линию к кромке забора?

Попробуйте построить гистограмму (в обычном общепринятом смысле) для выборки из высот столбцов. Можно ещё попробовать построить функцию выживания.

 
Aleksey Nikolayev #:

Попробуйте построить гистограмму (в обычном общепринятом смысле) для выборки из высот столбцов. Можно ещё попробовать построить функцию выживания.

Вот построил, и как использовать предлагаете?

По поводу фунекции выживания - не понял - как применить.

Файлы:
 
Aleksey Vyazmikin #:

Вот построил, и как использовать предлагаете?

По поводу фунекции выживания - не понял - как применить.

Например, на первом рисунке в районе 8-9 заметный спад, что соответствует вашим забору и деревьям. Более точно отрезок спада можно посмотреть на графике функции выживания - там он определяется горизонтальным участком.

 
Aleksey Nikolayev #:

Например, на первом рисунке в районе 8-9 заметный спад, что соответствует вашим забору и деревьям. Более точно отрезок спада можно посмотреть на графике функции выживания - там он определяется горизонтальным участком.

Понятно, что гистограмму можно как бы разделить на две части, но тут вопрос в автоматизации и унификации процесса. Если разброс не будет велик в абсолютном выражении, то гистограмма этого не покажет.

 
Aleksey Vyazmikin #:

Понятно, что гистограмму можно как бы разделить на две части, но тут вопрос в автоматизации и унификации процесса. Если разброс не будет велик в абсолютном выражении, то гистограмма этого не покажет.

Поэтому и написал про функцию выживаемости (ещё есть функция риска - hazard function). Не ленитесь изучать новое и не пытайтесь всё выдумать самостоятельно - любые ваши задачи уже кто-то решал.

 
Aleksey Nikolayev #:

 Не ленитесь изучать новое и не пытайтесь всё выдумать самостоятельно - любые ваши задачи уже кто-то решал.

++++

 
Aleksey Nikolayev #:

Поэтому и написал про функцию выживаемости (ещё есть функция риска - hazard function). Не ленитесь изучать новое и не пытайтесь всё выдумать самостоятельно - любые ваши задачи уже кто-то решал.

Давайте конкретно - что предлагаете делать - отсыл к эфирным телам без продуктивного понимания как и зачем их использовать - пустая трата времени.

Готовы помочь с пониманием алгоритма построения функции выживания - я напишу код и будем думать дальше. А ваши предположения о моей лени просто оскорбительно, учитывая объём информации, что я обрабатыва для применения в своих задачах.

 
Aleksey Vyazmikin #:

Давайте конкретно - что предлагаете делать - отсыл к эфирным телам без продуктивного понимания как и зачем их использовать - пустая трата времени.

Готовы помочь с пониманием алгоритма построения функции выживания - я напишу код и будем думать дальше. А ваши предположения о моей лени просто оскорбительно, учитывая объём информации, что я обрабатыва для применения в своих задачах.

Грубо говоря, валить деревья не ленитесь, но ленитесь наточить топор.

Функция риска, простейший вариант на R

# x - выборка, y - функция риска
x <- sort(x)
nx <- length(x)
y <- log(nx/(nx:1))
plot(x, y, type = "l")

Участки кривой близкие к горизонтальной линии соответствуют провалам на гистограмме и здесь эти участки можно определить более точно, поскольку нет привязки к разбиению (как в гистограммах). Пользуюсь, например, при изучении распределения высот колен зигзага.

 
Aleksey Nikolayev #:

Функция риска, простейший вариант на R

Что значит nx:1? Вы разве в вектор y получите не одно число после поиска логарифма? Не знаю синтаксис R.

Aleksey Nikolayev #:

Участки кривой близкие к горизонтальной линии соответствуют провалам на гистограмме и здесь эти участки можно определить более точно, поскольку нет привязки к разбиению (как в гистограммах). Пользуюсь, например, при изучении распределения высот колен зигзага.

"Близкие" - как унифицировать степень близости? Мне же нужен алгоритм, а не ручная оценка в итоге.

Пока мы делаем простейший предиктор, который покажет процент таких выбросов в выборке. Тут же можно подумать о варианте оценки распределения этих выбросов по выборке.

Причина обращения: