Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 3015

 
Aleksey Nikolayev #:

Проблема в том, что дерево строится не по условию максимизации прибыли, а по удобной для программирования пакета функции потерь.

Получается неприятный выбор - либо пытаться перенастроить сложный, навороченный пакет, либо ваять корявый велосипед. Ещё можно "удачно" совместить обе эти опции)

ИМХО, если уж выбирать возню с уже существующим пакетом на деревьях, то стоит попытаться использовать обрезку (прунинг) - с условием максимизации прибыли на форварде, например. Возможно, удастся избежать ручной возни с правилами.

Тот вариант, что использовал я для построения дерева строит не глубокие деревья - там уже прунинг может быть излишен.

Да возня почти вся автоматизирована, а что нет упирается в моё незнание R скорей.

Я говорю о шуме, так как корневой предиктор может содержать участки вероятности предрасположенности к конкретным классам в районе 10%, или меньше, а на остальных участках равномерно распределена вероятность, из остатка уже нарезаются остальные листья.

 
Maxim Dmitrievsky #:

а из леса если вытаскивать, там же среднее по правилам всех деревьев будет, по количеству деревьев

Деревья же независимо строятся, а потом взвешиваются ответы в листьях. Я работал не с лесом, а с одним деревом. О лесе на генетике не слышал.

 
Aleksey Vyazmikin #:

Деревья же независимо строятся, а потом взвешиваются ответы в листьях. Я работал не с лесом, а с одним деревом. О лесе на генетике не слышал.

а ну да, Форест нет смысла использовать тогда

а генетическое дерево от обычного чем отличается, какие преимущества?

 
Aleksey Vyazmikin #:

У Вас же лес, после построение перевзвешиваете модель? Или просто там среднее значение берется по активировавшимся листьям?

В том то и дело, что я при отборе листа учитываю стабильность и равномерность распределения откликов по истории. Делаю двухмерные показатели по сути и их уже оцениваю в совокупности. Таким образом листья без откликов - крайне редкое событие у меня.

Мне кажется, что Вы могли бы легко сохранять листья, создавая тысячи деревьев, и уже только с ними работать.

Да. Иногда и 1 дерево использую для скорости. Сейчас обычно несколько деревьев.
Если среднее по всем деревьям > нужного, то использую для расчетов баланса.


Как равномерность оцениваете? Отклонение от прямой линии между 1 и последней точками баланса? Ну и наверное итог надо умножить на баланс?

 
Maxim Dmitrievsky #:

а ну да, Форест нет смысла использовать тогда

а генетическое дерево от обычного чем отличается, какие преимущества?

Отличается попыткой использовать не лучший сплит предиктора, а разные варианты из лучших. Таким образом делаются последовательно сплиты, а успех  оценки происходит по листу, если я правильно понял алгоритм. От удачного поколения отсекаются предикторы ближе к листу и происходит повторная попытка построения. Сам алгоритм я не могу детально проанализировать - не автор я. Но, по идеи, такой подход лучше рандома в теории.

 
Forester #:
Да. Иногда и 1 дерево использую для скорости. Сейчас обычно несколько деревьев.
Если среднее по всем деревьям > нужного, то использую для расчетов баланса.


Как равномерность оцениваете? Отклонение от прямой линии между 1 и последней точками баланса? Ну и наверное итог надо умножить на баланс?

На сколько я помню, выборка делится по годам и строится баланс по финансовым показателям, каждый баланс оценивается разными метриками, в том числе теме, что Вы сказали, есть критерии допуска, и если по всем участкам (годам в моем случае) всё хорошо, то лист принимается в базу листьев.

 
Aleksey Vyazmikin #:

На сколько я помню, выборка делится по годам и строится баланс по финансовым показателям, каждый баланс оценивается разными метриками, в том числе теме, что Вы сказали, есть критерии допуска, и если по всем участкам (годам в моем случае) всё хорошо, то лист принимается в базу листьев.

А при чем тут 1 отдельный лист? Примеры в листе же не равномерно весь год описывают, а например 2 примера в январе, 27 в феврале и 555 в декабре.
Если брать линию баланса от всех листьев за основу, то в декабре для данного листа очевидно будет основной рост и отклонение от прямой линии будет очень сильным.

Если брать линию баланса только от этого 1 листа за основу,  то равномерности можно достичь, но участие в общей равномерности сложно определить.

 
Forester #:

А при чем тут 1 отдельный лист? Примеры в листе же не равномерно весь год описывают, а например 2 примера в январе, 27 в феврале и 555 в декабре.
Если брать линию баланса от всех листьев за основу, то в декабре для данного листа очевидно будет основной рост и отклонение от прямой линии будет очень сильным.

Если брать линию баланса только от этого 1 листа за основу,  то равномерности можно достичь, но участие общей равномерности сложно определить.

Конечно мы имеем дело с интервалами, и чем меньше его возьмем, тем больше шанс, что там будет крайне мало примеров. Нужен какой либо баланс разумности по этому вопросу, я решил на тот момент что год будет оптимален, что бы лист показал свою эффективность. Это в целом нормально, что в некоторые месяца вообще не будет сигналов, особенно если есть предикторы описывающие верхние ТФ.

Комбинация листьев в ансамбли - отдельно решаемая задача.
 
Треш ток какой-то)) 
 

народная мудрость гласит: за деревьями леса не видит. А вот интересно, перебирая листья дерево видно? я не спрашиваю за лес. 

Это что единственный алгоритм который Вам известен? Или он самый эффективный? Что Вы на нем зациклились? 

Это мимо проходящего мысли.

Удачи

Причина обращения: