Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 3529

 
Aleksey Vyazmikin #:

Вот смотрите, ниже на рисунке я на скорую руку изобразил процесс явления о котором говорю.

Ну так а кластеризация признаков это не то же самое? Вы разбиваете на подвыборки с похожими семплами и смотрите какая у чего там вероятность. При этом не надо лезть в дупло дерева.

 
Maxim Dmitrievsky #:

Ну так а кластеризация признаков это не то же самое? Вы разбиваете на подвыборки с похожими семплами и смотрите какая у чего там вероятность. При этом не надо лезть в дупло дерева.

Хех...

Вот смотрите, как выглядит предиктор в разрезе кластеров - по вашей же выборке - видите какой перехлёст по диапазонам предиктора? Думаю это не хорошо.

В общем ну разные методы, хотя на первый взгляд происходит нечто похожее.

Вообще хотел показать про "повреждение" же в прошлом посте - ну раз не понятно - так и ладно...

 
Aleksey Vyazmikin #:

Если выбрать вариант V2, то видим, что поврежден только один квантовый отрезок на предикторе P1, в то время, как на предикторе P2 появился новый квантовый отрезок синего цвета, который взял часть примеров от зеленого квантового отрезка и красной области неопределенности. Вот такое постепенное раскрытие диапазона я и назвал структурой, которая изначально скрыта, но постепенно открывается, а выбор просто сплита по лучшей метрики может привести к её повреждению, и она не сможет раскрыться. По сути это ветвление дерева внутри предиктора на новых итерациях. Ранее я показывал, как такие квантовые отрезки исчезают с каждой итерацией, теперь я смог понять причину и пытаюсь контролировать этот процесс.

Опять ваши представления о сплитах/квантах не соответствуют действительности.
В предикторе P2 не появится квант в виде подряд идущих примеров (который у вас синего цвета).
Каждый столбец после сортировки (и для определения кванта и для сплита) будет иметь разный порядок строк (кроме дубликатов столбцов). Например:
P1: 9,6,4,7,1,8,5,0,3,2
P2: 0,2,4,6,8,1,3,5,7,9
Итак, если вы удалили отрезок/квант из Р1 со строками 4,7,1, то у P2 удалятся истинные номера этих строк и они не будут идти подряд, а хаотически - и не смогут образовать квант.
P2: 0,2,4,6,8,1,3,5,7,9

Вы бы делали распечатки по строкам и проверяли свои идеи, а то тратите время за зря... ведь очевидно же, что порядок строк будет разный. Но видимо это очевидно, только когда просмотришь много распечаток.

 
Aleksey Vyazmikin #:

Хех...

Вот смотрите, как выглядит предиктор в разрезе кластеров - по вашей же выборке - видите какой перехлёст по диапазонам предиктора? Думаю это не хорошо.

В общем ну разные методы, хотя на первый взгляд происходит нечто похожее.

Вообще хотел показать про "повреждение" же в прошлом посте - ну раз не понятно - так и ладно...

Так кластеризация делалась по другому предиктору, а это просто значения других предикторов, соответствующие кластерам.

Соответственно, можно замутить разные замороченные схемы на базе кластеризации.

То есть у вас перед глазами уже готовая квантовая таблица, соответствующая  какому-то кластеру.

Пишется Cluster, не Klaster :)
 
Maxim Dmitrievsky #:
Пишется Cluster, не Klaster :)
 Я тоже похихикал)) 

Ну это нормально у него же своя терминология :) 
 
Maxim Dmitrievsky #:
Так кластеризация делалась по другому предиктору, а это просто значения других предикторов, соответствующие кластерам.

Так по которым делалась кластеризация - их нет в выборке? А то я и сам не пойму немного странность результатов...

Maxim Dmitrievsky #:
Соответственно, можно замутить разные замороченные схемы на базе кластеризации.

Да кто ж спорит - можно. Просто это два разных подхода, не исключающих друг друга, а в моей концепции добавляющие...

Maxim Dmitrievsky #:
Пишется Cluster, не Klaster :)

Да, вероятно так и есть на английском языке. Главное, что Вы поняли о чём речь и я не запамятовал что б спустя время.

 
mytarmailS #:
 Я тоже похихикал)) 

Ну это нормально у него же своя терминология :) 

Думаю, у Вас и глядя на палец будет схожая реакция...

 
Aleksey Vyazmikin #:

Так по которым делалась кластеризация - их нет в выборке? А то я и сам не пойму немного странность результатов...

Да кто ж спорит - можно. Просто это два разных подхода, не исключающих друг друга, а в моей концепции добавляющие...

Да, вероятно так и есть на английском языке. Главное, что Вы поняли о чём речь и я не запамятовал что б спустя время.

Да, его нет в выборке, потому что он не участвует в обучении первой модели.

Участвует во второй модели для определения текущего состояния (кластера) рынка.

 
Aleksey Vyazmikin #:

Думаю, у Вас и глядя на палец будет схожая реакция...

Ага, а Алексей Николаев в трамвае кроссворды разгадывает,  это все понятно.. 
Не понятно зачем так упорото защищать свое невежество. 
 
Forester #:
Опять ваши представления о сплитах/квантах не соответствуют действительности.

Лучше напишите "Я снова не понял, почему так а не этак, у меня другое мнение" - допускайте, что Вы не поняли собеседника или даже неправы - всегда есть такая вероятность.

Forester #:
у P2 удалятся истинные номера этих строк и они не будут идти подряд, а хаотически - и не смогут образовать квант.

В упрощенном примере намеренно опускается точное распределение удаляемых строк по квантовым отрезкам, а говорится о последствиях, которое измеряется через оценку изменения смещения вероятности принадлежности квантового отрезка к конкретному классу. Таким образом, даже удаление нескольких строк из окрестности квантового отрезка может привести к смещению вероятности достаточной, что бы считать такой отрезок ценным кандидатом для сплита. Думайте не номерами строк, а значениями целевой - было "011010110"(зеленый)+"01010" (часть красного диапазона)   стало "01111"(зеленый)  и "00100"(синий) -   "01101011001010" серым условно ушедшие строки, что позволило создать новую квантовую таблицу и переразметить границы зелёного квантового отрезка в сторону уменьшения диапазона.

Forester #:
Вы бы делали распечатки по строкам и проверяли свои идеи, а то тратите время за зря... ведь очевидно же, что порядок строк будет разный. Но видимо это очевидно, только когда просмотришь много распечаток.

Не знаю, как можно думать, что человек, занимающийся постоянно и глубоко конкретной темой и конкретным вопросом не понимает, что он делает... граничит с оскорблением.