Группировка листьев - требуются мысли и идеи - страница 4

 
Aleksey Mavrin:

Чуть понятнее. Сразу подумалось что задача нивелирования рисков похожести листьев и решается случайными деревьями, подумайте.

Случайные деревья, как и большинство методов МО, полезны для очевидных стационарных моделей, где правильных ответов будет больше чем не правильных по природе предсказуемости данных, а с рыночными данными все сложней, напротив тут сложно найти устойчивую закономерность. Однако, отчасти согласен, что листья уже отобраны и описывают закономерность, и на них можно пробовать использовать случайные леса, но я не пробовал, а пробовал дерево, построенное генетическим отбором в R - результат положительный имеется. Если есть желание сравнить, что эффективней, то могу сбросить выборку для обучения на листьях.

Aleksey Mavrin:

 Если лист  у вас как стратегия, который выдает - решение о покупке/продаже, то что у вас что на входе в дерево? Какие параметры?

Разные предикторы, часть построена на данных о положении цены внутри ATR разных периодов, их отношений и динамики развития внутри одного бара верхнего TF, часть на регрессии определенных интервалов и положении цены в прогнозируемом канале, часть на взаимоотношении цены и популярных (и не очень) индикаторов, часть на ZZ (канал Дончиана) и производной от неё. Многие предикторы ещё не закодированы, из тех что сделаны можно сделать дополнительных множество с целью увеличения охвата вариативности - узкое место тут вычислительные ресурсы.

 
Aleksey Vyazmikin:

Случайные деревья, как и большинство методов МО, полезны для очевидных стационарных моделей, где правильных ответов будет больше чем не правильных по природе предсказуемости данных, а с рыночными данными все сложней, напротив тут сложно найти устойчивую закономерность. Однако, отчасти согласен, что листья уже отобраны и описывают закономерность, и на них можно пробовать использовать случайные леса, но я не пробовал, а пробовал дерево, построенное генетическим отбором в R - результат положительный имеется. Если есть желание сравнить, что эффективней, то могу сбросить выборку для обучения на листьях.

Разные предикторы, часть построена на данных о положении цены внутри ATR разных периодов, их отношений и динамики развития внутри одного бара верхнего TF, часть на регрессии определенных интервалов и положении цены в прогнозируемом канале, часть на взаимоотношении цены и популярных (и не очень) индикаторов, часть на ZZ (канал Дончиана) и производной от неё. Многие предикторы ещё не закодированы, из тех что сделаны можно сделать дополнительных множество с целью увеличения охвата вариативности - узкое место тут вычислительные ресурсы.

По сути если вы применяете генетический отбор при неизменной обучающей выборке, то вы не избежите проблемы переобучения. Или выборка у вас не является неизменной?  Тогда не понятно, ведь вы по сути из множества случайных деревьев - выбираете одно лучшее, но лучшее где? опять же на выборке. Думаю всё-таки случайные леса более страхуют от переобучения, т.к. каждое дерево лучшее на своей подвыборке. А предсказуемость считаю в большей степени зависит от верного=удачного выбора предикторов и не может быть достигнута слишком высокой.

 
Aleksey Mavrin:

По сути если вы применяете генетический отбор при неизменной обучающей выборке, то вы не избежите проблемы переобучения. Или выборка у вас не является неизменной?  Тогда не понятно, ведь вы по сути из множества случайных деревьев - выбираете одно лучшее, но лучшее где? опять же на выборке. Думаю всё-таки случайные леса более страхуют от переобучения, т.к. каждое дерево лучшее на своей подвыборке. А предсказуемость считаю в большей степени зависит от верного=удачного выбора предикторов и не может быть достигнута слишком высокой.

Что Вы вкладываете в понятие "неизменная выборка" и ,видимо, "измененная выборка"? Могу предположить, что если речь идет именно про обучение на листьях, то неизменной выборкой будет та, на которой обучались листья деревьев, а измененная будет уже другая выборка, если это так, то я согласен, что хорошо бы увеличить выборку дополнительно после обучения листов и использовать уже старую и новую выборку, при этом желательно размера соизмеримого с той, на которой были обучены листы, однако это в моем случае затруднительно в силу малости самой выборки для обучения (в райне 15к строк).

Как раз проблемы сильной зашумленности и нестационарности, а так же малой выборки, говорят скорей в пользу одного хорошего дерева, чем огромного леса, который наделен слишком большой памятью для маленькой выборки, что приведет к явной подгонке и запоминанию ответов. Тщательно построенное дерево несет в себе больше информации на один лист, чем лес, и тут выбор информации (из имеющихся предикторов-листов) происходит именно более стабильно повторяющейся на всей выборке и приводящей к ожидаемому результату. Но опять же, реального сопоставления я не делал и эта часть системы (второй слой) находится в разработке.

Предсказуемость тут улучшается за счет того, что дерево из листьев может выделить ведущие предикторы-листья, лучшим образом характеризующие событие и исключающие события, противоречащие текущему, т.е. фактически уточнить информацию и выделить ярких представителей групп листьев (что делалось раньше). Возможно, что тут уместно использовать и более явный инструмент для обобщения - нейронную сеть.

 
Aleksey Vyazmikin:

Что Вы вкладываете в понятие "неизменная выборка" и ,видимо, "измененная выборка"? Могу предположить, что если речь идет именно про обучение на листьях, то неизменной выборкой будет та, на которой обучались листья деревьев, а измененная будет уже другая выборка, если это так, то я согласен, что хорошо бы увеличить выборку дополнительно после обучения листов и использовать уже старую и новую выборку, при этом желательно размера соизмеримого с той, на которой были обучены листы, однако это в моем случае затруднительно в силу малости самой выборки для обучения (в райне 15к строк).

Обучение вы же подразумеваете - генетический отбор. Тогда я имел ввиду что есть два пути - 1. Простой, выборку обучающую можно разделить на чисто обучающую и проверочную 2. Продвинутый, Разделить обучающую выборку на  подвыборки, и либо для рызных поколений в ГА использовать разные подвыборки либо усреднять рез-т на всех, это типа скользящего форвард-теста.

Aleksey Vyazmikin:

Как раз проблемы сильной зашумленности и нестационарности, а так же малой выборки, говорят скорей в пользу одного хорошего дерева, чем огромного леса, который наделен слишком большой памятью для маленькой выборки, что приведет к явной подгонке и запоминанию ответов

Выделенное звучит логично, но мне кажется вы можете заблуждаться. Смотрите, ведь в большом лесу  - у деревьев свои подвыборки, если их размер , как и глубина деревьев будут ограничены разумно, то подгонку исключить можно полностью. Для этого случайные леса и созданы насколько понимаю.

Aleksey Vyazmikin:

Тщательно построенное дерево несет в себе больше информации на один лист, чем лес, и тут выбор информации (из имеющихся предикторов-листов) происходит именно более стабильно повторяющейся на всей выборке и приводящей к ожидаемому результату. Но опять же, реального сопоставления я не делал и эта часть системы (второй слой) находится в разработке.

Больше информации и тщательно подобранное - это ли зачастую не синонимы подгонки? Стабильно повторяющийся результат где - на обучающей или тестовой? Если тестовой то круто, значит вам удалось найти оптимальную структуру и предикторы и осталось только допилить грааль.

Aleksey Vyazmikin:

Предсказуемость тут улучшается за счет того, что дерево из листьев может выделить ведущие предикторы-листья, лучшим образом характеризующие событие и исключающие события, противоречащие текущему, т.е. фактически уточнить информацию и выделить ярких представителей групп листьев (что делалось раньше). Возможно, что тут уместно использовать и более явный инструмент для обобщения - нейронную сеть.

Вы упоминаете что у вас голосуют все листья, могу путаться в терминах, но значит у вас дерево не чисто-логическое, а "взвешивающее" веса и/или на нечеткой-логике, так? Взвешивающее думаю по сути очень похоже на нейронку, только с более понятным принципом работы.

В итоге склоняюсь к лесам) Вам удачи ну и держите в курсе, разумная кооперация всем м.б.  выгодна.

 
Aleksey Mavrin:

Обучение вы же подразумеваете - генетический отбор. Тогда я имел ввиду что есть два пути - 1. Простой, выборку обучающую можно разделить на чисто обучающую и проверочную 2. Продвинутый, Разделить обучающую выборку на  подвыборки, и либо для рызных поколений в ГА использовать разные подвыборки либо усреднять рез-т на всех, это типа скользящего форвард-теста.

Генетический отбор сплитов дерева.

Разделение выборок лишает информации на истории, информации очень мало повторяющейся с большой частотой. Кроме того, мои изыскания показали, что даже беря кусок выборки для проверки обучения мы просто отбираем те варианты, которые хорошо работают и там и там, но это не значит, что они будут работать хорошо и дальше - важней структура активаций на истории, её устойчивость.


Aleksey Mavrin:

Выделенное звучит логично, но мне кажется вы можете заблуждаться. Смотрите, ведь в большом лесу  - у деревьев свои подвыборки, если их размер , как и глубина деревьев будут ограничены разумно, то подгонку исключить можно полностью. Для этого случайные леса и созданы насколько понимаю.

Больше информации и тщательно подобранное - это ли зачастую не синонимы подгонки? Стабильно повторяющийся результат где - на обучающей или тестовой? Если тестовой то круто, значит вам удалось найти оптимальную структуру и предикторы и осталось только допилить грааль.

Вам надо поисследовать детально, что получается, с разложением каждого листа на истории. Я лишь повторюсь, что МО изначально хорошо работает на стационарных данных, и подразумевает полноту выборки, т.е. достаточное число раз повторяющейся информации. Мы же работаем с хаусом, где иногда прослеживаются закономерности, а найти среди них устойчивые - большая удача. Известные мне модели обучения не учитывают динамику правильности классификации, что их делает мало применимыми для поиска разряженных закономерностей, как на бирже.


Aleksey Mavrin:

Вы упоминаете что у вас голосуют все листья, могу путаться в терминах, но значит у вас дерево не чисто-логическое, а "взвешивающее" веса и/или на нечеткой-логике, так? Взвешивающее думаю по сути очень похоже на нейронку, только с более понятным принципом работы.

Я думаю о разных вариантах второго слоя, либо это будет только группировка похожих листьев с расчетом коэффициента активации, либо дерево/леса/НС, либо все в месте - пока веду исследование наилучших вариантов/комбинаций.

Aleksey Mavrin:

В итоге склоняюсь к лесам) Вам удачи ну и держите в курсе, разумная кооперация всем м.б.  выгодна.

Спасибо, и Вам удачи.

Что качается кооперации - пожалуйста, я предложил совместно поисследовать, что лучше - дерево или леса для выборки из предикторов-листьев - реакции не последовало.

 
Aleksey Vyazmikin:

Спасибо, и Вам удачи.

Что качается кооперации - пожалуйста, я предложил совместно поисследовать, что лучше - дерево или леса для выборки из предикторов-листьев - реакции не последовало.

Тут надо понимать всё как всегда упирается в простой нюанс - здесь собрались люди творческие и идейные, и каждый следует своей музе так сказать :)) каждый из нас видит как то по своему и практически невозможно чисто из таких творческих личностей создать устойчивую команду, нужен лидер который бы всех объединил простой понятной идеей и управляемой структурой.

Когда я говорю кооперацию - больше подразумеваю цикличный обмен опытом и мнениями,  результатами и выводами, которые помогут другим ускорить свой путь, но у каждого он свой. Но в каких-то отдельных операциях скооперироваться конечно можно.

Кстати насчёт вычислительных ресурсов - есть ферма видеокарт, я пока не знаю как её использовать в этом, т.к. я не профи программист а только учусь) Если есть решение и материал для расчётов - скидывайте, попробую приспособить ферму.

 
Aleksey Mavrin:

Тут надо понимать всё как всегда упирается в простой нюанс - здесь собрались люди творческие и идейные, и каждый следует своей музе так сказать :)) каждый из нас видит как то по своему и практически невозможно чисто из таких творческих личностей создать устойчивую команду, нужен лидер который бы всех объединил простой понятной идеей и управляемой структурой.

Когда я говорю кооперацию - больше подразумеваю цикличный обмен опытом и мнениями,  результатами и выводами, которые помогут другим ускорить свой путь, но у каждого он свой. Но в каких-то отдельных операциях скооперироваться конечно можно.

Кстати насчёт вычислительных ресурсов - есть ферма видеокарт, я пока не знаю как её использовать в этом, т.к. я не профи программист а только учусь) Если есть решение и материал для расчётов - скидывайте, попробую приспособить ферму.

Ну вот, от того, что у людей цель - удовлетворение амбиций, а не получение финансового результата, и возникает топтание на месте с продвижением исключительности своих идей. Где то тут я предлагал создать команду, примерно год назад, и даже выработал механизм активного участия на развитие команды каждого её члена, но это никому не нужно оказалось. Поэтому я движусь своей дорогой медленно и уныло.

Ферму можно использовать в CatBoost, если карты от nVideo, из серии что и 1060 и выше. Спасибо за предложение, когда мне понадобятся там длительные расчеты, я обращусь к Вам.

 
Aleksey Vyazmikin:

Ну вот, от того, что у людей цель - удовлетворение амбиций, а не получение финансового результата, и возникает топтание на месте с продвижением исключительности своих идей. Где то тут я предлагал создать команду, примерно год назад, и даже выработал механизм активного участия на развитие команды каждого её члена, но это никому не нужно оказалось. Поэтому я движусь своей дорогой медленно и уныло.

Ферму можно использовать в CatBoost, если карты от nVideo, из серии что и 1060 и выше. Спасибо за предложение, когда мне понадобятся там длительные расчеты, я обращусь к Вам.

А почему тема замолчала? Топтание на месте? А потому что пятиклассники начали обсуждать ядерную физику. И творчество тут не причем. Ни кого не желаю обидеть, просто пример показательный. Нужен не лидер (с амбициями или без, не важно), а хотя бы студент технического университета, но лучше профессор. Это я не про себя, сам хотел бы у Вас кое чему научиться. Сам тяну на десятиклассника, по этому и пишу, что тема правильная. Философские знания (системы взглядов), во всех предыдущих статьях, представлены очень хорошо. Только выводов ни каких я не увидел. Если будут выводы, хотя бы 1, 2, 3, тогда можно переходить к научным, а потом и к предметным знаниям.

 

Как то Вы застряли в лесу. Если не идет, выйдите из темы, поработайте в другом направлении, потом вернетесь(может быть) с новыми идеями. Коль скоро Ваш интерес в лесу, попробуйте вместо деревьев использовать другие модели. Простые и быстрые. Например elm, есть несколько пакетов, самый быстрый elmNNRcpp. Конечно есть и другие реализации. Пакет для создания ансамбля состоящего из любых моделей, не только деревьев) - gensemble.

Удачи

 
Vasily Belozerov:

А почему тема замолчала? Топтание на месте? А потому что пятиклассники начали обсуждать ядерную физику. И творчество тут не причем. Ни кого не желаю обидеть, просто пример показательный. Нужен не лидер (с амбициями или без, не важно), а хотя бы студент технического университета, но лучше профессор. Это я не про себя, сам хотел бы у Вас кое чему научиться. Сам тяну на десятиклассника, по этому и пишу, что тема правильная. Философские знания (системы взглядов), во всех предыдущих статьях, представлены очень хорошо. Только выводов ни каких я не увидел. Если будут выводы, хотя бы 1, 2, 3, тогда можно переходить к научным, а потом и к предметным знаниям.

Пока, к сожалению, методика иная - гипотеза, её проверка и выводы. И тут самое опасное как раз кроется в выводах - они могут быть ошибочны, а именно на них строятся дальнейшие идеи/гипотезы, и даже небольшая ошибка в выводах может привести к ошибке, распространившейся на несколько поколений развития проекта.

Поэтому, публичное обсуждение не только самой гипотезы, но и выводов очень полезны для меня.