Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 2037
Вы упускаете торговые возможности:
- Бесплатные приложения для трейдинга
- 8 000+ сигналов для копирования
- Экономические новости для анализа финансовых рынков
Регистрация
Вход
Вы принимаете политику сайта и условия использования
Если у вас нет учетной записи, зарегистрируйтесь
С чего вдруг такой глобальный пессимизм? ))) "Зырил" как они обучаются я ещё до всех современных пакетов в NeuroShell Day Pro. И уже тогда получал робастый результат который неизвестно как работает внутри и сложно, практически нереально тогда было прикрутить к МТ4.
GPU согласен желательно прикрутить.
НС работают на форекс) Вопрос в какие это НС и в какой парадигме собраны/обучены, мои эволюционируют.
Да, первый робастый вариант может обучаться пусть даже сутки(хотя на практике на домашнем ноуте древнем за 8 часов). Но вернуться к необходимости дальнейшей эволюции первого варианта за счет его робастности придется через месяц. Т.е. даже при десяти рабочих в реале инструментов заранее будет новый вариант.
Теперь по поводу архитектуры, за основу принят алгоритм NEAT, дополнен своими примочками. На выходе эволюционирует в том числе и архитектура.
Как-то так.
И при этом рекомендую к прочтению книги/лекции по микробиологи и т.п.
А в спорах к сожалению один дурак(спорит без знаний), другой сволочь(спорит со знаниями), предпочитаю обмен мнениями с аргументацией/обоснованием.
Ведь главное чтобы толк был, хрен с ними с шашечками - поехали)))
спорить не о чем, поскольку в любом нормальном фреймворке сделал и показал, с минимумом кода
самоделки здесь особо не обсуждаются, только взрослые модели типа катбуста или современных нейросетей
эту мышиную возню с нейростями на mql даже не интересно обсуждать, потому что мир далеко ушел вперед, и каждый год удваивает отрыв
Допустим, ты мне говоришь: "у меня такая-то модель на тензорфлоу".. я говорю збс, могу сделат такую же на торче за 5 минут и проверить. А ты мне говоришь что что-то там накодил на mql. И зачем мне эта инфа? как я это восроизведу?
В общем порезал выборку на 3 части 60% - обучение и по 20 контроль обучения и выборка не участвовавшая в обучении.
Памяти жрет много - 18 гигабайт - удивлен. У Вас сколько памяти?
Процесс обучения запустил с настройками почти по умолчанию, но вижу, что на учебной выборке быстро идет улучшение результата, а на контрольной улучшений нет после первого дерева.
Поэтому вопрос - Вы уверены, что закономерность там есть?
Есть предположение, что классы совсем плохо сбалансированы, кажется процент единиц в районе 10%?
Древовидным системам балансировка по классам при большой выборке не требуется. Нейросети от дисбаланса заклинивает, а деревья все четко раскидают по листьям.
Это одна из причин, почему я на деревья перешел.
https://www.mql5.com/ru/blogs/post/723619
Ну да, только осознавая невозможность чёткой и однозначной формализации того что эти слова означают) и понимая, что по этой причине результаты анализа одной и той же информации могут весьма различаться у разных людей и что только будущее может показать кто был прав)
с анализом рыночной информации, в целом нет проблем... за исключением жадности исследователя, который считает, что рынок дает информацию только ему и нужно обрабатывать все данные, т.е. тут задача формализуется как ищем повторяющуюся закономерность, остальные данные должны быть отброшены (не используются)
с принятием решения все грустно - сгенерировать ТС которые пройдут тестирование и форвард можно, но вот найти связи между статистикой тестера стратегий и временем живучести ТС или возможности определения соответствия ТС контексту рынка - тут проблема
, т.е как Вы пишете проблема то в будущем
считаю, что в целом немного продвинулись в формализации задачи,
в принципе не сложно сделать выгрузку статистики тестирования и попробовать в Python обучить НС,
определение контекста рынка, имхо это как Вы писали - только решение трейдера, т.е. сомневаюсь, что можно формализовать или алгоритмизировать или исследовать
Древовидным системам балансировка по классам вроде не требуется. Нейросети от дисбаланса заклинивает, а деревья все четко раскидают по листьям.
Это одна из причин, почему я на деревья перешел.
CatBoost'у требуется, но там есть свой балансировщик, но видимо не справляется.
Вообще если сильный дисбаланс, то обучение будет идти, но статистически при большем числе нулей в листьях будут только нули, т.е. если есть мало четких правил для вытаскивания малого класса, то это может получится, а иначе он будет размазываться по всем листьям.
CatBoost'у требуется, но там есть свой балансировщик, но видимо не справляется.
Вообще если сильный дисбаланс, то обучение будет идти, но статистически при большем числе нулей в листьях будут только нули, т.е. если есть мало четких правил для вытаскивания малого класса, то это может получится, а иначе он будет размазываться по всем листьям.
Или как всегда в данных почти нет закономерностей.
Вообще если сильный дисбаланс, то обучение будет идти, но статистически при большем числе нулей в листьях будут только нули, т.е. если есть мало четких правил для вытаскивания малого класса, то это может получится, а иначе он будет размазываться по всем листьям.
Правило четкое, - берется тот сплит, который сильнее всего делает листья чистыми от примесей другого класса.
Я добавил ссылку на блог, при большой выборке будет из чего сформировать листья с малым классом, плюс можно использовать корень индекса Джини (только я его формулу так и не нашел).
Думаю для такого огромного количества данных надо деревья делать глубже, чтобы листья лучше очищались.
Алглибовский лес до 1 примера в листе доводит, разделение 100%-ное. В листьях только 0 или 1 останется.Если у вас остается по 10 тыс примеров в листе, то естественно он будет размазан, а вот если до 100 довести разделение, то думаю уже будет четче.
Aleksey Vyazmikin:
Или как всегда в данных почти нет закономерностей.
Правило четкое, - берется тот сплит, который сильнее всего делает листья чистыми от примесей другого класса.
Я добавил ссылку на блог, при большой выборке будет из чего сформировать листья с малым классом, плюс можно использовать корень индекса Джини (только я его формулу так и не нашел).
Так у него предикторов мало - маленькая размерность получается, поэтому вариантов для комбинаций деревьев так же мало.
Я брал 1% выборки - там на тесте 100% обучение - просто думаю, что нет выраженной закономерности.
И, CatBoost несколько рандомно берет предикторы для построения - так уменьшается подгонка, по их пониманию.
Думаю для такого огромного количества данных надо деревья делать глубже, чтобы листья лучше очищались.
Если у вас остается по 10 тыс примеров в листе, то естественно он будет размазал, а вот если до 100 довести разделение, то думаю уже будет четче.
Дерево глубиной 6 стоит, и думаю глубина нужна при большем числе предикторов.
Сетку сделал 256.
Дерево глубиной 6 стоит, и думаю глубина нужна при большем числе предикторов.
Сетку сделал 256.
Чем больше строк тем больше глубина нужна.
Если там гигабайты, значит миллионы строк. При глубине 6, в конечном листе будет 1/64 часть от полного числа примеров/строк, т.е. десятки тысяч, если на входе миллионы.
Попробуйте глубину 15 (это вроде максимум, в листе останется 1/32768 часть строк)
спорить не о чем, поскольку в любом нормальном фреймворке сделал и показал, с минимумом кода
самоделки здесь особо не обсуждаются, только взрослые модели типа катбуста или современных нейросетей
эту мышиную возню с нейростями на mql даже не интересно обсуждать, потому что мир далеко ушел вперед, и каждый год удваивает отрыв
Допустим, ты мне говоришь: "у меня такая-то модель на тензорфлоу".. я говорю збс, могу сделат такую же на торче за 5 минут и проверить. А ты мне говоришь что что-то там накодил на mql. И зачем мне эта инфа? как я это восроизведу
кроме улыбки ни чего не вызывает) а почему Вы не допускаете что у меня такая модель до которой тензорфлоу/торчу ещё пару лет, и при этом я утрою отрыв, почему не допускаете?)
из какой-то книги Эдгара Петерса, конечно не дословно - "Клерк/брокер пройдет мимо пятифунтовой купюры лежащей на какойто там улице, потому-что в его теори вероятностей её там быть не должно"...)
Успехов.
Чем больше строк тем больше глубина нужна.
Если там гигабайты, значит миллионы строк. При глубине 6, в конечном листе будет 1/64 часть от полного числа примеров/строк, т.е. десятки тысяч, если на входе миллионы.
Так CB строит ансамбли, т.е. резанье происходит и так, и мельчашение зависит от числа деревьев вообще они максимум рекомендуют глубину 10.