Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 496
Вы упускаете торговые возможности:
- Бесплатные приложения для трейдинга
- 8 000+ сигналов для копирования
- Экономические новости для анализа финансовых рынков
Регистрация
Вход
Вы принимаете политику сайта и условия использования
Если у вас нет учетной записи, зарегистрируйтесь
Умеет ли лес экстраполировать? Да.
Хорошо ли он это делает? Нет.
А что такое хорошо и что такое плохо?
У Вас имеется сравнительный анализ разных моделей? Причем с самого начала: с пригодности конкретных предикторов к конкретной целевой, с пригодности конкретного набора предикторов к конкретной модели, а затем оценка с обязательным прогоном на файле вне файлов обучения? С обоснованием, что модели не переобучены.
Имея все это можно будет судить что такое хорошо и что такое плохо для конкретного набора предикторов и целевой. При этом надо понимать, что скорее всего существует ИНОЙ набор предикторов и целевая, которые дадут ДРУГОЙ результат.
Для своего конкретного случая я такую работу делал. Результат выкладывал несколько раз на этой ветке. Порядок моделей по мере ухудшения: ada, rf, SVM. Хуже всех НС, но ее какой-то древний вариант, современные не пользовал. Это все при соблюдении выше перечисленных условий.
Вот интересный пример, его в этой теме когда-то раньше выкладывал toxic.
Экстраполяцией в данном случае будет предсказание вне "облака известных точек"
Если известные точки хорошо кучкуются в кластеры, то видно что экстраполяция не вызывает проблем у большинства моделей.
Но если бы известные точки располагались более рандомно, без очевидных кластеров, то и само предсказание было бы хуже, и экстраполяция бы не вызывала доверия.
Всё дело в предикторах, если напихать в модель всякого мусора то хорошей экстраполяции действительно не будет.
Конкретно для форекса вряд ли удастся найти идеальные предикторы, торговать экстраполяцией на финансовых данных я бы никогда не стал.
экстраполяция это прогноз на неизвестных точках, если точки выходят за макс и мин обучающей выборки, то RF всегда на выходе будет выдавать макс и мин из обученной выборки
а вы как раз путаете с аппроксимацией мб?
Вот интересный пример, его в этой теме когда-то раньше выкладывал toxic.
Экстраполяцией в данном случае будет предсказание вне "облака известных точек"
Если известные точки хорошо кучкуются в кластеры, то видно что экстраполяция не вызывает проблем у большинства моделей.
Но если бы известные точки располагались более рандомно, без очевидных кластеров, то и само предсказание было бы хуже, и экстраполяция бы не вызывала доверия.
Всё дело в предикторах, если напихать в модель всякого мусора то хорошей экстраполяции действительно не будет.
Конкретно для форекса вряд ли удастся найти идеальные предикторы, торговать экстраполяцией на финансовых данных я бы никогда не стал.
Вопрос доверия в статистики вообще философский. всегда приходится рассуждать конкретно.
Вот классификация.
Применимо ли к ней само понятие "экстраполяция"? По мне - нет. Классификация нашла паттерны, а потом пытается новые данные разнести по этим паттернам.
Экстраполяция в аналитических моделях, которые имеют некоторую функцию в аналитическом виде.
А АРИМА? В ней экстраполяция? Смотря чего. Сама модель берет несколько последних бар, обычно вообще один. Но подбор параметров требует тысяч бар. Вот эта тысяча и экстраполируется, а тот один, что попал в последний расчет - нет.
По мне экстраполяция в своем математическом понимании на финансовых рынках не применима.
Вопрос доверия в статистики вообще философский. всегда приходится рассуждать конкретно.
Вот классификация.
Применимо ли к ней само понятие "экстраполяция"? По мне - нет. Классификация нашла паттерны, а потом пытается новые данные разнести по этим паттернам.
Экстраполяция в аналитических моделях, которые имеют некоторую функцию в аналитическом виде.
А АРИМА? В ней экстраполяция? Смотря чего. Сама модель берет несколько последних бар, обычно вообще один. Но подбор параметров требует тысяч бар. Вот эта тысяча и экстраполируется, а тот один, что попал в последний расчет - нет.
По мне экстраполяция в своем математическом понимании на финансовых рынках не применима.
Экстраполяция в МО это способность модели работать на новых данных, и это особый тип аппроксимации. На обучающей выборке ваша модель АППРОКСИМИРУЕТ, на новых данных, не в ходящих в обучающую выборку она ЭКСТРАПОЛИРУЕТ
поэтому и приведен пример с линейной регрессией в сравнении с XGboost, который вы невнимательно прочли, линейная регрессия отлично экстраполирует, в то время как все, что связано с деревьями решений экстраполировать НЕ УМЕЕТ по причине устройства деревьев решений
Линейная регрессия вообще СУЩЕСТВУЕТ и в частности экстраполирует ТОЛЬКО на стационарных рядах с нормально распределенными остатками от модели. Для ее применения существует огромное количество ограничений, которые делают этот тип моделей БЕСПОЛЕЗНЫМИ для финансовых рядов.
Или человек вникает в ПРИМЕНИМОСТЬ моделей к его конкретным данным, тогда это моделирование, во всех других случаях - игра в цифирь.
Огромное количество постов на этой ветке - это игра в цифирь, так как доказательств иного не приводится.
Линейная регрессия вообще СУЩЕСТВУЕТ и в частности экстраполирует ТОЛЬКО на стационарных рядах с нормально распределенными остатками от модели. Для ее применения существует огромное количество ограничений, которые делают этот тип моделей БЕСПОЛЕЗНЫМИ для финансовых рядов.
Или человек вникает в ПРИМЕНИМОСТЬ моделей к его конкретным данным, тогда это моделирование, во всех других случаях - игра в цифирь.
Огромное количество постов на этой ветке - это игра в цифирь, так как доказательств иного не приводится.
ппц, причем тут линейная регрессия! вопрос был в том как правильно пользоваться ЛЕСАМИ что бы не допускать ГЛУПЫХ ошибок, например, ДУМАЯ, что они умеют ЭКСТРАПОЛИРОВАТь
подайте в леса временной рядок в виде котировок, и на новых данных, выходящих за максимальное и минимальное значение котировок модель будет прогнозировать только максимальное и минимальное значение изученного ряда, если выйдет за диапазон
Как всё запущенно господа...
немного сведения от КО:
На финансовых рынках экстраполяция\интерполяция применима и очень востребованна.
Если она "применима и востребована", то почему же ты за все эти годы так и сваял успешную ТС?
П.С. Слышу - кошка заорала... Точно, думаю, Алёшка опять написал что нибудь!
Как всё запущенно господа...
немного сведения от КО:
Экстраполяция и интерполяция в контексте МО – ОДНО И ТОЖЕ! В обоих случаях нужно получить значение(int,float[]) точки НЕ СОВПАДАЮЩЕЙ, с точкой из обучающего датасета. Оговорки по поводу, местоположения этой точки в гиперпространстве, по отношению к обучающему облаку точек, НЕ УМЕСТНЫ, так как всё зависит от фичей, от структуры признакового пространства, в одной проекции будет точка “вне” обучающего облака, в другой “внутри” , это не важно, имеет смысл только то, ЧТО ЕЁ НЕТ В ОБУЧЕНИИ, точка.
Резюмирую для закрепления: Если точка отсутствует в обучающем датасете, то результат её классификации или регрессии, будет как экстраполяцией так и интерполяцией, в зависимости от конечной интерпретации результата предметной областью, но для алгоритма МО - ЭТО ОДНО И ТОЖЕ.
Лес экстраполирует – великолепно! В умелых руках лучше и на порядки быстрее НС.
На финансовых рынках экстраполяция\интерполяция применима и очень востребованна.
Отдельный совет Максиму: умный человек ошибается ещё чаше дурака, так как делает намного больше тестов, однако только дурак эмоционально привязан к своей точке зрения и ему тяжело расстаться с ней. Вам выбирать кто вы)))
ок, приведите пример хотя бы 1 статьи с примером где показано, как хорошо экстраполируют леса. Я не нашел ни одного
это на мой взгляд не есть великолепно.
и как вы собираетесь понять когда точка окажется внутри, а когда снаружи облака, когда у вас куча фичей разных, и причем здесь это когда важнее диапазон целевых значений при обучении, когда все деревья построены то целевая не может выйти из этого диапазона НИКОГДА
линейная регрессия отлично экстраполирует, в то время как все, что связано с деревьями решений экстраполировать НЕ УМЕЕТ
Экстраполяция подразумевает предсказание новых данных за пределами значений предикторов известных при обучении.
Вот кусочек старой картинки, всё что заштриховано зелёным - экстраполяция, и судя по картинке лес её умеет делать, иначе бы там всё было закрашено белым цветом (как в случае с некоторыми SVM моделями)
И лес, и нейронка, и линейная модель умеют экстраполяцию. Если вы для предсказания дадите данные находящиеся далеко от известных значений - все эти модели дадут предсказания, все они имеют какие-то алгоритмы для таких случаях.
Но почему вы считаете что раз линейная модель делает экстраполяцию по формуле y=ax+b то она это делает отлично, а раз лес это делает по ближайшему известтному соседу то он ничего не умеет? Оба этих алгоритма имеют право на существование. Как сказал СанСаныч - нужно для каждого набора предикторов и цели проводить исследование и сравнивать модели, только потом можно будет сказать отлично ли модели делают экстраполяцию.
То что написано в статьях на хабре - тоже относится к конкретным предикторам и цели, это не истина работающая на все случаи жизни, это конкретное исследование для конкретного случая.
Экстраполяция подразумевает предсказание новых данных за пределами значений предикторов известных при обучении.
Вот кусочек старой картинки, всё что заштриховано зелёным - экстраполяция, и судя по картинке лес её умеет делать, иначе бы там всё было закрашено белым цветом (как в случае с некоторыми SVM моделями)
И лес, и нейронка, и линейная модель умеют экстраполяцию. Если вы для предсказания дадите данные находящиеся далеко от известных значений - все эти модели дадут предсказания, все они имеют какие-то алгоритмы для таких случаях.
Но почему вы считаете что раз линейная модель делает экстраполяцию по формуле y=ax+b то она это делает отлично, а раз лес это делает по ближайшему известтному соседу то он ничего не умеет? Оба этих алгоритма имеют право на существование. Как сказал СанСаныч - нужно для каждого набора предикторов и цели проводить исследование и сравнивать модели, только потом можно будет сказать отлично ли модели делают экстраполяцию.
То что написано в статьях на хабре - тоже относится к конкретным предикторам и цели, это не истина работающая на все случаи жизни, это конкретное исследование для конкретного случая.
нужно просто провести исследование дерева