Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 2798
Вы упускаете торговые возможности:
- Бесплатные приложения для трейдинга
- 8 000+ сигналов для копирования
- Экономические новости для анализа финансовых рынков
Регистрация
Вход
Вы принимаете политику сайта и условия использования
Если у вас нет учетной записи, зарегистрируйтесь
предварительный отбор признаков для современных моделей типа Бустинг почти ничего не дает.
Бустинг ищет самые лучшие сплиты из всех столбцов и всех примеров. Т.е. использует самые лучшие фичи.
Случ. лес берет половину фич и половину примеров (доля настраиваема) для каждого дерева и потом из 20-100 деревьев находит среднее. Если из 200 фич всего 5 информативных, то в часть деревьев информатывные фичи и не попадут (в среднем по 2.5 инф. фичи на дерево). И усреднять будем часть информативных деревьев с шумовыми деревьями. Результат будет тоже очень зашумленным.
Случ. лес хорошо сработает, если информативных фич много (как в классических примерах/задачах МО).
Бустинг найдет и будет использовать самые информативные фичи, т.к. он проверяет их все. Так что по логике работы бустинга, он сам отберет наилучшие фичи. Но у буста свои проблемы тоже есть.
Бустинг найдет и будет использовать самые информативные фичи, т.к. он проверяет их все. Так что по логике работы бустинга, он сам отберет наилучшие фичи. Но у буста свои проблемы тоже есть.
Создал тему с выборкой, которая доказывает обратное - бустинг не всесилен, особенно из коробки.
Бустинг ищет самые лучшие сплиты из всех столбцов и всех примеров. Т.е. использует самые лучшие фичи.
Случ. лес берет половину фич и половину примеров (доля настраиваема) для каждого дерева и потом из 20-100 деревьев находит среднее. Если из 200 фич всего 5 информативных, то в часть деревьев информатывные фичи и не попадут (в среднем по 2.5 инф. фичи на дерево). И усреднять будем часть информативных деревьев с шумовыми деревьями. Результат будет тоже очень зашумленным.
Случ. лес хорошо сработает, если информативных фич много (как в классических примерах/задачах МО).
Бустинг найдет и будет использовать самые информативные фичи, т.к. он проверяет их все. Так что по логике работы бустинга, он сам отберет наилучшие фичи. Но у буста свои проблемы тоже есть.
Не могу согласиться по бустингу.
Бустинг найдет признаки, имеющими сильную связь (предсказательную способность) - верим в это. Все прекрасно, если величина связи является постоянной. Отказавшись от оценки самого признака, в бустинге мы не можем отследить изменчивость величины связи, а по моим данных SD оценки связи может меняться от 10% до 120 (на моих признаках). Что нам даст бустинг? Ведь надо обраковать признаки, которые имеют большую изменчивость.
Сама оценка штука относительная.
Повторю картинки.
Плохо, безнадежно%
Получше, если таких несколько, можно будет говорить о 30% ошибки предсказания.
И мусор обязательно удалять, а то на наборе обучения фишка может лечь в пользу мусора, легче найти значение, которое ведет к оптимуму.
Бустинг ищет самые лучшие сплиты из всех столбцов и всех примеров. Т.е. использует самые лучшие фичи.
Случ. лес берет половину фич и половину примеров (доля настраиваема) для каждого дерева и потом из 20-100 деревьев находит среднее. Если из 200 фич всего 5 информативных, то в часть деревьев информатывные фичи и не попадут (в среднем по 2.5 инф. фичи на дерево). И усреднять будем часть информативных деревьев с шумовыми деревьями. Результат будет тоже очень зашумленным.
Случ. лес хорошо сработает, если информативных фич много (как в классических примерах/задачах МО).
Бустинг найдет и будет использовать самые информативные фичи, т.к. он проверяет их все. Так что по логике работы бустинга, он сам отберет наилучшие фичи. Но у буста свои проблемы тоже есть.
чем больше взаимной инфы при разделении на классы, тем распределения меньше пересекаются, что логично
Вы не обратили внимание на изменчивость sd
Не могу согласиться по бустингу.
Бустинг найдет признаки, имеющими сильную связь (предсказательную способность) - верим в это. Все прекрасно, если величина связи является постоянной. Отказавшись от оценки самого признака, в бустинге мы не можем отследить изменчивость величины связи, а по моим данных SD оценки связи может меняться от 10% до 120 (на моих признаках). Что нам даст бустинг? Ведь надо обраковать признаки, которые имеют большую изменчивость.
Все модели МО ищут закономерности. Бустинг автоматически выбирает лучшие признаки на трейне.
Если есть изменчивость (например в рыночных данных), то надо как то дополнительно выкручиваться. Я экспериментировал с валкинг форвардом. Но он просто показывает результат, на отбор признаков он не влияет. Да и ничто вам не предскажет, какие признаки будут работать в будущем, если нет закономерностей или они меняются. Единственный шанс, что меняются не моментально, а модель какое-то время еще поработает.
Создал тему с выборкой, которая доказывает обратное - бустинг не всесилен, особенно из коробки.
Думаю это не проблема буста, а изменчивости данных. Попробую обучиться на ваших данных.
Конечно, дело не в алгоритме, как таковом, а в данных.
Попробуйте, может, что у Вас выйдет!
Выборка относительно уникальна тем, что на ней тяжело обучиться, что б что то работала за пределами обучения.
Я пока с ней так же экспериментирую.
Выборка относительно уникальна тем, что на ней тяжело обучиться, что б что то работала за пределами обучения.
Разве это уникальность? За пределами обучения рыночные данные обычно не работают. Я вам там задал пару вопросов