Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 3522
Вы упускаете торговые возможности:
- Бесплатные приложения для трейдинга
- 8 000+ сигналов для копирования
- Экономические новости для анализа финансовых рынков
Регистрация
Вход
Вы принимаете политику сайта и условия использования
Если у вас нет учетной записи, зарегистрируйтесь
Ещё актуально. Мне действительно интересно, так как у меня совсем другие выводы - возможно, столь разная выборка.
Получилось снизить энтропию (logloss) через разметку с добавлением некоторых "правил". То есть совмещение МО и ТС на логике.
Например, при случайной разметке хоть Accuracy и нормальный, но logloss оставлял желать лучшего
А с новой разметкой получается так
Прямо порадовался, реальный improvement. Не зря тему энтропии затронул.
:)
Получилось снизить энтропию (logloss) через разметку с добавлением некоторых "правил". То есть совмещение МО и ТС на логике.
Например, при случайной разметке хоть Accuracy и нормальный, но logloss оставлял желать лучшего
А с новой разметкой получается так
Прямо порадовался, реальный improvement. Не зря тему энтропии затронул.
:)
Конечно, такое можно получить и при случайном семплинге. Но, по грубым расчетам, нужно сделать минимум 10000 перезапусков разметки, с учетом длины выборки и диапазона параметров. Это минимум, на уровне вероятности выпадения такой же разметки, а так в районе миллиона.
Поэтому хотелось найти быстрый способ проверки, но напрямую через энтропию не получилось. Через модель это долго.Для каждого кластера отдельный файл
Спасибо.
Взял одну выборку (кластер), обучил 100 моделей с разным seed, по 10 деревьев глубиной 6, темп 0,03.
Вот такой разброс по точности - не очень критичный, но значимый.
По откликам - тут уже значительно существенней.
И, я не менял какие либо ещё настройки - коих много в CatBoost.
В итоге считаю, что одной модели недостаточно, что бы оценить качество разметки с помощью модели.
Спасибо.
Взял одну выборку (кластер), обучил 100 моделей с разным seed, по 10 деревьев глубиной 6, темп 0,03.
Вот такой разброс по точности - не очень критичный, но значимый.
По откликам - тут уже значительно существенней.
И, я не менял какие либо ещё настройки - коих много в CatBoost.
В итоге считаю, что одной модели недостаточно, что бы оценить качество разметки с помощью модели.
ну так в среднем оценивается
а, это уже на другом принципе, не на том что в статьях через cv. Здесь ничего не фильтровалось.ну так в среднем оценивается
Я так понял, что берётся одна (путь две) модель для каждой разметки - я не так понял?
А вот по балансу ошибки - получились такие разнообразные итоги
Худший вариант - баланс и модель
Лучший вариант - баланс и модель
Всё по одной выборке - что там будет на будущих данных - не знаю. Главное, разнообразие имеется.
а, это уже на другом принципе, не на том что в статьях через cv. Здесь ничего не фильтровалось.
Просто рандомно разбрасывались зёрна(единички)?
Просто рандомно разбрасывались зёрна(единички)?
Со случайным количеством баров прогнозирования вперед. Потом в какую сторону профит так и размечается, 0 или 1.
Да короче забейте, вы так ничего не найдете в этих датасетах :) они в связке со второй моделью работают, 2 модели сразу.
Прямо порадовался, реальный improvement. Не зря тему энтропии затронул.
Ну, секреты изменения не спрашиваю, лишь отмечу, что в CatBoost с какой то там версии сделали автоматическую балансировку метрик по пропорции классов - если Вы постоянно меняете разметку, то для Вас это должно быть критично - рекомендую отключить балансировку (использование весов).
Со случайным количеством баров прогнозирования вперед. Потом в какую сторону профит так и размечается, 0 или 1.
Да короче забейте, вы так ничего не найдете в этих датасетах :) они в связке со второй моделью работают, 2 модели сразу.