Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 3479
Вы упускаете торговые возможности:
- Бесплатные приложения для трейдинга
- 8 000+ сигналов для копирования
- Экономические новости для анализа финансовых рынков
Регистрация
Вход
Вы принимаете политику сайта и условия использования
Если у вас нет учетной записи, зарегистрируйтесь
Еще до нашей эры Аристотель говорил: «…Иметь не одно значение — значит не иметь ни одного значения; если же у слов нет (определённых) значений, тогда утрачена всякая возможность рассуждать друг с другом, а в действительности и с самим собой, ибо невозможно ничего мыслить, если не мыслить каждый раз что-нибудь одно».
Даже не знаю, были ли уже тогда синонимы в его родном языке...
Такой вопрос давно меня тревожил, а что будет, если в предикторах поменять их цифровое значение, ну, допустим поменять местами 1 и 10, изменится ли результат обучения на том же CatBoost?
Если числовые и есть значения от 2 до 9, то 1 окажется за 9, а 10 до 2 при сортировке. Оценка сплитов станет другой.
Если они категориальные - то не изменится. При отключенной рандомизации (фиксировнном seed, но может в катбусте еще что есть рандомного...).
Если числовые и есть значения от 2 до 9, то 1 окажется за 9, а 10 до 2 при сортировке. Оценка сплитов станет другой.
Допустим алгоритм не работает с кат предикторами. Если алгоритм силен, то, он должен найти аналогичные сплиты, как и до перестановки - одна из гипотез была. По факту обучение совсем другое. Это значит, что если просто преобразовывать шкалу так, что бы менялся порядок значений, то это изменит результат обучения.
Вот я подумал, и упорядочил значения по смещению вероятности после квантования, обучение стало проходить в раз 7 быстрей - вместо 400 деревьев - всего 60, но значительно ухудшился финансовый результат на двух остальных выборках. Получается, что из-за хауса распределения вероятности принадлежности к классу случайно удаётся обучаться чуть лучше.
Если смотреть по среднему logloss 100 моделей:
train был 0,518 стал 0,448
test был 0,543 стал 0,555
exam был 0,560 стал 0,570
Т.е. по 2 и 3 выборке результат сопоставим, а вот на первой выборке быстрей происходит обучение/обобщение после преобразования.
Если смотреть по среднему logloss 100 моделей:
train был 0,518 стал 0,448
test был 0,543 стал 0,555
exam был 0,560 стал 0,570
Т.е. по 2 и 3 выборке результат сопоставим, а вот на первой выборке быстрей происходит обучение/обобщение после преобразования.
0.57/0.448 = 1.2723, т.е. разница в 27%. модель можно выбросить.
Даже не знаю, были ли уже тогда синонимы в его родном языке...
Синонимы - это где-то в стихах в романах. А вот в точных науках синонимов не бывает. Хотя полно дилетантов, которые не знают точного значения терминов... и начинаю гнать отсебятину.
Вот я подумал, и упорядочил значения по смещению вероятности после квантования, обучение стало проходить в раз 7 быстрей - вместо 400 деревьев - всего 60, но значительно ухудшился финансовый результат на двух остальных выборках. Получается, что из-за хауса распределения вероятности принадлежности к классу случайно удаётся обучаться чуть лучше.
Вот и результат вашего перемешивания. По сути - внесли дополнительный шум. Примерно как Features Permutation Importance метод оценки предикторов, который перемешивает столбец, там самым делая его шумом. Вы его тоже перемешали, но блоками/квантами.
Синонимы - это где-то в стихах в романах. А вот в точных науках синонимов не бывает. Хотя полно дилетантов, которые не знают точного значения терминов... и начинаю гнать отсебятину.
Да даже если не отсебятину, а что то умное гнать самопридумаными терминами то понимания не наступит
Вот и результат вашего перемешивания. По сути - внесли дополнительный шум. Примерно как Features Permutation Importance метод оценки предикторов, который перемешивает столбец, там самым делая его шумом. Вы его тоже перемешали, но блоками/квантами.
При чём тут шум? Я упростил обучение для алгоритма. Алгоритм стал использовать меньше сплитов/деревьев для прихода к "тому же" результату.