Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 3479

 
mytarmailS #:
Еще до нашей эры Аристотель говорил: «…Иметь не одно значение — значит не иметь ни одного значения; если же у слов нет (определённых) значений, тогда утрачена всякая возможность рассуждать друг с другом, а в действительности и с самим собой, ибо невозможно ничего мыслить, если не мыслить каждый раз что-нибудь одно».

Даже не знаю, были ли уже тогда синонимы в его родном языке...

 
Такой вопрос давно меня тревожил, а что будет, если в предикторах поменять их цифровое значение, ну, допустим поменять местами 1 и 10, изменится ли результат обучения на том же CatBoost?
 
Aleksey Vyazmikin #:
Такой вопрос давно меня тревожил, а что будет, если в предикторах поменять их цифровое значение, ну, допустим поменять местами 1 и 10, изменится ли результат обучения на том же CatBoost?
Если они категориальные - то не изменится. При отключенной рандомизации (фиксировнном seed, но может в катбусте еще что есть рандомного...).
Если числовые и есть значения от 2 до 9, то 1 окажется за 9, а 10 до 2 при сортировке. Оценка сплитов станет другой.
 
Forester #:
Если они категориальные - то не изменится. При отключенной рандомизации (фиксировнном seed, но может в катбусте еще что есть рандомного...).
Если числовые и есть значения от 2 до 9, то 1 окажется за 9, а 10 до 2 при сортировке. Оценка сплитов станет другой.

Допустим алгоритм не работает с кат предикторами. Если алгоритм силен, то, он должен найти аналогичные сплиты, как и до перестановки - одна из гипотез была. По факту обучение совсем другое. Это значит, что если просто преобразовывать шкалу так, что бы менялся порядок значений, то это изменит результат обучения.

Вот я подумал, и упорядочил значения по смещению вероятности после квантования, обучение стало проходить в раз 7 быстрей - вместо 400 деревьев - всего 60, но значительно ухудшился финансовый результат на двух остальных выборках. Получается, что из-за хауса распределения вероятности принадлежности к классу случайно удаётся обучаться чуть лучше.

 

Если смотреть по среднему logloss 100 моделей:

train был 0,518 стал 0,448

test  был 0,543 стал 0,555

exam  был 0,560 стал 0,570

Т.е. по 2 и 3 выборке результат сопоставим, а вот на первой выборке быстрей происходит обучение/обобщение после преобразования.

 
Aleksey Vyazmikin #:

Если смотреть по среднему logloss 100 моделей:

train был 0,518 стал 0,448

test  был 0,543 стал 0,555

exam  был 0,560 стал 0,570

Т.е. по 2 и 3 выборке результат сопоставим, а вот на первой выборке быстрей происходит обучение/обобщение после преобразования.

0.57/0.448 = 1.2723, т.е. разница в 27%. модель можно выбросить.

 
Aleksey Vyazmikin #:

Даже не знаю, были ли уже тогда синонимы в его родном языке...

Синонимы - это  где-то в стихах в романах. А вот в точных науках синонимов не бывает. Хотя полно дилетантов, которые не знают точного значения терминов... и начинаю гнать отсебятину.

 
Aleksey Vyazmikin #:

Вот я подумал, и упорядочил значения по смещению вероятности после квантования, обучение стало проходить в раз 7 быстрей - вместо 400 деревьев - всего 60, но значительно ухудшился финансовый результат на двух остальных выборках. Получается, что из-за хауса распределения вероятности принадлежности к классу случайно удаётся обучаться чуть лучше.

Вот и результат вашего перемешивания. По сути - внесли дополнительный шум. Примерно как  Features Permutation Importance метод оценки предикторов, который перемешивает столбец, там самым делая его шумом. Вы его тоже перемешали, но блоками/квантами.

 
СанСаныч Фоменко #:

Синонимы - это  где-то в стихах в романах. А вот в точных науках синонимов не бывает. Хотя полно дилетантов, которые не знают точного значения терминов... и начинаю гнать отсебятину.

Да даже если не отсебятину, а что то умное гнать самопридумаными терминами то понимания не наступит

 
Forester #:

Вот и результат вашего перемешивания. По сути - внесли дополнительный шум. Примерно как  Features Permutation Importance метод оценки предикторов, который перемешивает столбец, там самым делая его шумом. Вы его тоже перемешали, но блоками/квантами.

При чём тут шум? Я упростил обучение для алгоритма. Алгоритм стал использовать меньше сплитов/деревьев для прихода к "тому же" результату.

Причина обращения: