Если в предикторах поменять цифровое значение, то это изменит результат обучения на том же CatBoost - Общее обсуждение

Aleksey Vyazmikin 2024.04.20 19:06 #34781

mytarmailS #:
Еще до нашей эры Аристотель говорил: «…Иметь не одно значение — значит не иметь ни одного значения; если же у слов нет (определённых) значений, тогда утрачена всякая возможность рассуждать друг с другом, а в действительности и с самим собой, ибо невозможно ничего мыслить, если не мыслить каждый раз что-нибудь одно».

Даже не знаю, были ли уже тогда синонимы в его родном языке...

Aleksey Vyazmikin 2024.04.21 04:10 #34782

Такой вопрос давно меня тревожил, а что будет, если в предикторах поменять их цифровое значение, ну, допустим поменять местами 1 и 10, изменится ли результат обучения на том же CatBoost?

Forester 2024.04.21 05:59 #34783

Aleksey Vyazmikin #:
Такой вопрос давно меня тревожил, а что будет, если в предикторах поменять их цифровое значение, ну, допустим поменять местами 1 и 10, изменится ли результат обучения на том же CatBoost?

Если они категориальные - то не изменится. При отключенной рандомизации (фиксировнном seed, но может в катбусте еще что есть рандомного...).
Если числовые и есть значения от 2 до 9, то 1 окажется за 9, а 10 до 2 при сортировке. Оценка сплитов станет другой.

Aleksey Vyazmikin 2024.04.21 14:22 #34784

Forester #:
Если они категориальные - то не изменится. При отключенной рандомизации (фиксировнном seed, но может в катбусте еще что есть рандомного...).
Если числовые и есть значения от 2 до 9, то 1 окажется за 9, а 10 до 2 при сортировке. Оценка сплитов станет другой.

Допустим алгоритм не работает с кат предикторами. Если алгоритм силен, то, он должен найти аналогичные сплиты, как и до перестановки - одна из гипотез была. По факту обучение совсем другое. Это значит, что если просто преобразовывать шкалу так, что бы менялся порядок значений, то это изменит результат обучения.

Вот я подумал, и упорядочил значения по смещению вероятности после квантования, обучение стало проходить в раз 7 быстрей - вместо 400 деревьев - всего 60, но значительно ухудшился финансовый результат на двух остальных выборках. Получается, что из-за хауса распределения вероятности принадлежности к классу случайно удаётся обучаться чуть лучше.

Что подать на вход Есть ли закономерность в Советники: Swetten

Aleksey Vyazmikin 2024.04.21 14:42 #34785

Если смотреть по среднему logloss 100 моделей:

train был 0,518 стал 0,448

test был 0,543 стал 0,555

exam был 0,560 стал 0,570

Т.е. по 2 и 3 выборке результат сопоставим, а вот на первой выборке быстрей происходит обучение/обобщение после преобразования.

Есть ли закономерность в Новая версия платформы MetaTrader Параболик и ММ

СанСаныч Фоменко 2024.04.21 15:47 #34786

Aleksey Vyazmikin #:

Если смотреть по среднему logloss 100 моделей:

train был 0,518 стал 0,448

test был 0,543 стал 0,555

exam был 0,560 стал 0,570

Т.е. по 2 и 3 выборке результат сопоставим, а вот на первой выборке быстрей происходит обучение/обобщение после преобразования.

0.57/0.448 = 1.2723, т.е. разница в 27%. модель можно выбросить.

СанСаныч Фоменко 2024.04.21 15:50 #34787

Aleksey Vyazmikin #:

Даже не знаю, были ли уже тогда синонимы в его родном языке...

Синонимы - это где-то в стихах в романах. А вот в точных науках синонимов не бывает. Хотя полно дилетантов, которые не знают точного значения терминов... и начинаю гнать отсебятину.

Forester 2024.04.21 15:54 #34788

Aleksey Vyazmikin #:

Вот я подумал, и упорядочил значения по смещению вероятности после квантования, обучение стало проходить в раз 7 быстрей - вместо 400 деревьев - всего 60, но значительно ухудшился финансовый результат на двух остальных выборках. Получается, что из-за хауса распределения вероятности принадлежности к классу случайно удаётся обучаться чуть лучше.

Вот и результат вашего перемешивания. По сути - внесли дополнительный шум. Примерно как Features Permutation Importance метод оценки предикторов, который перемешивает столбец, там самым делая его шумом. Вы его тоже перемешали, но блоками/квантами.

Субботник по наполнению FAQ [АРХИВ!] Любой вопрос новичка, Математическое ожидание выигрыша

mytarmailS 2024.04.21 15:54 #34789

СанСаныч Фоменко #:

Синонимы - это где-то в стихах в романах. А вот в точных науках синонимов не бывает. Хотя полно дилетантов, которые не знают точного значения терминов... и начинаю гнать отсебятину.

Да даже если не отсебятину, а что то умное гнать самопридумаными терминами то понимания не наступит

Aleksey Vyazmikin 2024.04.21 16:04 #34790

Forester #:

Вот и результат вашего перемешивания. По сути - внесли дополнительный шум. Примерно как Features Permutation Importance метод оценки предикторов, который перемешивает столбец, там самым делая его шумом. Вы его тоже перемешали, но блоками/квантами.

При чём тут шум? Я упростил обучение для алгоритма. Алгоритм стал использовать меньше сплитов/деревьев для прихода к "тому же" результату.

Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 3479