Обсуждение статьи "Квантование в машинном обучении (Часть 2): Предобработка данных, отбор таблиц, обучение моделий CatBoost"

 

Опубликована статья Квантование в машинном обучении (Часть 2): Предобработка данных, отбор таблиц, обучение моделий CatBoost:

В настоящей статье речь пойдёт о практическом применении квантования при построении древовидных моделей. Рассмотрены методы отбора квантовых таблиц и предобработки данных. Материал будет подан без сложных математических формул, доступным языком.

На примере описания функционала скрипта "Q_Error_Otbor" познакомимся с реализованными мной методами предобработки данных.

Если кратко описать цель работы скрипта "Q_Error_Otbor", то ей является загрузка выборки из файла "train.csv", перенес содержимого в матрицу, предобработка данных, и поочередная загрузка квантовых таблиц и их оценка ошибки восстановленных данных относительно оригинальных для каждого предиктора. Результаты оценки каждой квантовой таблицы будем сохранять в массив. После проверки всех вариантов создадим сводную таблицу с ошибками для каждого предиктора,  отберём по заданному критерию лучшие варианты квантовых таблиц для каждого предиктора. Создадим и сохраним сводную квантовую таблицу, файл с настройками CatBoost, в который будут добавлены исключённые из перечня для обучения предикторы, с указанием порядковых номеров их столбцов. А так же созданы иные сопутствующие файлы, в зависимости от выбранных настроек скрипта.

Автор: Aleksey Vyazmikin

Причина обращения: