文章 "机器学习中的量化(第 2 部分):数据预处理、表格选择、训练 CatBoost 模型"

 

新文章 机器学习中的量化(第 2 部分):数据预处理、表格选择、训练 CatBoost 模型已发布:

本文探讨了量化在树模型构建中的实际应用。探讨了选择量化表和数据预处理的方法。没有使用复杂的数学方程。

让我们使用描述 Q_Error_Selection 脚本功能的示例来探讨我已经实现的数据预处理方法。

简而言之,“Q_Error_Selection”脚本的目标是从“train.csv”文件加载样本,将内容传输到矩阵中,预处理数据,交替加载量化表,并评估每个预测器的恢复数据相对于原始数据的误差。每个量化表的评估结果都保存到数组中。检查完所有选项后,我们将为每个预测变量创建一个包含误差的汇总表,并根据给定的标准为每个预测变量选择最佳的量化表选项。让我们创建并保存一个摘要量化表,这是一个具有 CatBoost 设置的文件,从训练列表中排除的预测因子将与其列的序列号一起添加到其中。此外,根据选定的脚本设置创建附带文件。

作者:Aleksey Vyazmikin