Discussão do artigo "Quantificação no aprendizado de máquina (Parte 2): Pré-processamento de dados, seleção de tabelas, treinamento do modelo CatBoost"

 

Novo artigo Quantificação no aprendizado de máquina (Parte 2): Pré-processamento de dados, seleção de tabelas, treinamento do modelo CatBoost foi publicado:

Este artigo trata da aplicação prática da quantização na construção de modelos baseados em árvores. São examinados métodos para selecionar tabelas quantizadas e para o pré-processamento de dados. O material será apresentado em linguagem acessível, sem fórmulas matemáticas complexas.

Através da descrição da funcionalidade do script "Q_Error_Otbor", vamos nos familiarizar com os métodos de pré-processamento de dados que eu implemento.

Para descrever brevemente o objetivo do script "Q_Error_Otbor", ele serve para carregar a amostra do arquivo "train.csv", transferir o conteúdo para uma matriz, pré-processar os dados, e carregar sequencialmente as tabelas quantizadas e avaliar o erro dos dados restaurados em relação aos originais para cada preditor. Os resultados da avaliação de cada tabela quantizada serão salvos em um array. Após testar todas as opções, criaremos uma tabela resumo com os erros para cada preditor, selecionaremos as melhores opções de tabelas quantizadas para cada preditor conforme um critério definido. Criaremos e salvaremos uma tabela quantizada resumo, um arquivo de configurações do CatBoost, que incluirá os preditores excluídos da lista de treinamento, com a indicação dos números de suas colunas. Também serão criados outros arquivos relacionados, dependendo das configurações escolhidas para o script.

Autor: Aleksey Vyazmikin

Razão: