Discussão do artigo "Quantificação no aprendizado de máquina (Parte 1): Teoria, exemplo de código, análise da implementação no CatBoost"

 

Novo artigo Quantificação no aprendizado de máquina (Parte 1): Teoria, exemplo de código, análise da implementação no CatBoost foi publicado:

Neste artigo, discutiremos a aplicação teórica da quantização ao construir modelos baseados em árvores. São examinados os métodos de quantização implementados no CatBoost. O material será apresentado em linguagem acessível, sem fórmulas matemáticas complexas.

Então, o que é quantização e por que é usada? Vamos entender!

Primeiramente, vamos falar um pouco sobre dados. Para a criação de modelos (realização de treinamento), são necessários dados que são meticulosamente coletados em uma tabela, e a fonte desses dados pode ser qualquer informação capaz de explicar a métrica alvo (por exemplo, um sinal de negociação). As fontes de dados são chamadas de diferentes maneiras: preditores, features, atributos, fatores. A periodicidade da aparição de dados é determinada pela ocorrência de uma observação comparável do processo ou fenômeno que está sendo coletado e será estudado através do aprendizado de máquina. O conjunto de dados obtidos é chamado de amostra.

A amostra pode ser representativa, isto é, quando as observações registradas descrevem todo o processo do fenômeno estudado, ou pode ser não representativa, isto é, quando há dados apenas suficientes para descrever parcialmente o processo do fenômeno estudado. Normalmente, ao lidar com mercados financeiros, estamos lidando com amostras não representativas, porque ainda não aconteceu tudo que pode acontecer, e por isso é desconhecido como o instrumento financeiro se comportará diante de novos eventos que nunca ocorreram antes, em sua totalidade. No entanto, todos conhecem o dito "a história se repete", e é nessa observação que um operador de mercado se baseia em sua pesquisa, esperando que entre os novos eventos haja aqueles que se assemelham aos anteriores, e que o resultado deles seja com uma probabilidade identificada similar.


Autor: Aleksey Vyazmikin

Razão: