Discussão do artigo "Redes neurais de maneira fácil (Parte 17): Redução de dimensionalidade"

 

Novo artigo Redes neurais de maneira fácil (Parte 17): Redução de dimensionalidade foi publicado:

Continuamos a estudar modelos de inteligência artificial, em particular, algoritmos de aprendizado não supervisionados. Já nos encontramos com um dos algoritmos de agrupamento. E neste artigo quero compartilhar com vocês outra maneira de resolver os problemas de redução de dimensionalidade.

A análise de componentes principais foi inventada pelo matemático inglês Karl Pearson em 1901. Desde então, tem sido usado com sucesso em muitos campos da ciência.

Para entender a essência do método em si, proponho a tarefa simplificada de reduzir a dimensão de uma matriz de dados bidimensional a um vetor. Do ponto de vista geométrico, isso pode ser representado como uma projeção de pontos de um determinado plano em uma linha reta.

Na figura abaixo, os dados de entrada são representados por pontos azuis, e duas projeções são feitas nas linhas laranja e cinza com pontos da cor correspondente. Como podemos ver, a distância média entre os pontos iniciais e suas projeções laranjas será menor do que as distâncias semelhantes às projeções cinzas. Neste caso, entre as projeções cinzas, nota-se a sobreposição das projeções dos pontos entre si. Portanto, a projeção laranja é o que nós estamos buscando, pois separa todos os pontos e tem menos perda de dados quando a dimensionalidade é reduzida (distância entre os pontos e suas projeções).

Tal linha é chamada de componente principal. Daí o nome do método - análise de componentes principais.

Do ponto de vista matemático, cada componente principal é um vetor numérico com tamanho igual à dimensionalidade dos dados de entrada. O produto do vetor de dados de entrada que descrevem um estado do sistema pelo vetor correspondente do componente principal fornece o ponto de projeção do estado analisado na linha reta.

Dependendo da dimensionalidade dos dados de entrada e dos requisitos para compactação de dados, pode haver vários desses componentes principais, mas não mais do que a dimensionalidade dos dados de entrada. Ao renderizar uma projeção volumétrica, eles serão 3. E a compressão de dados é baseada em uma margem de erro, geralmente levando uma perda de até 1% dos dados.

Método de componentes principais

Você provavelmente deve prestar atenção que isso é visualmente semelhante à regressão linear. Mas estes são métodos completamente diferentes e dão resultados diferentes.

Autor: Dmitriy Gizlyk