Discusión sobre el artículo "Redes neuronales: así de sencillo (Parte 17): Reducción de la dimensionalidad"

 

Artículo publicado Redes neuronales: así de sencillo (Parte 17): Reducción de la dimensionalidad:

Seguimos analizando modelos de inteligencia artificial, y en particular, los algoritmos de aprendizaje no supervisado. Ya nos hemos encontrado con uno de los algoritmos de clusterización. Y en este artículo queremos compartir con ustedes una posible solución a los problemas de la reducción de la dimensionalidad.

El análisis de componentes principales fue inventado por el matemático inglés Karl Pearson en 1901. Desde entonces, se ha usado con éxito en muchos campos de la ciencia.

Para comprender la esencia del método, proponemos realizar una tarea simplificada para reducir la dimensionalidad de un array bidimensional de datos a un vector. Desde un punto de vista geométrico, esto se puede representar como una proyección de los puntos de un cierto plano sobre una línea recta.

En la siguiente figura, los datos iniciales están representados por puntos azules y se realizan dos proyecciones sobre las líneas naranja y gris con los puntos del color correspondiente. Como podemos ver, la distancia promedio de los puntos iniciales hasta sus proyecciones naranjas será menor que las distancias similares hasta las proyecciones grises. En este caso, entre las proyecciones grises, podemos notar la superposición de las proyecciones de los puntos entre sí. Por lo tanto, la proyección naranja resulta preferible para nosotros, ya que separa todos los puntos individuales y sufre una menor pérdida de datos al reducir la dimensionalidad (la distancia de los puntos hasta sus proyecciones).

Esa línea se llama componente principal. De ahí el nombre del método de análisis de componentes principales.

Desde un punto de vista matemático, cada componente principal es un vector numérico con un tamaño igual a la dimensión de los datos originales. El producto del vector de datos iniciales que describe un estado del sistema por el vector correspondiente del componente principal da precisamente el punto de proyección del estado analizado en la línea recta.

Según la dimensionalidad de los datos de origen y los requisitos para la compresión de los datos, podrá haber varios de estos componentes principales, pero no más que la dimensionalidad de los datos de origen. Al visualizar una proyección volumétrica, habrá 3 de ellos. Al comprimir los datos, parten de un error permitido, por lo general teniendo una pérdida de hasta el 1% de los datos.

Método de componentes principales

Probablemente deberíamos prestar atención a que esto resulta visualmente similar a la regresión lineal. Pero estos son métodos completamente distintos y dan resultados diferentes.

Autor: Dmitriy Gizlyk