Hoy quería explicar bien, haciendo los cálculos, de dónde salen los componentes principales del Análisis de Componentes Principales pero el catarro no me dejó. Diré en cambio que este es un método de exploración estadística multidimensional que, en su versión más básica, toma un colección de vectores de dimensión alta y encuentra hiperplanos encajados de dimensiones bajas en los cuales los vectores se proyecten preservando en esa sombra tanta estructura como sea posible. Cuando las condiciones son favorables se puede reducir la dimensión hasta un punto donde sea posible graficarla y así apreciar cómo se relacionan los dotos y también qué pasa con las correspondientes dimensiones cuando se aplanan.

Para seguir con las gráficas educativas tomé la tabla de los datos de SABER 11 por áreas por colegios y le apliqué un análisis de componentes principales para intentar verlos en un plano (en el contexto de lo dicho arriba, aquí cada vector es un colegio y sus dimensiones corresponden a sus resultados promedio en cada una de las ocho áreas). La correlación es tan alta entre las áreas que bastan dos dimensiones para capturar el 90% de la varianza de los datos.

Aquí está una gráfica de todos los colegios proyectados en este plano:

pca

La gracia del análisis de componentes principales es mirar cómo se ven otros factores conocidos en ese nuevo espacio que intenta atrapar todas las dimensiones al tiempo. Aquí, por ejemplo, están sólo los colegios públicos:

pca-publicos

Realmente los ejes de este plano no tienen ningún significado así que nada nos dice que un punto esté bajo cero o sobre cero en tal o cual eje. Para eso tendríamos que proyectar las dimensiones originales en este plano y así intentar detectar relaciones más precisas entre los puntos y los factores considerados. Antes de llegar allá, miremos los colegios privados:

pca-privados

A diferencia de los públicos, que se concentran fuertemente en una zona, los privados están mucho más dispersos, aunque la mayoría también se acumula en más o menos la misma área. El tercer cuadrante es prácticamente exclusivo de colegios privados. Para intentar entender qué es lo que los diferencia a nivel de puntajes en las áreas necesitamos proyectar las dimensiones originales en este plano. Eso es lo que hago a continuación:

pca-todos

Esta gráfica parece sugerir que el inglés, la matemática, el lenguaje y la filosofía inciden fuertemente en la dispersión hacia la izquierda y abajo que diferencia a ciertos colegios privados de la masa homogénea general. Esto refuerza lo detectado acá. Los colegios públicos, en cambio, se encuentran mayoritariamente concentrados por debajo del promedio (el origen del plano) en casi en todas las áreas.

Un ejercicio pendiente es conseguir algún índice de condición socioeconómica de los estudiantes de cada colegio y repetir el ejercicio para ver cómo se distribuyen los diferentes “estratos” en el plano y con respecto a cada área.

(Como siempre, clic en las imágenes para verlas más grandes.)