Rango Finito

fotoscódigoobservatorioshermanocerdo temas plots

colegios

25

colegios distritales
Un abrebocas de algo que estoy haciendo ahora. Cada punto es un colegio distrital (oficial). Entre más oscuro el tono de azul, menor la mediana de los puntajes en matemática en Saber 11 (2013). Los colegios por concesión están demarcados con una corona naranja. Clic en el mapa para ver más grande.

12

Los más educados es un pequeño documento interactivo en desarrollo, una herramienta, si se quiere, para pensar los resultados de las pruebas Saber 11 a nivel regional. Todavía no está terminado pero ya hay suficiente para jugar.

El viernes Jorge me escribió con la idea, era realmente sencilla: aparentemente no hay un documento oficial donde el Icfes discuta los resultados de los exámenes a nivel municipal. Y menos centrándose en los colegios públicos. Son dos restricciones fáciles de implementar. Después bastaba hacer algo de estadística descriptiva elemental para mirar los datos e intentar sacar preguntas de ahí. El propósito es que sea algo fácil de leer y usar. Más para la gente que para académicos. Ojalá que promueva una discusión pública del estado de la educación estatal que supere la fase de los “cien mejores colegios” y haga que los gobernantes y funcionarios regionales sean responsabilizados de los resultados de los colegios en su jurisdicción.

A veces pareciera que los colegios públicos no le importan a nadie. Como son públicos entonces pocos los consideran propios. La gente que decide cosas en Colombia por lo general estudió en colegios privados (para ilustrar, aquí hay una gráfica del número de estudiantes de último grado en colegios públicos y privados por “estrato” en 2011). En los círculos sociales de mis amigos nadie tiene hijos estudiando en colegios públicos. Es considerado medio impensable. Es crucial encontrar estrategias que superen las buenas intenciones para revalorar los colegios públicos y que recuperen el prestigio que alguna vez tuvieron (aquí hay una iniciativa seria y bien argumentada en esa dirección). El descuido social y gubernamental en el que se encuentra el sistema de colegios públicos lo ha convertido en un generador de exclusión social financiado con impuestos en lugar de ser el promotor de movilidad social que le corresponde. Un primer paso para devolverles su importancia es seguir atentamente su desempeño.

Es obvio que los resultados de los exámenes de estado no son un indicador contundente de lo que quiera que sea la “calidad de la educación”, pero pueden ser usados como un primer criterio a la mano para medir el impacto de políticas públicas. Lo ideal sería repetir este ejercicio regularmente y difundirlo tanto como se pueda.

El código en R para calcular los gráficos y tablas está disponible en este repositorio. Está desordenadísimo pero supongo que puede ayudar a alguien que quiera hacer gráficas similares. Si tengo tiempo intentaré pulirlo durante las próximas semanas, a medida que añado más información al documento.

19

Gracias a José Rafael Espinosa conseguí una base de datos con los resultados de las pruebas Saber 11 de 2011 a nivel de estudiante (~572K entradas). No tiene los resultados de la prueba discriminados por área, sólo el promedio, pero para compensar tiene como 180 variables con datos sobre el estudiante y su entorno. Todo un banquete para este humilde lector de tablas.

Arranquemos con una gráfica que hace rato me debía, mirando cómo los resultados de la prueba cambian de acuerdo al nivel socioeconómico (medido por el “estrato”) del estudiante. Para enriquecerla diferencio colegios privados de públicos. Todo es más o menos como se espera:

saber-estratos-tipodecolegio

Entre más plata, mejores resultados. Menos promocionado pero también bien sabido: las diferencias en resultados entre colegios públicos y privados no son tan drásticas si se toman en cuenta las condiciones socioeconómicas de las familias de los estudiantes. Para entender el comportamiento de las distribuciones de colegios públicos en los estratos altos hay que tomar en cuenta de cuántos muchachos hablamos en cada grupo:

cuentas-colegios-estratos
Estrato 4: 3657 en público y 16258 en privado. Estrato 5: 452 en público y 7292 en privado. Estrato 6: 156 en público y 4634 en privado.

Mejor dicho: a partir de estrato cuatro las familias prefieren fuertemente los colegios privados para sus hijos. Y ahí es más o menos donde empieza la desigualdad.

*

Otra curiosidad: ¿Qué diferencia hace en los resultados que los padres del estudiante sean maestros?

papamaestro-promedios

Pero claro, si un papá es maestro es probable que la familia sea de estrato medio alto y a eso se deba la diferencia. Miremos cómo se distribuyen los hijos de padres maestros por estrato:

cuentas-padresmaestro-estrato

Tal vez esa es la razón de la diferencia. Otra posible razón es el tipo de colegio que eligen para sus hijos. De la gráfica de arriba sabemos que en estrato tres los estudiantes de colegios públicos todavía superan a los de colegios privados. ¿Pasa lo mismo si nos restringimos a hijos de maestros? ¿Y qué hay de los hijos de padres que no son maestros?

cuentas-estratos-maestros

Hipótesis: los maestros colombianos prefieren que sus hijos estudien en colegios privados.

18

Hoy quería explicar bien, haciendo los cálculos, de dónde salen los componentes principales del Análisis de Componentes Principales pero el catarro no me dejó. Diré en cambio que este es un método de exploración estadística multidimensional que, en su versión más básica, toma un colección de vectores de dimensión alta y encuentra hiperplanos encajados de dimensiones bajas en los cuales los vectores se proyecten preservando en esa sombra tanta estructura como sea posible. Cuando las condiciones son favorables se puede reducir la dimensión hasta un punto donde sea posible graficarla y así apreciar cómo se relacionan los dotos y también qué pasa con las correspondientes dimensiones cuando se aplanan.

Para seguir con las gráficas educativas tomé la tabla de los datos de SABER 11 por áreas por colegios y le apliqué un análisis de componentes principales para intentar verlos en un plano (en el contexto de lo dicho arriba, aquí cada vector es un colegio y sus dimensiones corresponden a sus resultados promedio en cada una de las ocho áreas). La correlación es tan alta entre las áreas que bastan dos dimensiones para capturar el 90% de la varianza de los datos.

Aquí está una gráfica de todos los colegios proyectados en este plano:

pca

La gracia del análisis de componentes principales es mirar cómo se ven otros factores conocidos en ese nuevo espacio que intenta atrapar todas las dimensiones al tiempo. Aquí, por ejemplo, están sólo los colegios públicos:

pca-publicos

Realmente los ejes de este plano no tienen ningún significado así que nada nos dice que un punto esté bajo cero o sobre cero en tal o cual eje. Para eso tendríamos que proyectar las dimensiones originales en este plano y así intentar detectar relaciones más precisas entre los puntos y los factores considerados. Antes de llegar allá, miremos los colegios privados:

pca-privados

A diferencia de los públicos, que se concentran fuertemente en una zona, los privados están mucho más dispersos, aunque la mayoría también se acumula en más o menos la misma área. El tercer cuadrante es prácticamente exclusivo de colegios privados. Para intentar entender qué es lo que los diferencia a nivel de puntajes en las áreas necesitamos proyectar las dimensiones originales en este plano. Eso es lo que hago a continuación:

pca-todos

Esta gráfica parece sugerir que el inglés, la matemática, el lenguaje y la filosofía inciden fuertemente en la dispersión hacia la izquierda y abajo que diferencia a ciertos colegios privados de la masa homogénea general. Esto refuerza lo detectado acá. Los colegios públicos, en cambio, se encuentran mayoritariamente concentrados por debajo del promedio (el origen del plano) en casi en todas las áreas.

Un ejercicio pendiente es conseguir algún índice de condición socioeconómica de los estudiantes de cada colegio y repetir el ejercicio para ver cómo se distribuyen los diferentes “estratos” en el plano y con respecto a cada área.

(Como siempre, clic en las imágenes para verlas más grandes.)

4

Una pregunta: ¿dados los resultados de las pruebas Saber 11 por colegios cuál es el área evaluada cuyo resultado mejor prediría si el colegio es oficial o privado?

Una forma (tal vez muy ingenua, no estoy seguro) de abordar esta pregunta es a través de árboles de clasificación. Un árbol de clasificación intenta encontrar la variable de entrada que mejor parte los datos de acuerdo a la variable a predecir. Este procedimiento se itera en cada nuevo nivel de partición y de ahí se obtiene el árbol. Si generamos un árbol de clasificación, la variable contemplada en el primer nodo del árbol es, de cierta forma técnica muy precisa, la que tiene la mayor capacidad para clasificar la variable objetivo.

¿Y qué pasa cuando se generan árboles de clasificación con los resultados por áreas de las pruebas Saber 11 como variables de entrada y la naturaleza (oficial o no) del colegio como variable objetivo?

Pasa que de 2011 a 2013 la variable principal es siempre la misma: inglés. Esto no sorprende. En la lista de razones para inscribir a los niños en colegios privados usualmente figura el inglés que supuestamente recibirán. Más difícil, sin embargo, es intentar adivinar cuál sería la segunda área. Detengan la lectura unos segundos e intenten hipotetizar cuál sería (de haber alguna) y por qué.

Para intentar responder esta subpregunta usemos el mismo procedimiento pero esta vez tomando como variables de entrada los resultados de todas las áreas exceptuando inglés.

Una vez más, los tres árboles tienen la misma variable principal. En este caso, lenguaje.

¿Adivinaron?

Por curiosidad repetí el ejercicio para ver si la tercera variable (de acuerdo a este orden tal vez no muy confiable) también era la misma y no: en 2011 es sociales y en 2012 y 2013 es biología.

Aquí los árboles para los tres años:

arboles
Click para verlo más grande. Cada nodo dice cuál es la proporción de privados y públicos, cuál es mayoría y cuál es el porcentaje de datos total en ese punto. Los árboles fueron generados con rpart y pintados con el comando fancyRpartPlot del paquete rattle de R. Aparecen podados en versiones “óptimas” de acuerdo a un criterio técnico que no viene al caso.

Dudas: ¿Es coincidencia que las primeras dos sean inglés y lenguaje o sería más o menos uniforme si se pudieran considerar otros años? Si no es coincidencia, ¿qué explicaría que lenguaje sea el diferenciador de colegios públicos y privados más eficiente después de inglés?

Otra duda: ¿Alguna forma más rigurosa de abordar la pregunta?

*

Increíblemente, no hay ningún buen graficador limpio y nativo de los árboles de clasificación que produce scikit-learn. Depender de graphviz me parece burdo. Lo ideal sería que matplotlib permitiera graficar árboles fácilmente, supongo. De pronto sería una buena forma de entender matplotlib a fondo. ¿Tarea para 2014?

Por lo pronto, R sigue siendo muchísimo más cómodo para estas vainas.

*

Hoy dejamos ir a Laia en la piscina agarrada sólo de su fideo de espuma. Pateó su camino hasta la mamá mientras yo la seguía de cerca por si acaso el sistema de flotación (todavía bastante endeble) fallaba. La primera vez estuvo sola unos veinte segundos. La segunda vez creo que alcanzó el minuto y se veía cansada. No avanzó sino un par de metros cada vez. Creo que tendremos a Laia chapoteando libre y sin ayuda antes de que cumpla los dos años.

El camino hacia el asombro

La columna de hoy le hace eco a esta charla que Federico Ardila dio en Bogotá en diciembre pasado sobre la importancia de la educación matemática en la escuela. En este problema hay dos frentes complementarios: por un lado está la detección, promoción y aprovechamiento del talento matemático disponible y por otro lado está la necesidad de subir el nivel general de la educación matemática y repensar la estrategia de enseñanza. Usualmente cuando a alguien le gusta la matemática (sea por talento innato o por cualquier otra razón) no requiere mayor estímulo para aprender (aunque sí tal vez para avanzar más allá de lo elemental y no perder el ánimo, cosa que hacen muy bien programas como las olimpiadas matemáticas y otros parecidos). La batalla dura es crear el gusto entre aquellos que no lo tienen de fábrica. Esta es una situación que todo maestro de cualquier área enfrenta regularmente: cómo lograr que los estudiantes aventajados se sientan impulsados y los demás reciban el apoyo que necesitan para avanzar y de paso apreciar lo que aprenden. Con frecuencia el maestro soluciona este problema ofreciendo un material genérico de nivel medio-alto, que no toma en cuenta las particularidades de sus estudiantes. Esto es algo que el sistema de educación masiva promueve con sus estándares rígidos de evaluación. El resultado de esta estrategia es nefasto en ambos frentes: los aventajados se aburren y la mayoría se pierde para siempre en dificultades que el maestro ni siquiera contempla como posibles. En matemática, el pénsum con énfasis en el formalismo temprano y la mecanización del manejo simbólico dificulta todavía más todo lo que he descrito. Tal vez un pénsum matemático escolar enfocado enteramente hacia la resolución de problemas específicos (que evolucionen a medida que son resueltos hacia grados cada vez más elaborados de abstracción justificada) y no hacia la adquisición directa de conceptos desprovistos de motivaciones sólidas contribuiría a hacer todo muchísimo más accesible y menos intimidante. Una primera tarea para los interesados sería pensar en los contenidos de un pénsum así y cómo implementarlo. A veces tengo la impresión de que por pretender enseñar tanto nadie está realmente aprendiendo nada.

Saber y perder

La columna de hoy (o de ayer, no la veo en portada hoy domingo, pero se supone que salió hoy) se desprende de una revisión sencilla de los resultados por colegios de las pruebas Saber 11 de este año y el pasado jugando con herramientas elementales de estadística descriptiva disponibles en cualquier hoja de cálculo.

Como complemento, la observación que desencadenó la columna: en la página de la revista Dinero donde los resultados de este año están disponibles para descarga se lee:

Siglas: Dado que la mayor parte de los colegios son privados (no oficiales) solo se indica cuando son públicos (oficiales) mediante la sigla “(Of)”.

Como la anotación me intrigó, filtré los datos para mirar cuántos colegios tenían “(Of)” al final del nombre. El resultado, 8168 de 12615. Es decir, un 64%. de los colegios son oficiales; no precisamente una minoría. Al contar estudiantes (en lugar de colegios) se descubre que un 71.77% de las personas que presentan las pruebas Saber 11 estudia en un colegio oficial. Quedé con la duda de si los periodistas de Dinero se equivocaron o si de verdad piensan que la mayor parte de los colegios colombianos son privados y no se molestaron en contar. Como sea, la anotación ilustra bien la profundidad con la que los muchachos de Dinero estudiaron sus datos.

De paso: un análisis (pdf) de las ventajas de los colegios privados de acuerdo a las pruebas Pisa.

Sesgo en públicos 2012: 0.526599249105; Sesgo en privados 2012: 1.02662898427; Promedio en públicos 2012: 42.8033300686; Promedio en privados 2012: 46.0227293165; Mediana en públicos 2012: 42.7; Mediana en privados 2012: 44.65. Sesgo en públicos 2011: 0.207080369486; Sesgo en privados 2011: 0.673856432328; Promedio en públicos 2011: 42.2170533907; Promedio en privados 2011: 45.6859889984; Mediana en públicos 2011: 42.26; Mediana en privados 2011: 44.65 (Qué sencillo y agradable utilizar los cuadernos de iPython y la librería Pandas de análisis de datos para hacer estos cálculos, por cierto.)