Rango Finito

fotoscódigoobservatorioshermanocerdo temas plots

pruebas saber

19

Gracias a José Rafael Espinosa conseguí una base de datos con los resultados de las pruebas Saber 11 de 2011 a nivel de estudiante (~572K entradas). No tiene los resultados de la prueba discriminados por área, sólo el promedio, pero para compensar tiene como 180 variables con datos sobre el estudiante y su entorno. Todo un banquete para este humilde lector de tablas.

Arranquemos con una gráfica que hace rato me debía, mirando cómo los resultados de la prueba cambian de acuerdo al nivel socioeconómico (medido por el “estrato”) del estudiante. Para enriquecerla diferencio colegios privados de públicos. Todo es más o menos como se espera:

saber-estratos-tipodecolegio

Entre más plata, mejores resultados. Menos promocionado pero también bien sabido: las diferencias en resultados entre colegios públicos y privados no son tan drásticas si se toman en cuenta las condiciones socioeconómicas de las familias de los estudiantes. Para entender el comportamiento de las distribuciones de colegios públicos en los estratos altos hay que tomar en cuenta de cuántos muchachos hablamos en cada grupo:

cuentas-colegios-estratos
Estrato 4: 3657 en público y 16258 en privado. Estrato 5: 452 en público y 7292 en privado. Estrato 6: 156 en público y 4634 en privado.

Mejor dicho: a partir de estrato cuatro las familias prefieren fuertemente los colegios privados para sus hijos. Y ahí es más o menos donde empieza la desigualdad.

*

Otra curiosidad: ¿Qué diferencia hace en los resultados que los padres del estudiante sean maestros?

papamaestro-promedios

Pero claro, si un papá es maestro es probable que la familia sea de estrato medio alto y a eso se deba la diferencia. Miremos cómo se distribuyen los hijos de padres maestros por estrato:

cuentas-padresmaestro-estrato

Tal vez esa es la razón de la diferencia. Otra posible razón es el tipo de colegio que eligen para sus hijos. De la gráfica de arriba sabemos que en estrato tres los estudiantes de colegios públicos todavía superan a los de colegios privados. ¿Pasa lo mismo si nos restringimos a hijos de maestros? ¿Y qué hay de los hijos de padres que no son maestros?

cuentas-estratos-maestros

Hipótesis: los maestros colombianos prefieren que sus hijos estudien en colegios privados.

4

Una pregunta: ¿dados los resultados de las pruebas Saber 11 por colegios cuál es el área evaluada cuyo resultado mejor prediría si el colegio es oficial o privado?

Una forma (tal vez muy ingenua, no estoy seguro) de abordar esta pregunta es a través de árboles de clasificación. Un árbol de clasificación intenta encontrar la variable de entrada que mejor parte los datos de acuerdo a la variable a predecir. Este procedimiento se itera en cada nuevo nivel de partición y de ahí se obtiene el árbol. Si generamos un árbol de clasificación, la variable contemplada en el primer nodo del árbol es, de cierta forma técnica muy precisa, la que tiene la mayor capacidad para clasificar la variable objetivo.

¿Y qué pasa cuando se generan árboles de clasificación con los resultados por áreas de las pruebas Saber 11 como variables de entrada y la naturaleza (oficial o no) del colegio como variable objetivo?

Pasa que de 2011 a 2013 la variable principal es siempre la misma: inglés. Esto no sorprende. En la lista de razones para inscribir a los niños en colegios privados usualmente figura el inglés que supuestamente recibirán. Más difícil, sin embargo, es intentar adivinar cuál sería la segunda área. Detengan la lectura unos segundos e intenten hipotetizar cuál sería (de haber alguna) y por qué.

Para intentar responder esta subpregunta usemos el mismo procedimiento pero esta vez tomando como variables de entrada los resultados de todas las áreas exceptuando inglés.

Una vez más, los tres árboles tienen la misma variable principal. En este caso, lenguaje.

¿Adivinaron?

Por curiosidad repetí el ejercicio para ver si la tercera variable (de acuerdo a este orden tal vez no muy confiable) también era la misma y no: en 2011 es sociales y en 2012 y 2013 es biología.

Aquí los árboles para los tres años:

arboles
Click para verlo más grande. Cada nodo dice cuál es la proporción de privados y públicos, cuál es mayoría y cuál es el porcentaje de datos total en ese punto. Los árboles fueron generados con rpart y pintados con el comando fancyRpartPlot del paquete rattle de R. Aparecen podados en versiones “óptimas” de acuerdo a un criterio técnico que no viene al caso.

Dudas: ¿Es coincidencia que las primeras dos sean inglés y lenguaje o sería más o menos uniforme si se pudieran considerar otros años? Si no es coincidencia, ¿qué explicaría que lenguaje sea el diferenciador de colegios públicos y privados más eficiente después de inglés?

Otra duda: ¿Alguna forma más rigurosa de abordar la pregunta?

*

Increíblemente, no hay ningún buen graficador limpio y nativo de los árboles de clasificación que produce scikit-learn. Depender de graphviz me parece burdo. Lo ideal sería que matplotlib permitiera graficar árboles fácilmente, supongo. De pronto sería una buena forma de entender matplotlib a fondo. ¿Tarea para 2014?

Por lo pronto, R sigue siendo muchísimo más cómodo para estas vainas.

*

Hoy dejamos ir a Laia en la piscina agarrada sólo de su fideo de espuma. Pateó su camino hasta la mamá mientras yo la seguía de cerca por si acaso el sistema de flotación (todavía bastante endeble) fallaba. La primera vez estuvo sola unos veinte segundos. La segunda vez creo que alcanzó el minuto y se veía cansada. No avanzó sino un par de metros cada vez. Creo que tendremos a Laia chapoteando libre y sin ayuda antes de que cumpla los dos años.

Saber y perder

La columna de hoy (o de ayer, no la veo en portada hoy domingo, pero se supone que salió hoy) se desprende de una revisión sencilla de los resultados por colegios de las pruebas Saber 11 de este año y el pasado jugando con herramientas elementales de estadística descriptiva disponibles en cualquier hoja de cálculo.

Como complemento, la observación que desencadenó la columna: en la página de la revista Dinero donde los resultados de este año están disponibles para descarga se lee:

Siglas: Dado que la mayor parte de los colegios son privados (no oficiales) solo se indica cuando son públicos (oficiales) mediante la sigla “(Of)”.

Como la anotación me intrigó, filtré los datos para mirar cuántos colegios tenían “(Of)” al final del nombre. El resultado, 8168 de 12615. Es decir, un 64%. de los colegios son oficiales; no precisamente una minoría. Al contar estudiantes (en lugar de colegios) se descubre que un 71.77% de las personas que presentan las pruebas Saber 11 estudia en un colegio oficial. Quedé con la duda de si los periodistas de Dinero se equivocaron o si de verdad piensan que la mayor parte de los colegios colombianos son privados y no se molestaron en contar. Como sea, la anotación ilustra bien la profundidad con la que los muchachos de Dinero estudiaron sus datos.

De paso: un análisis (pdf) de las ventajas de los colegios privados de acuerdo a las pruebas Pisa.

Sesgo en públicos 2012: 0.526599249105; Sesgo en privados 2012: 1.02662898427; Promedio en públicos 2012: 42.8033300686; Promedio en privados 2012: 46.0227293165; Mediana en públicos 2012: 42.7; Mediana en privados 2012: 44.65. Sesgo en públicos 2011: 0.207080369486; Sesgo en privados 2011: 0.673856432328; Promedio en públicos 2011: 42.2170533907; Promedio en privados 2011: 45.6859889984; Mediana en públicos 2011: 42.26; Mediana en privados 2011: 44.65 (Qué sencillo y agradable utilizar los cuadernos de iPython y la librería Pandas de análisis de datos para hacer estos cálculos, por cierto.)