Rango Finito

fotoscódigoobservatorioshermanocerdo temas plots

estadística

Stan

Mi juguete favorito en el trabajo y por fuera del trabajo es Stan. Aquí un artículo introductorio recién publicado que se concentra en su interfaz de uso y aquí otro también reciente donde explican la intuición detrás de sus algoritmos de muestreo de distribuciones posteriores (la matemática asociada es, según he podido ver, bastante sofisticada). Durante este año quiero entender esa maquinaria mejor y si me da el tiempo intentar contribuir a alguno de sus proyectos circundantes.

Diferencias significativas

Un error estadístico frecuente ocurre cuando se comparan resultados en intenciones de voto en una encuesta entre un par de candidatos, usualmente los dos más fuertes. El error consiste en tomar la diferencia entre los porcentajes obtenidos y compararla con el margen de error que reporta la encuesta. Si la diferencia es mayor que el margen de error (o dos veces el margen de error, algo así), se concluye erróneamente que la ventaja es significativa. En realidad ese margen de error no aplica a diferencias de valores sino a valores puntuales, por decirlo burdamente. Las diferencias de valores tienen una distribución distinta y un margen de error propio. Hace un par de días Guillermo Moncecchi publicó este cuaderno de iPython mostrando cómo evaluar rigurosamente esas diferencias. En algún apartado proponía armas una página que permitiera poner los valores a comparar y el número de encuestados y la página calculara si la diferencia era significativa o no. Ayer me senté un rato y la armé. Permite comparar valores a una pregunta en una misma encuesta o el mismo valor en dos encuestas distintas con la misma pregunta. En el primer caso, si la diferencia no es significativamente distinta de cero con un nivel de confianza del 95% entonces indica cuál sería el mínimo número de encuestados con los cuales esa diferencia sería efectivamente significativa. Aquí, como acompañamiento, cuatro gráficos señalando para porcentajes p1 y p2 cuáles pares tienen diferencia significativa (azul marino) y cuales no (rosa claro) dependiendo del número de encuestados (N). Sombreo la zona irrelevante en la que p1 y p2 suman más de 1. Entre más altos sean los valores de p1 y p2 se vuelve más difícil asegurar que su diferencia sea respaldada por la encuesta.

confianzas

23

suramerica.fifa

Daniel quiere hacer algo predictivo (creo) con “datos” sobre el mundial de fútbol y esta mañana me pidió que lo ayudara a bajar las tablas del ranking de la FIFA. Después de bajarlas y organizarlas no me aguanté y armé rápidamente esta gráfica que muestra el comportamiento de las selecciones nacionales de los países suramericanos en el ranking desde 1993 hasta hoy. En lugar de unir los puntos del ranking en cada mes preferí suavizar los datos usando loess (el algoritmo por defecto para este tipo de tareas). La sombra alrededor de cada curva representa el margen de confianza para la estimación (al 95%). No se ve mal Colombia.

(Aquí lo que se ve si no se suavizan los datos.)

A ver qué más hace Daniel con esos números.

12

Los más educados es un pequeño documento interactivo en desarrollo, una herramienta, si se quiere, para pensar los resultados de las pruebas Saber 11 a nivel regional. Todavía no está terminado pero ya hay suficiente para jugar.

El viernes Jorge me escribió con la idea, era realmente sencilla: aparentemente no hay un documento oficial donde el Icfes discuta los resultados de los exámenes a nivel municipal. Y menos centrándose en los colegios públicos. Son dos restricciones fáciles de implementar. Después bastaba hacer algo de estadística descriptiva elemental para mirar los datos e intentar sacar preguntas de ahí. El propósito es que sea algo fácil de leer y usar. Más para la gente que para académicos. Ojalá que promueva una discusión pública del estado de la educación estatal que supere la fase de los “cien mejores colegios” y haga que los gobernantes y funcionarios regionales sean responsabilizados de los resultados de los colegios en su jurisdicción.

A veces pareciera que los colegios públicos no le importan a nadie. Como son públicos entonces pocos los consideran propios. La gente que decide cosas en Colombia por lo general estudió en colegios privados (para ilustrar, aquí hay una gráfica del número de estudiantes de último grado en colegios públicos y privados por “estrato” en 2011). En los círculos sociales de mis amigos nadie tiene hijos estudiando en colegios públicos. Es considerado medio impensable. Es crucial encontrar estrategias que superen las buenas intenciones para revalorar los colegios públicos y que recuperen el prestigio que alguna vez tuvieron (aquí hay una iniciativa seria y bien argumentada en esa dirección). El descuido social y gubernamental en el que se encuentra el sistema de colegios públicos lo ha convertido en un generador de exclusión social financiado con impuestos en lugar de ser el promotor de movilidad social que le corresponde. Un primer paso para devolverles su importancia es seguir atentamente su desempeño.

Es obvio que los resultados de los exámenes de estado no son un indicador contundente de lo que quiera que sea la “calidad de la educación”, pero pueden ser usados como un primer criterio a la mano para medir el impacto de políticas públicas. Lo ideal sería repetir este ejercicio regularmente y difundirlo tanto como se pueda.

El código en R para calcular los gráficos y tablas está disponible en este repositorio. Está desordenadísimo pero supongo que puede ayudar a alguien que quiera hacer gráficas similares. Si tengo tiempo intentaré pulirlo durante las próximas semanas, a medida que añado más información al documento.

14

Recuerdo que la introducción del determinante en el curso de álgebra lineal que tomé en la universidad me pareció artificiosa. Nunca entendí del todo por qué ese procedimiento recursivo tan complicado y medio salido de la nada tenía esas propiedades tan agradables. O tal vez sí lo entendí, pero a fuerza de darle vueltas y vueltas más adelante en muchos contextos diferentes. Hace poco mencioné mi incomodidad con los determinantes en Twitter y Federico Ardila me respondió con un enlace a este artículo de Sheldon Axler escrito en 1994 donde ofrece una aproximación muy agradable a varios resultados importantes de álgebra lineal sin recurrir a determinantes. Fluye muy bien. Al final define el determinante como el producto (contando multiplicidades) de los valores propios, lo que se siente muchísimo más apropiado.

*

Al respecto del dato de ayer (que yo me apresuré a leer como machismo puro y duro), John Goodrick dejó en los comentarios un enlace a este artículo donde se observa que la amplitud de las brechas entre hombres y mujeres en los resultados de Pisa de matemática y lectura están inversamente relacionadas. O sea: donde hay más ventaja de los hombres sobre las mujeres en matemática la ventaja es estrecha entre las mujeres y los hombres en lectura (como en Colombia) y también al revés. ¿Por qué pasará eso?

Adenda: Olvidé mencionar que el artículo también correlaciona la amplitud de las brechas con índices de igualdad de género (reforzando un poco más la teoría del machismo como factor.)

*

Santiago Ortiz sugirió ayer que revisara las diferencias en resultados de Pisa discriminando por mes de nacimiento para ver si pasa algo parecido a lo que describe Gladwell en Outliers. Esta mañana me levanté intrigado y armé esto:

mesdenacimiento

Una mirada rápida parece sugerir que en Colombia no hay ventaja debida al mes de nacimiento. Sin embargo Santiago, que es curtido en estos asuntos de visualizar, me sugirió que lo ordenara arrancando en julio y terminando en junio. Obtuve esto:

meses-julio

¿Ven el salto?

*

Me gustaría explorar la posibilidad de armar una publicación en línea para público general que haga “periodismo de datos” (concepto en desarrollo) en español sobre asuntos sociales y políticos del mundo hispanohablante (o latinoamericano — o tal vez solo colombiano para empezar). La idea, muy escuetamente, sería ofrecer reportajes a fondo, bien editados y bien escritos (amenos, entretenidos, con alma) donde la narrativa estuviera parcialmente guiada por la existencia de bases de datos que ofrecieran alguna perspectiva particular sobre un tema (de coyuntura o no) y el contraste crítico entre los análisis de los datos (y la misma existencia de los datos) y las realidades que pretenden describir/comprimir (lo que implicaría además hacer reportería seria hablando con gente y demás, de eso que ya casi no se hace). De paso podría ser una buena plataforma para promover la liberación de bancos de datos públicos en nuestros países. Como sea, un proyecto con semejante ambición necesitaría plata pues dependería de infraestructura y un equipo de personas muy competentes. Durante el próximo año de pronto revise cómo se podría financiar y organizar algo así. Si tienen sugerencias al respecto las recibo en los comentarios.

*

No conocía PSPP, la alternativa libre a SPSS. Útil.

*

Ya es hora de que acepte que “la academia” no es para mí: tenemos prioridades y valores distintos. Me da pesar porque me gusta enseñar y hablar de matemática, pero supongo que haga lo que haga con mi vida siempre aparecerán otros espacios para enseñar y aprender ojalá más compatibles con lo que soy (o no soy).

*

Me contó Nicolás que en estos días de ventiscas heladas entró a la tienda una mujer colombiana huyendo del frío. Dijo que disculparan pero no entraba a comprar nada sino solo a escampar del hielo y ahí mismo se puso a llorar.

Sondeos

Pensaba en cómo usar sondeos en línea para medir popularidad sincera. Con popularidad sincera me refiero a la existencia de un grupo suficientemente amplio de personas que están dispuestas a respaldar su elección sin trampas ni abusos del sistema de votación. Otorgar la victoria al mayor número de votos por lo general conduce a aberraciones como lo que pasó en el Gran Colombiano. Lo correcto, sin entrar en detalles técnicos (que se me escapan totalmente), sería declarar ganador a aquel que reciba la tercera mejor votación, digamos. O incluso la votación media. Sería un tipo de victoria muchísimo más difícil de manipular y, por ejemplo con la media, hablaría del sentir del centro (lo que quiera decir) y por tanto sería probablemente más tolerable como resultado para todos los interesados en el sondeo. ¿Cuál será la mejor forma de medir popularidad sincera (definición vaga, claro) en un sondeo en línea?

***

Otro juego con sondeos en el que estuve pensando: un concurso donde los lectores de una serie de libros infantiles deben decidir el nombre, hasta ahora oculto, de la protagonista. Se ofrecen cinco nombres. Se invita a votar pero se incluye la siguiente cláusula: entre los que voten por el nombre menos popular se rifará un premio serio relacionado con la historia de los libros (un viaje, tal vez). ¿Cómo afectaría la rifa el resultado de la votación? (¿Cómo simular algo así?)

Topología de datos

Digamos que una muestra aleatoria de puntos es tomada de una cierta variedad topológica. En esta entrada y esta otra (y el artículo asociado) explican cómo inferir estadísticamente algunas propiedades topológicas (más que todo homológicas) de la variedad estudiando la muestra.

Datos

Ayer terminé mis deberes para el curso de análisis de datos de Coursera. Me dejó insatisfecho. Sirvió, eso sí, como una introducción rápida a R. El contenido fue mal elegido, la improvisación reinó y el nivel de la exposición no era el mejor. Creo que el profesor no logró adecuar su estilo de enseñanza al formato. Pese a advertir varias veces sobre el riesgo de desconocer la matemática subyacente (en un diagrama llamó a esa aproximación “la zona peligrosa”), el curso se limitó a ofrecer recetas escuetas de algunas de las técnicas elementales disponibles sin mayor justificación matemática. Además, como los dos proyectos del curso debían ser evaluados por otros estudiantes, el énfasis del formulario de evaluación fue la forma de los reportes en lugar de la sustancia (lo que reforzaba la idea de que no se esperaba más que aplicar funciones mecánicamente). No lo más recomendable para un curso tan técnico. Tal vez el sistema de evaluación del curso de machine learning, basado en verificación automática del código que requerían los ejercicios, habría sido más adecuado al contenido (pretendido) de este curso. Me quedan dudas serias sobre la capacidad de esos cursos masivos en línea para ofrecer más que sobrevuelos superficiales cuando el material supera cierto nivel no muy alto de complejidad.

Este libro de Cosma Shalizi (pdf) parece una introducción mucho más apropiada al tema, o al menos más cercana al tipo de curso que me hubiera gustado tomar.

Saber y perder

La columna de hoy (o de ayer, no la veo en portada hoy domingo, pero se supone que salió hoy) se desprende de una revisión sencilla de los resultados por colegios de las pruebas Saber 11 de este año y el pasado jugando con herramientas elementales de estadística descriptiva disponibles en cualquier hoja de cálculo.

Como complemento, la observación que desencadenó la columna: en la página de la revista Dinero donde los resultados de este año están disponibles para descarga se lee:

Siglas: Dado que la mayor parte de los colegios son privados (no oficiales) solo se indica cuando son públicos (oficiales) mediante la sigla “(Of)”.

Como la anotación me intrigó, filtré los datos para mirar cuántos colegios tenían “(Of)” al final del nombre. El resultado, 8168 de 12615. Es decir, un 64%. de los colegios son oficiales; no precisamente una minoría. Al contar estudiantes (en lugar de colegios) se descubre que un 71.77% de las personas que presentan las pruebas Saber 11 estudia en un colegio oficial. Quedé con la duda de si los periodistas de Dinero se equivocaron o si de verdad piensan que la mayor parte de los colegios colombianos son privados y no se molestaron en contar. Como sea, la anotación ilustra bien la profundidad con la que los muchachos de Dinero estudiaron sus datos.

De paso: un análisis (pdf) de las ventajas de los colegios privados de acuerdo a las pruebas Pisa.

Sesgo en públicos 2012: 0.526599249105; Sesgo en privados 2012: 1.02662898427; Promedio en públicos 2012: 42.8033300686; Promedio en privados 2012: 46.0227293165; Mediana en públicos 2012: 42.7; Mediana en privados 2012: 44.65. Sesgo en públicos 2011: 0.207080369486; Sesgo en privados 2011: 0.673856432328; Promedio en públicos 2011: 42.2170533907; Promedio en privados 2011: 45.6859889984; Mediana en públicos 2011: 42.26; Mediana en privados 2011: 44.65 (Qué sencillo y agradable utilizar los cuadernos de iPython y la librería Pandas de análisis de datos para hacer estos cálculos, por cierto.)

Pequeño Nate y el viejo zorro

Lo que hace Nate Silver es sencillo. Silver promedia encuestas estatales y utiliza regresiones lineales para predecir tendencias. Luego suma votos electorales usando esos pesos. Obtiene probabilidades de victoria de los candidatos. No hay sistema secreto. No hay misterio. Su análisis se basa en herramientas básicas. Silver ha insistido mucho en esto porque su objetivo central es desnudar la vacuidad de los análisis políticos de tertulia televisiva (más cercanos a la propaganda que al periodismo). En realidad las encuestas, especialmente cuando se consideran en conjunto para reducir sesgos varios, son suficientes para predecir con bastante seguridad cuál será el resultado. La estadística bien utilizada (y consciente de sus limitaciones) es una herramienta poderosa de análisis, no importa lo que haya dicho alguna vez Mark Twain.

Cuando los comentaristas de Fox News eligieron a Silver y su metodología como blancos de sus ataques cometieron un error. Criticar las encuestas en abstracto es inofensivo, casi esperado, pero encarnarlas en un personaje motivado y especializado en comunicar sus resultados con visibilidad de por sí amplia ofrece un camino rápido a la autorrefutación. Silver lo sabía y alentó la discusión proponiendo apuestas. Los comentaristas de Fox News cayeron y lanzaron (sin aceptar las apuestas) predicciones cada vez más descabelladas. Ayer Silver ofreció un cubrimiento escaso de los resultados. A menos que la augurada victoria de Obama fuera muy apretada, su apuesta estaba en los totales de cada estado y no en los conteos parciales por condado. Ya lo había dicho todo y sólo restaba esperar. Minutos después de que Fox News anunció que Obama había ganado (y justo antes de que Karl Rove empezara a delirar y pedir rectificaciones), Silver dijo en twitter, como quien no quiere la cosa, que aprovechaba la oportunidad para promocionar su libro Las señales y el ruido: por qué tantas predicciones fallan pero algunas no. El énfasis implícito en algunas, claro está.

Mi predicción (basada, para contradecirme, en este caso estudio superficial) es que las próximas elecciones gringas estarán repletas de analistas estadísticos explicando sus cálculos y modelos en televisión y prensa. Los ejércitos de estrategas cuantitativos, por cierto, ya son norma dentro de las campañas.

De mujeres y hombres

La columna de hoy (malísimo título, lo admito — por un rato se llamó Jennifer versus John pero eso me sonaba todavía peor) es el resumen de una charla a la que asistí la semana pasada durante el congreso de neurociencias aprovechando que Laia estaba dormida (sobre mí). La vi desde la puerta del auditorio por si acaso. Mónica se interesó hace unos años en el trabajo de Melissa Hines y compró su libro, así que cuando nos enteramos de que hablaría la incluímos en la agenda. Valió la pena: es un trabajo muy bien hecho y lleno de preguntas buenísimas (e.g., ¿por qué los seres humanos somos la única especie con “identidad de género”? ¿por qué la variabilidad de intereses sexuales entre los seres humanos es tan vasta? ¿a qué corresponden esos fenómenos a nivel cerebral?) Al salir de la charla hablamos con Mónica de la proporción de mujeres contra hombres en el congreso. No encontré datos oficiales pero estoy casi seguro de que las mujeres eran mayoría. Más del sesenta por ciento, estimo. Las mujeres en ciencia están subrepresentadas en posiciones de poder, como digo en la columna, pero en biología y afines son el grueso de la fuerza de trabajo ya sea como estudiantes, técnicos de laboratorio o postdocs mal pagadas, mientras que los hombres dominan las plazas como profesores y directores de laboratorio. Los resultados del estudio de Moss-Racusin (pdf) que resumo en la columna muestran que esta situación está lejos de cambiar sin reformas estructurales serias y muy probablemente una buena dosis de discriminación positiva (en caso de que todo lo demás falle).

Curiosamente estaba por escribir esta entrada cuando Jaime me envió este enlace. No me sorprende. Es lo que se espera de los miembros hombres de una comunidad que funciona así. Seguro que ese tipo piensa que tienen a las mujeres en sus laboratorios y conferencias para consumo sexual a conveniencia, como en Lightning Rods, de Helen DeWitt.