Rango Finito

fotoscódigoobservatorioshermanocerdo temas plots

datos

Elecciones locales (Resultados)

Armé este repositorio con tablas con el preconteo de votos para concejo, alcaldía y gobernación para cada candidato y cada municipio en las elecciones del domingo pasado. Aparentemente la registraduría cobra buena plata por acceso a esos datos en un formato razonable. Absurdo.

PISA nos pisa

En esta entrada de su blog, Arthur Charpentier intenta evaluar qué tan “elitista” es la educación francesa de acuerdo a los resultados del examen PISA (concluye que no particularmente). Inspirado en sus cálculos organicé algunas gráficas intentando visualizar/evidenciar desigualdades en los resultados de PISA 2012 con énfasis en Colombia. Por lo pronto sólo hay gráficas y muy poco comentario (tal vez porque prefiero no forzar interpretaciones y me gustaría, más bien, conversarlas por acá si alguno se anima). El código que genera el documento está acá.

Aquí, por ejemplo, está una gráfica que permite comparar las distribuciones de puntajes en matemática para varios países (diferenciadas por sexo):

Distribuciones puntajes PISA 2012

En el documento hay otras formas con diferentes énfasis de hacer esta misma comparación.

Futbolistas cuantificados

Durante el mundial recopilé, partido a partido, las estadísticas de jugadores que publicaba Who Scored. Con esos datos armé la serie de reportes que improvisé para Mundo Pelota. Las tablas que ofrece el sitio eran acumulados de todos los partidos jugados hasta el momento así que debía descargarlas regularmente para extraer los datos correspondientes a partidos recién jugados (sustrayendo números de tablas acumuladas anteriores). Escribí un script en R (impresentable al público en el estado actual) que entraba, sacaba los datos de una variable en en un script de javascript de la página que generaba la tabla en cliente (un desastre de código, si me preguntan — espero que no lo hicieran así para celar los datos), armaba una tabla y extraía los datos correspondientes a los partidos jugados durante ese día. Hace rato que tengo las tablas pero no había hecho la tarea de organizarlas y limpiarlas. Finalmente ayer les dediqué un par de horas y las subí a este repositorio en GitHub.

Aquí, por ejemplo, una gráfica con estadísticas de duelos aéreos y estaturas usando los datos acumulados de todos los jugadores que participaron en más de tres duelos aéreos durante el mundial:

duelosaereos

7

Porque Alejo lo pidió: la diferencia con el líder etapa a etapa para el top 10 de la clasificación general del Giro d’Italia:

top10-cuadrado

23

suramerica.fifa

Daniel quiere hacer algo predictivo (creo) con “datos” sobre el mundial de fútbol y esta mañana me pidió que lo ayudara a bajar las tablas del ranking de la FIFA. Después de bajarlas y organizarlas no me aguanté y armé rápidamente esta gráfica que muestra el comportamiento de las selecciones nacionales de los países suramericanos en el ranking desde 1993 hasta hoy. En lugar de unir los puntos del ranking en cada mes preferí suavizar los datos usando loess (el algoritmo por defecto para este tipo de tareas). La sombra alrededor de cada curva representa el margen de confianza para la estimación (al 95%). No se ve mal Colombia.

(Aquí lo que se ve si no se suavizan los datos.)

A ver qué más hace Daniel con esos números.

12

Bakano el Sistema global de información de alcohol y salud de la Organización Mundial de la Salud. Hartos datos, bien organizados y disponibles en formatos razonables para descarga y estudio. Aquí un reporte cuidadoso de lo que tienen. El enlace me lo pasó mi hermana.

26

Es muy difícil leer los datos que ofrecen estas “visualizaciones” sobre la situación de los palestinos en territorios bajo el control israelí. Es extraño cómo se ha popularizado ese estilo de “visualizaciones” con un diseño moderno donde los datos principales se pierden entre la mezcla de texto y gráficas supuestamente atractivas.

13

Hoy leí Flash Boys, de Michael Lewis. Me gustó mucho. Como es de esperarse dado el tema (high-frequency trading), el libro es una fábula moral sin moraleja o si se quiere con moraleja en desarrollo sobre la estructura interna del sistema financiero y su propensión natural al abuso y el robo. Lewis hace un trabajo muy bueno convirtiendo un problema técnico complicado y lleno de terminachos y matices en algo digerible y hasta apasionante. Lewis tiende a sugerir que hay un beneficio social en la bolsa y que estas firmas que abusan son un síntoma de problemas de regulación más que del carácter de la bolsa en sí como institución. Esto es probablemente discutible, pero dado que el monstruo existe y no hay razones para creer que vaya a extinguirse en el mediano plazo no está de más que de vez en cuando aparezcan personas como los protagonistas del libro intentando proponer un orden alternativo que tal vez no aniquile a la bestia (en este caso ellos no tienen ni siquiera ese propósito pues comparten con Lewis la fe en el beneficio social de ese casino sublimado) pero al menos la aplaque y contenga. Independiente de sus intenciones, es fascinante el problema que enfrentan y la suma de ingenios y talentos que se requieren para doblegarlo. Envidio a esas personas (su arrojo, su capacidad para asumir riesgos, su resistencia ante fracasos, su ambición) pero creo que odiaría vivir sus vidas (la presión, el estrés, la intranquilidad, la ansiedad, la ambición). Aunque Flash Boys se siente como literatura motivacional todavía no logro aislar qué es lo que me motiva o inspira.

25

colegios distritales
Un abrebocas de algo que estoy haciendo ahora. Cada punto es un colegio distrital (oficial). Entre más oscuro el tono de azul, menor la mediana de los puntajes en matemática en Saber 11 (2013). Los colegios por concesión están demarcados con una corona naranja. Clic en el mapa para ver más grande.

12

partido.contra.partido

Lo que quería ver, y no estoy seguro de ver bien, es cómo compiten los partidos entre ellos a nivel municipal. Supongo que hay mejores formas de “visualizar” algo así pero este es mi primer (y fallido) intento. Cada mini-gráfica es una nube de puntos (uno por cada municipio) donde las coordenadas están dadas por las proporciones de votos al senado en ese municipio para los dos partidos correspondientes a su posición en la cuadrícula. En el triángulo superior están las correlaciones esas mismas variables (la interpretación de estas correlaciones ya no la tengo tan clara como cuando las generé, si es que alguna vez la tuve clara). Creo que esperaba ver algún patrón o irregularidad que fuera difícil de apreciar de otro modo, pero creo que no es mucho lo que se ve más allá de lo obvio. Algo que parecen sugerir los gráficos es que los partidos “tradicionales” y sus derivados (i.e., los cuatro primeros) apelan al mismo tipo de votante (lo que permite mayor concentración en el centro de la mini-gráfica) mientras que los partidos minoritarios en realidad no compiten entre ellos: hay pocos municipios en los que ambos sean relativamente fuertes. Pero de nuevo ese es el tipo de cosas que no necesitan un diagrama tan complicado para verlas (si es que se ven).

Me preguntaba Daniel Vaughan por qué hice el gráfico si no sabía bien como leerlo y me puso a pensar en la metodología improvisada y casi artesanal de estos procesos de exploración de datos, tan alejada, en últimas, del análisis formal y estructurado (casi de receta) que promueven los economistas. Supongo que la respuesta corta es que el propósito de estas búsquedas es encontrar perspectivas que iluminen los datos (que permitan verlos ampliamente y ojalá de alguna forma “renovada”) y a veces (casi siempre) hay que escalar al mirador sin saber muy bien qué se verá y qué no. Tal vez lo otro que pasa es que mi intención con la mayoría de los gráficos que hago no es demostrar nada. Eso me permite experimentar sin preocuparme demasiado por entender hacia dónde voy. El reto técnico de aprender a armar el gráfico que quiero a veces paga solo el paseo.

*

El caos institucional colombiano expuesto en un detalle mínimo: la registraduría tiene un código numérico para identificar municipios y corregimientos departamentales donde monta puestos de votación. El Dane también cuenta con un código númerico para identificar lugares poblados. Increíblemente (o no tanto) estos códigos no tienen nada que ver el uno con el otro. Otro similar: los códigos de colegios que usa la secretaría de educación del distrito son diferentes de los códigos que maneja el Icfes.

En aras de facilitar las traducciones idiotas que exigen las burocracias, aquí armé una tabla de municipios con el código del dane y el de la registraduría. Esto es con el apoyo de Alejandro Peláez y Daniel González.

*

Aquí dejo para descarga libre las tablas de votaciones a representantes a la cámara a nivel municipal. Una por cada departamento (más la de la circunscripción de los exiliados.) No creo que haga con ellas pero los programitas que escribí para bajar las otras se adaptaban fácil para bajar estas. Y ya puestos, por qué no.

11

Ayer había raspado de la página de la registraduría las votaciones para cada candidato al senado por departamento. Aquí están en una tabla de Google Docs. Quedé con la espinita y hoy por la tarde después de volver de la cafetería, mientras Laia hacía su siesta, raspé los datos y armé la tabla de votaciones para cada candidato al senado por municipio. Son 752 candidatos y 1185 municipios y Google Docs no permite subir tablas con más de doscientas y algo de columnas, así que dejo el CSV en este repositorio para quien quiera usarlo.

Para la raspada usé la librería XML de R. Una vez se superan las molestias estéticas con la sintaxis, R es una herramienta muy práctica y hasta agradable, especialmente cuando se trata de lidiar con datos sucios, descargarlos, limpiarlos y organizarlos. Para ciertas tareas más serias sigo prefiriendo Python (especialmente si conviene usar estructuras de datos), pero cuando necesito mirar una tabla y hacer tres cálculos y una gráfica rápida con ella R es mi arma de preferencia.

25

Me gusta la idea detrás de Congreso Visible. Siempre me ha gustado. Es un proyecto importante con buenísimas intenciones y que merecería mucha más atención. Problema: la interfaz no es muy práctica y no parece ser muy útil para hacer revisiones panorámicas. En particular, es muy difícil saber cúanta información realmente tienen.

Ayer por curiosidad estuve viendo qué datos tenían sobre los candidatos al congreso para las elecciones de este año y descubrí con agrado que contaban con un API para hablar directamente con su base de datos. Después de cacharrear un rato en R para desenredar el JSON que devuelve el API armé una tabla que condensa la mayoría de los datos que me interesaban (lo único que no incluí fueron las notas biográficas y los conteos de proyectos propuestos por los candidatos que ya han sido congresistas (un indicador pésimo de desempeño)). Tienen mucha menos información de la que pensaba: datos biográficos básicos no están disponibles y también hay problemas elementales, como la ausencia de un campo para el departamento en los candidatos para la cámara.

Lo que más me impresionó, sin embargo, fue lo escasa que es la información de votaciones a proyectos de ley de los candidatos que ya han sido congresistas. Apenas registran cinco proyectos de ley recientes (estatuto de la ciudadanía juvenil (?), justicia penal militar (fuero militar), reforma a la justicia del ejecutivo, implementación del TLC con Estados Unidos (Ley Lleras 2.0), ley estatutaria de reforma a la salud) y por lo general no cuentan con las votaciones para cada uno de ellos por parte de cada candidato-congresista. Dado que es Congreso Visible asumo que si no tienen registro de esas votaciones no es por desinterés.

La tabla me deja con la sensación de que realmente ejercer algún nivel de vigilancia ciudadana sobre los congresistas colombianos es una tarea imposible: ni siquiera se puede saber con claridad cómo votan por los proyectos de ley que discuten. Según entiendo esta es información pública (si no lo es, debería serlo) y sin embargo no hay un mecanismo sencillo para acceder a ella. ¿Si no la tiene Congreso Visible (que lleva años en esas) qué esperanza puede tener un ciudadano común de saber cómo vota su congresista?

22

Las historias que cuentan los datos no siempre están en la superficie y no son siempre las que sus recolectores pretendían capturar. El mapa de homicidios puede interpretarse como una historia muy confusa de violencias que transmutan, migran y renacen (aunque por momentos decaigan gradualmente) pero más al fondo, en la forma como las marcas azules decrecen al tiempo con el número y tasa de homicidios, se oculta, tal vez, una trama más simple que cuenta la consolidación (parcial) de la presencia estatal en regiones que hasta hace muy pocos años eran inaccesibles y, por lo mismo, imposibles de registrar y archivar. De cierta forma los datos cuentan su propia historia (cómo fueron adquiridos, con qué propósito, con cuánta certeza, minucia (o torpeza) y homogeneidad), antes de poder hablar de nada más.

19

Por culpa del mapa de homicidios, ayer me crucé con varias personas que se rehusan a aceptar datos (si es que los leen) cuando estos ponen en duda (o incluso cuando no demuestran contundentemente) la mitología política asumida. Frente a una tendencia clara de reducción de homicidios en un cierto período responden con teorías de conspiración de bolsillo y se sostienen (so pena de sonar enajenados o agüevados) en sus narrativas populares de los baños de sangre apocalípticos y la violencia desatada (¡la más alta de la historia!). Una mujer proponía ayer que la reducción de la tasa de homicidios entre 2002 y 2010 se debió (en las narrativas fáciles todo siempre se explica de un escobazo con un solo factor, en lugar de reconocer que detrás hay siempre una red compleja de condiciones no siempre controlables y altamente aleatorias) a manipulaciones perversas de la “tasa demográfica” (?) en la registraduría, para poner un ejemplo. Otros no pueden aceptar los datos porque consideran que la práctica de los “falsos positivos” (un eufemismo periodístico horrible y ya extendidísimo para referirse al asesinato metódico de muchachos por parte de miembros de las Fuerzas Militares para hacerlos pasar por guerrilleros caídos en combate, acreditar éxitos operativos y ganar permisos, recompensas y condecoraciones) debería amplificar contundentemente las estadísticas de homicidios en general (aunque en la práctica correspondan a menos del 3% de los homicidios cometidos en un año). Y es verdad que estos crímenes son una atrocidad inaceptable, una vergüenza. Y son todavía peores cuando se reconfirma todavía hoy que dentro de las Fuerzas Militares son percibidos como errores casi exculpables de la guerra. Pero yo no me atrevería a decir que el resto de homicidios (en la escala de decenas de miles cada año — las tasas de homicidio, incluso ahora que están en caída, siguen siendo preocupantes) son menos serios. Los conteos son burdos e inexactos (a veces incluso tendenciosos) pero ayudan a poner las historias que nos contamos en perspectiva, a contrastarlas, a cuestionarlas. Aprender a leer números y tomarlos en cuenta no limita ni pervierte. No nos debilita. No deforma el mundo (ese está afuera, no en las tablas, y hay que volver a él siempre). Tampoco nos convierte en cínicos. Es una habilidad valiosa (una de tantas) para no perderse en las exageraciones y vaguedades comunes en discursos políticos. Las gráficas y las tablas no son generadores automáticos de conclusiones incontrovertibles sino plataformas para discutir y tomar distancia ocasional. No podemos sobrevalorarlas pero tampoco desestimarlas.

26

dos_mapas_educacion
De acuerdo a un censo educativo de 2012 y estimados de población del Dane para el mismo año. Código, datos y otras gráficas en este repositorio.