Rango Finito

fotoscódigoobservatorioshermanocerdo temas juegos

Reporte

Parece que hoy Laia amenazó con meterle un palazo a un compañero de la guardería. Por fortuna Vicky, la profesora, estaba cerca y previno el asalto. Más tarde, ya en la casa, Laia nos contó que otro niño le había pegado en la panza. Estaba apachurrada por eso. Mañana le contaré a Vicky cuando la llevemos al colegio.

Es difícil seguir el progreso del lenguaje porque todo es tan suave que se siente como si nada cambiara aunque todo cambia. Me gustaría poder ser más metódico y registrar eso de alguna forma. Aunque ya para este momento el avance ha sido inmenso. Las estructuras de las frases son cada vez más complejas. Se nota que le gusta experimentar con las herramientas que va adquiriendo, como si probara límites. Es un juego constante en el que yo participo gustoso. Cada vez las conversaciones son más largas y extrañas. Las lecturas de libros incluyen más pausas para que ella intervenga, pregunte, explique y opine. Una pregunta recurrente en todas las historias es si el personaje es bebé, mamá o papá y dónde están los demás (si está solo).

Por alguna razón del cinco salta al catorce cuando cuenta. Después vuelve al siete u ocho, dependiendo.

Las letras le importan un culo, aunque le gusta cantar una versión del ABC que deja de ser el ABC a partir de la D o F. Muy entonada eso sí.

Le gusta hacer todo sola y después de intentar un rato, cuando descubre que le cuesta, pide/exige ayuda. Es mandoncita y nos regaña ocasionalmente con un “¡NO!” firme con dedo en alto que le enseñé para amonestar a Gonta cuando le suelta mordisco. En el colegio también usa el “¡NO!” con profesoras y compañeros.

Nos dice papito y mamita (o mamacita). No sabemos de dónde lo sacó pero yo tiendo a culpar a Dora La Exploradora. Hoy empezó a decir “Laiecita” para referirse a sí misma. No es muy consentida pero a veces, muy ocasionalmente, le gusta consentir. También le gusta dar el “sana que sana”, aunque ella lo llama “sana mañana”.

Canta todo el tiempo. Le gusta aprenderse canciones y practicarlas conmigo. Necesito más canciones. Por las noches, antes de dormir, siempre hay sesión de canciones con el papá. Es el mejor momento del día.

Codility

Codility es una plataforma en línea para evaluar habilidades de programación. Ayer, una de las empresas a las que he enviado hojas de vida me envió allá a hacer un examen de aptitud. Todavía no me he animado a hacerlo, pero ayer mismo estuve probando la plataforma aprovechando que ofrecen algunos problemas de prueba. Son problemas típicos (y (a posteriori) sencillos) de diseño de algoritmos. Hice dos más o menos rápido. En el que quedaba me embolaté y me fui a dormir cansado y frustrado pero la ansiedad que determina el 98% de mi existencia me despertó a las cuatro de la mañana con una idea vaga de cómo escribirlo (y otros pensamientos menos agradables). Finalmente me levanté a las seis e hice el deber. Al final, después de varios intentos, logré soluciones satisfactorias a todas las preguntas. Como lenguaje elegí Python, que también está disponible como opción en la prueba que tengo que hacer. Algo bueno de Python es que me puedo desentender de problemas de desborde con números muy grandes (varios de los tests que hacían a las soluciones intentan romperlas así.) Aquí subí las soluciones sin mayor comentario. Espero que el código sea suficientemente claro.

Despegue

despegue

Cuando empecé a escribir Despegue se llamaba Para poder llegar. Lo escribí durante las mañanas del verano de 2011, en el intermedio entre mis dos semestres como postdoc en la universidad de Waterloo. La escritura tomó un mes y algo. Escribía un capítulo diario. Borré muchos capítulos durante las correcciones. Tomaba notas de posibles capítulos en hojas que no sé dónde habrán terminado. La idea era expandir un relato mínimo y críptico titulado Prodigio que aparecía en Inframundo donde un niño hablaba con admiración de un primo que se había ido y mencionaba de pasada, como si no fuera nada, varias experiencias fuera del cuerpo. Quería sostener el tono infantil pero oscuro de ese relato en algo con aspiraciones de ser una novela infantil con componentes de ciencia ficción y fantasía paranormal. Rápidamente, mientras lo escribía, me di cuenta de que al fondo de la historia estaba mi dificultad por dejar ir la muerte de nuestro hijo. A un año de distancia todavía me atormentaba muchísimo. Me tenía mental y anímicamente incapacitado. Me costaba mucho redactar párrafos y pensar en general. Escribirlo me sirvió para salir de ahí, o al menos para empezar a salir. Fue una forma de reconciliarme con lo que nos había pasado. El protagonista de la historia era un niño que ayudaba a su primo enfermo a organizar una fuga hacia el espacio (el Arriba-Afuera de Cordwainer Smith). Quería que fuera una novela infantil sobre asuntos duros donde el niño protagonista no evadiera la realidad hundiéndose en ensoñaciones fantásticas sino que, al contrario, la encarara usando lo que tenía a su mano: unos poderes y saberes misteriosos heredados de su papá ausente. Quería que él los describiera como cosas naturales, como una ciencia más a la que por cualquier razón tenía acceso. Pese al tema, creo que el libro es más esperanzador que triste. Es una victoria. Aunque mi objetivo era hacer algo lineal, muy rápido (por algo que es más vicio que estilo) terminé escribiendo fragmentos a saltos que al ser encajados cuentan varias reflexiones y anécdotas sobre la partida. Entrelíneas es un ensayo pequeño sobre la soledad, las responsabilidades con los otros y las despedidas. Todavía me gusta el resultado. Es raro e intrigante. Creo que sería un libro que habría disfrutado de haberlo encontrado a los nueve o diez años. Espero poder leérselo a Laia pronto.

Un ejercicio propuesto en Twitter

Me preguntaron esto en Twitter. Como ando dedicado a estudiar probabilidad y estadística entonces aproveché la pregunta para practicar. Repito el problema acá por si acaso:

Sea $\{y_t\}_{t=1}^T$ una sucesión de variables aleatorias independientes e idénticamente distribuidas $N(0, \sigma^2)$ y sea $$S_T = \frac{1}{T}\sum_{t=1}^T y_t^2.$$ Muestre que $$\sqrt{T}(S_T – \sigma^2) \to N(0,2\sigma^4)$$ cuando $T$ tiende a infinito.

Este es el tipo de enunciado que clama al cielo por una aplicación del teorema central del límite. El teorema central del límite es uno de esos resultados cuasi-filosóficos que esencialmente justifica un montón de metodologías y obsesiones que los estadísticos tienen y que giran en torno al uso de la distribución normal. Lo que dice el teorema central del límite, siendo vago, es que si uno tiene unas variables independientes entonces el promedio de estas variables tiende a distribuirse normalmente cuando el número de variables que se consideran tiende a infinito. Filosóficamente lo que implica es que como casi cualquier medida de cualquier cosa es en el fondo un promediado de un montón de otras variables distintas de cosas que no podemos realmente medir, entonces es común que esas medidas finales (las que nosotros hacemos) se comporten normalmente (o sea, que se distribuyan como una curva de Bell.) Por supuesto esta es más una declaración de fe que otra cosa, pero en términos prácticos funciona lo suficiente (en ciertos contextos) como para asumirlo como dogma.

Ahora escribo un enunciado formal del teorema central del límite más básico para que vean lo cerca que está del problema propuesto:

Sean $\{X_i\}_{i<\infty}$ una sucesión de variables aleatorias independientes e idénticamente distribuidas con $E[X_i]=\mu$ y $Var[X_i]=\sigma^2<\infty$. Entonces cuando $n$ tiende a infinito, $$\sqrt{n}\left(\left(\frac{1}{n}\sum_{i=1}^n X_i \right) - \mu\right) \to N(0,\sigma^2).$$

Como aspiramos a usar el teorema central del límite en el problema, entonces el ejercicio se reduce a traducir: en el problema tenemos una sucesión de variables independientes e idénticamente distribuidas pero queremos calcular la distribución del límite de los promedios de sus cuadrados, entonces la media y varianza que necesitamos son las de $y^2$ donde $y$ se distribuye $N(0,\sigma^2)$:

  • Calculemos $E[y^2]$: $$E[y^2] = E\left[\sigma^2 \frac{y^2}{\sigma^2}\right] = \sigma^2 E\left[\frac{y^2}{\sigma^2}\right] = \sigma^2$$ porque $$E[X^{2n}] = \sigma^{2n} (2n – 1)!!$$ si $X$ se tiene distribución normal con varianza $\sigma^2$ y $!!$ es el doble factorial. En este caso $y/\sigma$ se distribuye $N(0,1)$ y $1!! = 1$.
  • Ahora calculemos $Var[y^2]$: $$Var[y^2] = E[y^4] – (E[y^2])^2 = \sigma^4\left(E\left[\frac{y^4}{\sigma^4}\right] – \left(E\left[\frac{y^2}{\sigma^2}\right]\right)^2\right).$$ Pero $$E\left[\frac{y^4}{\sigma^4}\right] = 3!! = 3$$ y $$\left(E\left[\frac{y^2}{\sigma^2}\right]\right)^2 = 1^2 = 1.$$ De donde $Var[y^2] = 2\sigma^4$.

Por tanto tenemos unas variables aleatorias independientes e idénticamente distribuidas (las $y_t^2$) con $E[y_t^2]=\sigma^2$ y $Var[y_t^2]$. El teorema central del límite nos dice que: $$\sqrt{T}\left(\left(\frac{1}{T}\sum_{t=1}^T y_t^2 \right) – \sigma^2\right) \to N(0,2\sigma^4)$$ cuando $T$ tiende a infinito. Esto es precisamente lo que queríamos demostrar.

Diferencias significativas

Un error estadístico frecuente ocurre cuando se comparan resultados en intenciones de voto en una encuesta entre un par de candidatos, usualmente los dos más fuertes. El error consiste en tomar la diferencia entre los porcentajes obtenidos y compararla con el margen de error que reporta la encuesta. Si la diferencia es mayor que el margen de error (o dos veces el margen de error, algo así), se concluye erróneamente que la ventaja es significativa. En realidad ese margen de error no aplica a diferencias de valores sino a valores puntuales, por decirlo burdamente. Las diferencias de valores tienen una distribución distinta y un margen de error propio. Hace un par de días Guillermo Moncecchi publicó este cuaderno de iPython mostrando cómo evaluar rigurosamente esas diferencias. En algún apartado proponía armas una página que permitiera poner los valores a comparar y el número de encuestados y la página calculara si la diferencia era significativa o no. Ayer me senté un rato y la armé. Permite comparar valores a una pregunta en una misma encuesta o el mismo valor en dos encuestas distintas con la misma pregunta. En el primer caso, si la diferencia no es significativamente distinta de cero con un nivel de confianza del 95% entonces indica cuál sería el mínimo número de encuestados con los cuales esa diferencia sería efectivamente significativa. Aquí, como acompañamiento, cuatro gráficos señalando para porcentajes p1 y p2 cuáles pares tienen diferencia significativa (azul marino) y cuales no (rosa claro) dependiendo del número de encuestados (N). Sombreo la zona irrelevante en la que p1 y p2 suman más de 1. Entre más altos sean los valores de p1 y p2 se vuelve más difícil asegurar que su diferencia sea respaldada por la encuesta.

confianzas

Un clasificador de Bayes falso

Lo que sigue es un pequeño complemento a Tres Modelos que estuve conversando con Santiago hoy: una forma de usar Bayes (asignar la clasificación de acuerdo a qué color tiene la mayor probabilidad en cada punto) aunque no se cuente con la distribución de densidad de las poblaciones que se estudian es asumir alguna distribución de densidad a priori basada en datos empíricos y proceder desde ahí. Hay una discusión filosófica al fondo de eso pero no importa la posición que se tenga el método sigue teniendo sentido. Sobre esto me gustaría escribir algo detallado. Probablemente le dedique otro texto largo pues es un criterio de selección de procedimientos clave en teoría de decisión estadística.

Lo que quiero hacer ahora es un poco distinto y probablemente bastante sucio: con los datos de entrenamiento a mano (¡y solo con ellos!) hay métodos que permiten calcular una función de densidad falsa que se conoce como kernel density estimate (KDE). Para calcular el KDE, además de los datos $x_1, x_2,\ldots,x_m\in\mathbb{R}^n$ se necesita un $h>0$ y una función $$K:\mathbb{R}^n\to \mathbb{R}$$ simétrica con respecto al origen pero no necesariamente positiva con la condición de que $$\int_{\mathbb{R}^n} K = 1.$$ El $K$ estándar es una multinormal centrada en cero y con la matriz identidad como covarianza.

Dados estos ingredientes, a el KDE es una función $f_{K,h}$ definida como sigue: $$f_{K,h}(x)=\frac{1}{mh}\sum_{i=1}^m K\left(\frac{x-x_i}{h}\right).$$

O sea una suerte de promedio local ponderado de las distancias del punto a los datos disponibles.

En el código que sigue tomo la muestra de entrenamiento y para cada color calculo un KDE con $K$ normal bivariada y $h$ elegido con un método estándar para estos menesteres que está descrito acá. Después grafico los KDE en tres dimensiones para ver las dos montañas:


# Primero extraigo las poblaciones de cada color:
blues <- training_sample[training_sample$color == "blue", 1:2]
oranges <- training_sample[training_sample$color == "orange", 1:2]

# Después calculo los KDE en 2D:
dblues <- kde2d(blues[,1], blues[,2], n=200, lims = c(-3, 3, -3, 3))
doranges <- kde2d(oranges[,1], oranges[,2], n=200, lims = c(-3, 3, -3, 3))

# Y finalmente lo grafico:
persp3D(x=doranges$x, y=doranges$y, z= doranges$z, shade=.5, col="orange", 
    alpha= .5, phi=20, box=F, contour=T, theta=-30)
persp3D(x=dblues$x, y=dblues$y, z= dblues$z, shade=.5, col="dodgerblue2", 
    alpha= .5, add=T, phi=20, contour=T,  theta=-30)

Densidades Falsas

Para comparar, aquí las densidades reales de las poblaciones:

Densidad Real

Ahora lo que se puede hacer, por jugar, es proponer una clasificación basada en estas densidades falsas y mirar cómo se diferencia de la clasificación de Bayes. Grafiquemos ambas fronteras, Bayes (rojo) y Bayes Falsa (verde), sobre la muestra de evaluación:


# Primero organizo los KDE en un dataframe:
density.df <- expand.grid(dblues$x, dblues$y)
density.df$blues <- as.vector(dblues$z)
density.df$oranges <- as.vector(doranges$z)

# Ahora defino el Bayes falso (1 es naranja y 0 es azul):
density.df$fake.bayes <- as.numeric(density.df$blues < density.df$oranges)

# Finalmente lo grafico:
grid$color <- apply(grid[,1:2], 1, bayes_classifier)
ggplot(grid, aes(X1, X2, z=color)) +  
    geom_point(aes(X1, X2, fill=as.factor(color)), 
        size=1, col="white", shape=21, alpha=0.5) + 
    geom_point(data=test_sample, aes(x=X1, y=X2, col=color)) +
    stat_contour(bins=1, color="red", size=2) +
    stat_contour(data=density.df, aes(x=Var1, y=Var2, z=fake.bayes), 
        color="forestgreen", bins=1, size=2) +
    scale_color_manual(guide="none", values=c("dodgerblue2", "orange")) +
    scale_fill_manual(guide="none", values=c("dodgerblue2", "orange")) +
    theme_bw() + xlab("x") + ylab("y")

bayes.vs.fake.bayes

Obviamente el Bayes falso es muchísimo más débil que Bayes: se deja manipular demasiado por la muestra de entrenamiento.

Ejercicio: calcular el error de este modelo de Bayes falso en la muestra de evaluación.

Tres modelos

TESL

Aunque llevo cerca de un año echándole un ojo ocasionalmente, estos últimos meses he estado mirando con más cuidado The Elements of Statistical Learning, el libro de referencia básico de aprendizaje estadístico. Ayer viernes por la tarde estaba releyendo definiciones del segundo capítulo y descubrí que no entendía del todo la figura 2.4. (una versión de la que encabeza esta entrada). En particular no entendía cómo se podía calcular ese error de Bayes en el caso concreto del ejemplo. Después de buscar un rato en Google y no encontrar ninguna respuesta satisfactoria me puse a reproducir uno a uno los cálculos del capítulo a ver si me iluminaba. Después de darle muchas vueltas creo que entiendo mucho mejor cómo va. El resultado de mis pesquisas intentando explicarme qué es el tal error de Bayes son estas notas. De paso sirve como introducción a modelos de clasificación. Espero no estar muy descachado en mis intuiciones.

Cerca

Esta semana cumplimos otro aniversario del nacimiento y muerte de Mauricio. Sería un niño de cuatro años. Mónica y Laia están en Florida de paseo familiar y yo acá en la casa trabajando. Fue mala idea quedarme solo esta semana.

Los aniversarios son lo más parecido a regresar al mismo momento por fuera del recuerdo. Y de cierta forma también son un regreso físico muy concreto a una posición en el espacio en el sistema de coordenadas que tiene en el centro al sol (aunque también hay un descuadre ahí que hace cada vez más difícil el empalme). De pronto por eso durante los cuatro días de septiembre que nos acompañó lo siento más cerca y presente. Es una forma de reencontrarnos. Pienso en él y en lo que no fue. Lo extraño aunque apenas lo conocí. Y cuando los días pasan nos volvemos a alejar otra vez hasta el próximo año. Así será por siempre.

PISA nos pisa

En esta entrada de su blog, Arthur Charpentier intenta evaluar qué tan “elitista” es la educación francesa de acuerdo a los resultados del examen PISA (concluye que no particularmente). Inspirado en sus cálculos organicé algunas gráficas intentando visualizar/evidenciar desigualdades en los resultados de PISA 2012 con énfasis en Colombia. Por lo pronto sólo hay gráficas y muy poco comentario (tal vez porque prefiero no forzar interpretaciones y me gustaría, más bien, conversarlas por acá si alguno se anima). El código que genera el documento está acá.

Aquí, por ejemplo, está una gráfica que permite comparar las distribuciones de puntajes en matemática para varios países (diferenciadas por sexo):

Distribuciones puntajes PISA 2012

En el documento hay otras formas con diferentes énfasis de hacer esta misma comparación.

Negacionismo

Llevaba ocho meses con las gafas desajustadas, prácticamente flotando libres sobre mi cara, a punto de caer. Sabía que necesitaba ajustarlas pero había evadido la diligencia con el desgreño intencional autodestructivo que casi que me define. Las pocas veces que estuve cerca de la óptica algo (una fuerza) me llevaba en cualquier otra dirección, como si el procedimiento (a la larga trivial) de entrar y pedir un ajuste de las gafas fuera un martirio inaceptable, incluso cuando sabía que contribuiría de inmediato a mi tranquilidad (el estado de las gafas era una fuente regular de ansiedad, claro). La dependiente me llevó a un escritorio donde un señor agarró mis gafas y las moldeó con cuidado después de revisar, sosteniéndolas sobre a mi cara, cuál era el problema. La reparación no tomó más de un par de minutos. Antes de devolverme las gafas las limpio con un golpe de líquido pulverizado seguido de un pañuelito. Estiré las manos para recibirlas pero ignoró el gesto: las puso él personalmente con firmeza (como si dudara de mi capacidad para hacerlo), se aseguró de que se sostuvieran en su lugar, asintió cansado y se fue sin decir nada más. Sentí como si hubiera dejado de existir.

Futbolistas cuantificados

Durante el mundial recopilé, partido a partido, las estadísticas de jugadores que publicaba Who Scored. Con esos datos armé la serie de reportes que improvisé para Mundo Pelota. Las tablas que ofrece el sitio eran acumulados de todos los partidos jugados hasta el momento así que debía descargarlas regularmente para extraer los datos correspondientes a partidos recién jugados (sustrayendo números de tablas acumuladas anteriores). Escribí un script en R (impresentable al público en el estado actual) que entraba, sacaba los datos de una variable en en un script de javascript de la página que generaba la tabla en cliente (un desastre de código, si me preguntan — espero que no lo hicieran así para celar los datos), armaba una tabla y extraía los datos correspondientes a los partidos jugados durante ese día. Hace rato que tengo las tablas pero no había hecho la tarea de organizarlas y limpiarlas. Finalmente ayer les dediqué un par de horas y las subí a este repositorio en GitHub.

Aquí, por ejemplo, una gráfica con estadísticas de duelos aéreos y estaturas usando los datos acumulados de todos los jugadores que participaron en más de tres duelos aéreos durante el mundial:

duelosaereos

Imperdurables

La propagación de la figura del instructor temporal (cariñosamente apodado temp en el argot académico anglo) relega la función educativa de las universidades a la última prioridad posible. Los temporales somos una evidencia más del desprecio por la enseñanza que el medio universitario camufla torpemente excusándose en la calidad y fama de sus profesores-investigadores, todos grandes ejecutivos de esa industria sublimada de producir artículos para consumo y beneficio de nadie más que ellos mismos. Para propiciar que alcancen sus grandezas mezquinas y caprichosas, las universidades contratan docentes ocasionales que suplan la demanda de esos cursos básicos (casi todos) que los refinados profesores evaden activamente: no están a su altura, no tienen tiempo para esas pequeñeces, la docencia es tal vez demasiado mundana.

Pensaba en eso mientras hablaba con mis estudiantes de este curso de verano que recién termino. Pienso en eso regularmente cuando dicto clase. Me incomoda mucho. Esa jerarquía de profesores de primer y segundo nivel, con los primeros posando para las fotos y ofreciendo entrevistas o seminarios elevados para que los aplaudan y coman cuento y los segundos medio invisibles y menos pagados haciendo el trabajo que se supone que corresponde a los primeros (el trabajo que es la misión de la universidad, lo que le da sentido) es no solo desagradable sino contraproducente. En mi caso personal alcanzo a sentir cómo me impulsa hacia la mediocridad y el cinismo: si mi tarea es dictar este curso y no más que este, si no hay ninguna posibilidad de una afiliación duradera con la universidad, si planear y proponer cursos es imposible, no tiene sentido que le dedique a la tarea asignada más que el mínimo de tiempo y energía posible (aunque igual me termino matando porque la ansiedad me puede aunque la plata no pague realmente mi tiempo invertido). Es un trabajo que no es apreciado. Lo más triste es que los estudiantes (cada vez más abandonados y perdidos en las burocracias universitarias, sin guías que los conozcan, acompañen y les propongan caminos) son los mayores perjudicados.

Adios a los números

Escribo desde las pausas entre las vidas que me corresponden. En realidad es solo una vida pero fluctúa y se transforma. Laia mordía hace poco un muñeco pollo que reclamamos en una promoción de Kokoriko hace quince años. Cuando reclamamos ese pollo a cambio de una hamburguesa (probablemente la mejor promoción de comida rápida jamás ofrecida por un negocio colombiano) no pensamos que algún día una hija hecha de los dos jugaría con él. Pero aquí está: ya tiene dos años, hace algo parecido a hablar, es caprichosa y malgeniada ocasionalmente pero también genuinamente cariñosa. Le gusta ser independiente y libre. Todavía le da duro la llegada a la guardería.

Estoy a punto de terminar mi curso de seis semanas en la universidad. Como siempre, el trabajo con estudiantes es edificante. Lástima que sea tan efímero. En todo caso yo me esfuerzo y preparo las clases e intento ofrecerles algo más que una reiteración de contenidos más o menos insustanciales. Desde mi posición como instructor temporal muy ocasional no hay mucho más que pueda hacer. Los profesores oficiales de la universidad (quienes sí podrían tener una influencia positiva y sostenida en los muchachos y que son responsables del futuro que esos programas les ofrecen) tienden a evadir esos cursos básicos y los desprecian como ejercicios menores, casi castigos, que deben soportar con renuencia a cambio del tiempo y fondos que reciben para hacer esencialmente lo que les plazca bajo la promesa de que sus ombliguismos intelectuales son determinantes para el desarrollo de la sociedad. En los intermedios entre clases trabajo en varios proyectos, más que todo relacionados con exploración y organización de conjuntos de datos. Parece que habrá más trabajo en esa línea durante este otoño. Conseguir cursos para dictar es muy difícil. Tengo una prioridad bajísima debido a que no tengo vínculos profesionales con la universidad. Soy la opción cuando no tienen más opción. Igual seguiré presentándome cada año porque disfruto hacerlo aunque a veces me agobie. Mi molestia con todo lo “académico” (sus pretensiones y sus engaños) es cada vez más intensa.

Mi hermana y mis tías estuvieron de visita hace un mes. Mi hermana estuvo por tres semanas dedicada a Laia. Se hicieron amigas. Fuimos un fin de semana a Toronto y de resto estuvimos en el pueblo.

Cuando termine el curso quiero dedicarle tiempo a las correcciones del libro que escribimos con Luis. Estamos a poco de tener una versión pulida pero no hemos encontrado el tiempo para poder trabajar. Por otro lado se supone que Despegue (originalmente llamada Para poder llegar), la cortísima novela infantil que escribí en verano de 2011 (durante mi año en Waterloo), sale a la venta en librerías colombianas esta semana. Al final salió en el sello juvenil (Gran angular) de SM (los mismos de El barco de vapor). Les dio miedo venderla como un libro para niños.

17

diferencias.resultados.participacion

Un problema de las denuncias de Uribe usando conteo de votos como un indicador de fraude es que no toma en cuenta que el total de participación también aumentó. Para hacer un análisis mínimamente serio sería importante considerar la diferencia de resultados como porcentajes del total de participación en cada vuelta. Esto daría una medida más justa del ascenso de los candidatos en los diferentes municipios. En esta gráfica calculo este valor para ambos candidatos y lo comparo con el cambio en la participación (como porcentaje del potencial electoral). Ambas nubes son relativamente similares salvo por ligeras diferencias regionales como un repunte de Santos en la costa caribe y el suroccidente y un repunte de Zuluaga en el nororiente. Otro punto clave es que Zuluaga perdió fuerza (diferencia de resultados negativa) en muchos más municipios que Santos). En todo caso, muy probablemente es posible encontrar ejemplos de saltos notables de votación para Zuluaga en Santander similares a los que Uribe denuncia para Santos en la costa como prueba de fraude (aunque en ese caso me imagino que la interpretación de Uribe será que el sentir popular motivó a los votantes independientes (“de opinión”) para apoyar al señor Zuluaga). En el gráfico de cajas a continuación presento las distribuciones de cambios de resultado para ambos candidatos para cada región. La pelea fue pareja pero entre Bogotá, sobre todo Bogotá, y la costa le dieron a Santos la victoria:

cajas.regiones.dif.resutados

En Foco Económico, Nicolás Idrobo y Pablo Querubín publicaron este análisis sobre los resultados de las elecciones utilizando algunos de los datos que recopilé. Vayan y lean.

16

diferencia.resultados

Para cada municipio tomo el total de votos depositados y para cada uno de los dos candidatos calculo la proporción de votos que le corresponden (un número entre cero y uno). Lo hago en primera y segunda vuelta por separado y después resto el valor de primera vuelta del de segunda vuelta. El resultado es un número que, para cada candidato, me dice cómo mejoró (o empeoró, si es menor que cero) su resultado en el municipio. En el gráfico están las distribuciones de estos valores para los dos candidatos de la segunda vuelta. Los puntos sugieren potencial electoral de los municipios. La caja difuminada es la representación tradicional de distribuciones de valores numéricos. Los colores son las regiones que usa el Banco de la República.