Rango Finito

fotoscódigoobservatorioshermanocerdo temas plots

the pale king

David versus David

Hablaba con Mauricio alguna vez de David Mitchell en contraposición a David Wallace. No recuerdo bien los términos de la conversación pero creo que lo que decía era que de alguna manera aunque los talentos de Mitchell y Wallace son complementarios (la de Mitchell es una literatura de historias mientras que la de Wallace es una literatura de _________________ (¿derrumbes e introspecciones? ¿filosofías? ¿psicologías?)) lo que hace Mitchell es mucho más atractivo para mí. Su atractivo radica, creo, en la capacidad de Mitchell para tejer la ficción en estructuras cuidadosas y su habilidad sobrehumana para adaptar su prosa a las exigencias de las historias que cuenta. [Polos en el espectro visible-invisible.] Mientras Wallace es un esclavo de su prosa neurótica-aforística (enmarcada dentro de su compulsión gramática), Mitchell es un camaleón verbal en constante control del flujo de palabras (un creador de voces). Tal vez Wallace puede escribir sobre lo que quiera, pero Mitchell puede escribir lo que quiera con una naturalidad pasmosa. En Mitchell, además, las tramas no son una excusa (para teorizar/pontificar) sino el objetivo primordial de la escritura. Como en los bestsellers, pero mejor hecho y con más respeto.

(En español esta diferencia la ejemplificarían bien Javier Marías y Arturo Pérez-Reverte. Aunque Marías es más controlado que Wallace y Mitchell rotundamente más versátil (e imaginativo) que Pérez-Reverte. Paradójicamente, entre esos dos prefiero de lejos a Marías.)

I went through a sudden period where I couldn’t read

Llevo meses postergando este ejercicio. Hace un par de semanas le dediqué una tarde, pero con la muerte del computador perdí el trabajo (entre muchas otras cosas), así que ayer por la noche lo volví a hacer. El resultado final es más oscuro que iluminador pero qué más da. Su génesis se encuentra en el largo monólogo de Chris Fogle que ocupa el capítulo §22 de The Pale King, la (pseudo)novela póstuma de David Wallace:

[I]nstead of reading something I’d count the words in it, as though reading was the same as just counting the words. [En lugar de leer algo contaba sus palabras, como si leer fuera lo mismo que sólo contar palabras.]

The Pale King (en español El rey pálido, traducción de Javier Calvo) es el esqueleto escueto de una novela que, estimo, rondaría las 1500 páginas (i.e., apenas un tercio de la novela fue concluída). Está estructurada (al menos en su primera edición) en 50 capítulos que, tras la muerte de Wallace, fueron dispuestos en orden lineal por su editor (Wallace no dejó mayores directivas al respecto). Mi pregunta inicial, intencionalmente ingenua, era cómo automatizar ese trabajo o al menos facilitarlo mediante un procesamiento automático del texto que involucrara, cómo no, conteos de palabras.

Gráfico del logaritmo de la extensión en carácteres de cada uno de los capítulos de The Pale King

Con el tiempo, sin embargo, me decanté por un ejercicio alternativo más a mi alcance: (1) Calcular una distancia léxica entre los capítulos, y (2) Disponerlos como puntos en un plano de manera que respetaran (dentro de lo posible) la distancia propuesta. Mi teoría era que un gráfico de ese estilo sería una herramienta útil (un criterio más) para facilitar la organización del texto. Ya no estoy tan seguro.

*

El primer componente del ejercicio es la distancia. La aproximación más intuitiva al cálculo de distancias entre documentos (este artículo de Anna Huang ofrece un sobrevuelo por varios métodos) se basa en recolectar una lista de palabras presentes en los documentos (más detalles adelante) y utilizarlas como base de un espacio vectorial. Bajo este esquema, a cada documento le corresponde una combinación lineal de la base con escalares elegidos de acuerdo al número de apariciones (frecuencia) de la palabra en el documento. Así, si la lista de palabras es $\{v_i\colon 1 \leq i \leq M\}$, entonces un documento $d$ es representado por el vector $M$-dimensional $$\sum_{i=1}^M f_i(d) v_i,$$ donde $f_i(d)$ es igual al número de apariciones de la palabra $v_i$ en el documento $d$. Una vez representados de esta manera, calcular distancias entre documentos se reduce a aplicar el teorema de Pitágoras.

Una versión sólo un poco más sofisticada de lo anterior se basa en la siguiente observación: si una palabra $v_i$ es muy frecuente en un documento $d$ pero también está presente en la mayoría de los documentos disponibles (supongamos que tenemos $N$ documentos) entonces probablemente no sea tan representativa del documento $d$ como cabría esperar inicialmente. Para tomar en cuenta esto, reescribimos la representación vectorial del documento $d$ como $$\sum_{i=1}^M f_i(d) \log\left (\frac{N}{P_i}\right ) v_i,$$ donde $P_i$ es igual al número de documentos que contienen la palabra $v_i$. De esta manera, la frecuencia de la palabra $v_i$ en cada documento es penalizada multiplicándola por un número ($\log(\frac{N}{P_i})$) que se acerca a cero entre más documentos la mencionen.

Así, al final el problema del cálculo de distancias se reduce a decidir cuál debe ser la lista de palabras que se utilicen como base del espacio vectorial de documentos. Siguiendo (a mano alzada) el artículo de Huang, tras una serie de filtros sencillos que removieran diferencias innecesarias y contenido irrelevante busqué (usando NLTK, la navaja suiza del análisis automatizado de texto) todas las palabras que aparecieran más de siete veces en todo el libro. 2060 palabras (aproximadamente un décimo de las que contiene el libro) cumplían con esta condición. Esto en particular implica que los capítulos del libro son representados por puntos en un espacio de dos mil y tantas dimensiones. Calcular distancias entre ellos, ya lo dije, es sencillo. Verlos en un plano es otra historia.

*

Había sobrestimado seriamente la incomprensibilidad del texto. Un conteo burdo de nombres propios en páginas 12-21 ofrece 38, 28, 17, 28, 40, 32, 31, 31, 18, 22. Número medio por página, 28,2, desviación estándar de 6,9, 70% de los datos a s de la media. Número promedio de palabras por página basado en una muestra de 2, 302. O sea 9% de comprensibilidad. Alto.

— H. DeWitt, Ese oscuro objeto del deseo

*

No sé por qué pensaba que el problema de aplanar dimensiones debía estar completa y contundentemente resuelto desde hace décadas. Fue difícil dar por mi cuenta con soluciones convincentes. Finalmente, Juan Manuel me sugirió revisar los métodos de manifold learning implementados en scikit-learn. Para mi sorpresa, varios de los algoritmos disponibles son bastante recientes y provienen de laboratorios de ciencias cognitivas interesados en visión. El que elegí para mi ejercicio, Isomap, fue desarrollado por Josh Tenenbaum (y amigos) cuando trabajaba en Stanford.

La conexión entre visión y reducción de dimensiones se basa en el hecho, permítome ser burdo, de que el ojo cuenta con (muchísimos) sensores que registran el estímulo (imaginen cada sensor como un vector independiente) y luego el cerebro toma esas (combinaciones lineales de) señales y compone una imagen bidimensional (o tal vez un par). ¿Cómo lo hace? Ni idea. Los métodos de manifold analysis intentan simularlo. La idea es asumir que un conjunto de puntos en un espacio de dimensión alta yacen sobre una superficie (de ahí el término manifold) y luego aplanarla preservando en lo posible distancias locales. En el caso particular de Isomap primero se construye un grafo que captura, mediante la imposición de vértices, el sabor local de la colección de puntos, luego se define una distancia optimizada sobre el grafo y finalmente se soluciona un problema de optimización para encontrar los puntos de baja dimensión correspondientes (para el interesado en por qué y cómo funciona, aquí hay detalles y aquí todavía más detalles). Como es de esperarse, entre más puntos, mejor el resultado.

*

Tal vez cincuenta puntos no sean suficientes. (Aquí más grande.)

Este de arriba es el resultado de aplicar Isomap a una versión normalizada (para evitar desequilibrios por diferencias de extensión) de los 50 puntos 2060-dimensionales que representan, de acuerdo a la lista de palabras elegidas, los 50 capítulos de The Pale King. Así se ve. Con Javier discutimos una noche los posibles significados de varios gráficos similares a este pero no logramos decidir si se conectaban de alguna manera con la sustancia del libro, lo que quiera que eso signifique. La verdad, prefiero que sea así. El anticlímax tiene naturaleza de Buda.

*

Anoche, antes de acostarme, se me ocurrió un posible orden lineal que se desprendería de estos cálculos: organizar los capítulos de acuerdo a la distancia al centro de masa (Isomap lo clava en $(0,0)$). El orden sería: §20, §6, §9, §22, §2, §14, §13, §7, §15, §16, §35, §32, §21, §46, §31, §17, §43, §26, §29, §45, §4, §8, §42, §19, §39, §10, §38, §33, §24, §50, §36, §27, §44, §47, §49, §12, §34, §23, §5, §1, §18, §11, §28, §30, §41, §48, §37, §3, §40 y §25. Ya puestos, calculé directamente sobre los puntos originales (en el espacio de dimensión 2060) y en ese caso (cambia, obviamente) el orden es: §22, §24, §2, §27, §42, §30, §7, §19, §33, §9, §5, §14, §47, §6, §49, §16, §8, §46, §43, §15, §13, §23, §36, §32, §26, §45, §39, §3, §12, §18, §29, §20, §17, §48, §38, §37, §50, §21, §31, §4, §35, §44, §1, §11, §41, §40, §28, §34, §10 y §25. En ambos, el recorrido se cierra en ese capítulo neurótico a dos columnas (Devils are actually angels) que describe la tediosa cotidianidad diaria de la oficina de impuestos (casi todos los personajes son mencionados), y se inicia (o casi) con el soliloquio de Chris Fogle (§22) sobre, entre otras cosas, su tendencia a contar palabras en lugar de leer. También podrían organizarse en sentido inverso, como en una espiral hacia el origen. Tal vez eso tenga más sentido.

The Pale King (Notes §16-§50)

Second batch (First here): §16 Lane Dean. REC Break. Routine. Conversation. Distraction. Time. Attention. Laughs. Scene. Fly. §17 Documentary? Abstract. Short. Clergy. Religion. Invisible heroes. IRS ⇔ Institutional heroes. §18 Documentary? Short. Pale King = Glendenning. Change names. Identity. §19 Elevator. (3h!) Conversation. DeWitt Glendenning + Stu Nichols + Gaines. Corporations. Individuals. Democracy. Authority. Morality. Civics. Power. Lies. Rebelion. Individualism. Fear. Happiness. Conformity. §20 Toni Ware. Threat. Dogs. Neighborhood. Moving in. Barking. Noise. Complains. §21 ?? Audition. Lies. Crime. Taxes. §22 (Novella) Chris Fogle (although unnamed). Chicago. 1972-1979. Conversion. IRS. Transformation. Babtism. Service. Gruesome. Accident. Death. Father. Disposition. Parenthood. Speech. Jesuit. Youth. Drugs. Christianity. Accident. Simple life. Enduring tedium. No audience. Heroism. Like v. Love. Counting words. Classify, organize, represent. Conformity. Fake rebelion. As the world turns. Look on my works, ye mighty, and despair. §23 Dream. Childhood. Expectations. Boredom. Lesson. (?) §24 David Wallace (The Author). Peoria, 1985. Confusion. Arrival. REC. Order. Optimization. Neti-Neti. Blowjob. Face. Sweat. Van. Seat. Shame. Notebook. Notes. Meta-narrative. Linearity distorts (!). Self-consciousness. Self-help. “As every American knows, it is totally possible for contempt and anxiety to coexist in the human heart.§25 Two-column format. Turning pages. Boredom. Method. Papers. Review. Examinations. Recurrence. Anonymous names. “Devils are actually angels.§26 Wallace (?) Ghosts v. Phantoms. Sylvanshine facts. Garrity v. Blumquist. Distraction v. Concentration. §27 Orientation. Wallace (GS-13 by mistake). David Cusk (Sweating boy). Sylvanshine. Toni Ware (mysterious woman behing Cusk). Order: Cusk ⇛ Sylvanshine ⇛ Cusk ⇛ Sylvanshine ⇛ Wallace ⇛ Cusk + Sylvanshine (Ware). Themes: Information. Order. Confusion. Mistakes. Incomprehension. Exam. Profit. Attack. Audit. Filtering. Relevance. Disorder. “Avoid the temptation to think that you always need more information. You can drown in it.§28 10 Laws of IRS Personel. Hierarchy. Career. Cycles. Loops. Aspirations. Goals. Profit. Success. “Output.” §29 Conversation. Agents. Childhood. Shit. Monster. No eyelashes. Dog shit. Ass Assault. Bite. Nicknames. Sexual Assault Gone Wrong. Diablo the Left-Handed Surrealist. §30 Sylvanshine + R.J. Cell phone. Highly technical. (Intentionally?) Obscure. Conspiracy. Glendenning. Machines. Replacements for humans. Plan. (Missing shit for sure. Should read again.) §31 Short. Van to the residencies. Warcries. Birds. §32 Short. Office. Distraction. Sister (?) Julie. The exorcist. Conversation. Showing off. Speaker. §33 Lane Dean Jr. (17/May/85) Falling. Pain. Hell. Routine. Emptiness. Reasons. Family. Words. Bore. Interesting. Purpose. Development. Pray. Punishment. Sense. “He had the sensation of a great type of hole or emptiness falling through him and continuing to fall and never hitting the floor.§34 Characterless. Algorithm. Procedure. Form. Tax. Calculation. Formula. No Context. §35 ??? Baby (It). Fierceness. Men as Tools. Hierarchy. Auditing. Power. Fear. Verticality. Group Manager. Aversion. §36 Boy (“So marginal he was not even teased.“) Skin. Kisses. No Doubt. Achievement. Accomplishment. Father. Guilt. Purpose. Dedication. Method. Effort. Goals. Human Algesia. Spinal Hygiene. Body. Lips. Deform. No Reason. Women. Relationships. Marriage. Affairs. Cycle. Torture. Pleasure. Pain. Religion. Stigmata. Self-Control. Backbone. B. R. Faucet’s Famous Neuromuscular Diagrams. §37 Distance. Conversation. Strangers. Social issues. Awkwardness. §38 David Foster Wallace. Confusion. Kafka. Computer. Programming. COBOL. Accusations. Suplantation. (In)Communication. GO TO. §39 Sylvanshine. Power. Glendenning. Stecyk. Childhood (Grand Rapids, MI, Autumn 69) School. Accident. Mr. Inge. Thumb. Respect. Arterial blood. Panic. Bullying. Showers. Humiliation. “What they’d then thought was the wide round world was a little boy’s preening dream.§40 Cusk. Short. List of Fears. §41 Excerpt. Conversation. Fundamentalist. Conversion. Totally out of context. §42 “Colorado Todd”. Short. Meth College Incident. Crazy. Madness. Chemistry. Business. §43 “Dave” (F. Wallace?) + Glendenning, Conversation. Admin. Management. Kindness. Allocation. Distribution. Optimization. Bureaucracy. Power. Idea. Machine Replacement. Proposal. §44 The Key (to Modern Life). ” Everything is Bureaucracy. To breathe, so to speak, without air.§45 Toni Ware. Accident. Horror. Death. Self-Control. Witness. Murder. Mother. Man. Fake catatonia. Open eyes. (“Don’t mess with this girl.“) §46 (The Longest Conversation) Shane “X.” Drinion + Meredith Rand + al. Meibeyer’s (Bar). Friday. Happy Hour. Conversation. Beauty. Interestingness. Reactions. Alcohol. Socio-dynamics. Prettiness. Power. Weakness. “Cutter.” Psychiatry. System. Organism. Diagnosis. Cure. Isolation. Love. Encounters. Destiny (?). Cage. Illness. Entrapped. Dying. Levitation. Concentration. Meta-speech. Meta-selfconsciousness. Repetition. Tedious. Emphasis. Care. Understanding. Protection. Maturity. Attention. §47 Toni Ware. Shop. Con (?). Work (?). Order. Phone Call. Plan (?). Social Analysis. (Confusing. Should probably re-read.) §48 Director DeWitt (Glendenning). Picnic. Adulterated tea. Drugs. Madness. Orgy. Eye socket. Operation. Tactical incursion. Investigation. Agents. Non-sense. Incommunication. Difficulty. “The sky is not longer the sky.§49 Fogle v. Reynolds + Sylvanshine. Test. Interview. Dr. Lehrl. Questions. Confusion. Paradox. Preparation. Trap. §50 Office. Facilitator. Breathe. You. Control. Relax. Calm. “The desk practically an abstraction.

The Pale King (Un juego: conteo y lectura)

Situación: Suponga que tiene N (50) capítulos de una novela. Los capítulos están interrelacionados pero tras la muerte del escritor no hay manera sensata de decidir un orden lineal explícito. El editor hace lo que puede y organiza un libro a partir de la fragmentación, sobre ella, gracias a ciertas pistas, con la tranquilidad de que los lectores del escritor están acostumbrados al desorden (entre tantas otras cosas) y aceptarán sin mayor problema cualquier disposición propuesta. Son las cosas de la postmodernidad bien asumida.

Problema: Dado lo anterior, tal vez el mejor orden es suponer que no hay un orden sino apenas afinidades entre las partes y proponer, en lugar de una disposición lineal, un grafo de conexiones. ¿Es posible detectar automáticamente las interrelaciones entre los capítulos (claro, se podría hacer manualmente (para allá va esto), pero el reto aquí es restringirse a herramientas sintácticas)? Este análisis, por supuesto, no puede llegar demasiado lejos. ¿Pero será posible, por métodos de conteo y análisis estadístico de texto simples (o semi-simples), reconocer con cierta certeza los capítulos que tratan los mismos temas o hablan de los mismos personajes? Mejor dicho: ¿Será posible leer este libro sin leerlo (¡herejía!) mediante un conteo cuidadoso de sus palabras? (Problema difícil en general. Muy difícil.)

Tamaño de los capítulos en bytes

[…] instead of reading something I’d count the words in it, as though reading was the same as just counting the words.

D. Wallace, The Pale King (§22)

(Continuará, creo…)

The Pale King (Notes §1-§15)

First batch (Second here): §1 Characterless. Landscape. Description. Setting. Dandelion. Flowers. Nature. Bowing. Greeting. Brothers. Cosmic Significance. §2 Sylvanshine, Claude. Chicago (MDW) → Peoria. Exam. Preparation. Plane. Monk. Midwest. Dome. Infinity. Recurrence. §3 Out of context. Unidentified characters. Masturbation. Conversation. §4 Blumquist, Frederick. Newspaper (1980). Death. Peoria Journal Star. §5 Stecyk, Leonard (196?). Childhood. Vocation. Perfection. Progressive {solitude, isolation}. “Reach to others”. Service. §6 Fisher, Sheri (20) + Dean Jr., Lane (18-19). Peoria. Nursing. Accounting. God. Fear. Trust. Truth. Decision. Abortion. Youth. Responsibility. Sin. Guilt. Goodness. Praying. Courage. §7. G. Britton (Hamster) + Bondurant (Bradley, MO) ↮ Cheryl Ann Higgs (and her eyes) + Sylvanshine (Selfconsciousness, Intrusion). Mr. Squishee Van. Airport → Post. Peoria. §8 Ware, Toni (Anthony, IL). Mother. Trips. Men. Inner life. Rape. “Being pressed”. Vengeance. Protection. Headless dolls. Absence. Abstraction. Reading. Defense. IS. IL → MO. §9 Wallace, David (Spring 2005). Truth. Legal Concerns. The past. College. Memories. Money. The Initiative. New IRS (1985). Dullness. Obscurity. Opacity. Protection. Information. The Service. Confession. Paradoxical. “I can’t think anyone really believes that today’s so-called ‘information society’ is just about information. Everybody knows it’s about something else, way down.§10 Note. Characterless. Bureaucracy. Complexity. Open Systems. Mechanics. Parts. Physics. Causality. §11 List. Quotation. Characterless. Illnesses. Symptoms. Examination postings. Stress. §12 Stecyk, Leonard (Len). Door to door. Good neighbor. Gifts. Service. Tax. Zip Codes. Greeting. Speech. Smile. Government Agencies. Awkwardness. §13 Boy (?). Sweating Attacks (“his true self trying to literally leak out“). Isolation. Anxiety. Angst. Techniques. Self Image. Projection. Reflection. Highschool. Control. Pain. Sadness. §14 Interviews (?). Q&A. Documentary. Service. Disposition. Occupation. Rules. The Initiative. Job. Control. Money. Routine. Verification. Bounds. Limits. Interrogation. §15 Sylvanshine, Claude. Fact Psychic. Information Overload. Irrelevance. Emptyness. Secrecy. Affliction. Disability. Tedium. Overwhelming. Random-Fact Intuition (RFI).

(Go to Second Batch)

Miércoles (El Profeta)

We are all of us brothers, dice El Profeta por televisión. Cuando estoy cansado pero no puedo dormir veo televisión en la sala de recreo o juego ajedrez. Siempre hay alguien en la sala de recreo dispuesto a una partida. También hay gatos. La doctora dice que son terapéuticos pero prefiero a los perros que viven afuera. Son más humanos. Cuando se acaba la programación comercial se inician los programas religiosos subvencionados por el estado. El Profeta es de lejos mi favorito. El Profeta no propone conversiones, le parecen innecesarias pues en su opinión la misericordia infinita de Dios no exige expresiones de devoción sino la práctica de la bondad. Tampoco promete curaciones milagrosas. El Profeta es un hombre preocupado, dice que vamos por mal camino y que debemos reconsiderar nuestra situación como individuos, nuestra desconexión. Esta perspectiva, nos confiesa, lo angustia. Una fracción significativa del discurso recurrente del Profeta gira en torno a la fé en la existencia de los demás. Esa es una idea que me gusta. El Profeta dice que la fé en Dios es innata, hace parte de la condición humana básica, pero que la fé en el otro, en su individualidad, en su complejidad, en su estatus de igualdad con respecto a nosotros, requiere un esfuerzo que no puede ser compensado con piedad. El Profeta dice que el hombre piadoso que olvida a su prójimo, el que cae en el pecado del solipsismo por darle prioridad al culto al Señor, merecería el infierno si el infierno existiera, porqué él es de la escuela que dice que el infierno es un concepto falso, un error de interpretación popularizado por una mala traducción de las escrituras. Anoche El Profeta decía que la comunión no debe ser un ritual de cada domingo, sino un ejercicio cotidiano y constante por compartir, por encontrarnos con el otro y, al reflejarnos, reconocer explícitamente el valor de su presencia y nuestra propia alteridad.