Situación: Suponga que tiene N (50) capítulos de una novela. Los capítulos están interrelacionados pero tras la muerte del escritor no hay manera sensata de decidir un orden lineal explícito. El editor hace lo que puede y organiza un libro a partir de la fragmentación, sobre ella, gracias a ciertas pistas, con la tranquilidad de que los lectores del escritor están acostumbrados al desorden (entre tantas otras cosas) y aceptarán sin mayor problema cualquier disposición propuesta. Son las cosas de la postmodernidad bien asumida.

Problema: Dado lo anterior, tal vez el mejor orden es suponer que no hay un orden sino apenas afinidades entre las partes y proponer, en lugar de una disposición lineal, un grafo de conexiones. ¿Es posible detectar automáticamente las interrelaciones entre los capítulos (claro, se podría hacer manualmente (para allá va esto), pero el reto aquí es restringirse a herramientas sintácticas)? Este análisis, por supuesto, no puede llegar demasiado lejos. ¿Pero será posible, por métodos de conteo y análisis estadístico de texto simples (o semi-simples), reconocer con cierta certeza los capítulos que tratan los mismos temas o hablan de los mismos personajes? Mejor dicho: ¿Será posible leer este libro sin leerlo (¡herejía!) mediante un conteo cuidadoso de sus palabras? (Problema difícil en general. Muy difícil.)

Tamaño de los capítulos en bytes

[…] instead of reading something I’d count the words in it, as though reading was the same as just counting the words.

D. Wallace, The Pale King (§22)

(Continuará, creo…)