Teatro de los

Siglos de Oro






Página base

Revista
Teatro de palabras


Seminario
Informática de texto


Analizador
Brocense


Banco textual

Otros contenidos










Notas para un seminario sobre
informática de texto en filología
en el contexto del teatro áureo



1. Entrando en materia por la puerta de al lado



RICARDO SERRANO

a filología es un viejo conglomerado de saberes que van desde el estudio de las fuentes de los textos literarios al establecimiento de los contextos o periodos históricos de esos textos, a la hermenéutica (o interpretación), a la ecdótica (o establecimiento de ediciones críticas). Encontrar los textos, pues, situarlos en su contexto, dar con las claves de su lectura y difundirlos adecuadamente.

Hoy está claro que ese conjunto de saberes necesitan la herramienta informática para afrontar todas y cada una de las funciones esenciales de trabajo a las que acabamos de hacer alusión. Es más, la informática ha dejado de representar en el contexto un papel únicamente ancilar y está penetrando en el núcleo de todo el procesamiento del trabajo filológico.

Los simples procesadores de texto, adoptados masivamente en filología desde los años 80, han sido herramientas fáciles de integrar en el medio, sobre todo una vez que se amplían y se unifican los juegos de caracteres por encima del ASCII primitivo (128 caracteres, 99 de ellos “imprimibles”, ¡en los que no entraba ninguno de los diacríticos españoles!).

El código ASCII 128
Una concordancia

La práctica de las “concordancias”, procedente sobre todo de los estudios bíblicos, se integra también en filología general con relativa rapidez. Pero lo más interesante es que hay avances –que hoy situamos en el mismo origen histórico del campo denominado “informática de texto”– que no se desarrollan por la pura incorporación a la filología de tecnologías informáticas, sino como respuestas específicas de la filología a sus propios problemas y necesidades. Es el caso de la estadística léxica, cuya paternidad hemos de reconocer a Charles Muller, que plantea precisamente un gran número de problemáticas ligadas al estudio de sus corpus objeto: el teatro francés del siglo XVII.

Hagamos pues un viaje por el tiempo hasta esos principios (estamos en los años 60 y en la informática de las fichas perforadas) y observemos de cerca dichas problemáticas... extrañamente próximas a las nuestras. Sigamos los pasos de Charles Muller en su cotidiana Besançon, vayamos con él a un coloquio en Strasbourg en el que salta la idea precursora del Trésor de la Langue Française. Todo había empezado por una compilación de la obra de Pierre Corneille, pero ahora se trata ya de enfrentarse con la del conjunto de la literatura francesa. Y ahí tenemos la primera clave:

Cuando es necesario abordar un corpus de una gran extensión y hacerlo con una precisión material y global, entonces la informática se hace insustituible. Pero hay más: la informática deja de ser una simple herramienta de ayuda y se convierte en la clave nuclear del proyecto.

Por el contrario, cuando una u otra de esas dos necesidades está ausente, el ojo humano hace mucho mejor el trabajo.


stamos hablando de lectura, es decir, de análisis, y es un punto ese donde las necesidades del filólogo se encuentran en buena parte con las del director teatral y las del actor: desmembrar un texto en sus partes para ver cómo funciona su maquinaria; encontrar también puntos de unión, enlaces del texto consigo mismo o con otros textos; descubrir sus íntimos sentidos, lo que el texto dice verdaderamente y a quién lo dice; volver a dar un espacio –por vacío que sea– y un tiempo a ese texto, de tal manera que llegue a ser comprensible y pertinente. De eso vamos a hablar sobre todo en estas notas que hoy comenzamos.

Dejaremos momentáneamente de lado otros capítulos de la informática de texto como son la edítica y las bases bibliográficas, ambos con un fuerte empuje actual, respectivamente dependiente de la generalización de los lenguajes de anotación (sobre todo XML) y de los recientes estudios sobre recuperación de la información (ligados a las ciencias cognitivas).

Hablemos pues de necesidades concretas de análisis de un corpus cualquiera. Hagámonos las preguntas más simples, para empezar, que tiempo habrá para ir complicándolas, quizá en colaboración con los lectores. Para empezar, en tándem con Alfredo Hermenegildo, compañero de rutas y aventuras. ¿Qué te parece, Alfredo? ¿Por dónde abrir fuego con una cuestión esencialmente práctica y fácil de seguir?

ALFREDO HERMENEGILDO

so está hecho. Digamos que casi hecho, porque, para un filólogo formado en otros tiempos, la empresa puede resultar compleja. Pero vayamos por partes. Aquí mismo tengo un corpus –compuesto del conjunto de La Numancia y de 4 de las comedias de Cervantes–, que acabo que reunir en un archivo Word desde procedencias diversas. Quisiera hacer unas cuantas calas reveladoras para saber si, de entrada, parece suficientemente fiable. ¿Crees imprescindible imprimir y leer a ojo como primera medida?

Aquí tienes el principio

y aquí el corpus completo.

Se trata de un archivo .doc, prácticamente sin formatos, donde cada réplica es un párrafo y los versos están separados por “cambio de línea” (el que se hace con mayúscula-retorno, que no corta el párrafo). Lo que yo quiero saber, antes de seguir adelante, es si el conjunto del corpus –que, como te digo, procede de fuentes diferentes– presenta un mínimo de consistencia para estudiar ciertas marcas de la metateatralidad.

RICARDO SERRANO

ues vamos a ver. Sin entrar de momento en la semántica y con la simple herramienta de Word –cuyos últimos desarrollos no van precisamente por el lado de las necesidades de la filología–, vamos a hacer unas calas básicas que seguramente nos revelarán el estado de fiabilidad del texto. Según el resultado, veremos cuáles son las herramientas que nos permitirán mejorar esa fiabilidad. Naturalmente, en ese momento tendremos que echar mano de una buena edición. Pero empecemos por nuestras primeras calas:

Vamos a contar simplemente las ocurrencias de los signos ¿, ?, ¡ y !

Si los elementos de cada uno de esos dos pares correlativos (¿-?, ¡-!) no presentan exactamente el mismo número, podemos avanzar, con absoluta seguridad, que el estado del corpus es dudoso.


ALFREDO HERMENEGILDO

ye ¿pero te das cuenta de que tengo entre manos unos 15 000 versos? ¿Te imaginas la cantidad de veces que debo dar al botón “Buscar” para saber el número de cada uno de esos signos?

RICARDO SERRANO

o tienes más que cambiar el signo ¿ por él mismo en todos los casos y Word te facilita de un golpe el número de sus ocurrencias, todo esto sin alterar el texto en absoluto. Veamos, el signo de interrogación abierta me da 786 ocurrencias. ¿Cuántas obtienes del signo de interrogación cerrada?

ALFREDO HERMENEGILDO

umm, 785 ocurrencias para la interrogación cerrada: no coinciden exactamente con las de la interrogación abierta. Voy a ver qué pasa con los signos de admiración: 597 para la abierta y 600 para la cerrada. Tampoco coinciden. El problema ahora es que sabemos que falta o sobra algún signo, pero no sabemos dónde. ¿Cómo dar con las anomalías sin dejarse las pestañas? Dame una solución, maestro, que prefiero dedicar el tiempo a la metateatralidad.

RICARDO SERRANO

ay un programita que ofrece una buena ayuda para ese caso. Luego iremos a probarlo. Pero completemos antes nuestras primeras calas con Word:

Vamos a contar ahora las ocurrencias de los paréntesis y de los guiones de inciso, cualquiera de los 3 posibles, por si acaso (-, –, —), con los que Word tiene la mala costumbre de organizar unos líos fantásticos (cambia el pequeño de entrada por el intermedio, pero no el de salida)

Como en el caso de la interrogación y la admiración, el paréntesis abierto y el cerrado deben presentar el mismo número de ocurrencias. En cuanto a los guiones, deben estar en número par.


ALFREDO HERMENEGILDO

amos con los paréntesis, es decir, con las didascalias explícitas o los apartes, que es donde se usan. El cómputo es descorazonador: 411 el abierto, 413 el cerrado. Esto se presenta sólo medianejo. Terminemos las calas con los guiones de inciso. Pero observo que en este corpus no se da ninguno, así que vuelvo a mi pregunta: ¿cómo dar con los errores observados en el recuento?

RICARDO SERRANO

l logicial del que antes te hablaba es FaltanPuntos y está aquí para Win y aquí para Mac. Está previsto para ser plenamente funcional con corpus en formato BSteatro, pero, con las interrogaciones, las admiraciones y los paréntesis que nos ocupan, basta con a) que remplacemos los “cambios de línea” –^l, circunflejo ele– por “ / ” –espacio barra espacio–, b) que regrabemos el corpus como “texto plano” –.txt– y c) que lo importemos en FaltanPuntos, una vez abierto este logicial. Para empezar, sabemos que tenemos aparentemente una interrogación abierta de más. Seleccionemos pues el botón “¿” y activemos la búsqueda “>>>”, lo que nos facilitará las ocurrencias de interrogación abierta no seguida de una cerrada, o sea, los casos aparentemente anómalos:

El primer caso que nos señala entre los problemáticos podría ser el culpable:
“¿Y las bodas esperadas / ¿”

Vayamos a buscar pues “¿Y las bodas esperadas” en tu corpus Word. Admitir una interrogación que empieza y no termina en absoluto es más que dudoso en un corpus teatral áureo. De todas formas, lo mejor será consultar el caso en ediciones fiables, empezando por la tuya, pues se trata de un fragmento de la jornada 3 de La Numancia. Como es sabido, por otra parte, la puntuación de los manuscritos y de las primeras ediciones del teatro áureo es muy somera, por lo que, en la gran mayoría de los casos, se añaden las convenciones ortográficas actuales al reeditarlos.

ALFREDO HERMENEGILDO

í, ahí parece encontrarse efectivamente la diferencia observada. Si miras mi edición en línea, verás que esa primera interrogación abierta no existe. Pero quiero añadir algo que me parece importante. Líneas arriba te has descolgado con un largo párrafo de intrucciones que merece ser repetido (¿traducido?) para ilustrarnos a quienes no nadamos en las mismas aguas que tú o, por lo menos, no nadamos con la misma elegancia. Me refiero a tus explicaciones anteriores, en las que separo y anoto: 1) el logicial FaltanPuntos está previsto para el formato BSteatro pero funciona bastante bien con cualquier archivo .txt, donde, ¡ay!, el simple cambio de línea de la versión .doc queda automáticamente convertido en retorno; 2) por esta razón, si queremos conservar la entidad párrafo=réplica –que sí queremos–, hay que convertir previamente los cambios de línea en “ / ”, antes de regrabar el archivo .doc como .txt; 3) a continuación, hay que abrir FaltanPuntos e importar en él el archivo .txt con el botón “TextoObjeto”; y 4) buscando en FaltanPuntos los signos que se encuentran en número excedente –o probando con unos y otros–, daremos con los casos potencialmente anómalos, que comprobaremos en el corpus y en las ediciones disponibles.

RICARDO SERRANO

ues de la misma manera procederemos con la admiración cerrada (de la que hemos encontrado 3 ocurrencias más que de la abierta) y con el paréntesis cerrado (2 más que el abierto). Como sabemos, el logicial FaltanPuntos revela los errores potenciales al buscar las ocurrencias de los signos que se encuentran en demasía.

¿De dónde vienen los errores? Cuando los textos proceden de un escaneado, el proceso de reconocimiento de caracteres puede a veces confundir la admiración abierta con una i, por ejemplo. El tiempo, además, termina asentando las cosas, pero el tiempo no es muy largo para las ediciones en línea de los textos clásicos españoles, que están lejos de contar con la misma tradición que los franceses. El número de errores que presenta el corpus teatral áureo disponible en línea es considerable, incluso cuando se trata de organismos oficiales y reconocidos. La prudencia se impone pues antes de ponerse a trabajar sobre archivos descargados. En próximas discusiones iremos viendo otros medios de verificación de más calado.

ALFREDO HERMENEGILDO

stamos completamente de acuerdo: la situación está mejorando pero queda mucho ruido que limpiar... y bastantes vacíos que rellenar. Volviendo sobre el ejercicio que acabamos de hacer, sí, veo que permite hacerse una idea rápida y bastante realista de la calidad formal de un corpus. Luego, el trabajo de revisión hay que hacerlo, claro, pero, de entrada, sabemos ya a qué atenernos.



on el fin de que estas páginas respondan de cerca a preocupaciones reales, los lectores quedan invitados a presentarnos, con un simple mensaje, problemas de método, procesamiento o análisis de textos teatrales áureos. De esta manera, en un futuro vaivén dialogal, podremos allanar dificultades de procesamiento informático de los corpus y concentrarnos en las posibilidades semánticas, para las que la informática está abriendo un nuevo capítulo. ¡Estos diálogos nuestros es que sirven para todo!





Última revisión
de esta página:
26 de abril de 2010




Entradas
contabilizadas por
Google Analytics





Páginas albergadas
desde 1995
por la



Université
du Québec à
Trois-Rivières