Del texto al resultado final (1): haciéndonos con el texto

Primera entrega de la serie de posts sobre el proceso de edición digital de un texto.

0. Escenario inicial

Tenemos idea de publicar un texto. Podemos tenerlo en papel (manuscrito o impreso bien sea en original o facsimilar), en reproduciión digital (imágenes o pdf) o en texto (TXT,RTF, ePub); los PDF pueden estar en dos escenarios diferentes ya que pueden estar compuestos de una capa de texto junto a las imágenes o ser simplemente imágenes. Esto lo trataremos más adelante.

Queremos procesar el texto para crear un corpus, codificarlo, analizarlo y publicarlo bien sea en edición crítica o como divugación de nuestra investigación.

1. Recopilación

Lo primero a los que nos tendremos que dedicar atención es a hacernos con el texto. Y aunque parezca una obviedad, la cosa no es tan sencilla.

Derechos de la obra. Las obras pueden ser de dominio público o tener derechos de autor. Si la obra está en dominio público no hay ningún problema. Si la obra tiene derechos de autor, hemos de contactar con los herederos, personas o instituciones que tengan los derechos para definir los términos de uso del texto de cara a su publicación1. Si sólo vas a publicar los resultados de la investigación y no el texto, no será necesario hablar con nadie.

Si no tienes información sobre el estado de la obra, la BNE y CEDRO pueden ser de utilidad.2

Disponibilidad. Si la obra está en línea nos allana el camino porque nos facilita parte del trabajo inicial. Organismos como la BNE tiene a disposición obras en formato digital a través de la Biblioteca Digital Hispánica. Las obras están disponibles en PDF, imágenes independientes y, en algunos casos, en versiones epub y de texto plano. Con respecto a estas últimas opciones hay que tener cautelas pues la probia BNE advierte de que los textos a veces son de un OCR en bruto y no están limpios. De hecho, en los detalles de descarga de una obra cualquiera, la BNE los llama «TXT (texto no estructurado» y advierte que «su calidad puede variar en función de la tipografía original del documento».

2. Transcripción

En esta fase prepararemos los textos para crear nuestro corpus3.

Si tenemos la suerte de disponer de una versión digital del texto, el trabajo en esta etapa se limitará a asegurarnos de la calidad del mismo. Ten en cuenta que la calidad del texto incide en la calidad del corpus y este en la de los resultados.

Si no disponemos de versión digital del texto tendremos que transcribirlo. Esta es una labor tediosa que a casi nadie le gusta pero que resulta determinante para el éxito de todo el proceso. Lo que se suele usar es el Reconocimiento Optico de Caracteres (OCR en inglés)4, tecnología utilizada por diversas herramientas que se diferencias entre popularidad, facilidad de uso y efectividad. Podemos decir que las herramientas más conocidas son Adobe Acrobat y la línea de aplicaciones de ABBY, ambas propietarias y costosas.5

Yo recomiendo el uso de Tesseract, una herramienta Open Source que cubrirá con creces nuestras necesidades y está disponible para todas las plataformas. En su web encontramos toda la documentación del proyecto. Un buen punto de partida es leer la documentación y ver este tutorial que aunque está en inglés es muy fácil de seguir.

La Inteligencia Artificial también ha hecho presencia en los últimos tiempos en el tratamiento y procesamiento de textos. En concreto con un proyecto llamado Transkribus que permite entrenar a las máquinas en el reconocimiento de caracteres, incluso manuscritos. Fue gratis durante mucho tiempo y ahora ha cambiado a un modelo incial gratuito (500 créditos) que luego pasa a un plan de pago. Eso sí, muy económico. Si el texto con el que estamos trabajando es muy extenso y complicado, Transkribus podría ser una gran alternativa.

No existe una norma única para el tratamiento inicial del texto. Podemos usar una aplicación de las antes mencionadas o podemos transcribirlo nosotros mismos. Esto último puede ser más lento en algunos casos pero dependiendo de la naturaleza de nuestro texto original puede resultar más conveniente al permitirnos terminar con un texto más limpio.

3. Depuración

Una vez que tenemos el texto listo, nos queda asegurarnos de que está en las mejores condiciones posible y que es fiel a nuestro documento de partida. Esta actividad será recurrente a lo largo de todo el proceso de edición y se define como una optimización iterativa. Esto quiere decir que volveremos con frecuencia al texto al detectar pequeños errores o para hacer los ajustes necesarios de aquellas fallas que detectemos en el proceso.

No consideres que este volver al texto o a la limpieza del corpus es una pérdida de tiempo. Al contrario, pues en la medida en que tengamos un mejor corpus, tendremos mejores resultados finales.

4. Resumen

Hemos hablado de cómo hacernos con el texto y considerado las diferentes situaciones jurídicas que puede presentar. Así mismo, hemos hablado de cómo se puede llevar a formato digital si es que no lo tenemos y como cierre, y muy importante, hemos hablado de la depuración del corpus.

Hasta aquí llega este breve texto cuyo propósito no es más que plantear una introducción al proceso de edición. Espero que te haya sido útil. Nos vemos en la segunda parte.


  1. Si sólo vas a publicar el resultados de análisis del texto, no es necesario negociar el uso del texto con nadie ya que no necesitas autorización alguna para realizar análisis. ↩︎

  2. La BNE publica todos los años una relación de autores que entran en dominio publico. Como orientación, decirte que en España, los autores pasan a dominio público al cumplirse 70 años de su muerte. Más información en Autores en dominio público ↩︎

  3. Por razones metodológicas usaremos siempre la palabra corpus aunque se trate de una obra única, bien sea una crata, un libro o un expediente de un archivo. ↩︎

  4. El Reconocimiento Óptico de Caracteres (ROC) es un proceso dirigido a la digitalización de textos, los cuales identifican automáticamente a partir de una imagen símbolos o caracteres que pertenecen a un determinado alfabeto, para luego almacenarlos en forma de datos. ↩︎

  5. En el sigueinte enlace podrás encontrar algunas alternativa Open Source ↩︎