Ce dépôt a été produit dans le cadre d'une collaboration entre la Bibliothèque interuniversitaire de la Sorbonne (Nubis) et le projet COLAF, géré par l'équipe projet ALMAnaCH de l'Inria.
Le projet traite des monographies et autres textes numérisés par la BIS, couvrant des documents du 15ème au 20ème siècle dans plusieurs langues (latin, français, italien, espagnol, par ordre d'importance). Ce dépôt contient les scripts développés pour :
- Transformer les images numérisées des documents en fichiers ALTO XML.
- Renuméroter et nettoyer les fichiers ALTO XML obtenus selon les souhaits de la Nubis.
- Générer une version texte du contenu textuel de chaque document, répondant aux besoins spécifiques de Nubis.
Ce dossier contient les scripts utilisés pour générer des fichiers ALTO XML à partir des images numérisées via la librairie python Release the Kraken (RTK).
Ce dossier contient un script Python conçu pour nettoyer et renuméroter les fichiers ALTO XML selon les spécifications de Nubis et générer un fichier texte contenant le contenu textuel de chaque document.
Les scripts de ce dépôt sont librement réutilisables et adaptables sous licence Creative Commons Attribution 4.0 International (CC BY 4.0).
Pour toute question ou demande, n'hésitez pas à consulter les contacts et informations dans la documentation.