Notes relatives à la préparation des données | Recherches internationales sur les Mazarinades

En vue de la création d’une base de données des Mazarinades, il convient de réfléchir à la catégorisation et à la structuration des données dans la base de données, avant sa création.

La “page” d’une mazarinade

Toutes les Mazarinades dont nous disposons et disposerons apparaissent d’abord sous forme d’images numériques (TI, pour texte en images) et, selon le modèle proposé avec la Déclaration du Roy…, nous en proposerons deux formes textuelles : transcription diplomatique (à l’identique, TD) et version moderne (VM).
La présentation (ou la page) d’une mazarinade, que ce soit dans un article du présent blog ou dans la base de données,? sera systématiquement formée d’au moins 4 parties indissociables :

NB : la notice bibliographique. Le numéro Moreau ou Moreau continué, ainsi que les cotes dans différentes bibliothèques et les renvois aux doublons et variantes seront inclus dans la notice.
TI : le texte en images, qui doit d’abord être un “dossier” nommé par la cote de la pièce, par exemple “D_1_52”, contenant chacune des images au format jpg nommée par la cote suivie du numéro de la page, par exemple D_1_52_1 puis D_1_52_2 et jusqu’à 12 puisque cette mazarinade a 12 pages. En outre, le dossier doit contenir la pièce entière au format tiff paginé, D_1_52.tif de façon à offrir la possibilité à l’utilisateur de la copier entièrement. Toutes les images jpg et tif de la collection sont déjà constituées et conservées depuis la campagne de numérisation de 2008-2009. Chaque dossier constitué selon cette méthode doit être déposé dans le dossier “bin” de la base de données, où les programmes ont la consigne d’aller chercher les images. Un site futur pourra reprendre et réorganiser ces documents.
TD : la transcription diplomatique, qui doit être divisée en pages selon le document original et reprendre exactement le texte de celui-ci, y compris les lettres accentuées, redoublées, en majuscules, en italiques, les signes de ponctuation, etc. Les césures seront réduites (le mot césuré sera écrit entier sur la première des deux lignes concernées). Le signe “&” (esperluette) sera maintenu. Les lettrines seront remplacées par la lettre normale (par exemple, D_1_52 commence par “LOVIS”). Le “s intérieur” (lettre allongée comme un “f” sans barre horizontale) sera noté sous la forme “s” normale. Les éventuels lettres ou mots illisibles doivent être remplacés par la mention [ill.] précédée du nombre de lettres ou de mots, s’il peut être connu ou estimé, par exemple [2 lettres ill.] ou [3 mots ill.]. La recherche de la mention “ill.” permettra par la suite de reprendre ces questions.
VM : la version moderne reprend la division en pages de la TD et modernise l’orthographe, les accents, etc., selon les dictionnaires actuels. Les mots, désinences, tournures, formes syntaxiques et grammaticales qui n’existent plus doivent être remplacées par la forme correspondante en français contemporain. Les zones textuelles pour lesquelles le transcripteur ne sait pas comment établir le texte (mot ou tournure inconnue) doivent être signalées par la mention [pb. trans.] qui pourra être recherchée ultérieurement. Voir exemples ci-bas.

D’autres informations (x) pourront? être ajoutées, soit à la suite de ces quatre parties, soit à l’intérieur de TD ou VM (notes de bas de page ou marginales, liens HTML notamment).

Soit : P(n) = NB(n) + TI(n) + TD(n) + VM(n) + x(n)

Future structuration de TD

Considérons uniquement la transcription diplomatique. L’ensemble du texte de la colonne du milieu est formé de caractères qui ont tous la même hauteur hiérarchique du fait qu’ils sont tous rangés dans la même partie de la base de données actuelle (celle du blog commencé en 2009). Le fait qu’il soit découpé en pages est écrit dans le document lui-même mais n’est pas organisé dans sa structure.
Un premier niveau de structuration pourrait donc être produit en faisant en sorte de pouvoir séparer les pages (par exemple avec la fonction “ancre”…). Ultérieurement, la création d’un programme spécifique pourrait permettre de demander à ne voir que la page 6, par exemple, ou les pages 2 à 5, etc.

Par ailleurs, nous savons que la première page du document est radicalement différente des autres par le fait qu’elle contient des informations paratextuelles.?Dans la forme actuelle, ces informations ne sont pas non plus organisées. Elles devront être collectionnées dans des tables séparées ou munies de balises indexables : le titre, la date d’édition, le nom de l’éditeur, etc. De sorte que s’il y a par exemple trois mille mazarinades dans la base de données, il soit possible de trier par date, par nom d’éditeur, par titre, etc., et de sélectionner cette seule mazarinade en effectuant une requête “déclaration” ou “declaration” en “titre” + 1651 en “date” + “Orléans” ou Orleans” en “lieu d’édition”. Cette requête correspondrait à la question humaine suivante : “Est-ce qu’il y aurait une mazarinade publiée à Orléans en 1651 dont le titre commencerait par le mot Déclaration ?”

Mais les pages 9, 10 et 12 du document (ici je ne peux pas mettre de liens directs puisqu’il n’y a pas (encore) d’ancres) ont aussi une importance particulière. La page 9 contient un lieu, “Bourges”, une date, le 8 octobre 1651, un nom de signataire, “LOVIS” ou “LOUIS”, et un autre nom dont on ne connaît pas le statut, “DE LOMENIE”. La page 10 à son tour contient un nom de lieu, “Paris”, une date, le 5 décembre 1651 et un nom de signataire, “DV TILLET” ou “DU TILLET” ou “Du Tillet”. La page 12 reprend les informations de la page 9. Comment interpréter la diversité de ces informations de lieux, dates et signataires ? Par ailleurs, un signataire est-il un auteur ? Un imprimeur est-il un éditeur ?
Ces questions, posées naïvement pour structurer des données aujourd’hui, renvoient en fait aux disciplines dont les Mazarinades depuis longtemps dépendent : l’histoire, l’histoire de la langue, l’histoire politique, la philologie, etc.

Cependant, grâce à la fonction de recherche en plein texte, il serait en principe possible de retrouver cette mazarinade dans une banque de données très peu structurée, par exemple si chaque pièce était comme notre modèle. Mais cette recherche proposerait aussi toutes les autres pièces qui contiendraient les mêmes mots n’importe où dans le texte, sans que 1651 soit nécessairement la date de la pièce elle-même (par exemple, date d’un événement écrite dans une pièce de 1652) ou sans qu’Orléans soit le lieu de publication (la ville serait citée ou ce serait le nom d’une personne ou d’une rue). Un algorithme pourrait bien sûr organiser ces réponses pour mettre la bonne en premier…

Il faut donc se demander s’il est absolument nécessaire de structurer les données ou s’il suffit de trouver le bon algorithme (par exemple en utilisant celui de Google). D’autant que structurer les données se décompose en plusieurs opérations différentes :

créer la structure elle-même et les relations entre ses parties (base de données ou autre)
créer les programmes qui interrogeront la base de données
entrer les données elles-mêmes (une par une ou en série selon la façon dont on les prépare)
mettre en ligne le tout et en assurer la maintenance

Mais il n’y a pas d’urgence à répondre à cette question. En effet, la préparation des données sous une forme standard permettra toujours ultérieurement de structurer les données et de faire évoluer l’interface, même si le coût peut, selon le cas, être très variable.

Problèmes au passage de TD à VM

(Exemples pris aux deux premières pages de D_1_52)

- “DECLARATION DV ROY” devient “DÉCLARATION DU ROI”
- “CONDE'” devient “CONDÉ”
- “DUCHEffE” (nous n’avons que le “f” qui s’approche du “s intérieur”) devient “DUCHESSE”
- “Longueuille” devient “Longueville”
- “adherans” devient “adhérents” (mais n’est pas remplacé par “partisans” ou “affidés” qui serait le sens actuel)
- “A tous ceux qui ces presentes lettres verront” est transformé en “À tous ceux qui verront ces présentes lettres”
- “nous auons peu apporter” devient “nous avons pu apporter”
- “em-pescher” devient “empêcher”
- “c’estoit” devient “c’était”
- “nous auiós” devient “nous avions” (accent pour abrévier le dernier mot de la ligne, le typographe n’ayant plus assez de place)
- “à l’authorité Royale estoient sçeus” devient “à l’autorité Royale étaient sus” (et non “connus”, selon le sens actuel)

Indépendance entre données et structures

Pendant ce temps, il est loisible de réfléchir à la définition et au nombre des catégories d’informations (titre, auteur, date, texte, etc.), à la pertinence de certaines catégories (lettrine, privilège, etc.), à la manière de saisir les données relatives à chaque pièce (les copier dans des champs, les baliser, les taguer, etc.) en fonction des logiciels et des langages informatiques utilisés, puis à la forme de la présentation des pages d’accueil, de requête, de présentation des listes, des index, des résultats de recherche, des notes, des images, etc.
En effet et dans une certaine mesure, les données et les structures peuvent être traitées séparément dans le temps, l’espace ou par des personnes de compétences différentes, à condition que les règles de la TD soient établies de façon à ne pas empêcher ultérieurement la structuration (que ce soit par un format privé, par une absence de balises minimales, etc. ; par exemple, si la TD ne respectait pas la pagination du document, cette pagination serait perdue pour la VM comme pour la banque de données et toutes les interrogations possibles). En revanche, la non-numérotation des lignes ou l’effacement du “s intérieur” ne semblent pas poser de problème…

Notes relatives à la préparation des données