Entités de base : le corpus

Nous supposons trois ensembles d'entités textuelles sous forme électronique (toutes issues d'e-textes) :

L'ensemble des textes, $\mathit{Tc}$ , qui constitue le corpus au sens large, comprenant tous les textes disponibles sous forme électronique. Un texte $tc\in \mathit{Tc}$ a un nom (liste de caractères) et un contenu textuel, le << texte >> proprement dit, considéré en tant qu'ensemble structuré de caractères. La structure exacte (linéaire, SGML ou autre)^4.1 ne nous intéresse pas pour le formalisme à ceci près que chaque texte peut attribuer une << position >> unique à chaque caractère de son contenu textuel. La forme exacte de cette position ne nous intéresse pas non plus pour le formalisme, tant que les positions sont comparables. Par exemple, une position peut être définie par un entier de 1 à la taille du texte en caractères, un couple (ligne, colonne) en supposant que le texte est découpé en lignes, un quadruplet (section, paragraphe, ligne, colonne), etc.
L'ensemble des lexies, $\mathit{Lc}$ , dont les éléments ont les mêmes propriétés que les éléments de $\mathit{Tc}$ , avec un contenu textuel égal à leur nom et égal à une partie d'au moins un texte de $\mathit{Tc}$ . Deux remarques sont ici nécessaires. Le contenu textuel étant égal au nom d'une lexie, i.e. à une liste de caractères, il a lui-aussi une structure linéaire. Si la structure du texte est différente (plus complexe) une lexie peut ne pas être directement comparable à une partie précise d'un texte. C'est à la structure du texte d'enlever d'éventuels traits de formatage pour arriver à une liste de caractères comparable aux lexies.
L'ensemble des anagnoses, $\mathit{Ac}$ , avec les mêmes propriétés que $\mathit{Tc}$ , i.e. nom et contenu textuel, constitué de caractères (linéairement ou autrement structurés).

Les trois ensembles évoluent avec le temps, le contenu textuel de leurs éléments aussi. $\mathit{Tc}$ est relativement plus stable, dans la mesure où les textes sont censés être en principe immodifiables surtout en forme. Les lexies ont un contenu textuel stable mais l'utilisateur peut augmenter leur nombre en définissant des nouvelles. Les anagnoses sont les moins stables : l'utilisateur peut et en créer des nouvelles et en modifier le contenu textuel.

Quelques mots sur les interrelations entre les ensembles. Nous avons déjà écrit que le nom d'une lexie correspond à au moins une partie d'au moins un texte. Par exemple, 'lexie' apparaît 6 fois dans ce paragraphe. Pour distinguer les différents emplacements de 'lexie'^4.2 nous utilisons la position dans le texte du premier caractère de la lexie : le couple (lexie, position) détermine de manière unique la lexie dans le texte. Cette relation de positionnement entre le nom d'une entité et le contenu textuel de l'entité englobante est déterminée par le support électronique. Pour le formalisme, nous allons considérer que les positions des caractères ont un type quelconque (entier, couple, etc.) et qu'elles peuvent être organisées en ordre total pour un texte.

Theodore Thlivitis, 1998