Nous supposons trois ensembles d'entités textuelles sous forme électronique (toutes issues d'e-textes) :
a un nom (liste de caractères) et un contenu
textuel, le << texte >> proprement dit, considéré en tant
qu'ensemble structuré de caractères. La structure exacte (linéaire,
SGML ou autre)4.1 ne nous intéresse pas pour le formalisme à ceci près que
chaque texte peut attribuer une << position >> unique à chaque
caractère de son contenu textuel. La forme exacte de cette
position ne nous intéresse pas non plus pour le formalisme, tant que
les positions sont comparables. Par exemple, une position peut être
définie par un entier de 1 à la taille du texte en caractères, un
couple (ligne, colonne) en supposant que le texte est découpé
en lignes, un quadruplet (section, paragraphe, ligne,
colonne), etc.
,
dont les éléments
ont les mêmes propriétés que les éléments de
,
avec les mêmes
propriétés que
Quelques mots sur les interrelations entre les ensembles. Nous avons déjà écrit que le nom d'une lexie correspond à au moins une partie d'au moins un texte. Par exemple, 'lexie' apparaît 6 fois dans ce paragraphe. Pour distinguer les différents emplacements de 'lexie'4.2 nous utilisons la position dans le texte du premier caractère de la lexie : le couple (lexie, position) détermine de manière unique la lexie dans le texte. Cette relation de positionnement entre le nom d'une entité et le contenu textuel de l'entité englobante est déterminée par le support électronique. Pour le formalisme, nous allons considérer que les positions des caractères ont un type quelconque (entier, couple, etc.) et qu'elles peuvent être organisées en ordre total pour un texte.