previous up next contents


Entités de base : le corpus

 

Nous supposons trois ensembles d'entités textuelles sous forme électronique (toutes issues d'e-textes) :

Les trois ensembles évoluent avec le temps, le contenu textuel de leurs éléments aussi. $\mathit{Tc}$ est relativement plus stable, dans la mesure où les textes sont censés être en principe immodifiables surtout en forme. Les lexies ont un contenu textuel stable mais l'utilisateur peut augmenter leur nombre en définissant des nouvelles. Les anagnoses sont les moins stables : l'utilisateur peut et en créer des nouvelles et en modifier le contenu textuel.

Quelques mots sur les interrelations entre les ensembles. Nous avons déjà écrit que le nom d'une lexie correspond à au moins une partie d'au moins un texte. Par exemple, 'lexie' apparaît 6 fois dans ce paragraphe. Pour distinguer les différents emplacements de 'lexie'4.2 nous utilisons la position dans le texte du premier caractère de la lexie : le couple (lexie, position) détermine de manière unique la lexie dans le texte. Cette relation de positionnement entre le nom d'une entité et le contenu textuel de l'entité englobante est déterminée par le support électronique. Pour le formalisme, nous allons considérer que les positions des caractères ont un type quelconque (entier, couple, etc.) et qu'elles peuvent être organisées en ordre total pour un texte.



 
previous up next contents
Theodore Thlivitis, 1998