Corpus de textes du TLA

Introduction

La première des deux composantes essentielles du Thesaurus Linguae Aegyptiae (TLA) est le corpus de textes, la seconde, la liste de lemmes. Le corpus se compose de textes de l'Égypte ancienne rédigés en caractères hiéroglyphiques/hiératiques ou démotiques, datant d'une période allant du 3e millénaire avant notre ère au 4e siècle de notre ère dont le nombre ne cesse de croître. (Les textes coptes seront ajoutés ultérieurement).

La documentation écrite égyptienne atteste d'un univers intellectuel remarquable, tant sur le plan culturel qu’historique. Des textes de longueurs et de complexités variables ont été inscrits sur des objets extrêmement divers provenant d’environnements de vie très différents. Ils peuvent figurer sur des objets transportables, tels que rouleaux ou feuillets de papyrus, ostraca (c’est-à-dire des fragments de pierre ou des tessons de poterie) ou récipients (intacts), mais aussi sur d’autres supports fixes tels que murs de temples et de tombes, obélisques, statues, etc. Ces différents types de supports textuels, leurs caractéristiques matérielles, formelles et fonctionnelles livrent des informations supplémentaires qui permettent de nuancer le sens des textes écrits.

Étant donné les liens étroits et les interactions sémantiques qui existent entre les textes écrits et leurs supports matériels, il faut systématiquement prendre en compte les caractéristiques textuelles et matérielles des textes pour mieux comprendre l'univers mental de l’Égypte ancienne. Par conséquent, tous les textes du corpus sont annotés avec un large éventail de métadonnées relatives aux textes eux-mêmes, ainsi qu’à leurs supports matériels (Textträger en allemand). Ce projet de recherche a toujours eu pour objectif de développer un corpus le plus caractéristique et diversifié possible, afin de fournir un échantillon représentatif des variations textuelles au cours du temps. À l’heure actuelle, le corpus de textes comporte quelque 1,69 millions de lemmes (hiéroglyphiques/hiératiques : env. 1'355'000, démotiques : env. 332'000).

En outre, les textes du TLA sont avant tout compris non pas comme des textes abstraits (p.ex. Sinouhé), mais comme des chaînes textuelles (sémantiquement cohérentes) sur un support concret (p.ex. papyrus Berlin, ÄM P 3022).

Détails

Chaque texte, chaque phrase et chaque support textuel (Textträger) du corpus possède un numéro d’identification unique et permanent, p.ex. « MORHQGR3SNBI3KHAF6YOW5WLL4 ». Le niveau de base d’un texte est sa translittération égyptologique. Une partie du sous-corpus de textes hiéroglyphiques/hiératiques est également rendue au moyen d'une transcription hiéroglyphique numérique basée sur le Manuel de Codage de JSesh et, dans la mesure du possible, en caractères Unicode. Tous les textes sont aussi accompagnés d’une traduction dans une langue moderne (le plus souvent en allemand, parfois en anglais ou en français, selon les compétences linguistiques de l’auteur). Les textes peuvent également contenir des notes de commentaires.

Métadonnées sur les textes et supports textuels

Les textes et supports textuels sont systématiquement accompagnés de métadonnées qui ne sont pas intrinsèques au texte ou au support textuel lui-même. Afin d’améliorer la recherche de données, les valeurs possibles des métadonnées sont éditées à partir d'une terminologie normalisée (thésaurus). Les catégories de données et de métadonnées relatives aux textes et aux supports textuels sont présentées dans le tableau suivant :

Données et métadonnées de textes Métadonnées des supports textuels
Translittération égyptologique
Transcription hiéroglyphique (numérique)
Traduction (allemand, anglais ou français)
Écriture (hiéroglyphique, hiératique, démotique)
Langue (phase) (ancien égyptien, moyen égyptien, etc.)
Datation du texteDatation de la production du texte
Catégorie / type de texteType d’objet textuel
Composante
Acteur
Matériau
Dimensions
État
Technique
Contexte archéologique
Contexte culturel
Lieu de la découverte
Lieu actuel
Références bibliographiquesRéférences bibliographiques

« Textes » et « sous-textes » dans le TLA

Un « texte », au sens large et tel qu’il est envisagé dans le TLA, est une entité marquée comme une unité textuelle indépendante par des délimiteurs de texte clairement identifiés (début et fin). Un texte individuel peut être constitué uniquement d’écrits ou d’une composition multimodale d’écrits et d’illustrations. Un texte multimodal peut être, par exemple, une scène d’offrandes sur le mur d'un temple égyptien où l’on voit le roi face à une divinité, les deux interagissant. Des légendes écrites (phrases courtes) identifient les entités représentées ou donnent des informations sur leurs interactions. Ces courtes unités textuelles, bien que distinctes, font partie de l’unité plus large de la scène et sont donc comprises non pas comme des « textes » indépendants, mais comme des « sous-textes » dépendants. Dans le TLA, les sous-textes se distinguent notamment des textes par le fait qu’il est normalement impossible d’établir une séquence de lecture définitive pour les premiers. Par ailleurs, lors de l’interprétation d'un sous-texte, il est nécessaire de prendre en compte tous les éléments qui l'accompagne, p.ex. une scène dans son ensemble.

Principes généraux de l’édition de texte dans le TLA

Comme nous l’avons mentionné plus haut, les textes égyptiens du TLA sont principalement envisagés comme des chaînes de lemmes reproduits en translittération égyptologique. Le découpage en lignes / colonnes est généralement établi à partir de la source primaire (balise « lc », pour « line[/column] count »). Les découpages établis dans les publications de référence de textes peuvent être mentionnés en supplément (balise « para »). Les textes sont divisés en unités de phrases simples ou complexes. Chaque phrase possède un numéro d’identification permanent unique par lequel elle doit être citée, p.ex. « phrase TLA IBUBd1NUc4LHaUPIlW0V9mCZyNQ ».

Chaque mot (ou parfois séquence de mots) est lemmatisé, c’est-à-dire qu’il est lié à une entrée (« lemme ») dans l’une des listes de lemmes du TLA. En outre, dans de nombreux textes, les lemmes sont également annotés avec des codes grammaticaux. Ceux-ci codent la flexion morphologique, essentiellement celle qui est distinctement indiquée dans l’écriture (p.ex. le genre, le nombre des substantifs), mais parfois aussi celle qui est n'apparaît pas dans l’écriture purement consonantique mais peut être reconstruite dans un contexte particulier à partir de l'analyse syntaxique (p.ex. diathèse d’une sḏm non marquée (=f), nombre d’une sḏm.t.n relative (=f)). Pour que l’annotation grammaticale reste indépendante des principes théoriques qui font actuellement l’objet de débats, le marquage des caractéristiques de temps / aspect / mode (TAM) des verbes conjugués est strictement limité à la flexion manifeste, c’est-à-dire aux caractéristiques morphologiques visibles dans la forme écrite. Par exemple, un nḥm (=f) non marqué morphologiquement est simplement annoté comme une occurrence d’une forme de « conjugaison suffixale » (active ou passive), sans préciser les caractéristiques TAM. De plus en plus de textes contiennent des lemmes qui sont également accompagnés de leur graphie hiéroglyphique originale (ou, dans le cas de l’écriture hiératique, d’une transcription hiéroglyphique). Les autrices et auteurs sont également encouragés à préciser un sens particulier d’un lemme dans le contexte, soit en choisissant l’une des traductions de la liste des lemmes, soit en saisissant eux-mêmes un autre sens spécifique au contexte. En plus de ces annotations standard, les éditrices et éditeurs peuvent ajouter d’autres annotations, telles que d’autres caractéristiques sémantiques (p.ex. nature de l'acte illocutoire), caractéristiques de mise en page (p.ex. rubriques, strophes, colonnes divisées, listes), caractéristiques sémantiques (p.ex. domaines métaphoriques), etc.

Le contenu du corpus de textes

Un aperçu complet de l’arborescence des objets textuels du TLA est également disponible ici.

Vous trouverez ci-après une liste établie manuellement, catégorisée selon la datation des textes. Les sous-corpus avec translittération hiéroglyphique numérique sont marqués par [H], ceux avec annotation grammaticale par [G].

Liste des auteurs du TLA

Pour la liste complète des auteurs, voir ici.

Histoire du corpus de textes hiéroglyphiques / hiératiques du TLA

Le corpus numérique de textes du TLA a été lancé dans le cadre du précédent projet de l’Académie « Altägyptisches Wörterbuch » (« Dictionnaire de l’égyptien ancien », AAeW, 1992-2012) à l’Académie des sciences et sciences humaines de Berlin-Brandebourg (financé par le programme académique de l’Union des académies allemandes des sciences et des belles-lettres). L’idée était de créer un successeur numérique au Wörterbuch der aegyptischen Sprache (« Dictionnaire de la langue égyptienne ») de A. Erman et H. Grapow (1926-1931 ; 1950, 1963), notamment en incluant les volumes Belegstellen (« Références ») (1935-1953) à l’ère de la lexicographie numérique reposant sur des corpus : (i) un corpus représentatif et lemmatisé de textes égyptiens en écriture hiéroglyphique, hiératique et démotique, qui constitue un (ii) « dictionnaire » de l’égyptien ancien basé sur un corpus textuel.

Afin de compléter la liste de lemmes, des textes supplémentaires ont été sélectionnés pour être ajoutés au TLA sur la base de critères précis. Les textes qui n’avaient pas été utilisés pour le projet original du Wörterbuch et les textes qui avaient été publiés ou réédités après la fin du projet ont ainsi été privilégiés. Les textes égyptiens des époques tardives qui devaient être encodés dans le cadre du projet Ramsès (Liège), en revanche, ont été placés au second plan. Avec l’agrandissement de l’équipe du projet, le soutien ininterrompu des projets partenaires et des chercheuses et chercheurs individuels, un corpus plus large, plus représentatif et plus diversifié continue de se constituer.

Perspectives d’avenir

Corpus de textes coptes

Le copte, qui constitue le stade ultime de l’évolution linguistique de l’égyptien ancien, ne figure pas encore dans le corpus de textes TLA. Une fois que la liste de lemmes coptes aura été intégrée au TLA, un corpus-type de textes de tous les dialectes coptes sera importé. Il proviendra des données textuelles numériques lemmatisées collectées par Wolf-Peter Funk au cours de plusieurs décennies. Ces données ont été converties dans un format d’encodage moderne, à savoir Unicode, par Katrin John (projet de coopération « Database and Dictionary of Greek Loanwords in Coptic » (« Base de données et dictionnaire des mots empruntés au grec dans la langue copte », FU Berlin) et seront bientôt traitées pour être intégrées au TLA.

Textes des Sarcophages

En collaboration avec Wolfgang Schenkel, le projet prépare la transformation de ses données sur les Textes des Sarcophages (CTUrtext) afin que ces textes puissent être intégrés au TLA.