TLA Textkorpus

Einführung

Das Textkorpus ist einer der beiden Kernbestandteile des Thesaurus Linguae Aegyptiae (TLA), der andere sind die Lemmalisten. Das Korpus enthält eine ständig wachsende Anzahl altägyptischer Texte, die in hieroglyphisch-hieratischer oder demotischer Schrift verfasst sind und derzeit von ca. 3.000 v.Chr. bis ca. 300 n.Chr. reichen. (Koptische Texte werden später im Projekt hinzugefügt.)

Die altägyptische Textwelt war kulturell und historisch gesehen recht bemerkenswert. Botschaften von unterschiedlicher Länge und Komplexität wurden auf verschiedenste Objekte aus den unterschiedlichsten Lebensbereichen geschrieben. Es gibt Texte auf tragbaren Gegenständen wie Papyrus, Ostraka (d.h. Steinplättchen oder Tonscherben) und (kompletten) Gefäßen sowie Texte auf unbeweglichen Gegenständen wie den Wänden von Tempeln und Gräbern, Obelisken, Statuen usw. Diese verschiedenen Arten von Textträgern, ihre materiellen, formalen und funktionalen Merkmale, tragen zu einer zusätzlichen Bedeutung bei, die diejenige der geschriebenen Texte konnotiert.

Angesichts dieser engen Wechselbeziehung und semantischen Interaktion zwischen geschriebenen Texten und ihren Textträgern muss ein besseres Verständnis der altägyptischen Weltanschauung anhand von Texten sowohl die textlichen als auch die materiellen Merkmale von Textobjekten systematisch in Betracht ziehen. Aus diesem Grund sind alle Texte im Textkorpus mit einer Vielzahl von Metadaten versehen, die sich sowohl auf die Texte selbst als auch auf ihre Textträger beziehen. Es war immer ein Ziel des Akademienprojekts, ein mehr oder weniger ausgewogenes, vielfältiges Korpus zu entwickeln, d.h. eine repräsentative Bandbreite an textlicher und chronologischer Variation im Korpus abzudecken. Derzeit umfasst das Textkorpus etwa 1,44 Mill. Millionen Lemma-Instanzen (Hieroglyphen/Hieratisch: 1.115 Tsd., Demotisch: 326 Tsd.).

Außerdem werden die Texte im TLA nicht primär als abstrakte Texte (z.B. Sinuhe), sondern als (semantisch kohärente) Textkette auf einem konkreten Textträger (z.B. Papyrus Berlin ÄM P 3022) konzeptualisiert.

Details

Jeder geschriebene Text und Satz sowie jedes Textobjekt (Textträger) im Korpus hat seine eigene eindeutige, stabile ID-Nummer, z.B. „MORHQGR3SNBI3KHAF6YOW5WLL4‟. Die grundlegende Ebene eines Textes ist seine ägyptologische Transkription. Ein wachsender Teil des Subkorpus der hieroglyphisch-hieratischen Texte ist auch mit einer digitalen hieroglyphischen Transliteration im JSesh-spezifischen Manuel de Codage und, soweit möglich, in Unicode versehen (bei Sätzen noch nicht im TLA sichtbar). Alle Texte enthalten außerdem eine Übersetzung in eine moderne Wissenschaftssprache (meist Deutsch, teils Englisch oder Französisch, je nach den Sprachkenntnissen der Autor:innen). Texte können außerdem kommentierende Anmerkungen enthalten.

Text-Metadaten und Textobjekt-Metadaten

Texte und Textobjekte werden systematisch mit zusätzlichen Metadaten versehen, die nicht im Text oder Textobjekt selbst immanent sind. Um die Datenabfrage zu verbessern, werden mögliche Werte von Metadaten in kontrollierten Vokabularen (Thesauri) bearbeitet. Kategorien von Daten und Metadaten, die sich auf Texte und Textobjekte beziehen, sind in der folgenden Tabelle aufgeführt:

Textdaten und MetadatenTextobjekt-Metadaten
Ägyptologische Transkription
(Digitale) Hieroglyphentransliteration
Übersetzung (Deutsch, Englisch oder Französisch)
Schriftart (Hieroglyphisch, Hieratisch, Demotisch)
Sprachphase (Altägyptisch, Mittelägyptisch, usw.)
Datierung des TextesDatierung des Textobjekts
Textkategorie/Typ ('Genre')Art des Textobjekts
Komponente
Akteur einer sozialen Handlung
Material
Abmessungen
Erhaltungszustand
Herstellungsart
Archäologischer Kontext
Kultureller Kontext
Fundort
Aktueller Standort
bibliographische Referenzenbibliographische Referenzen

„Texte‟ und „Subtexte‟ im TLA

Ein ‚Text‛ im weiteren Sinne, wie er im TLA konzeptualisiert wird, ist eine Einheit, die durch deutlich markierte Textbegrenzer (Anfang und Ende) als unabhängige Texteinheit gekennzeichnet ist. Ein einzelner Text kann entweder nur aus Schrift bestehen oder eine multimodale Komposition aus Schrift und Illustrationen sein. Ein Beispiel für multimodale Texte sind Opferszenen an den Wänden ägyptischer Tempel, die den König gegenüber einer Gottheit zeigen, wobei beide miteinander interagieren. Inschriften, kurze Phrasen oder Sätze, identifizieren die dargestellten Personen oder bieten Informationen über ihre Interaktionen. Solche kurzen Texteinheiten sind zwar formal eigenständige Einheiten, sind aber Teil der größeren Einheit der Szene und werden daher nicht als unabhängige „Texte‟, sondern als abhängige „Subtexte‟ im TLA konzipiert. Ein Merkmal von Subtexten im Vergleich zu Texten im TLA ist, dass eine feste Lesereihenfolge von Subtexten normalerweise nicht eindeutig ermittelt werden kann. Ein weiteres Merkmal ist, dass es bei der Interpretation von Subtexten notwendig ist, parallele Subtexte zu berücksichtigen, z.B. eine Szene als Ganzes.

Allgemeine Grundsätze der Textbearbeitung im TLA

Wie erwähnt, werden ägyptische Texte im TLA in erster Linie als Zeichenketten in ägyptologischer Transkription konzeptualisiert. Die Zählung der Zeilen/Kolumnen folgt im Allgemeinen der Originalquelle (Tag „lc‟, für ‚line[/column] count'). Zusätzlich kann auf übliche Zeilenzählungen in Standardpublikationen von (abstrakten) Texten Bezug genommen werden (Tag „para"). Texte werden in Einheiten von einfachen oder komplexen Sätzen unterteilt. Jeder Satz hat eine eindeutige, stabile ID-Nummer, mit der er zitiert werden kann und sollte, z.B. „TLA Satz IBUBd1NUc4LHaUPIlW0V9mCZyNQ‟.

Jede Wort-Instanz (ggf. auch eine Folge von Wörtern) ist lemmatisiert, d.h. sie ist mit einem Eintrag ('Lemma') in einer der Lemmalisten des TLA verknüpft. Darüber hinaus sind die Lemma-Instanzen in vielen Texten auch mit grammatischen Codes annotiert. Diese kodieren morphologische Flexion, hauptsächlich Flexion, die sichtbar in der Schrift markiert ist (z.B. Genus, Numerus der Substantive), aber manchmal auch Flexion, die in der rein konsonantischen Schrift nicht repräsentiert ist, aber kontextuell aus dem textlichen Zusammenhang rekonstruiert werden kann (z.B. Genus verbi eines unmarkierten sḏm(=f), Numerus eines relativen sḏm.t.n(=f)). Um die grammatische Annotation bis zu einem gewissen Grad unabhängig von immer wieder diskutierten theoretischen Prämissen zu halten, beschränkt sich die Markierung von Tempus/Aspekt/Modus (TAM)-Merkmalen von flektierten Verben strikt auf die sichtbare Flexion, d.h. auf morphologische Merkmale, die in der geschriebenen Form repräsentiert sind. Zum Beispiel wird ein morphologisch unmarkiertes nḥm(=f) einfach als Instanz einer (aktiven oder passiven) „Suffixkonjugations"-Form ohne TAM-Spezifikation annotiert. Die Lemma-Instanzen eines immer größer werdenden Anteils der Texte werden auch in ihrer ursprünglichen hieroglyphischen Schreibweise (oder, im Falle des Hieratischen, in einer hieroglyphischen Transliteration) angegeben. Die Autor:innen werden außerdem ermutigt, eine bestimmte Bedeutung eines Lemmas im Kontext anzugeben, indem sie entweder eine Bedeutung aus einer Reihe von Übersetzungen aus der Lemmaliste auswählen oder selbst eine andere spezifische Bedeutung eingeben. Zusätzlich zu diesen Standard-Annotationen können die Eingebenden weitere Annotationen hinzufügen, wie z.B. andere semantische Merkmale (z.B. Art des Sprechakts), Layout-Merkmale (z.B. Rubra, Verspunkte, geteilte Spalten, Listen), semantische Merkmale (z.B. metaphorische Domänen), usw.

Der Inhalt des Textkorpus

Aktuell sind die folgenden Teilkorpora altägyptischer Texte im TLA-Korpus zugänglich. Teilkorpora mit digitaler Hieroglyphen-Transliteration sind mit [H] gekennzeichnet, solche mit grammatischer Annotation mit [G]. (Listen-Stand Anfang 2022)

Liste von TLA-Autor:innen

Eine komplette Liste der Autor:innen finden Sie hier.

Geschichte des hieroglyphisch-hieratischen Textkorpus

Das digitale Textkorpus des TLA wurde im Rahmen des Vorgängerprojekts „Altägyptisches Wörterbuch‟ (1992–2012) an der Berlin-Brandenburgischen Akademie der Wissenschaften initiiert (gefördert durch das Akademienprogramm der Union der deutschen Akademien der Wissenschaften). Die Idee war, im Zeitalter der korpusbasierten computergestützten Lexikographie einen digitalen Nachfolger von A. Ermans & H. Grapows Wörterbuch der aegyptischen Sprache (1926–1931; 1950, 1963) zu schaffen, insbesondere einschließlich der Belegstellen-Bände (1935–1953): (a) ein lemmatisiertes, ausgewogenes digitales Korpus ägyptischer Texte in hieroglyphischer, hieratischer und demotischer Schrift, das (b) ein korpusbasiertes ‚Wörterbuch‛ der altägyptischen Sprache aufbaut.

Um die Lemmaliste weiter zu vervollständigen, wurden auf der Grundlage einer Reihe von Kriterien zusätzliche Texte ausgewählt, die in den TLA aufgenommen werden sollten. Texte, die nicht für das ursprüngliche Wörterbuch-Projekt verwendet worden waren, und Texte, die nach Abschluss des Projekts veröffentlicht oder neu bearbeitet worden waren, wurden bei der Aufnahme bevorzugt. Neuägyptische Texte, die im Rahmen des Projet Ramsès (Liège) kodiert werden sollten, wurden dagegen hinten angestellt. Mit der Vergrößerung des Projektteams und der zunehmenden Unterstützung durch kooperierende Projekte und einzelne Forscher:innen entwickelt sich ein breiteres, ausgewogeneres und vielfältigeres Korpus.

Zukunftsaussichten

Koptisches Textkorpus

Koptisch, die letzte Phase der altägyptischen Sprache, ist noch nicht im TLA-Textkorpus vertreten. Sobald die koptische Lemmaliste im TLA implementiert ist, wird ein Beispielkorpus mit Texten aus allen koptischen Dialekten importiert werden. Dieses wird aus den lemmatisierten digitalen Textdaten stammen, die von Wolf-Peter Funk über viele Jahrzehnte hinweg erstellt wurden. Diese Altdaten wurden von Katrin John (Kooperationsprojekt „Database and Dictionary of Greek Loanwords in Coptic‟, FU Berlin) in ein modernes Kodierungsformat, d.h. Unicode, konvertiert und werden nun für die Einbindung in den TLA aufbereitet.

Sargtexte

In Zusammenarbeit mit Wolfgang Schenkel bereitet das Projekt die Transformation seiner Coffin Text Urtext-Daten (CTURTEXT) vor, damit die Sargtexte in den TLA aufgenommen werden können.