Institut für Deutsche Sprache, Arbeitsgruppe für Korpustechnologie
Aktuelle Organisation des Textmaterials unter COSMAS I
Stand: Januar 2001
In diesem Dokument wird die aktuelle Organisation des Textmaterials unter COSMAS I beschrieben. Auch die zum Verstehen dieses Dokuments notwendigen Grundbegriffe des COSMAS-I-Datenmodells (Text, Dokument, Korpus, externes Korpus, aktuelles Korpus, vordefiniertes und privates virtuelles Korpus, Archiv) werden hier kurz erläutert. Im letzten Abchnitt findet sich die Chronologie der wichtigsten Änderungen.
Korpora in COSMAS I
COSMAS-I-Korpora sind Sammlungen von Textmaterialien in elektronischer Form, die außerhalb von COSMAS erstellt und in COSMAS I eingespeist wurden. Die Zusammensetzung eines solchen Korpus wird zur Zeit der Korpusakquisition festgelegt (deshalb werden diese Korpora auch externe Korpora genannt). In COSMAS I werden zur Zeit über 905 Millionen Wortformen (d.h. über 1080 Millionen Textwörter oder etwa 2.700.000 Buchseiten) in 99 externen Korpora verwaltet (Korpusgröße ist in Millionen von laufenden Wortformen angegeben):
Größe |
||
a97 - a00 |
St. Galler Tagblatt 1997 - 2000 |
87.18 |
b97 - b00 |
Berliner Zeitung 1997 - 2000 |
71.12 |
c93 - c98 |
Computer Zeitung 1993 - 1998 |
8.18 |
bzk |
Bonner Zeitungskorpus |
3.15 |
dkg |
Fachsprachen-Korpus 2: Gentechnologie |
0.90 |
dsk |
Dialogstrukturenkorpus |
0.23 |
e96 - e00 |
Züricher Tagesanzeiger 1996 - 2000 |
62.61 |
f93, f95 |
Frankfurter Allgemeine 1993 und 1995 |
34.39 |
fko |
Freiburger Korpus |
0.70 |
fsp |
Fachsprachen-Korpus 1 |
0.33 |
gfds |
Kartei der Gesellschaft für deutsche Sprache, Wiesbaden |
0.29 |
goe |
Goethe-Korpus |
1.40 |
gr1 |
Grammatik-Korpus |
0.22 |
gri |
Brüder Grimm: Kinder- u. Hausmärchen; Kinderlegenden; Dt. Sagen |
0.43 |
h85 - h88 |
Handbuch-Korpora 1985 - 1988 |
10.86 |
hi1 |
Historisches Korpus 1 |
2.52 |
hi2 |
Historisches Korpus 2 |
0.87 |
iko |
Interview-Korpus |
0.67 |
lim |
LIMAS-Korpus |
1.00 |
lim-TAG |
LIMAS-Korpus, morphosyntaktisch annotiert |
1.00 |
loz |
Belletristik des 20. Jahrhunderts |
2.20 |
meg |
Korpus Marx-Engels-Gesamtausgabe (ausgewählte Texte) |
1.55 |
mew |
Korpus Marx-Engels-Werke (ausgewählte Texte) |
0.87 |
mk1 |
Mannheimer Korpus 1 |
2.20 |
mk2 |
Mannheimer Korpus 2 |
0.34 |
mld |
Korpus Magazin Lufthansa Bordbuch / Deutsch |
0.24 |
m89 - m00 |
Mannheimer Morgen 1989, 1991, 1994 - 2000 |
83.88 |
m91-TAG |
Mannheimer Morgen 1991, morphosyntaktisch annotiert |
2.79 |
m94-TAG |
Mannheimer Morgen 1994, morphosyntaktisch annotiert |
2.48 |
m95-TAG |
Mannheimer Morgen 1995, morphosyntaktisch annotiert |
6.46 |
m96-TAG |
Mannheimer Morgen 1996, morphosyntaktisch annotiert |
5.04 |
mwa |
Herausgeber-Anmerkungstexte zu mew |
0.17 |
pfe |
Pfeffer-Korpus |
0.68 |
r97 - r99 |
Frankfurter Rundschau 1997 -1999 |
107.97 |
s93 - s94 |
Der Spiegel 1993 - 1994 |
8.11 |
s93-TAG |
Der Spiegel 1993, morphosyntaktisch annotiert |
4.14 |
s94-TAG |
Der Spiegel 1994, morphosyntaktisch annotiert |
3.97 |
t86 - t00 |
die tageszeitung 1986 - 2000 |
190.99 |
thm |
Thomas-Mann-Korpus |
3.40 |
u95 - u99 |
Süddeutsche Zeitung 1995 - 1999 |
159.52 |
wkb |
Wendekorpus/West |
1.76 |
wkb-ph |
Wendekorpus/West, phasengegliedert |
1.76 |
wkd |
Wendekorpus/Ost |
1.50 |
wkd-ph |
Wendekorpus/Ost, phasengegliedert |
1.50 |
wkv |
Wendekorpus/Vereinigung |
0.12 |
z94 - z99 |
Die Zeit 1994 - 1999 |
24.79 |
Eine genauere Beschreibung einiger Korpora befindet sich in den Info-Materialien und auf den Web-Seiten der Arbeitsgruppe für Korpustechnologie des IDS.
Texte und Dokumente in COSMAS I
Jedes Korpus besteht aus einem oder mehreren Dokumenten; jedes Dokument setzt sich wiederum aus einem oder mehreren Texten zusammen. Die Gliederung eines Korpus in Dokumente und Texte wird zur Zeit der Korpusakquisition festgelegt. In einem Dokument können mehrere Texte nach bestimmten Gesichtspunkten zusammengefasst sein, z. B. nach Quellen, chronologischer Abfolge, Themenbereichen und/oder Textarten. Ein Text beinhaltet je nach Korpusstruktur z. B. einen einfachen Zeitungsartikel bis hin zu einer als Ganzes aufgenommenen Zeitung/Zeitschrift, einen Auszug aus einem selbstständigen Werk bis hin zu einem selbstständigen Werk als Ganzem (Roman, Reportage, Erlass, wissenschaftliche Abhandlung, Rede etc.).
Zum Beispiel enthält das Thomas-Mann-Korpus (thm) 14 Dokumente ("Die Buddenbrooks", "Der Erwählte", "Erzählungen", "Doktor Faustus", "Königliche Hoheit" usw.). Das Dokument "Erzählungen" (Dokumentsigle THM/AME) enthält 32 Texte, z. B. die Prosa-Skizze "Vision" (Textsigle THM/AME.00001). Das Korpus t97 besteht aus zwölf Dokumenten mit den Ausgaben der tageszeitung für jeweils einen Monat des Jahres 1997. Das Dokument T97/JUL enthält 4858 Texte mit jeweils einem Artikel vom Juli 1997, z. B. den Artikel "Engel-Durchsuchung" vom 31.7.1997 mit der Textsigle T97/JUL.31287.
Ein Dokument ist in COSMAS I die kleinste recherchierbare Einheit. Zum Beispiel gibt COSMAS nach einer abgeschlossenen Suche erst eine Übersicht über die Anzahl der Treffer in den einzelnen Dokumenten aus. Ein Text ist in COSMAS I die kleinste bibliographisch dokumentierte Einheit. Zum Beispiel gibt COSMAS beim Exportieren von Belegen die bibliographischen Angaben der Texte aus, in denen Treffer erzielt wurden.
Zur Zeit werden in COSMAS I ca. 2250 Dokumente und mehr als 2.72 Millionen Texte verwaltet.
Archive in COSMAS I
Während der "Einspeisung" eines externen Korpus in COSMAS (dieser Prozess wird auch Indizierung genannt) wird eine Reihe von Aufbereitungsarbeiten durchgeführt. Neben den rein technischen, die z. B. für den effizienten Zugriff auf die Daten sorgen, erfolgt hier auch die Lemmatisierung, Erstellung von diversen Wortlisten, Regelung von Zugriffsrechten und vieles andere mehr.
Vor allem wird aber jedes Korpus bei der Indizierung in ein sogenanntes Archiv aufgenommen. Archive sind eine Art Sammelstellen, denen Korpora zur Lagerung zugeführt werden. Archive stellen zugleich den maximalen Suchraum einer Recherche dar, d. h., mit einer Recherche kann lediglich ein einziges Archiv durchsucht werden. Suchanfragen, die über mehrere Archive ausgewertet werden sollen, müssen wiederholt für jedes relevante Archiv gestartet werden.
Die Aufteilung unserer Korpora in verschiedene Archive spiegelt die Unterschiede in der Zusammensetzung, im Bearbeitungszustand, im Format und in anderen grundlegenden Merkmalen der Korpora wieder.
Die o.g. 99 COSMAS-I-Korpora sind in sieben Archiven organisiert:
Im Archiv "Neuakqusitionen" wird kontinuierlich aktuelles Textmaterial gesammelt, das ebenso wie die anderen Archive durchsucht werden kann. Dieses Material wird zu jeweils geeigneten Zeitpunkten in die entsprechenden Archive verschoben und das Archiv "Neuakquisitionen" wird wieder geleert.
Virtuelle Korpora in COSMAS I
Eine COSMAS-I-Recherche wird bekanntlich immer in einem sog. aktuellen Korpus durchgeführt. Das aktuelle Korpus wird z. B. dadurch bestimmt, dass man noch vor der Suche einen Eintrag aus der Liste der vordefinierten virtuellen Korpora wählt oder indem man ein privates virtuelles Korpus lädt.
Ein virtuelles Korpus ist in COSMAS I ein beliebiger Ausschnitt aus einem einzigen Archiv (genauer: eine beliebige Auswahl aus den Dokumenten beliebiger Korpora eines einzigen Archivs). Das virtuelle Korpus legt also fest, welche Dokumente welchen Archivs durchsucht werden sollen, wenn dieses virtuelle Korpus als aktuelles Korpus aktiviert wird. Das einfachste virtuelle Korpus enthält nur ein einziges Dokument, das maximale virtuelle Korpus umfasst alle Dokumente aller Korpora eines Archivs.
COSMAS stellt automatisch für jedes verfügbare Archiv mindestens ein vordefiniertes virtuelles Korpus bereit: dieses virtuelle Korpus umfasst das gesamte Archiv. Darüber hinaus werden vom COSMAS-Administrator für jedes Archiv je nach Bedarf weitere virtuelle Korpora definiert. Sie können mit den externen Korpora übereinstimmen (z. B. wird erwartungsgemäß über das virtuelle Korpus wkb genau das externe Wendekorpus/West angesprochen), diese nach verschiedenen Kriterien zusammenfassen (z. B. werden über das virtuelle Korpus wk die externen Korpora Wendekorpus/West und Wendekorpus/Ost angesprochen) oder eine beliebige Auswahl aus den im Archiv befindlichen Dokumenten festlegen. Alle vordefinierten virtuellen Korpora aus allen verfügbaren Archiven werden (unter Berücksichtigung der Benutzer-Zugriffsrechte) in der COSMAS-Korpusauswahlbox zur Aktivierung angeboten.
Die gleichen Möglichkeiten zur Erstellung von virtuellen Korpora stehen auch allen COSMAS-Benutzern zur Verfügung, die mit der Vollversion von COSMAS I arbeiten (die WWW-Version lässt diese Funktion durch die anonyme Nutzungsweise nicht zu). Die resultierenden Korpora können als private virtuelle Korpora gespeichert, geladen und durchsucht werden.
Zur Zeit sind in COSMAS I mehr als 70 virtuelle Korpora vordefiniert. Weitere virtuelle Korpora können jederzeit definiert werden. Der aktuelle Stand der Organisation des Textmaterials unter COSMAS I ist in der folgenden Übersicht dokumentiert:
Virtuelle Korpora im Archiv "Neuakquisitionen"
Virtuelles Korpus |
Zusammensetzung |
Anmerkung |
b00 |
b00 |
|
m00 |
m00 |
Virtuelle Korpora im Archiv historischer Korpora
Virtuelles Korpus |
Zusammensetzung |
Anmerkung |
hi1 |
hi1 |
|
hi2 |
hi2 |
|
meg |
meg |
|
mew |
mew |
|
mwa |
mwa |
|
marx |
mew meg mwa |
|
hik |
hi1 hi2 |
|
hist-pub |
marx |
|
hist |
hik marx |
das gesamte Archiv |
Virtuelle Korpora im Archiv "Korpora gesprochener Sprache"
Virtuelles Korpus |
Zusammensetzung |
Anmerkung |
fko |
fko |
|
dsk |
dsk |
|
pfe |
pfe |
|
gespr |
fko dsk pfe |
das gesamte Archiv |
Virtuelle Korpora im Archiv morphosyntaktisch annotierter Korpora
Virtuelles Korpus |
Zusammensetzung |
Anmerkung |
public-TAG |
m91-TAG m94-TAG m95-TAG m96-TAG lim-TAG |
|
annot-TAG |
m91-TAG m94-TAG m95-TAG m96-TAG lim-TAG s93-TAG s94-TAG |
das gesamte Archiv |
Virtuelle Korpora im Archiv phasengegliederter Wendekorpora
Virtuelles Korpus |
Zusammensetzung |
Anmerkung |
wkb-ph |
wkb-ph |
|
wkd-ph |
wkd-ph |
|
wk-ph |
wkb-ph wkd-ph |
das gesamte Archiv |
Virtuelle Korpora im Archiv "Kartei der Gesellschaft für deutsche Sprache"
Virtuelles Korpus |
Zusammensetzung |
Anmerkung |
gfds |
gfds |
das gesamte Archiv |
Virtuelle Korpora im Archiv "Korpora geschriebener Sprache"
Virtuelles Korpus |
Zusammensetzung |
Anmerkung |
bzk |
bzk |
|
dkg |
dkg |
|
fsp |
fsp |
|
goe |
goe |
|
gr1 |
gr1 |
|
gri |
gri |
|
iko |
iko |
|
lim |
lim |
|
loz |
loz |
|
mk1 |
mk1 |
|
mk2 |
mk2 |
|
mld |
mld |
|
thm |
thm |
|
wkb |
wkb |
|
wkd |
wkd |
|
wkv |
wkv |
|
bzt |
b97 b98 b99 b003 |
|
cz |
c93 c94 c95 c96 c97 c98 |
|
mmm |
m89 m91 m94 m95 m96 m97 m98 m99 m002 |
|
faz |
f93 f95 |
|
frr |
r97 r98 r99 |
|
sgt |
a97 a98 a99 a00 |
|
zta |
e96 e97 e98 e99 e00 |
|
spiegel |
s93 s94 |
|
sz |
u95 u96 u97 u98 u99 |
|
taz |
t86 t87 t88 t89 t90 t91 t92 t93 t94 t95 t96 t97 t98 t99 t00 |
|
zeit |
z95 z96 z97 z98 z99 |
|
hbk |
h85 h86 h87 h88 |
|
mk |
mk1 mk2 |
|
val |
spe wk spiegel faz taz bzt zeit |
|
wk |
wkb wkd |
|
dereko |
cz frr sz sgt zta |
Akqusitionen im DEREKO-Projekt |
lit |
lit-pub thm¹ loz |
|
lit-pub |
gr1 goe¹ mk1¹ mk2¹ |
|
wiw |
fsp iko mmm gr1 mk lim hbk bzk wk dkg mld dereko wkv spiegel faz taz zeit bzt loz |
|
neokomp |
gr1 mk lim hbk bzk wk m89 t86 t87 t88 t89 t90 iko¹ |
Neologie-Vergleichskorpus |
neokom-pub |
gri goe dkg gr1 mk lim hbk bzk wk m89 |
Neologie-Vergleichskorpus |
neo |
faz spiegel m91 m94 m95 m96 m97 m98 m99 m002 t91 t92 t93 t94 t95 t96 t97 t98 t99 t00 zeit bzt dereko iko¹ fsp mld |
Neologie-Korpus |
neo-pub |
m91 m94 m95 m96 m97 m98 m99 m002 mld dereko |
Neologie-Korpus |
neoall |
neokomp neo |
|
public |
mmm gri gr1 mk lim hbk bzk wk goe dkg mld dereko |
öffentlich zugängliche Korpora |
geschr |
thm fsp iko public wkv spiegel faz taz zeit bzt loz |
das gesamte Archiv |
Chronologie wichtigster Änderungen
Im September 1999 wurde der COSMAS-I-Betrieb auf den neuen zentralen Server des IDS umgeleitet. Dabei wurden als Ergebnis jahrelanger Korrektur-, Ergänzungs-, Dokumentations- und Anpassungsarbeiten zum Teil erheblich verbesserte Versionen unserer Korpora freigegeben. Im Bereich der bibliographischen Dokumentation wird unser Textmaterial weiterhin in aufwendiger Handarbeit aufgewertet. Die Resultate dieser Bemühungen werden in die nachfolgenden Freigaben der COSMAS-I-Korpora einfließen.
Der Wechsel zum neuen, moderneren Rechner hat sich auch positiv auf die Möglichkeiten der Strukturierung des Textmaterials ausgewirkt. Einige aus den früheren COSMAS-I-Versionen bekannte Einschränkungen in der Korpusorganisation sind entfallen, z. B. getrennte Archive für Zeitungstexte. So können jetzt mit einer Suchanfrage über eine Milliarde Textwörter durchsucht werden.
Die umfangreichen Zeitungskorpora jüngeren Datums (Berliner Zeitung, Frankfurter Allgemeine, Mannheimer Morgen, Der Spiegel, die tageszeitung, Die Zeit), die das IDS in elektronischer Form erhält, wurden und werden von IDS-Mitarbeitern für die Nutzung unter COSMAS I vollautomatisch aufbereitet. Ihre Qualität hängt von der Qualität der von den jeweiligen Verlagen gelieferten Daten ab. Wo es vollautomatisch möglich war und ist, wurden Verbesserungen fehlerhaften Textmaterials in die IDS-Programmierung integriert. Wie bereits früher geschehen, können Projektgruppen weiterhin bei Bedarf die vollautomatisch behandelten Korpora, zumindest ausschnittsweise, und auch die anderen Korpora für ihre Zwecke bearbeiten.
Dass einige dieser Zeitungskorpora Jahrgangslücken aufweisen oder mitunter die Anzahl der Wortformen von Jahrgang zu Jahrgang erheblich abweicht, ist in erster Linie darin begründet, dass diverses Textmaterial aus weiter zurückreichender Zeit in den Verlagshäusern nicht in vollautomatisch verarbeitbarer Form vorhanden war. Die Ursache für nicht fortgesetzte neuere Zeitungskorpora sind urheberrechtliche Beschränkungen. Der gleiche Grund trifft auf die starke Restriktion in Bezug auf die externe weltweite Nutzung zu, für die bisher einzig die Verlagsgesellschaft des Mannheimer Morgens großzügigerweise ihre Daten zur Verfügung stellt. Nicht zufriedenstellend ist, dass die Textbeschaffung durch die restriktive urheberrechtliche Situation außerordentlich erschwert wird und deshalb alles erlaubte, einigermaßen verwendbare Textmaterial, fern von einer ausgewogenen Zusammensetzung, in die COSMAS-Korpora aufgenommen wird. Dank der zusätzlichen Förderung des Landes Baden-Württemberg kann bis Dezember 2001 durch weitere Akquisitionen im Projekt "Referenzkorpus der deutschen Gegenwartssprache" (DEREKO) die Zusammensetzung unserer Korpora verbessert werden.
Im Juli 2000 wurden die ersten DEREKO-Korpora für Online-Zugang unter COSMAS I freigegeben.
Im August 2000 wurde das Pfeffer-Archiv aufgelöst und das Pfeffer-Korpus wurde in das Archiv "Korpora gesprochener Sprache" aufgenommen. Die Archive "Historische Korpora I", "Historische Korpora II" und das Marx-Engels-Archiv wurden in ein einziges "Archiv historischer Korpora" zusammengefügt. Historisches Korpus 1 wurde um neue Texte erweitert.
Im November 2000 wurden folgende Korpora in das Archiv "Neuakquisitionen" eingegliedert: "Belletristik des 20. Jahrhunderts: Siegfried Lenz"; St. Galler Tagblatt, Jahrgänge 1997-2000; Frankfurter Rundschau, Jahrgang 1999; Süddeutsche Zeitung, Jahrgang 1999; Berliner Zeitung, Aktualisierung des Jahrgangs 2000; und Mannheimer Morgen, Aktualisierung des Jahrgangs 2000.
Im Dezember 2000 wurde der Inhalt des Archivs "Neuakqusitionen" in das Archiv "Korpora geschriebener Sprache" integriert und das Archiv "Neuakqusitionen" wurde geleert. Das Archiv "Korpora geschriebener Sprache" wurde auch um die Jahrgänge 1996-2000 des "Züricher Tagesanzeiger" aus dem DEREKO-Projekt erweitert.
Im Januar 2001 wurden die abgeschlossenen Jahrgänge 2000 des "Mannheimer Morgen" und der "Berliner Zeitung" über das Archiv "Neuakquisitionen" verfügbar gemacht. Über das Archiv "Korpora geschriebener Sprache" sind in diesen Korpora nach wie vor nur Texte bis Oktober 2000 (für m00), bzw. November 2000 (für b00) verfügbar.