Institut für Deutsche Sprache, Arbeitsgruppe für Korpustechnologie

Aktuelle Organisation des Textmaterials unter COSMAS I

Stand: Januar 2001

In diesem Dokument wird die aktuelle Organisation des Textmaterials unter COSMAS I beschrieben. Auch die zum Verstehen dieses Dokuments notwendigen Grundbegriffe des COSMAS-I-Datenmodells (Text, Dokument, Korpus, externes Korpus, aktuelles Korpus, vordefiniertes und privates virtuelles Korpus, Archiv) werden hier kurz erläutert. Im letzten Abchnitt findet sich die Chronologie der wichtigsten Änderungen.

Korpora in COSMAS I

COSMAS-I-Korpora sind Sammlungen von Textmaterialien in elektronischer Form, die außerhalb von COSMAS erstellt und in COSMAS I eingespeist wurden. Die Zusammensetzung eines solchen Korpus wird zur Zeit der Korpusakquisition festgelegt (deshalb werden diese Korpora auch externe Korpora genannt). In COSMAS I werden zur Zeit über 905 Millionen Wortformen (d.h. über 1080 Millionen Textwörter oder etwa 2.700.000 Buchseiten) in 99 externen Korpora verwaltet (Korpusgröße ist in Millionen von laufenden Wortformen angegeben):

   

Größe

a97 - a00

St. Galler Tagblatt 1997 - 2000

87.18

b97 - b00

Berliner Zeitung 1997 - 2000

71.12

c93 - c98

Computer Zeitung 1993 - 1998

8.18

bzk

Bonner Zeitungskorpus

3.15

dkg

Fachsprachen-Korpus 2: Gentechnologie

0.90

dsk

Dialogstrukturenkorpus

0.23

e96 - e00

Züricher Tagesanzeiger 1996 - 2000

62.61

f93, f95

Frankfurter Allgemeine 1993 und 1995

34.39

fko

Freiburger Korpus

0.70

fsp

Fachsprachen-Korpus 1

0.33

gfds

Kartei der Gesellschaft für deutsche Sprache, Wiesbaden

0.29

goe

Goethe-Korpus

1.40

gr1

Grammatik-Korpus

0.22

gri

Brüder Grimm: Kinder- u. Hausmärchen; Kinderlegenden; Dt. Sagen

0.43

h85 - h88

Handbuch-Korpora 1985 - 1988

10.86

hi1

Historisches Korpus 1

2.52

hi2

Historisches Korpus 2

0.87

iko

Interview-Korpus

0.67

lim

LIMAS-Korpus

1.00

lim-TAG

LIMAS-Korpus, morphosyntaktisch annotiert

1.00

loz

Belletristik des 20. Jahrhunderts

2.20

meg

Korpus Marx-Engels-Gesamtausgabe (ausgewählte Texte)

1.55

mew

Korpus Marx-Engels-Werke (ausgewählte Texte)

0.87

mk1

Mannheimer Korpus 1

2.20

mk2

Mannheimer Korpus 2

0.34

mld

Korpus Magazin Lufthansa Bordbuch / Deutsch

0.24

m89 - m00

Mannheimer Morgen 1989, 1991, 1994 - 2000

83.88

m91-TAG

Mannheimer Morgen 1991, morphosyntaktisch annotiert

2.79

m94-TAG

Mannheimer Morgen 1994, morphosyntaktisch annotiert

2.48

m95-TAG

Mannheimer Morgen 1995, morphosyntaktisch annotiert

6.46

m96-TAG

Mannheimer Morgen 1996, morphosyntaktisch annotiert

5.04

mwa

Herausgeber-Anmerkungstexte zu mew

0.17

pfe

Pfeffer-Korpus

0.68

r97 - r99

Frankfurter Rundschau 1997 -1999

107.97

s93 - s94

Der Spiegel 1993 - 1994

8.11

s93-TAG

Der Spiegel 1993, morphosyntaktisch annotiert

4.14

s94-TAG

Der Spiegel 1994, morphosyntaktisch annotiert

3.97

t86 - t00

die tageszeitung 1986 - 2000

190.99

thm

Thomas-Mann-Korpus

3.40

u95 - u99

Süddeutsche Zeitung 1995 - 1999

159.52

wkb

Wendekorpus/West

1.76

wkb-ph

Wendekorpus/West, phasengegliedert

1.76

wkd

Wendekorpus/Ost

1.50

wkd-ph

Wendekorpus/Ost, phasengegliedert

1.50

wkv

Wendekorpus/Vereinigung

0.12

z94 - z99

Die Zeit 1994 - 1999

24.79

Eine genauere Beschreibung einiger Korpora befindet sich in den Info-Materialien und auf den Web-Seiten der Arbeitsgruppe für Korpustechnologie des IDS.

 

Texte und Dokumente in COSMAS I

Jedes Korpus besteht aus einem oder mehreren Dokumenten; jedes Dokument setzt sich wiederum aus einem oder mehreren Texten zusammen. Die Gliederung eines Korpus in Dokumente und Texte wird zur Zeit der Korpusakquisition festgelegt. In einem Dokument können mehrere Texte nach bestimmten Gesichtspunkten zusammengefasst sein, z. B. nach Quellen, chronologischer Abfolge, Themenbereichen und/oder Textarten. Ein Text beinhaltet je nach Korpusstruktur z. B. einen einfachen Zeitungsartikel bis hin zu einer als Ganzes aufgenommenen Zeitung/Zeitschrift, einen Auszug aus einem selbstständigen Werk bis hin zu einem selbstständigen Werk als Ganzem (Roman, Reportage, Erlass, wissenschaftliche Abhandlung, Rede etc.).

Zum Beispiel enthält das Thomas-Mann-Korpus (thm) 14 Dokumente ("Die Buddenbrooks", "Der Erwählte", "Erzählungen", "Doktor Faustus", "Königliche Hoheit" usw.). Das Dokument "Erzählungen" (Dokumentsigle THM/AME) enthält 32 Texte, z. B. die Prosa-Skizze "Vision" (Textsigle THM/AME.00001). Das Korpus t97 besteht aus zwölf Dokumenten mit den Ausgaben der tageszeitung für jeweils einen Monat des Jahres 1997. Das Dokument T97/JUL enthält 4858 Texte mit jeweils einem Artikel vom Juli 1997, z. B. den Artikel "Engel-Durchsuchung" vom 31.7.1997 mit der Textsigle T97/JUL.31287.

Ein Dokument ist in COSMAS I die kleinste recherchierbare Einheit. Zum Beispiel gibt COSMAS nach einer abgeschlossenen Suche erst eine Übersicht über die Anzahl der Treffer in den einzelnen Dokumenten aus. Ein Text ist in COSMAS I die kleinste bibliographisch dokumentierte Einheit. Zum Beispiel gibt COSMAS beim Exportieren von Belegen die bibliographischen Angaben der Texte aus, in denen Treffer erzielt wurden.

Zur Zeit werden in COSMAS I ca. 2250 Dokumente und mehr als 2.72 Millionen Texte verwaltet.

 

Archive in COSMAS I

Während der "Einspeisung" eines externen Korpus in COSMAS (dieser Prozess wird auch Indizierung genannt) wird eine Reihe von Aufbereitungsarbeiten durchgeführt. Neben den rein technischen, die z. B. für den effizienten Zugriff auf die Daten sorgen, erfolgt hier auch die Lemmatisierung, Erstellung von diversen Wortlisten, Regelung von Zugriffsrechten und vieles andere mehr.

Vor allem wird aber jedes Korpus bei der Indizierung in ein sogenanntes Archiv aufgenommen. Archive sind eine Art Sammelstellen, denen Korpora zur Lagerung zugeführt werden. Archive stellen zugleich den maximalen Suchraum einer Recherche dar, d. h., mit einer Recherche kann lediglich ein einziges Archiv durchsucht werden. Suchanfragen, die über mehrere Archive ausgewertet werden sollen, müssen wiederholt für jedes relevante Archiv gestartet werden.

Die Aufteilung unserer Korpora in verschiedene Archive spiegelt die Unterschiede in der Zusammensetzung, im Bearbeitungszustand, im Format und in anderen grundlegenden Merkmalen der Korpora wieder.

Die o.g. 99 COSMAS-I-Korpora sind in sieben Archiven organisiert:

Im Archiv "Neuakqusitionen" wird kontinuierlich aktuelles Textmaterial gesammelt, das ebenso wie die anderen Archive durchsucht werden kann. Dieses Material wird zu jeweils geeigneten Zeitpunkten in die entsprechenden Archive verschoben und das Archiv "Neuakquisitionen" wird wieder geleert.

 

Virtuelle Korpora in COSMAS I

Eine COSMAS-I-Recherche wird bekanntlich immer in einem sog. aktuellen Korpus durchgeführt. Das aktuelle Korpus wird z. B. dadurch bestimmt, dass man noch vor der Suche einen Eintrag aus der Liste der vordefinierten virtuellen Korpora wählt oder indem man ein privates virtuelles Korpus lädt.

Ein virtuelles Korpus ist in COSMAS I ein beliebiger Ausschnitt aus einem einzigen Archiv (genauer: eine beliebige Auswahl aus den Dokumenten beliebiger Korpora eines einzigen Archivs). Das virtuelle Korpus legt also fest, welche Dokumente welchen Archivs durchsucht werden sollen, wenn dieses virtuelle Korpus als aktuelles Korpus aktiviert wird. Das einfachste virtuelle Korpus enthält nur ein einziges Dokument, das maximale virtuelle Korpus umfasst alle Dokumente aller Korpora eines Archivs.

COSMAS stellt automatisch für jedes verfügbare Archiv mindestens ein vordefiniertes virtuelles Korpus bereit: dieses virtuelle Korpus umfasst das gesamte Archiv. Darüber hinaus werden vom COSMAS-Administrator für jedes Archiv je nach Bedarf weitere virtuelle Korpora definiert. Sie können mit den externen Korpora übereinstimmen (z. B. wird erwartungsgemäß über das virtuelle Korpus wkb genau das externe Wendekorpus/West angesprochen), diese nach verschiedenen Kriterien zusammenfassen (z. B. werden über das virtuelle Korpus wk die externen Korpora Wendekorpus/West und Wendekorpus/Ost angesprochen) oder eine beliebige Auswahl aus den im Archiv befindlichen Dokumenten festlegen. Alle vordefinierten virtuellen Korpora aus allen verfügbaren Archiven werden (unter Berücksichtigung der Benutzer-Zugriffsrechte) in der COSMAS-Korpusauswahlbox zur Aktivierung angeboten.

Die gleichen Möglichkeiten zur Erstellung von virtuellen Korpora stehen auch allen COSMAS-Benutzern zur Verfügung, die mit der Vollversion von COSMAS I arbeiten (die WWW-Version lässt diese Funktion durch die anonyme Nutzungsweise nicht zu). Die resultierenden Korpora können als private virtuelle Korpora gespeichert, geladen und durchsucht werden.

Zur Zeit sind in COSMAS I mehr als 70 virtuelle Korpora vordefiniert. Weitere virtuelle Korpora können jederzeit definiert werden. Der aktuelle Stand der Organisation des Textmaterials unter COSMAS I ist in der folgenden Übersicht dokumentiert:

Virtuelle Korpora im Archiv "Neuakquisitionen"

Virtuelles Korpus

Zusammensetzung

Anmerkung

b00

b00

 

m00

m00

 

Virtuelle Korpora im Archiv historischer Korpora

Virtuelles Korpus

Zusammensetzung

Anmerkung

hi1

hi1

 

hi2

hi2

 

meg

meg

 

mew

mew

 

mwa

mwa

 

marx

mew meg mwa

 

hik

hi1 hi2

 

hist-pub

marx

 

hist

hik marx

das gesamte Archiv

Virtuelle Korpora im Archiv "Korpora gesprochener Sprache"

Virtuelles Korpus

Zusammensetzung

Anmerkung

fko

fko

 

dsk

dsk

 

pfe

pfe

 

gespr

fko dsk pfe

das gesamte Archiv

Virtuelle Korpora im Archiv morphosyntaktisch annotierter Korpora

Virtuelles Korpus

Zusammensetzung

Anmerkung

public-TAG

m91-TAG m94-TAG m95-TAG m96-TAG lim-TAG

 

annot-TAG

m91-TAG m94-TAG m95-TAG m96-TAG lim-TAG s93-TAG s94-TAG

das gesamte Archiv

Virtuelle Korpora im Archiv phasengegliederter Wendekorpora

Virtuelles Korpus

Zusammensetzung

Anmerkung

wkb-ph

wkb-ph

 

wkd-ph

wkd-ph

 

wk-ph

wkb-ph wkd-ph

das gesamte Archiv

Virtuelle Korpora im Archiv "Kartei der Gesellschaft für deutsche Sprache"

Virtuelles Korpus

Zusammensetzung

Anmerkung

gfds

gfds

das gesamte Archiv

Virtuelle Korpora im Archiv "Korpora geschriebener Sprache"

Virtuelles Korpus

Zusammensetzung

Anmerkung

bzk

bzk

 

dkg

dkg

 

fsp

fsp

 

goe

goe

 

gr1

gr1

 

gri

gri

 

iko

iko

 

lim

lim

 

loz

loz

 

mk1

mk1

 

mk2

mk2

 

mld

mld

 

thm

thm

 

wkb

wkb

 

wkd

wkd

 

wkv

wkv

 

bzt

b97 b98 b99 b003

 

cz

c93 c94 c95 c96 c97 c98

 

mmm

m89 m91 m94 m95 m96 m97 m98 m99 m002

 

faz

f93 f95

 

frr

r97 r98 r99

 

sgt

a97 a98 a99 a00

 

zta

e96 e97 e98 e99 e00

 

spiegel

s93 s94

 

sz

u95 u96 u97 u98 u99

 

taz

t86 t87 t88 t89 t90 t91 t92 t93 t94 t95 t96 t97 t98 t99 t00

 

zeit

z95 z96 z97 z98 z99

 

hbk

h85 h86 h87 h88

 

mk

mk1 mk2

 

val

spe wk spiegel faz taz bzt zeit

 

wk

wkb wkd

 

dereko

cz frr sz sgt zta

Akqusitionen im DEREKO-Projekt

lit

lit-pub thm¹ loz

 

lit-pub

gr1 goe¹ mk1¹ mk2¹

 

wiw

fsp iko mmm gr1 mk lim hbk bzk wk dkg mld dereko wkv spiegel faz taz zeit bzt loz

 

neokomp

gr1 mk lim hbk bzk wk m89 t86 t87 t88 t89 t90 iko¹

Neologie-Vergleichskorpus
(Texte bis Dezember 1990)

neokom-pub

gri goe dkg gr1 mk lim hbk bzk wk m89

Neologie-Vergleichskorpus
(Texte bis Dezember 1990, öffentlich)

neo

faz spiegel m91 m94 m95 m96 m97 m98 m99 m002 t91 t92 t93 t94 t95 t96 t97 t98 t99 t00 zeit bzt dereko iko¹ fsp mld

Neologie-Korpus
(Texte seit Januar 1991)

neo-pub

m91 m94 m95 m96 m97 m98 m99 m002 mld dereko

Neologie-Korpus
(Texte seit Januar 1991, öffentlich)

neoall

neokomp neo

 

public

mmm gri gr1 mk lim hbk bzk wk goe dkg mld dereko

öffentlich zugängliche Korpora

geschr

thm fsp iko public wkv spiegel faz taz zeit bzt loz

das gesamte Archiv


1 nur teilweise
2 nur bis Oktober 2000
3 nur bis November 2000

Chronologie wichtigster Änderungen

Im September 1999 wurde der COSMAS-I-Betrieb auf den neuen zentralen Server des IDS umgeleitet. Dabei wurden als Ergebnis jahrelanger Korrektur-, Ergänzungs-, Dokumentations- und Anpassungsarbeiten zum Teil erheblich verbesserte Versionen unserer Korpora freigegeben. Im Bereich der bibliographischen Dokumentation wird unser Textmaterial weiterhin in aufwendiger Handarbeit aufgewertet. Die Resultate dieser Bemühungen werden in die nachfolgenden Freigaben der COSMAS-I-Korpora einfließen.

Der Wechsel zum neuen, moderneren Rechner hat sich auch positiv auf die Möglichkeiten der Strukturierung des Textmaterials ausgewirkt. Einige aus den früheren COSMAS-I-Versionen bekannte Einschränkungen in der Korpusorganisation sind entfallen, z. B. getrennte Archive für Zeitungstexte. So können jetzt mit einer Suchanfrage über eine Milliarde Textwörter durchsucht werden.

Die umfangreichen Zeitungskorpora jüngeren Datums (Berliner Zeitung, Frankfurter Allgemeine, Mannheimer Morgen, Der Spiegel, die tageszeitung, Die Zeit), die das IDS in elektronischer Form erhält, wurden und werden von IDS-Mitarbeitern für die Nutzung unter COSMAS I vollautomatisch aufbereitet. Ihre Qualität hängt von der Qualität der von den jeweiligen Verlagen gelieferten Daten ab. Wo es vollautomatisch möglich war und ist, wurden Verbesserungen fehlerhaften Textmaterials in die IDS-Programmierung integriert. Wie bereits früher geschehen, können Projektgruppen weiterhin bei Bedarf die vollautomatisch behandelten Korpora, zumindest ausschnittsweise, und auch die anderen Korpora für ihre Zwecke bearbeiten.

Dass einige dieser Zeitungskorpora Jahrgangslücken aufweisen oder mitunter die Anzahl der Wortformen von Jahrgang zu Jahrgang erheblich abweicht, ist in erster Linie darin begründet, dass diverses Textmaterial aus weiter zurückreichender Zeit in den Verlagshäusern nicht in vollautomatisch verarbeitbarer Form vorhanden war. Die Ursache für nicht fortgesetzte neuere Zeitungskorpora sind urheberrechtliche Beschränkungen. Der gleiche Grund trifft auf die starke Restriktion in Bezug auf die externe weltweite Nutzung zu, für die bisher einzig die Verlagsgesellschaft des Mannheimer Morgens großzügigerweise ihre Daten zur Verfügung stellt. Nicht zufriedenstellend ist, dass die Textbeschaffung durch die restriktive urheberrechtliche Situation außerordentlich erschwert wird und deshalb alles erlaubte, einigermaßen verwendbare Textmaterial, fern von einer ausgewogenen Zusammensetzung, in die COSMAS-Korpora aufgenommen wird. Dank der zusätzlichen Förderung des Landes Baden-Württemberg kann bis Dezember 2001 durch weitere Akquisitionen im Projekt "Referenzkorpus der deutschen Gegenwartssprache" (DEREKO) die Zusammensetzung unserer Korpora verbessert werden.

Im Juli 2000 wurden die ersten DEREKO-Korpora für Online-Zugang unter COSMAS I freigegeben.

Im August 2000 wurde das Pfeffer-Archiv aufgelöst und das Pfeffer-Korpus wurde in das Archiv "Korpora gesprochener Sprache" aufgenommen. Die Archive "Historische Korpora I", "Historische Korpora II" und das Marx-Engels-Archiv wurden in ein einziges "Archiv historischer Korpora" zusammengefügt. Historisches Korpus 1 wurde um neue Texte erweitert.

Im November 2000 wurden folgende Korpora in das Archiv "Neuakquisitionen" eingegliedert: "Belletristik des 20. Jahrhunderts: Siegfried Lenz"; St. Galler Tagblatt, Jahrgänge 1997-2000; Frankfurter Rundschau, Jahrgang 1999; Süddeutsche Zeitung, Jahrgang 1999; Berliner Zeitung, Aktualisierung des Jahrgangs 2000; und Mannheimer Morgen, Aktualisierung des Jahrgangs 2000.

Im Dezember 2000 wurde der Inhalt des Archivs "Neuakqusitionen" in das Archiv "Korpora geschriebener Sprache" integriert und das Archiv "Neuakqusitionen" wurde geleert. Das Archiv "Korpora geschriebener Sprache" wurde auch um die Jahrgänge 1996-2000 des "Züricher Tagesanzeiger" aus dem DEREKO-Projekt erweitert.

Im Januar 2001 wurden die abgeschlossenen Jahrgänge 2000 des "Mannheimer Morgen" und der "Berliner Zeitung" über das Archiv "Neuakquisitionen" verfügbar gemacht. Über das Archiv "Korpora geschriebener Sprache" sind in diesen Korpora nach wie vor nur Texte bis Oktober 2000 (für m00), bzw. November 2000 (für b00) verfügbar.