Wegweiser
Startseite
Aktuelles
Abteilungen, Arbeitsstellen
ZDV
 COSMAS II
 MECOLB
Projekte
Service
Textkorpora des IDS
Veröffentlichungen
Über das IDS
Informationen zur deutschen Sprache
Rechtschreibreform
Kataloge, Suchmaschinen
|
Abschlußbericht über das Projekt MECOLB
Multilingual Environment for Corpus-Based
Lexicon Building
Die Arbeiten an dem Projekt MECOLB erstreckten sich
über einen Zeitraum von 18 Monaten (1. Februar 1994 bis 30.
August 1995). Der Leiter der Zentralen Arbeitsstelle
Linguistische Datenverarbeitung des Instituts für deutsche
Sprache (IDS), Robert Neumann, war mit der Funktion
des Projektkoordinators betraut.
MECOLB begreift sich als ein europäisches Konsortium, in
dem Vertreter aus verschiedenen Gebieten der Wirtschaft,
von Universitäten und nationalen Forschungsinstituten bei
der Entwicklung von Sprachtechnologie für Wirtschaft und
Wissenschaft zusammenarbeiten.
MECOLB war in das Telematic
Programm MLAP93-21 der Europäischen Union (Directorate
General XIII, Telecommunications, Information Market and
Exploitation of Research, Information Industry and Market and
Language Processing Basic Studies in Linguistics, Luxemburg)
eingebettet und stellte im Sinne dieses Programms ein
Wirtschaftsentwicklungsinstrument der EU dar.
Das Institut für Deutsche Sprache arbeitete bei diesem Projekt
mit den sechs Institutionen und Verantwortlichen zusammen:
- University of Birmingham (Großbritannien), Prof. John M. Sinclair
- MAKROLOG mbH, Wiesbaden, Andreas Herberger
- TOSCA Research Group, Katholieke Universiteit Nijmegen
(Niederlande), Prof. Jan Aarts
- ASTRILL-LADL, Université de Paris 7 (Frankreich), Prof. Maurice Gross
- Institut voor Nederlandse Lexicologie, Leiden (Niederlande), Prof. Piet van Sterkenburg
- Université de Liège (Belgien), Prof. André Moulin
Das Projekt MECOLB entwickelte für die Abspeicherung und
Verwaltung von großen Textmengen geeignete Tools, die die
Erschließung von allgemeinen und linguistischen Informationen
im besonderen aus diesen Texten unterstützen. Werkzeuge
wurden programmiert, die den Aufbau und die Wartung von
maschinenlesbaren Lexika und Wörterbüchern
unterstützen können.
Die in diesem Projekt erstellte Software verwaltet und
pflegt zum einen große Korpora (50 - 500 Millionen Wörter)
und ermöglicht zum anderen sowohl den unmittelbaren Benutzern als
auch "Weiterverarbeitern" - seien es Programme
oder Menschen - , diese Daten computerunterstützt zu analysieren
und zu annotieren. Das System integriert sowohl linguistische als
auch außerlinguistische Annotationen in die
Korpora und stellt Möglichkeiten zur Verfügung, um auch
über diesen Annotationen zu arbeiten.
Zum Beispiel ermöglicht
das bereits seit vier Jahren im IDS und weltweit erfolgreich angewendete
Computersystem COSMAS die Auffindung
aller Wortformen und Wortbildungen zu einer Stammform (Lemma),
und MECOLB verbessert die Methoden der Informationsgewinnung
aus Texten (Volltextretrieval) durch den Einsatz
linguistischer Analyseverfahren. MECOLB stellt unter anderem
eine Weiterprogrammierung und Leistungserweiterung des
vorhandenen Systems COSMAS dar.
Die im Projekt entwickelten Werkzeuge setzen den Lexikographen
und auch den Lexikonbenutzer in die Lage, als Basis
für seine Arbeiten auf Daten zurückzugreifen, die
noch keine Einschränkung auf ein spezielles Lexikonkonzept
oder einen speziellen Sprachausschnitt enthalten.
Wesentliche Charakteristika sind:
- Eine generalisierte Software für die Sprachverarbeitung
und für Informationsgewinnung aus Texten, wobei problem-
oder sprachspezifische Adaptionen dieser Software durchaus
in den angebotenen Software-Rahmen eingefügt werden können.
- Die Software realisiert das Konzept der Monitorkorpora:
jeder Benutzer kann sich zu jedem Zeitpunkt seine eigene
Korpuskollektion - genau angepaßt an die Probleme, die er
bearbeiten will - zusammenstellen, was ein beachtlicher
Vorteil gegenüber den bisherigen ungewichteten Textsammlungen ist.
So lassen sich zum Beispiel aus diesen Korpora gewonnenene
Wörterbücher "maßschneidern".
Auf dieser Basis
läßt sich auch das Problem der computergestützten
Auffindung von Neologismen und Bedeutungswandel neu fassen und
wesentlich besser als mit herkömmlichen Methoden lösen.
- Das Projekt trägt der Vorstellung einer "europäischen"
sprachunabhängigen Software Rechnung, die nur die unmittelbar erforderlichen Annahmen über sprachliche Regularitäten
enthält. Mit diesen Software-Konditionen können relativ
leicht sprachspezifische Lösungen für sprachspezifische
Probleme unterstützt werden.
Den Abschlußbericht zum Projekt MECOLB vom Dezember 1995
geben wir gegen eine Kostenerstattung von 100,- DM der interessierten Fachwelt zur Kenntnis.
Bestellungen sind an die Arbeitsstelle
Öffentlichkeitsarbeit und Dokumentation im IDS zu richten.
Dieser Text wurde verfasst von Robert Neumann.
![[IDS-Logo]](../../icons/logos/ids.gif) |
Institut für Deutsche Sprache, Mannheim
|
Franck Bodmer <bodmer@ids-mannheim.de>
Arbeitsstelle Zentrale DV-Dienste |
Letzte Änderung: 25. Juli 1996
|