Institut für Deutsche Sprache, Mannheim | |||||
Wegweiser Abteilungen, Arbeitsstellen |
Deutsch-Französisches KollokationswörterbuchDas deutsch-französische Projekt zu "Kollokationen im Kontext" wird auf der Basis großer Parallelkorpora (deutsche Texte mit französischen Übersetzungen und französische Texte mit deutschen Übersetzungen) frequentielle Erhebungen durchführen und typische Verwendungsweisen zentraler Kollokationen beschreiben. Das alignierte und annotierte Parallelkorpus (geschriebener Sprache) hat zur Zeit einen Umfang von 15 Millionen Wörtern pro Sprache und besteht aus CELEX-Dokumenten (das Recht der Europäischen Union -Verträge, Außenbeziehungen, Gesetze-) und Dokumenten des Europäischen Parlaments (EUROPARL). Dieses Parallelkorpus muss nun zu einer Größenordnung von 50 Millionen Wörtern pro Sprache erweitert werden. Ziel des Projekts ist der Aufbau einer Datenbank für deutsche und französische Kollokationen und deren wechselseitige Entsprechungen mit Hilfe korpuslinguistischer Verfahren. In der ersten Phase werden vor allem Kollokationen des Typs Adjektiv mit Substantiv aufbereitet; ein Auszug der Datenbank wird auch als bilinguales Kollokationswörterbuch erscheinen. Die Kollokationsdatenbank bildet die Grundlage einer semiautomatischen Übersetzungsplattform für Texte der Allgemeinsprache. Sowohl das Kollokationswörterbuch als auch die Übersetzungsplattform wird Übersetzern, Lehrern und Lernenden viel nutzen. Die für dieses Vorhaben benötigten Verfahren sind bereits in zahlreichen Pilotanwendungen computerlinguistischer Ausrichtung in einschlägigen Zentren Europas sowie in Übersee entwickelt und getestet worden. Unser Ziel ist, die für unsere Ziele am besten geeigneten Programme in einer modularen Architektur zu kombinieren und in Hinblick auf Robustheit und Automatisierung zu optimieren. Diese Verfahren werden so generalisiert, dass sie für beliebige Sprachenpaare eingesetzt werden können. Von Juli 1999 bis Juni 2000 wurde am Institut für Deutsche Sprache (Mannheim) die erste Phase des Projekts "GeFrePac" (German-French Reciprocal Parallel Corpus) durchgeführt, das gemeinsam von ELRA (European Language Resources Agency, Paris) und dem IDS finanziert worden ist. Vor ein paar Wochen wurde bei der Deutschen Forschungsgemeinschaft ein Antrag gestellt, damit am Projekt weiter gearbeitet wird; die Entscheidung wird erst in ein paar Monaten fallen. Die erste Phase des Projekts wurde von Professor Dr. Wolfgang Teubert geleitet.Verantwortlich: Gisela Zifonun
|