Institut für Deutsche Sprache, Mannheim

Wegweiser

Startseite

Aktuelles

Abteilungen, Arbeitsstellen
Sprach- und
Korpustechnologie
DIDA
SERGES
Text-Ton-
Alignment
Datenbank
Gespr. Deutsch
Links

Projekte

Service

Veröffentlichungen

Über das IDS

Informationen zur deutschen Sprache

Rechtschreibreform

Kataloge, Suchmaschinen


"Alignment": Maschinelle Text-Ton-Synchronisation

Übersicht

Tonmaterial in Form von Audio- oder Videoaufnahmen spielt in dem Bereich der Linguistik, der sich mit verbaler Interaktion beschäftigt, eine bedeutende Rolle. Die Auswertung des Materials gestaltet sich jedoch schwierig, da datenbankmäßige Abfragen zunächst nicht möglich sind. Um das Material recherchierbar zu machen, muss es zunächst mühsam komplett transkribert werden (vgl. Projekt DIDA). Das Gesprochene liegt anschließend in schriftlicher Form vor, oft angereichert mit intonatorischen Markierungen und weiteren Kommentaren (vgl. Transkriptionsrichtlinien). Mit einem Textdatenbanksystem können die Informationen der so transkribierten Diskurse zwar recherchiert werden (vgl. COSMAS-II), eine Suche nach sprachlichen Einheiten im Audiomaterial ist jedoch damit noch nicht möglich. Daraus ergibt sich die Forderung, Text- und Audiomaterial unter Berücksichtigung der Synchronität zu verbinden.

Diese Verbindung lässt sich computertechnisch mit Hilfe eines modifizierten Spracherkenners (sogenannter Aligner) realisieren, wie er z.B. am IDS im Rahmen des SERGES-Projekts entwickelt worden ist. Im Gegensatz zu einem Spracherkenner wird nicht ein Wortschatz Grundlage der Erkennung, sondern die geäußerten und transkribierten Wörtern in ihrer vorgegebenen Reihenfolge. Dadurch wird die Komplexität des Suchvorganges erheblich reduziert. Selbst bei Material von akustisch mäßiger Qualität darf auf Wortebene mit akzeptablen Ergebnissen gerechnet werden. Das Ergebnis besteht darin, dass den einzelnen Wörtern Zeitmarken zugeordnet werden, die auf den Zeitpunkt des Auftretens in der Audiodatei verweisen. Diese Zeitmarken bilden die Verbindung zwischen Text- und Tonmaterial und werden nach dem Alignment in die Textdateien (in SGML-Format) gemischt und stehen dann dem Textdatenbanksystem COSMAS-II zur Verfügung, das es erlaubt, die Rechercheergebnisse nicht nur anzusehen sondern auch anzuhören.

Technische Details des Aligners.

Bisher wurde im Rahmen des DIDA-Projekts Tonmaterial im Umfang von ca. 20 Stunden auf diese Weise aufbereitet. Dieses steht zur Recherche in COSMAS-II zur Verfügung. Mittlerweile wurde begonnen, das umfangreiche Material des Deutschen Spracharchivs zu bearbeiten. Schwierig bei der erstgenannten Materialgruppe ist vor allem die Behandlung von Simultanpassagen bei Schlichtungsgesprächen oder Talkshows, beim Material des Spracharchivs ist es vor allem die Handhabung von älteren, akustisch mittelwertigen Tonaufnahmen diverser Dialekte.

Was die Weiterentwicklung des Systems betrifft, so wird das 20-Stunden-Material dazu benutzt, die Präzision des Alignments zu überprüfen und gegebenenfalls manuell zu korrigieren. Dabei hat sich gezeigt, dass lokale Verschiebungen in Erscheinung treten, wenn

  • mehrere Sprecher gleichzeitig sprechen (Simultanpassagen, Überlappungen)
  • nicht-sprachliche Äußerungen (Räuspern, Lachen, Husten, Klatschen u.dgl.) auftreten
  • bestimmte Laute (sog. Hesitationsphänomene) geäußert werden
  • Geräusche und Musik vernommen werden können.

Zur Verbesserung des Aligners werden die eben genannten Phänomene in der Ergebnisdatei des Aligners markiert. Die so korrigierten und erweiterten Ergebnisdateien dienen dem Aligner anschließend als Trainingsmaterial für die zuvor definierten Phonemmodelle (HMMs). Diese Arbeiten werden in einem Kooperationsprojekt mit dem Institut für maschinelle Sprachverarbeitung (IMS) der Universität Stuttgart durchgeführt.

Weiterführende Entwicklungen der oben beschriebene Software sind in folgenden Richtungen denkbar:

  • Grobsegmentierer zur Analyse unbekannten Audiomaterials z.B.
    • Angaben von Gesprächsdynamik
    • Topic-Spotting (Erschließung der vermutlichen Gesprächsthematik)
  • Verarbeitung von Videomaterial (mit Berücksichtigung von Gesten u.dgl.)
  • Hilfsmittel zur (halb-)automatischen Transkription.

    [IDS-Logo] Institut für Deutsche Sprache, Mannheim
    Dr. Rudolf Schmidt<rudolf.schmidt@ids-mannheim.de>
    Abteilung Pragmatik
    Letzte Änderung: 16. Juni 2000