[Home page] [Übersicht] [Overview] [Letzte Änderungen]

Teilprojekt 3:
Übersetzung

Die Aufgabe dieser Komponente ist eine robuste und direkte Übersetzung spontansprachlicher Dialoge für die Sprachpaare Deutsch, Englisch, Japanisch (auch Multiparty).

Angesichts der Schwierigkeit des Übersetzungsproblems sollen verschiedene Strategien zum Einsatz kommen:

- Ein semantischer Transferansatz mit Erweiterung um statistische Bewertungen
- Ein statistisch orientierter Übersetzungsansatz

Im folgenden sollen die Ziele, das prinzipielle Vorgehen und die Einbettung in das Gesamtprojekt, sowie die Querverbindungen zwischen den beiden Ansätzendargelegt werden.

1. Semantischer Transferansatz
Als Eingabe für die Übersetzung dienen die Analysen aus TP 2 `Linguistische Verarbeitung'. Diese sind in Interaktion mit TP 4 `Dialogverarbeitung und Kontextauswertung' so zu verarbeiten, daß die Sprachgenerierung und Synthese daraus eine zielsprachliche Äußerung generieren kann, die den wesentlichen Inhalt adäquat wiedergibt.

Durch die Einbeziehung der Dialogstruktur lassen sich einzelne Dialogbestandteile zu größeren Einheiten zusammenfassen und erlauben es somit, irrelevante Teile in der Übersetzung zu unterdrücken. Damit kann eine robustere und qualitativ bessere Übersetzung erzielt werden.

2. Statistischer Ansatz
In der statistischen Übersetzung (genauer: der stochastischen Modellierungdes Übersetzungsprozesses) wird zu einem gegebenen Satz f der Ausgangssprache der wahrscheinlichste Satz e' in der Zielsprache bestimmt anhand der Bayesschen Entscheidungsregel:

e' = argmax {p(e|f):e} = argmax {p(e)*p(f|e):e}

Hier gehen zwei Verteilungen oder stochastische Wissensquellen, nämlich p(e|f) und p(e), ein:
a) Der durch p(f|e) gegebene Zusammenhang kann als Lexikon-Modell oder Übersetzungsmodell (im engeren Sinne) bezeichnet werden. b) p(e) ist das Language-Modell für die Zielsprache (ähnlich wie das Language-Modell in der Spracherkennung). Die argmax-Operation beinhaltet die sog. Suche, in der zu den beiden Wissensquellen p(e|f) und p(e) der beste Satz der Zielsprache bestimmt wird. Hieraus lassen sich die Aufgaben innerhalb des statistischen Ansatzes ableiten. Da die verschiedenen Komponenten eines statistischen Übersetzungssystems eng aufeinander abgestimmt werden, kann dieser Ansatz auch mit dem Attribut"holistisch" versehen werden.

Die Modellparameter für das Übersetzungs- und Language-Modell sollen aus den Verbmobil-Daten und weiteren Text-Corpora trainiert werden. Die statistische Übersetzungskomponente arbeitet auf dem Worthypothesengraphen als Eingabe und erzeugt eine Wortkette als Ausgabe, die direkt von der Synthese-Komponente weiterverarbeitet werden kann.

Die statistische Übersetzungskomponente arbeitet auf dem Wordgraphen als Eingabe und erzeugt einen Wortstring als Ausgabe, der direkt von der Synthese-Komponente weiterverarbeitet werden kann.

Eine Verzahnung der beiden Ansätze bietet zwei entscheidende Vorteile. Zumeinen werden dadurch interessante und als wichtig angesehene Erweiterungen erreicht. Exemplarisch sollen hier genannt werden:
- stochastische Grammatiken
- Lernen von Regeln für semantischen Transfer
- Modellierung langreichweitiger Abhängigkeiten in der Language Modellierung durch Einbeziehung linguistischen Wissens
- Einbeziehung der syntaktischen Strukturanalyse in die Modellierung der statistischen Wort-Alignments (Übersetzungsmodell)

Zum anderen wird dadurch - und dies ist das eigentliche Ziel - ein robusteres Verhalten der Übersetzungkomponente und eine leichtere Adaption an neue Domänen erreicht.

Schwerpunkte für die Arbeiten in TP3:
Im Rahmen des semantischen Transferansatzes sind folgende Aufgaben durchzuführen:
- kontrastive Untersuchungen mit dem Ziel der Identifikation von übersetzungsrelevanten Äußerungseinheiten, der Extraktion von bedeutungserhaltenden Übersetzungen und einer Klassifikation der Übersetzungssprobleme.
- Hybride Ansätze, die eine intelligente Kombination von flacher und tiefer Analyse vorsehen, die bei der Übersetzung von Routineformeln und standardisierten Dialogakten, wie z.B. Terminvorschlägen, auf eine flache Verarbeitung aufsetzt, während für Äußerungen mit kompositionellem Inhalt auf die Ergebnisse der tiefen Verarbeitung aufgesetzt wird.
- Die Auflösung von Ambiguitäten ist eines der zentralen Probleme dermaschinellen Übersetzung und stellt ein AI-vollständiges Problem dar.Deshalb ist eine möglichst ambiguitätserhaltende Übersetzung anzustreben, die auf gepackten und unterspezifierten Repräsentationen operiert. Wo dies unmöglich ist, erfolgt ein Anruf der Inferenzkomponenten, die ggf. einen Klärungsdialog initiieren (Negotiator), falls keine Auflösung möglich ist. Da diese Inferenzen in der Regel sehr ineffizient und teuer sind, ist in Abstimmung mit TP 4 `Dialog und Kontextauswertung' zu untersuchen, in wieweit statistische Verfahren zur Desambiguierung miteinbezogen werden können.
- Die angestrebte Multilingualität erfordert weitgehend sprachunabhängige und möglichst reversible Verarbeitungsverfahren und Wissensquellen inder Übersetzung.

Für den statistischen Ansatz sind folgende Komponenten aufzubauen:
- Modellierung des Übersetzungszusammenhangs in der Form von statistischenÜbersetzungsmodellen. Dies bedeutet die Entwicklung geeigneter Modelle unddas automatische Lernen der Modellparameter aus Beispielsätzen (Corpora).
- Entwicklung von prädiktiven Sprachmodellen für die Übersetzung. Hier sind die aus der Spracherkennung bekannten Language-Modelle auf die speziellen Anforderungen der statistischen Übersetzung anzupassen.
- Das Suchverfahren stellt die zentrale Komponente des Ansatzes dar, in der für einen gegebenen Satz die Bewertungen der beiden Modelle (Übersetzungsmodell und Language-Modell) kombiniert werden, um den Satz der Zielsprache zu generieren. Der Vorteil dieser Vorgehensweise ist die Interaktion der beiden Modelle; der Preis ist ein u. U. großer Suchraum, in dem sehr viele Satzkandidaten in der Zielsprache hypothetisiert werden müssen. Daher ist eine Untersuchung und Optimierung geeigneter Suchverfahren erforderlich, insbesondere im Hinblick auf eine echtzeitfähige Verarbeitung. Das Suchverfahren könnte in Fällen, in denen der gesprochene Satz nicht im Wortgraphen enthalten ist, den Wortgraphen mit den fehlenden Worthypothesen ergänzen.

Arbeitsschwerpunkte, die paradigmenübergreifend zu realisieren sind:
- Entwicklung von Kriterien zur Evaluation der Übersetzung. Eine probabilistische Bewertung ermöglicht in dem nachgeschalteten Generierungsmodul eine Beurteilung der Qualität der von flacher und tiefer Verarbeitung gelieferten Übersetzung.
- Durchführung systematischer Tests mit dem Ziel einer kontinuierlichen Verbesserung der in diesem Teilprojekt entwickelten Komponenten.
- Einbeziehung monolingualer und bilingualer Text-Corpora und Extraktion von Information aus Lexika, um eine breitere Abdeckung, leichtere Adaption an neue Domänen und robusteres Verhalten des Übersetzungssystems zu erreichen.
- Automatische oder semiautomatische Extraktion von semantikbasierten Transferregeln aus bilingualen Wörterbüchern und aus alignierten und annotierten Corpora. Weiterhin ist die Extraktion statistischer Informationen zur automatischen Desambiguierung vorzusehen.

Für die Umsetzung dieser Ziele ergeben sich eine Reihe von Anforderungen an andere Teilprojekte:
- Eine möglichst ambiguitätserhaltende Übersetzung erfordert diegepackte Repräsentation von Ambiguitäten in Syntax und Semantik. Hierzu gehören beispielsweise PP-Anbindungs-, Skopus- und lexikalische Ambiguitäten.
- Ebenso sind Inferenzmechanismen auf solchen gepackten Repräsentationen erfoderlich. Die Sprachgenerierung sollte in der Lage sein, Äußerungen aus gepackten Repräsentationen zu generieren.
- Als Grundlage für die Akquisitionsarbeiten und das Trainieren der statistischen Verfahren müssen geeignete Daten und Werkzeuge zu deren Erschließung verfügbar sein. Dies bedeutet insbesondere alignierte und annotierte bilinguale Dialoge für die verschiedenen Übersetzungsrichtungen.


[vorhergehendesTeilprojekt] [nächstes Teilprojekt] [Veröffentlichungen]


© Webmaster