[Home page] [Übersicht] [Overview] [Letzte Änderungen]

Teilprojekt 2:
Linguistische Analyse

In diesem Teilprojekt sollen Verfahren entwickelt werden, die die Weiterverarbeitung des vom Spracherkenner analysierten Signals bis zur semantischen Repräsentation und/oder zur Übersetzung ermöglichen. Die Verfahren sollen auf Ergebnissen aus Verbmobil 1 aufbauen und sie bzgl. Übersetzungsrichtungen, Domänen, Laufzeit, Übersetzungsqualität und Abdeckung so erweitern, daß sie den Anforderungen des Prototypen VM 2 Rechnung tragen

Das Teilprojekt soll einerseits die Arbeiten zur sogenannten tiefen Analyse und den dafür benötigten linguistischen Wissensquellen fortführen, andererseits aber auch mit sehr viel größerem Aufwand als bisher sogenannte flache Verarbeitungsmethoden entwickeln und einsetzen.

Das angestrebte Ergebnis ist eine integrierte Verarbeitung, die in Abhängigkeit von den jeweiligen Anforderungen in Bezug auf Genauigkeit, Abdeckung, Robustheit und Effizienz eine möglichst optimale Kombination der verschiedenen Verarbeitungsmethoden und Wissensquellen wählt.

Die flachen Verfahren sollen die Ergebnisse aus Verbmobil 1 bzgl. Laufzeit und Übersetzungsqualität zu einem schritthaltenden Echtzeitsystem mit einer approximativen Übersetzungskorrektheit > 70 % erweitern.

Die Arbeiten können auf zahlreichen Ergebnissen aus Verbmobil 1 aufbauen:

In Verbmobil 1 wurde bereits neben der sog. tiefen linguistischen Analyse (bestehend aus linguistischer Suche auf Wörtergittern, syntaktischer Analyse, Semantikkonstruktion und -auswertung, Transfer und Generierung) als neuartiger Ansatz die dialogaktbasierte Übersetzung entwickelt und in den Forschungsprototypen integriert. Die dialogaktbasierte Übersetzung ermittelt durch Schlüsselwortanalyse und statistisches Parsing die in der Domäne relevante Information und übersetzt sie in Form von Templates.

Die zu lösenden Probleme für die Verarbeitung lassen sich unter folgende Problemkreise subsumieren.

1. Die gesprochenen Äußerungen enthalten grammatikalische Fehler.
2. Die erkannten Äußerungen weichen oft von den gesprochenen Äußerungen ab und sind syntaktisch und semantisch teilweise stark deformiert.
3. Die Äußerungen sind oft sehr lang ( > 25 Wörter) und enthalten mehrere syntaktisch/ semantische Einheiten (Segmente). Die Segmentgrenzen sind nicht eindeutig identifizierbar.
4. Bei analysierbaren Äußerungen ist die vom Sprecher intendierte Lesart zu ermitteln. Dieses Problem wird umso dringlicher, je robuster und damit permissiver die Grammatik ist.
5. Die Verarbeitung muß in Echtzeit und wegen der Länge der Äußerungen schritthaltend erfolgen.

Ein zentrales technisches Problem dieser Problemfelder stellt die integrierte Suche mit unterschiedlichen Modellen und Wissensquellen (Akustik, Prosodie, Syntax, Semantik, Dialog) dar.

Die linguistischen Wissensquellen, d.h. Lexikon, Syntax und Semantik, müssen so gestaltet und implementiert werden, daß sie den folgenden Anforderungen genügen:

1. Sie müssen den Zielen von Verbmobil 2 angepaßt sein, d.h. sie müssen sich in den drei Sprachen sowohl für Analyse, Generierung und Transfer von gesprochener Sprache eignen.
2. Sie müssen in den Domänen von VM 2 die notwendige Abdeckung erreichen.
3. Sie müssen erweiterungsfähig sein, d.h. sich leicht auf weitere Domänen, Sprachen, Anwendungsfelder erweitern lassen.
4. Sie müssen leicht wartbar und wiederverwendbar sein, d.h. sauber und modular implementiert sein und einem allgemein akzeptierten de facto Standard entsprechen.

Da eine besondere Herausforderung von Verbmobil 2 die Möglichkeit des schnellen Domänenwechsels ist, ergeben sich besondere Ziele für das Teilprojekt. Die meist auf Training basierten robusten Verfahren sollten sich effizient an eine neue Domäne anpassen lassen, ohne auf umfangreiche Datensammlungen zugreifen zu müssen. Das Grammar-Engineering, besonders die multilinguale Kerngrammatik, die auch die sprachübergreifenden Teile der lexikalischen Semantik enthält, sollte so gestaltet sein, daß sich Erweiterungen auf zusätzliche Domänen schnell und mit vertretbarem Aufwand erreichen lassen.

Die Arbeiten zur flachen Verarbeitung sollen ein Verbmobil 1-Defizit beseitigen, das in einer Robustheits-Lücke zwischen der sog. tiefen Analyse einerseits und der sehr flachen reduktionistischen Analyse andererseits bestand. Daher soll nun die flache Analyse schrittweise in Richtung einer robusten tieferen Analyse erweitert werden, wobei eine engere Verzahnung zwischen syntaktisch-semantischer Analyse und Spracherkennung angestrebt ist. Weiterhin sind Verfahren zur Detektion und syntaktisch/semantischen Verarbeitung von außergrammatischen Phänomenen wie Satzabbrüchen und Korrekturen zu entwickeln. Die Arbeiten sollen sowohl mit der symbolischen als auch mit der statistischen Übersetzung kompatibel sein.

Die Arbeiten zur tiefen Verarbeitung sollen eine effizientere und robustere Verarbeitung ermöglichen, ohne Abstriche in der Genauigkeit der Analyse bzw. der Übersetzung in Kauf nehmen zu müssen. Durch eine engere Integration der linguistischen Beschreibungsebenen und verbesserten Verfahren des Grammar Engineering, besonders der Qualitätskontrolle, soll die Analysegenauigkeit sogar sogar noch erhöht werden. Die effizientere und robustere Verarbeitung soll dadurch erreicht werden, daß die Verarbeitungsverfahren unabhängiger von der komplexen, redundanzfreien, logik-basierten Spezifikationssprache der linguistischen Beschreibung werden. Das soll insbesondere durch Kompilationsmethoden erreicht werden, die die HPSG-kodierten linguistischen Wissensquellen zur Kompilationszeit in einfachere Formate übersetzen, die sich einerseits besser für eine effiziente Verarbeitung eignen und andererseits zum Zweck einer robusteren Analyse leichter mit statistischer Information anreichern lassen.

Indem also 1. die flache Verarbeitung schrittweise eine größere Genauigkeit erzielt, 2. die tiefe Verarbeitung robuster und effizienter wird und 3.ein integriertes Verarbeitungsmodell die der Aufgabe angemessenste Kombination der Verfahren herstellt, soll Verbmobil 2 wesentliche Forschungsergebnisse zu einem zentralen Forschungsthema der Sprachtechnologie beitragen, der Frage nachder optimalen Auswahl und Mischung von flachen und tiefen sowie wissensbasierten und statistischen Methoden.


[vorhergehendesTeilprojekt] [nächstes Teilprojekt] [Veröffentlichungen]


© Webmaster