[Home page] [Übersicht] [Overview] [Letzte Änderungen]

Das Computersystem Verbmobil übersetzt
Spontansprache in Verhandlungsdialogen


Der Verbmobil-Forschungsprototyp wurde einem internationalen Gutachterteam erfolgreich präsentiert

Pressekonferenz, München am 25.10.1996

Prof. Dr. Wolfgang Wahlster
Wissenschaftlicher Direktor am
Deutschen Forschungszentrum für
Künstliche Intelligenz (DFKI) GmbH
Gesamtprojektleiter des Verbmobil-Verbundvorhabens


Sehr geehrte Damen und Herren,

im Leitprojekt Verbmobil konnten wir uns seit 1993 in nur 3 1/2 Jahren der Vision der Übersetzung von Dialogen durch ein tragbares Computersystem einen weiteren Schritt annähern. Gestern, am 24.10.96, konnten wir einem internationalen Fachgutachterteam erstmals den Verbmobil-Fotschungsprototyp demonstrieren. Wir haben die technischen Ziele für die erste Phase von Verbmobil voll erreicht: Mehr als 70% aller Verbmobil-Übersetzungen sind korrekt. Das wurde uns von Dolmetschern des IAI Saarbrücken und der Universität Hildesheim bestätigt, die mehr als 10.000 Verbmobil-Übersetzungen überprüften. Außerdem haben wir trotz der äußerst umfangreichen Software auch eine akzeptable Verarbeitungsgeschwindigkeit für den Forschungsprototyp erreicht. Im Mittel braucht Verbmobil weniger als die 6-fache Dauer der gesprochenen Benutzereingabe, um eine Äußerung zu verstehen und die Übersetzung zu erzeugen. Das bedeutet, daß für eine Spracheingabe von drei Sekunden spätestens nach 18 Sekunden eine Übersetzung mit synthetischer Stimme ertönt.

Bei einem Vergleichstest hat der Spracherkenner der Universität Karlsruhe, der im Rahmen von Verbmobil entwickelt wurde, eine Wortfehlerrate von 13% erreicht. Dies ist Weltrekord bei Spontansprache mit extrem langen Äußerungen und ein außerordentlicher Fortschritt, wenn man bedenkt, daß zu Beginn des Projekts die Wortfehlerrate bei 50 % lag.

In Verbmobil wurde erstmals eine sprachwissenschaftlich fundierte Computergrammatik für gesprochenes Deutsch realisiert, das sich bekanntlich stark von der Dudengrammatik für Schriftsprache unterscheidet. So muß diese Grammatik z.B. mit Auslassungen und ungewöhnlichen Wortstellungen umgehen können. "Komme morgen" anstatt "Ich komme morgen"; "Sieht gut aus am Freitag" anstatt "Am Freitag sieht es gut aus" sind Beispiele für Umgangssprache, mit denen Verbmobil konfrontiert ist.

Völlig neuartig sind die gesprochenen Klärungsdialoge in Verbmobil, wenn es Verständnisschwierigkeiten zwischen Mensch und Maschine gibt. Hier wird nicht bei jedem Problem - wie bei bisherigen Systemen - ausgegeben: "Eingabe nicht verstanden, bitte nochmal sprechen", sondern gezielt auf mögliche Mißverständnisse abgeprüft. Beispielsweise fragt Verbmobil: "Meinen Sie "sonntags"?" wenn der Sprecher undeutlich artikuliert hat und dem System unklar ist, ob "Sonntag habe ich Zeit" oder "sonntags habe ich Zeit" gesprochen wurde.

Der rasante Fortschritt, den wir in den letzten Jahren gesehen haben, stimmt mich sehr zuversichtlich, daß wir nach der ersten erfolgreichen Projektphase Verbmobil im Jahr 2000 prototypisch zur Verfügung stellen können. Für die erste Phase von Verbmobil hat das Bundesministerium für Bildung, Wissenschaft und Forschung und Technologie (BMBF) 65 Mio DM Projektförderung bereitgestellt.

Wir haben jetzt den Verbmobil-Forschungsprototyp realisiert, der neben Deutsch auch begrenzt Japanisch versteht. Übersetzt wird derzeit immer ins Englische. Verständnisschwierigkeiten klärt Verbmobil auf Deutsch. Das Gesamtsystem hat derzeit einen Wortschatz von knapp 2500 Wörtern, die aus dem Bereich der Terminabsprache stammen.

Ein Zusatzmodul mit Lexikonfunktion erkennt gesprochene Einzelwortanfragen und liefert eine gesprochene und geschriebene Übersetzung. Ist bei einem Dialog die Übersetzung von "Pfingstmontag" nicht geläufig, liefert Verbmobil "Whit Monday". Gibt es für ein deutsches Wort mehrere Übersetzungen, werden alle Möglichkeiten genannt. So wird bei der Einzelworteingabe von "Termin" z.B. "date", "slot" und "appointment" ausgegeben.

Verbmobil übersetzt ganze Sätze im Gegensatz zu konventionellen Systemen aber kontextabhängig. Für die Eingabe "Wie wäre es am Montag? Geht es bei Ihnen?" liefert Verbmobil die Übersetzung: "How about Monday? Is it possible for you?". Lautet der erste Satz jedoch "Wo können wir uns treffen?" übersetzt Verbmobil "Geht es bei Ihnen?" korrekt als "Do we meet at your place?" Dies konnte nur erreicht werden, indem der Übersetzungsprozeß Abhängigkeiten von vorangehenden Sätzen berücksichtigt. Weiter verbessert wurden die Verfahren zum gestuften Sprachverstehen. Neben der detaillierten linguistischen Verarbeitung werden Techniken der Informationsextraktion angewendet, um parallel eine robuste "flache" Verarbeitung zu integrieren. Wenn der Sprecher sagt: "Ja, ich weil also würde mal sagen äh vorschlagen, wir könnten uns am äh 7. treffen so im Mai" würde dieser Satz von einem rein grammatikbasierten System abgelehnt, eine Übersetzung könnte nicht erzeugt werden, und der Sprecher müßte den Satz wiederholen. Das flache Verarbeitungsmodul extrahiert den zentralen Informationsgehalt aus dem Worthypothesengraphen: den Dialogakt "suggest_date", die Datumsangabe "7. Mai" und liefert als Übersetzung "How about the seventh of May?" Die Übersetzung wird durch den Einsatz von Schemata erzeugt, wobei die Auswahl des Schemas abhängt vom Dialogakt. Durch Kombination von tiefer und flacher Verarbeitung ist das System deutlich fehlertoleranter.

Insgesamt wurden 25 neuartige Sprachverarbeitungsmodule durch unser zentrales Integrationsteam am DFKI in einer innovativen und streng objektorientiert realisierten Softwarearchitektur zu einem hochkomplexen Übersetzungssystem zusammengeführt. Die verteilte Softwareentwicklung bei den 29 Projektpartnern und ca. 100 Forschern wurde durch die DFKI GmbH in zentralen Teams für das Projektmanagement und die Softwareintegration technisch-wissenschaftlich koordiniert. Die Erfolge der vergangenen 3 1/2 Jahre haben bewiesen, daß diese Entscheidung des BMBF, genau richtig war und für Leitprojekte dieser Art zukunftsweisend ist.

Ein Novum ist auch die kooperative Softwareentwicklung und die dezentralen Systemtests mithilfe des Internet und des World Wide Web an immerhin 21 verschiedenen Standorten. Ohne die konsequente Nutzung modernster Telekooperationstechniken wäre ein solch ambitioniertes System nicht möglich, das die enge Kooperation aller Know-how-Träger in Deutschland erfordert.

Faktisch haben über viele Jahre die Amerikaner international die Trainings- und Testszenarien für die Spracherkennung vorgegeben. Im Verbmobil-Konsortium ist es uns mit dem Szenario der Terminverhandlung inzwischen gelungen, auf dem Gebiet der Erkennung und Übersetzung von Spontansprache weltweit die Vorreiterrolle zu übernehmen. Im Auftrag des Verbmobil-Projektes wurden auch in den USA und Japan in großem Umfang Sprachdaten gesammelt, da die Größe der Sprachdatenbasis letztendlich über die Qualität der Spracherkennung entscheidet. Mittlerweile werden weltweit Sprachdaten im Verbmobil-Standard gesammelt, da z.B. auch Forschungsgruppen aus Korea und Italien auf eigene Rechnung an der durch Verbmobil vorgegebenen Übersetzungsaufgabe aus ihrer jeweiligen Landessprache heraus arbeiten. Schon zwölf CDs mit über 25000 analysierten Dialogbeiträgen wurden an die Verbmobil-Partner zum Training und Test der einzelnen Verarbeitungsmodule verteilt.

Eine automatische Übersetzung von gesprochener Sprache ist technisch zunächst erheblich schwieriger als das Übersetzen von Texten oder Tastureingaben, da sich akustische Eingaben nicht 1:1 auf Wörter abbilden lassen und nur im Kontext verständlich werden. Bei der Eingabe gesprochener Sprache ist die Einzelworterkennung (Sprechen mit künstlichen Pausen zwischen den Wörtern) am einfachsten, gefolgt von der Erkennung kontinuierlich vorgelesener Sprache (keine Pausen, aber absolut fehlerfreies Sprechen). Am schwierigsten ist die Erkennung von Spontansprache, wie sie in der freien Rede und in Dialogsituationen am häufigsten vorkommt. Verbmobil hat sich von Anfang auf die Spontansprache konzentriert, da hier international der größte Forschungsbedarf besteht. Spontansprache ist frei formulierte Alltagssprache, bei der ein Sprecher nicht etwa vorbereitete Texte vorliest. Gedankengänge werden fortlaufend in Sprache umgesetzt, wobei sehr häufig auch ungrammatische Sätze entstehen. Verbmobil muß deshalb mit abgebrochenen Sätzen, Einschüben und Selbstkorrekturen umgehen können. Nicht bedeutungstragende Äußerungselemente wie Räuspern, Schmatzen, äh und ehm werden von der Spracherkennung zunächst wie spezielle Wörter behandelt und für die weitere Analyse aus der Eingabe entfernt. Langfristig wird nur durch die Erkennung von Spontansprache das volle Anwendungspotential der Sprachtechnologie erschlossen.

Verbmobil arbeitet sprecherunabhängig. Die Verbmobil-Software ist im Gegensatz zu den heute vorwiegend eingesetzten Systemen nicht speziell auf einen bestimmten Sprecher ausgelegt. Um dies zu erreichen, muß das System mit umfangreichen Sprachdaten von sehr vielen verschiedenen Sprechern trainiert werden. Sprecherunabhängige Systeme sind z.B. für Telephonauskunftssysteme unerläßlich, da man schon aus Zeitgründen nicht jeden Anrufenden bitten kann, zunächst etliche Trainingssätze als Sprachproben vorzulesen. In Verbmobil werden die Erkennungsresultate zusätzlich dadurch verbessert, daß sich das System im Dialogverlauf an die Stimme des Sprechers gewähnt.

Da gesprochene Sprache keine Interpunktion kennt, wird die Sprachmelodie, die Intonation (Tonhöhenverlauf) ausgenutzt, um unterschiedliche Bedeutungen derselben Wortfolge zu erkennen. Sagt der Gesprächspartner: "Wir müssen noch einen Termin ausmachen", dann erkennt Verbmobil, ob "noch" betont ist und versteht, daß es sich hier um einen zusätzlichen Termin handelt und nicht um einen generellen Terminwunsch. Da weder Frage- noch Ausrufezeichen eingegeben werden, muß Verbmobil über die Erkennung der Satzbetonung entscheiden, ob "Kommen-Sie-zu-mir-ins-Büro" als "Do you come into my office?" oder "Come into my office!" übersetzt wird.

Das in Verbmobil entwickelte Prosodiemodul erkennt Satz- und Phrasengrenzen unter Ausnutzung von Pausendetektion, Intonation, Dauer und Energie des Signals. Das in Verbmobil verwendete Modul erkennt 93% der relevanten Phrasengrenzen, es ermöglicht eine Reduktion des Zeitbedarfs fUuml;r die syntaktische Analyse um 92% und eine Verringerung der Mehrdeutigkeiten um 96%. Verbmobil hat damit die Sprachtechnologie einen entscheidenden Schritt weitergebracht im Hinblick auf natürliches Sprachverstehen. Während in früheren Systemen Pausen zwischen einzelnen Wörtern nötig waren, sind heute bei vielen kommerziellen Systemen Pausen zwischen Sätzen notwendig. Diese Einschränkung wird nun bei Verbmobil ebenfalls durchbrochen, so daß Sprechen "ohne Punkt-und-Komma" - wie es in Alltagsgesprächen üblich ist - möglich wird.

Sprachverstehen ist ohne Hintergrundwissen über das besprochene Themengebiet kaum möglich. Richtiges Übersetzen setzt erst recht voraus, daß man die Intention einer Äußerung versteht. Ohne einen solchen Wissenshintergrund kann nicht verhindert werden, daß ein Satz wie "Mein Büro ist im dritten Stock", falsch als "My office is in the third stick", übersetzt wird, anstatt korrekt als "My office is on the third floor". Neuartig an Verbmobil ist, daß Sprachverarbeitung mit Wissensverarbeitung verbunden wird, um die Intention des Sprechers genauer zu erfassen. Verbmobil nutzt ein Begriffsnetz, in dem man z.B. speichern kann, daß ein Stock sowohl die Etage eines Gebäudes bezeichnet als auch einen Holzstab. Außerdem weiß dann das System aufgrund eines solchen Begriffsnetzes, daß Menschen sich normalerweise in Gebäuden treffen, so daß Verbmobil schließen wird, daß die korrekte Übersetzung von "Stock" in diesem Fall "floor" und nicht "stick" lauten muß.

Auch bei der Übersetzung von Präpositionen wie "vor" muß Verbmobil auf Grund seines Weltwissens die richtige Übersetzung finden. So wird z.B. "Wir treffen uns vor dem Hotel" als "We meet in front of the hotel" übersetzt; während "Wir treffen uns vor der Tagung" übersetzt wird als "We meet before the conference".

Trotz der enormen Fortschritte in der automatischen Wissensverarbeitung bleibt das Vorwissen eines Systems wie Verbmobil allerdings auf gewisse Sachgebiete und Gesprächsthemen begrenzt. Dies ist für den Anwendungsentwickler aber kein prinzipielles Problem, da in konkreten Sprachprodukten meist ein klar umrissenes Themengebiet "besprochen" wird.

Hauptziel der Forschungen zur Sprachsynthese in Verbmobil ist eine möglichst natürlich klingende Aussprache der übersetzten Dialogbeiträge. Um nicht "roboterhaft" zu klingen, muß Verbmobil Verschleifungen richtig aussprechen, so daß "am Montag" als "amontag" synthetisiert wird. Vor allem aber muß Verbmobil die richtige, zum Inhalt des Redebeitrages passende Satzmelodie berechnen. Außerdem wird in Verbmobil u.a. mithilfe von neuronalen Netzen versucht, den Stimmcharakter des jeweiligen Sprechers auch bei der automatisch erzeugten Übersetzung nachzubilden, so daß nicht etwa die deutsche Eingabe einer Frauenstimme in der englischen Übersetzung als eine tiefe Männerstimme ertönt.

Die Zukunftsperspektiven für Verbmobil sind vielfältig und klar vorgezeichnet. Mit einer neuen Generation von Mobiltelephonen werden sich im nächsten Jahrtausend die Übersetzungsdienste von Verbmobil in den neuen Telekommunikationsnetzen praktisch weltweit aktivieren lassen. So ist vorstellbar, daß Verbmobil auf einem Sprachserver zur Verfügung gestellt wird und so ein zentraler Hochleistungsrechner die eigentliche Verarbeitungsleistung übernimmt. Verbmobil kann längerfristig so weiterentwickelt werden, daß nicht nur Dialoge zwischen zwei Partnern, sondern Diskussionen mit vielen Teilnehmern und unterschiedlichsten Sprachen im Rahmen der multimedialen Telekooperation übersetzt werden.

Es ist auch geplant, daß das Leistungsspektrum des Verbmobil Dialogmoduls so erweitert wird, daß Verbmobil Protokolle des geführten Dialogs erstellt, formatiert und so den Gesprächspartnern die wichtigsten Absprachen schriftlich fixiert zur Verfügung stellt.

Im Bereich Multimedia kommt man beim notwendigen Übergang von den inhaltlich nicht besonders interessanten Video-on-demand-Diensten zu dem wirklich neuartigen Information-on-demand ohne die Erkennung und Übersetzung von Spontansprache nicht weiter. Nur ein mehrsprachiges Sprachverstehenssystem kann relevante Information aus der Flut von Multimedia-Beiträgen herausfiltern.

Sehr förderlich für unser Projekt ist die ausgezeichnete Zusammenarbeit aller industriellen und akademischen Partner. Die deutsche Industrie, die 60% ihrer eigenen Projektarbeiten mit insgesamt 31 Millionen DM Eigenmitteln finanziert, hat wesentliche Beiträge zu dem vom DFKI integrierten System geleistet. Der am 25.10.1996 in München vorgestellte Verbmobil-Forschungsprototyp enthält zentrale Komponenten, die bei Daimler-Benz, IBM, Philips und Siemens entwickelt wurden. Diese vier Unternehmen haben während der Laufzeit von Verbmobil mehrfach innovative Sprachprodukte in den Markt eingführt.

Ich bin sicher, daß wir die anspruchsvollen Ziele von Verbmobil bei einer konsequenten Fortsetzung des gewählten Forschungsansatzes bis zur Jahrtausendwende erreichen können und daß parallel laufend eine erfolgreiche Vermarktung der in Verbmobil entwickelten Sprachtechnologien gelingt.

Ich danke für Ihre Aufmerksamkeit.

Belegexemplar (Original oder Fax) erbeten!

Prof. Dr. Wolfgang Wahlster
(Verbmobil Gesamtprojektleiter)
DFKI GmbH
Stuhlsatzenhausweg 3
D-66123 Saarbrücken
Tel.: 0681-302 5252
Fax: 0681-302 5341
Email: wahlster@dfki.uni-sb.de

Mehr Informationen erhalten Sie bei:

Reinhard Karger, M.A.
(Verbmobil Projektmanagement)
DFKI GmbH
Stuhlsatzenhausweg 3
D-66123 Saarbrücken
Tel.: 0681-302 5253
Fax: 0681-302 5341
Email: karger@dfki.uni-sb.de

Verbmobil im World Wide Web
http://www.dfki.uni-sb.de/verbmobil


© Webmaster