9.12.98

Presseerklärung anläßlich der Pressekonferenz am 9. Dezember 1998 in Aachen

VERBMOBIL als Dolmetschsystem für Telephongespräche: Forschungsstand und Anwendungsperspektiven

Prof. Dr. Wolfgang Wahlster Leiter des Deutschen Forschungszentrums für Künstliche Intelligenz (DFKI) GmbH Gesamtprojektleiter des Verbmobil-Verbundvorhabens

Sehr geehrte Damen und Herren,

Der heute vorgestellte Forschungsprototyp von VERBMOBIL II wird bis zur Weltausstellung EXPO 2000 so ausgebaut, daß er bestimmte Typen von Telephongesprächen zwischen Deutsch und Englisch bzw. Deutsch und Japanisch jeweils in beide Richtungen dolmetschen kann. Diese Übersetzungsleistung kann für drei Themenbereiche erbracht werden: Terminvereinbarungen, Reisepla-nungen mit Hotelreservierungen sowie Auskünfte zum Betrieb eines PC. Das vom Bundesministerium für Bildung und Forschung (BMBF) geförderte Leitprojekt, das in der laufenden zweiten Phase von 1997 - 2000 mit 52,9 Mio. DM gefördert wird, hat bereits zu mehr als 10 Spin-Off-Entwicklungen bei den beteiligten Unternehmen geführt und ist damit auch beim Technologietransfer durch Umsetzung von Teilergebnissen in Anwendungs-lösungen außerordentlich erfolgreich.

Die Sprachtechnologie gilt heute als eine der wesentlichen Voraussetzungen zur Verwirklichung der Informationsgesellschaft. Das Deutsche ist derzeit die am meisten gesprochene Sprache in der Europäischen Union, so daß der maschinellen Verarbeitung der deutschen Sprache eine zentrale Bedeutung zukommt. Deutsch ist bekanntlich offizielle Landesprache in zwei Staaten und wird in fünf anderen europäischen Ländern zumindest von einer Minderheit als Muttersprache gesprochen.

Eine Untersuchung der Open University in England hat ergeben, daß Deutsch direkt hinter Englisch die zweitwichtigste Weltsprache ist, wenn man die Wirtschaftskraft der jeweiligen Sprachregionen als Maßstab betrachtet. Danach folgen Französisch, Chinesisch und Japanisch. Es ist daher von strategischer Bedeutung, daß hochwertige Produkte der Sprachtechnologie nicht nur für das Englische, sondern auch für das Deutsche in alle relevanten Informatik- und Telekommunikationsanwendungen eingebunden werden können.

Das Leitprojekt VERBMOBIL hat wesentlich dazu beigetragen, daß Deutschland in der Sprachtechnologie heute eine internationale Spitzenstellung einnimmt. Derzeit ist in allen deutschen Firmen, die Produkte im Bereich der Sprachtechnologie entwickeln, ein enormer Boom zu verzeichnen. Zahlreiche neue Abteilungen wurden gegründet und man sucht derzeit verzweifelt nach weiteren Mitarbeitern mit Know-How im Bereich der Sprachtechnologie. VERBMOBIL-Mitarbeiter aus dem akademischen Umfeld sind bereits in großer Zahl in die entsprechenden Unternehmen gewechselt, was zu einem sehr zu begrüßenden "Technologietransfer über Köpfe" geführt hat. Hinzu kommt, daß sich aufgrund der durch VERBMOBIL geschaffenen ausgezeichneten Forschungsinfrastruktur inter-na-tionale Unternehmen entschlossen haben, in Deutschland Laboratorien zur Entwicklung von Sprachtechnologie zu eröffnen und damit neue Arbeitsplätze zu schaffen, um hier ihre europäischen Aktivitäten in diesem Zukunftsfeld der Informationstechnologie zu bündeln.

Während VERBMOBIL I nur Terminvereinbarungen vom Deutschen und Japanischen ins Englische übersetzen konnte, arbeitet VERBMOBIL II nun multifunktional zusätzlich in zwei weiteren Domänen: der Reiseplanung und der PC-Fernwartung. Für die Reiseplanung wurde ein Szenario rund um die EXPO 2000 in Hannover als Testbereich mit bislang 7000 Wörtern gewählt. Der Wortschatz mußte für dieses Anwendungsszenario im Vergleich zu VERBMOBIL I (2500 Wörter) fast verdreifacht werden. Wichtig ist, daß VERBMOBIL für >jedes dieser Wörter im Gegensatz zu reinen Diktiersystemen nicht nur die Aussprache und Schreibweise, sondern vor allem auch die Wortbedeutung im Kontext und die entsprechenden Übersetzungsvarianten kennt. Da beim Thema PC-Fernwartung, das als Beispiel für internationale Hotlines angesehen wird, auch spezielle Fachterminologie dazu kommt, wurde bereits in dem jetzt vorgestellten Forschungsprototyp von VERBMOBIL II ein Vokabular von 15 000 Wörtern vorgesehen.

Ein kritischer Erfolgsfaktor im Wettlauf um die Führerschaft in der Sprach-technologie ist der Zugriff auf aufbereitete Sprachressourcen, die für das statistische Training fast aller Softwaremodule unerläßlich sind. Wir haben inzwischen in VERBMOBIL 24 CDs mit annotierten Sprachdaten aus spontanen Dialogen in unserem Konsortium verteilt. Rund 12 000 deutsche Gesprächs-beiträge (sog. turns) wurden bislang im weiteren Anwendungsbereich der Reiseplanung und Hotelreservierung für VERBMOBIL ausgewertet. Auch umfang-reiche fremdsprachliche Datensammlungen für Englisch- (2500 Gesprächs-beiträge) und Japanisch (4200 Gesprächsbeiträge) wurden für das Training von VERBMOBIL II ausgewertet. Dazu wurden für die USA in Pittsburgh und für Japan in Tokio mit Muttersprachlern Dialoge in den für VERBMOBIL erforderlichen Formaten gesammelt.

Wir haben unseren internationalen Fachgutachtern erstmals vor zwei Wochen eine Version des Dolmetschsystems VERBMOBIL vorgeführt, welche automatisch erkennt, ob jemand am Telephon Deutsch, Englisch oder Japanisch spricht. Der eigentlichen Spracherkennung wurde also eine sog. Sprachenidentifizierung vorangeschaltet. Nach etwa sechs gehörten Wörtern eines Sprechers entscheidet VERBMOBIL schon relativ treffsicher (87% korrekt), welche Sprache von dem Gesprächs-partner gesprochen wird. Dann werden automatisch die entsprechenden Module zur Erkennung, Analyse und Übersetzung der identifizierten Eingabe-sprache ausgewählt und gestartet. Diese Fähigkeit zur raschen Sprachen-bestim-mung ist nicht nur für das Dolmetschen internationaler Ferngespräche sondern auch für die weitere Automatisierung multilingualer Call Center relevant, da dann Anrufende softwaregesteuert zu einem Mitarbeiter mit der erforderlichen Sprach-kom-pe-tenz verbunden werden können.

VERBMOBIL II berücksichtigt im Gegensatz zu konventionellen Über-setzungssyste--men den Dialogkontext. Es wird also die Bedeutung vorangegangener Sätze bei der Entscheidung, wie ein Wort korrekt zu übersetzen ist, berücksichtigt. Damit stellt VERBMOBIL ein Übersetzungssystem einer neuen Generation dar, das nach der Übersetzung von Wörtern im Satzzusammenhang nun auch den wieteren Dialogzusammenhang über Satzgrenzen hinweg berücksichtigt. Im Dialog--kontext "Wir könnten ins Theater gehen. Es gibt eine gute Vorstellung" wird das Wort "Vorstellung" durch "performance" übersetzt. Hingegen wird innerhalb eines Dialoges wie "Wo könnten wir uns treffen? Ich habe keine Vorstellung." das gleiche Wort "Vorstellung" mit "idea" übersetzt wird.

Heute verfügbare kommerzielle Systeme haben im praktischen Einsatz ein entscheidende Schwäche: Sie können nicht erkennen, ob sich ein Sprecher während einer Äußerung korrigiert hat. Analysen im Rahmen der Datensammlung für VERBMOBIL aufgezeichneter realer Gespräche haben aber ergeben, daß in jeder vierten spontansprachlichen Äußerung eine sog. Selbstkorrektur vorkommt. Eine Äußerung wie "Ich habe einen Termin am Montag äeh Dienstag" ist typisch dafür, daß man häufig im Satz erst merkt, daß man etwas anderes mitteilen möchte. Dies hängt oft damit zusammen, daß man gerade in Gesprächen noch über den Inhalt nachdenkt oder Entscheidungen treffen muß, obwohl man schon angefangen hat, einen Satz zu formulieren. Die Devise "Erst denken, dann sprechen" kann in Alltagsgesprächen nicht immer befolgt werden. VERBMOBIL II ist das erste Dolmetschsystem, das Korrekturen des Sprechers erkennt und nicht mit übersetzt . Daher wird "Ich habe einen Termin am Montag äeh Dienstag" richtig mit "I have an appointment on Tuesday" übersetzt. Dagegen erscheinen selbst in den besten heutigen Diktiersystemen alle gesprochenen Wörter im Diktattext - unabhängig davon, ob eine Formulierung teilweise zurückgenommen wurde oder nicht.

Eine hohe Robustheit der Systeme ist eine der entscheidenden Voraussetzungen für den breiten Einsatz der Sprachtechnologie. Daher wird in VERBMOBIL II auf allen Verarbeitungsebenen versucht, das System gegen Störungen, Fehleingaben und Ausfälle in einzelnen Komponenten so abzuschirmen, daß der Dialog mit dem Benutzer nicht abreißt. Da VERBMOBIL II besonders bei Telephonanwendungen auch mit nichtsprachlichen Eingaben während des Dialoges rechnen muß, wurde erstmals eine Komponente integriert, die auch Geräusche wie Husten, Gähnen, Lachen und Räuspern im Eingabesignal erkennt und von der eigentlichen Spracheingabe trennt.

Völlig neuartig ist eine Komponente zur robusten Verarbeitung auf der Inhaltsebene. Trotz hoher Worterkennungsraten "verschlucken" heutige Erkenner oftmals kurze Funktionswörter wie "in", zumal wenn diese vom Sprecher schon schlecht artikuliert werden. Wenn VERBMOBIL nach der grammatischen Analyse feststellt, daß die zwei erkannten Eingabeteile wie "Wir treffen uns" und "Kaiserslautern" ohne Verknüpfung keinen Sinn ergeben, wird aufgrund von heuristischen Regeln entschieden, daß >Kaiserslautern wohl als Ortsangabe zu dem geplanten Treffen zu sehen ist. Wie ein Hörer, der aufgrund von extremem Krach (z.B. in einer Maschinenhalle) nur Satzfetzen seines Dialogpartners mitbekommt, versucht VERBMOBIL II in solchen Situationen offensichtlich fehlende Wörter inhaltsorientiert so zu ergänzen, daß sich insgesamt eine sinnvolle Äußerung ergibt.

Eine weitere heute erstmals präsentierte Neuheit in unserem VERBMOBIL-System ist eine Komponente, die in der Lage ist, bestimmte Emotionen anhand der Stimme des Sprechers zu erkennen. So kann VERBMOBIL anderen Analysemoduln melden, daß der Sprecher bei seiner Äußerung "Jetzt bin ich aber wirklich enttäuscht" verärgert klingt. Die automatischer Erkennung von Sprecheremotionen ist wichtig, wenn man die Intention des Sprechers bei der Übersetzung und Sprachsynthese möglichst authentisch wiedergeben will. Eine der vielen praktischen Anwendungen der automatischen Emotionserkennung ist die Einschaltung eines entsprechend trainierten Spezialisten zum Umgang mit sehr verärgerten Kunden, wenn z.B. in einem Call Center ein Anrufender offensichtlich wütend wird. Bei einem sehr erregten Kunden würde dagegen die weitere Kommunikation mit einem automatischen Sprachdialogsystem dessen Verärgerung wahrscheinlich noch steigern.

Schließlich möchte ich noch auf die neue Komponente zur automatischen Generierung von schriftlichen Gesprächsprotokollen eingehen. Es ist uns in VERBMOBIL II erstmals gelungen, automatisch schriftliche Verlaufs- und Ergebnisprotokolle von Telephongesprächen zu erzeugen. Wenn diese Technologie Marktreife erlangt, ergeben sich völlig neue Perspektiven im Bereich der Telephonie. Man kann sich als konkrete Vision vorstellen, nach einem Ferngespräch mit einem Geschäftspartner eine Protokoll-Taste zu drücken, die bewirkt, daß den Gesprächspartnern eine Mitschrift oder Zusammenfassung des geführten Gespräches per Fax oder Email zugeschickt wird. Im Forschungsprototyp von VERBMOBIL ist es uns sogar gelungen, diese Protokolle je nach Gesprächspartner auf Deutsch oder Englisch zu versenden. Man braucht dann das Protokoll nur noch zu unterschreiben und hat dann eine Geschäftsvereinbarung bereits über Telephon abgeschlossen.

Insgesamt besteht der heute präsentierte Forschungsprototyp von VERBMOBIL II aus 59 neuartigen Sprachverarbeitungs-moduln, die über 131 Datenpools teilweise als parallele Prozesse miteinander kommunizieren. Durch unser zentrales Integrationsteam am DFKI wurden diese Module in einer streng objektorientiert realisierten Softwarearchitektur zu einem hoch-komplexen Übersetzungssystem zusammengeführt. Die verteilte Entwicklung von ca. 100 Forschern hat zu einem Softwarepaket geführt, das an die Komplexitätsgrenzen dessen stößt, was derzeit in der Sprachtechnologie machbar ist. Es gibt weltweit kein Dolmetschsystem, das mehr Funktionsmerkmale aufweist als VERBMOBIL II. Die nächsten 18 Monate bis zum Abschluß des Projektes im Jahr 2000 werden nun genutzt, in viel Detailarbeit alle Module optimal aufeinander abzustimmen, die Laufzeit zu verkürzen sowie vor allem die Robustheit und sprachliche Abdeckung weiter zu erhöhen. Wir planen, im Jahr 2000 die VERBMOBIL-Technologie der breiten Öffentlichkeit vorzustellen und werden daher mit der Endversion von VERBMOBIL u.a. auf der EXPO 2000 präsent sein.