[Home page] [Übersicht] [Overview] [Letzte Änderungen]

Teilprojekt 6:
Datensammlung und Korpusannotation

DATENSAMMLUNG
Die empirische Datensammlung in Verbmobil 2 umfaßt die Erhebung realistischer Spontansprache in den relevanten Szenarien, die signalnahe Aufbereitung der erhobenen Daten, ihre Validierung und Dokumentation, die Logistik für eine reibungslose Distribution an alle Projektpartner sowie die abschließende integrale Dokumentation aller für diese Daten erarbeiteten Annotierungen. Zur Bewältigung dieser Aufgabe ist - bei dem geforderten sehr großen Umfang an realistischen Sprachdaten hoher Qualität - die Entwicklung von weitgehend automatisierten Werkzeugen unverzichtbar, und zwar im Hinblick auf folgende Teilaufgaben.

Für die Datenerhebung selbst sind drei verschiedene Techniken zu verwenden:
Erstens Aufnahmen unter kontrollierten Bedingungen und mit regionaler Abdeckung(durch mobile Aufnahmeeinheiten und Feldrekrutierung) in hoher akustischer Qualität, zweitens spezifische monolinguale Wizard-of-Oz-Aufnahmen zur Bereitstellung von Massendaten mit Freisprechen, drittens Aufnahmen über Mobil-Telefon auf zentralen Sprachserver.

Die fortlaufende signalnahe Verarbeitung muß folgende Aufgaben erfüllen: Transliteration nach VM1-Standard, prosodische Etikettierung, fortlaufendeErweiterung des Aussprache-Lexikons, automatische Segmentierung in phonolo- gische Einheiten, automatische Detektion von Aussprache-Varianten, spezielle Statistiken zur faktischen Realisierung.

Die Logistik sorgt für die Koordination der verschiedenen APs, die Festlegung der verbindlichen Datenformate, den Import und die Konversion der Daten ausanderen Sprachen, die Datensicherung, die Zusammenführung der verschiedenen Datentypen auf CDROM und den Export an die Projektpartner.

KORPUSANNOTATION
Für das Training statistischer linguistischer Verfahren (Parsing, Übersetzung, Generierung, dialogaktbasierter Übersetzungsverfahren) sollen die notwendigen Datensammlungen für die Verbmobil-Domänen bereitgestellt werden. Dies umfaßt die Entwicklung einer sog. Baumbank (treebank) für Spontansprache in Deutsch, Englisch, Japanisch (Französisch), die Erstellung bilingualer äußerungssegmentweise alignierter Korpora aus der Anwendungsdomäne und die Erstellung eines mit Dialogakten annotierten Korpus.


[vorhergehendesTeilprojekt] [nächstes Teilprojekt] [Veröffentlichungen]


© Webmaster