Quantifying Cross-lingual Semantic Similarity for Natural Language Processing Applications

Wäschle, Katharina

Preview

PDF, English - main document
Download (1MB) | Terms of use

Citation of documents: Please do not cite the URL that is displayed in your browser location input, instead use the DOI, URN or the persistent URL below, as we can guarantee their long-time accessibility.

DOI: 10.11588/heidok.00019046
URN: urn:nbn:de:bsz:16-heidok-190461

Abstract

Translation and cross-lingual access to information are key technologies in a global economy. Even though the quality of machine translation (MT) output is still far from the level of human translations, many real-world applications have emerged, for which MT can be employed. Machine translation supports human translators in computer-assisted translation (CAT), providing the opportunity to improve translation systems based on human interaction and feedback. Besides, many tasks that involve natural language processing operate in a cross-lingual setting, where there is no need for perfectly fluent translations and the transfer of meaning can be modeled by employing MT technology. This thesis describes cumulative work in the field of cross-lingual natural language processing in a user-oriented setting. A common denominator of the presented approaches is their anchoring in an alignment between texts in two different languages to quantify the similarity of their content.

Translation of abstract (German)

Sprachübergreifender Zugang zu Informationen ist eine Schlüsseltechnologie in einem globalen Wirtschaftssystem. Auch wenn die Qualität automatisch generierter Übersetzungen nicht das Niveau menschlicher Übersetzer erreicht, existieren Anwendungen, bei denen maschinelle Übersetzung (MT) erfolgreich zum Einsatz kommt. Im Bereich computergestützte Übersetzung (CAT) werden Übersetzer durch ein MT-System unterstützt, das Übersetzungsvorschläge generiert. Durch das Feedback der Nutzer kann die MT-Komponente stetig angepasst und verbessert werden. Neben der eigentlichen Übersetzung existieren Aufgabenbereiche, bei denen Texte sprachübergreifend verarbeitet werden. Anstatt hierbei komplette Übersetzungen als Zwischenrepräsentationen zu verwenden kann die inhaltliche Beziehung zwischen Text in verschiedenen Sprachen auch direkt modelliert werden. Die vorliegende Dissertation beschreibt kumulative Arbeit in verschiedenen Bereichen der anwendungsorientierten, cross-lingualen Sprachverarbeitung. Alle vorgestellten Modelle und Ansätze eint die Idee von sprachübergreifender Semantik: Auf der Basis eines Alignments von Quell- und Zielsprachentext können inhaltliche Ähnlichkeiten quantifiziert werden.

Document type:	Dissertation
Supervisor:	Riezler, Prof. Dr. Stefan
Date of thesis defense:	21 July 2015
Date Deposited:	05 Aug 2015 06:07
Date:	2015
Faculties / Institutes:	Neuphilologische Fakultät > Institut für Computerlinguistik
DDC-classification:	004 Data processing Computer science 400 Linguistics
Controlled Keywords:	Maschinelle Übersetzung, Computerunterstützte Übersetzung, Maschinelles Lernen, Computerlinguistik
Uncontrolled Keywords:	Parallele Daten, Angewandte Sprachverarbeitung