Home Previous Zeitschrift 2002/01 Next Index
 
  Inhalt:
 
 
 
Einleitung
 
Evaluationsmethoden
 
Evaluation von Übersetzungsspeicher-
Systemen
Evaluation von Maschinellen Übersetzungs-
systemen
 
Empfehlungen für die eigene Evaluation
 
Schlussbemerkungen
 
Autor
 
 

 

Das Evaluieren von Software für die maschinenunterstützte Übersetzung

1. Einleitung

Computer-Werkzeuge werden immer wichtiger bei der Übersetzung von Texten aus einer natürlichen Sprache in eine andere. Laufend kommen neue Systeme in den Handel, so dass sich für den potentiellen Nutzer eine sehr unübersichtliche Situation ergibt. Deshalb sollen hier zunächst die angebotenen Systeme klassifiziert werden.

  1. Textverarbeitung Unabdingbar für jeden Übersetzer ist ein Textverarbeitungssystem (z.B. Word; WordPerfect), das mit Modulen für die benötigten Sprachen ausgerüstet ist. Zu diesen Sprachmodulen gehören Rechtschreibprüfung, Silbentrennung und Thesaurus sowie gegebenenfalls spezielle Zeichensätze.
  2. Elektronische Wörterbücher und Enzyklopädien Zum schnellen Nachschlagen von Wortbedeutungen dienen ein- oder mehrsprachige elektronische Wörterbücher, die meist auf CD-ROM erhältlich sind (z.B. Duden Deutsches Universalwörterbuch A-Z; Wahrig Deutsches Wörterbuch; Oxford English Dictionary; Collins Cobuild; Duden Oxford Grosswörterbuch Englisch). Ebenso können Hintergrundinformationen zu Personen, Orten und Dingen schnell in einer elektronischen Enzyklopädie (z.B. Encyclopedia Britanica) nachgeschlagen werden. Bei elektronischen Wörterbüchern und Enzyklopädien handelt es sich typischerweise um maschinenlesbare Ausgaben gedruckter Werke. Der Vorteil der elektronischen Version liegt im schnelleren Zugriff (meist über einen Mausklick aus dem Textverarbeitungsprogramm) und in den erweiterten Zugriffsfunktionen. Es kann nicht nur über die Haupteinträge sondern auch über den gesamten Text kann gesucht werden.
  3. Terminologie-Datenbanken Zur Verwaltung von fachspezifischer Terminologie benötigt ein Übersetzer ein spezielles Datenbank-Programm (z.B. TermStar; MultiTerm; Termbase). Es erlaubt die Verwaltung von fachsprachlichen Begriffen, ihren zielsprachlichen Äquivalenten und einer Vielzahl von nützlichen Zusatzinformationen (Synonyme, Abkürzungen, Sachgebiete etc.).
  4. Zweisprachige Textsammlungen und Alignierungswerkzeuge Fachterminologie und ihre zielsprachliche Entsprechung kann natürlich auch in bereits übersetzten Texten gefunden werden, vorausgesetzt diese sind aligniert, d.h. die Satz-für- Satz Entsprechung ist vermerkt. Sollte das nicht der Fall sein, kann sie mit Hilfe eines Alignierungswerkzeuges nachträglich hergestellt werden (s. [Hess in diesem Band]). Der Vorteil einer solchen Textsammlung liegt darin, dass die Begriffe in verschiedenen Satzkontexten eingesehen werden können.
  5. Übersetzungsspeicher Ein Übersetzungsspeicher (engl. Translation memory) System (z.B. Trados Translator’s Workbench; STAR Transit) enthält eine alignierte zweisprachige Textsammlung. Diese wird vom System zum Übersetzen neuer Texte eingesetzt, indem das System jeden zu übersetzenden Satz im Übersetzungsspeicher nachschlägt und die abgespeicherte Übersetzung liefert. Gute Übersetzungsspeicher-Systeme finden nicht nur identische sondern auch ähnliche Sätze und markieren die Übersetzung entsprechend.
  6. Maschinelle Übersetzung Im Gegensatz zum Übersetzungsspeicher wird bei der maschinellen Übersetzung (z.B. IBM Personal Translator; Langenscheidts T1; Globalink Power Translator) jeder zu übersetzende Satz in seine Worte segmentiert und syntaktisch analysiert. Die entsprechenden zielsprachigen Worte werden in einem Systemlexikon nachgeschlagen und eine analoge syntaktische Struktur in der Zielsprache wird erzeugt. Es ist offensichtlich, dass maschinelle Übersetzung flexibler aber dadurch auch fehleranfälliger ist als ein Übersetzungsspeicher.
In diesem Artikel geht es vor allem um die Evaluierung von Übersetzungsspeicher- und Maschinellen Übersetzungssystemen. Dabei stellen wir uns die Frage: Erleichtern Computer-Hilfsmittel die Arbeit eines Übersetzers? Oder anders formuliert: Steigern diese Werkzeuge die Produktivität des Übersetzers oder die Qualität der Übersetzungen? Die Antwort hängt ab von den beabsichtigten Einsatzfeldern und von der Leistungsfähigkeit und Bedienerfreundlichkeit des jeweiligen Systems. Methoden zur Bestimmung der letzten beiden Kriterien werden im folgenden vorgestellt. Grundsätzlichere Überlegungen zur Evaluation von Systemen, die natürliche Sprache verarbeiten, finden sich in [Eagles 95] und in [Sparck-Jones and Galliers 95].

2. Evaluationsmethoden

Die Forschung in der maschinellen Übersetzung läuft bereits seit den 50er Jahren. Und fast ebenso lange versucht man, die Übersetzungsqualität von Übersetzungssystemen zu bestimmen. So hatte man vorgeschlagen, einen Text mit Hilfe eines Übersetzungssystems zu übersetzen und die Ausgabe anschliessend als Quelltext für eine maschinelle Rückübersetzung zu verwenden. Die Hypothese war, dass bei Übereinstimmung von ursprünglichem und rückübersetztem Text eine optimale Übersetzung vorliegt. Diese Methode ist jedoch wenig überzeugend, wenn man weiss, dass eine perfekte Übereinstimmung auch bei guten menschlichen Übersetzungen keineswegs zu erwarten ist.

Ein anderer Vorschlag zielte darauf hin, eine Überprüfung analog zum sog. Turing-Test durchzuführen, der als Intelligenztest für Computer vorgeschlagen wurde. Die Hypothese bei diesem Test: Kann man nicht unterscheiden, ob eine Ausgabe des Computers von einem Menschen oder vom Computer selbst erzeugt wurde, so handelt der Computer intelligent. Übertragen auf die maschinelle Übersetzung bedeutet das: Legt man einen maschinell übersetzten Text und einen von einem Menschen übersetzten Text einem Gutachter vor, und dieser kann nicht mehr entscheiden, welcher Text vom Menschen und welcher von der Maschine übersetzt wurde, dann hat man eine optimale maschinelle Übersetzung erreicht.

Dies klingt plausibel, hilft aber wenig, wenn man von der Maschine nicht-optimale Übersetzungen bekommt, die offensichtlich nicht von einem Menschen stammen. Insbesondere hilft es wenig, wenn man Übersetzungen von mehreren Übersetzungssystemen bekommt, die man bzgl. ihrer Qualität in eine Rangfolge bringen möchte. Zu diesem Zweck wurden eine Reihe anderer Verfahren vorgeschlagen und untersucht. Dazu gehören zum einen die Klassifikation und Auszählung von Fehlertypen (s. Abschnitt 2.2), zum anderen das Messen des Zeitaufwands für die Nachbearbeitung der maschinellen Übersetzung oder die Berechnung eines mathematischen Abstandsmasses zwischen maschineller Übersetzung und nachbearbeiteter Übersetzung.

Weiterhin kann die linguistische Leistungsfähigkeit von Übersetzungssystemen auch unabhängig von konkret zu übersetzenden Texten untersucht werden. Man kann z.B. die Grösse des eingebauten Lexikons vergleichen [Volk 97] oder die Abdeckung der Grammatikregeln.

Bei der Auswahl von Evaluationsverfahren müssen die folgenden Grundsätze beachtet werden:

  1. Man benötigt spezielle Verfahren für vergleichende Untersuchungen. In der Fachliteratur wird oft nur die Evaluation eines Systems beschrieben (vgl. [Sparck-Jones and Galliers 95]).
  2. Heute sind vor allem Methoden für eine Benutzer-Evaluation gefordert. In der Vergangenheit wurde demgegenüber oft Entwickler-Evaluation betrieben. Bei letzterem hat man Zugriff auf die Interna des Systems (so kann man z.B. die Lexikoneinträge zählen). Benutzer-Evaluation ist jedoch immer Black-Box Evaluation. Das System kann nicht eingesehen werden, man kann nur durch Ausführen des Systems auf die Funktionalität schliessen.
  3. Empfehlungen für den praktischen Einsatz dürfen nicht nur die Übersetzungsqualität beachten, sondern sie müssen auch andere Kriterien berücksichtigen. Dazu gehören z.B. Anpassbarkeit (Wie einfach ist es Lexikoneinträge hinzuzufügen, oder Terminologiesammlungen einzubinden? Kann man Regeln hinzufügen?) und Oberflächengestaltung (Kann die Bedienoberfläche den Bedürfnissen des Benutzers angepasst werden?).
Im folgenden sollen die konkreten Punkte beschrieben werden, die bei der Evaluation von Übersetzungsspeichern und Maschinellen Übersetzungssystemen zu berücksichtigen sind.

2.1. Evaluation von Übersetzungsspeicher-Systemen

Bei der Evaluation ist es wichtig, zwischen Grundfunktionen und Zusatzfunktionen zu unterscheiden. Sämtliche Grundfunktionen müssen von jedem System angeboten werden. Je besser sie implementiert sind, desto besser kann das System eingesetzt werden. Zusatzfunktionen bieten fakultative Dienste. Zu den Grundfunktionen eines Übersetzungsspeichers gehören:

Füllen des Übersetzungsspeichers

Paarweise alignierte Sätze müssen in den Übersetzungsspeicher eingetragen werden. Das kann während der manuellen Übersetzung eines Textes geschehen, womit die Sätze dann für zukünftige Übersetzungen vorliegen. Häufig gibt es aber bereits übersetzte Quell- und Zieltexte in maschinenlesbarer Form. Diese können dann nachträglich aligniert und in den Speicher eingelesen werden. Dabei muss es möglich sein, dass zu einem Ausgangssatz mehrere Übersetzungsvarianten abgespeichert werden können, die aufgrund bestimmter Kriterien (z.B. Sachgebiet) selektiert werden.

Suchen im Übersetzungsspeicher

Der Übersetzungsspeicher sollte auch als mehrsprachige Textsammlung fungieren. D.h., man möchte als Übersetzer in einem solchen Speicher nach Begriffen und ihren Entsprechungen suchen können. Dabei wird der Begriff und die Übersetzung im Satzkontext angezeigt, was eine wichtige Unterstützung bei der Terminologiearbeit darstellt. Diese Suche sollte einschränkbar sein auf z.B. Sachgebiete. Hilfreich ist auch, wenn die Suche nach allen morphologischen Formen eines Wortes sucht (also z.B. ausgehend vom Suchbegriff ‘Haus’ auch nach ‘Hauses’ oder ‘Häusern’ sucht).

Bearbeiten der Satzpaare im Übersetzungsspeicher

Die Satzpaare im Übersetzungsspeicher müssen geändert werden, wenn neue Übersetzungen gewünscht sind. Dazu ist es notwendig, dass das Auffinden, Bearbeiten und gegebenenfalls Löschen von Satzpaaren einfach durchzuführen ist.

Übersetzen mit Hilfe des Übersetzungsspeichers

Sind genügend Satzpaare im Übersetzungsspeicher eingetragen, so können neue Texte mit Hilfe des Übersetzungsspeichers übersetzt werden. Das System wird bei Sätzen, für die es nur eine Übersetzung gespeichert hat, diese Übersetzung in den Zieltext einsetzen. Sind mehrere Übersetzungen gespeichert, so sollte das System aufgrund von Benutzerangaben zum Sachgebiet o.ä. eine Vorauswahl treffen. Ist das nicht möglich, muss der Benutzer aus den Übersetzungsalternativen auswählen können. Wird keine Übersetzung gefunden, so sucht das System nach ähnlichen Sätzen. Der Ähnlichkeitsgrad sollte vom Benutzer wählbar sein. Ideal ist es, wenn das System kleinere Differenzen zwischen gesuchtem und gefundenem Satz erkennt, eigenständig ergänzt und gegebenenfalls markiert. So könnte das System z.B. erkennen, dass zwei Sätze identisch sind bis auf eine Datumsangabe, und es könnte diese in der Übersetzung entsprechend anpassen.

Mögliche Zusatzfunktionen in einem Übersetzungsspeicher sind:

  • Integration von Texteditoren (z.B. mit speziellen Funktionen zur Nachbearbeitung)
  • Modul zur Textkomposition (Parallele Erstellung eines Dokumentes, z.B. eines Geschäftsbriefes, in zwei oder mehr Sprachen durch Auswahl von Sätzen aus dem Übersetzungsspeicher)
  • Anbindung von Elektronischen Wörterbüchern und Terminologie-Datenbanken
  • Protokollierung der Übersetzung und Statistiken (z.B. Berechnung, wieviel Prozent der zu übersetzenden Sätze im Speicher enthalten sind).
  • Anbindung an ein Netzwerk (Nutzung des Übersetzungsspeichers von mehreren Computern)
In [Spies 95] liegt eine Evaluation von Übersetzungsspeichern (IBMs Translation Manager, Trados Translator’s Workbench und STAR Transit) vor. Dort wurden die oben beschriebenen Kriterien durch Nebeneinanderstellung und Bewertung systematisch untersucht. Ausserdem wurden die folgenden Zusatzfunktionen bewertet:
  • Verwaltung von Übersetzungsprojekten (Können Quelltext und Zieltext gemeinsam verwaltet werden?)
  • Arbeitsoberfläche (Fenstergestaltung; Werden Teile des Satzes, die nicht übereinstimmen, hervorgehoben?)
  • Nachbearbeitung (Gibt es eine Rechtschreib- und eine Terminologieprüfung?)
2.2. Evaluation von Maschinellen Übersetzungssystemen

Auch bei der Evaluation von Maschinellen Übersetzungssystemen ist zwischen Grund- und Zusatzfunktionen zu unterscheiden. Die Grundfunktionen sind:

Bearbeitung des Systemlexikons

Ein Übersetzungssystem kann einen Text nur dann übersetzen, wenn alle Wörter des Quelltextes im Systemlexikon vorhanden sind. Die Praxis zeigt jedoch, dass selbst bei einem umfangreichen eingebauten Lexikon viele Fachtermini nicht enthalten sind. Deshalb muss es möglich sein, das Lexikon mit neuen Einträgen zu ergänzen. Diese Einträge sollten in Sachgebiete unterteilt werden, um sie später gezielt einsetzen zu können. Beim Eintragen von neuen Wörtern müssen gewisse morphologische Angaben (z.B. die Pluralform eines Nomens), grammatische Angaben (z.B. die Objektforderung eines Verbs) oder semantische Angaben (z.B. ob ein Nomen eine Person oder ein Tier bezeichnet) gemacht werden. Es ist wichtig, dass das Eingeben dieser Informationen durch übersichtliche Bedienerführung unterstützt wird.

Weiterhin ist es wünschenswert, dass bestehende Terminologiesammlungen in das Maschinelle Übersetzungssystem integriert werden können. Das kann geschehen durch eine Schnittstelle zum Zugriff auf eine externe Terminologie-Datenbank oder durch spezielle Funktionen zum Terminologie-Import.

Einstellungen bei der Übersetzung

Eine maschinelle Übersetzung wird umso besser, je genauer der Benutzer das System für die gegebene Textsorte einstellen kann. Dazu gehört, dass ausgewählt werden kann, aus welchem Sachgebiet (z.B. Elektrotechnik, Agrarwirtschaft, Bankenwesen) ein Text stammt. Dadurch kann bei mehrdeutigen Wörtern die passende Übersetzung ausgewählt werden. Wichtig wäre ausserdem das Einstellen des Texttyps (z.B. Brief, Gebrauchsanweisung, Zeitungsartikel). Leider ist diese Einstellung bisher nur bei wenigen Systemen möglich, da nicht formal festlegbar ist, welche Auswirkungen eine solche Auswahl haben sollte. Lediglich Teilaspekte sind offensichtlich: So müssen bei der Übersetzung einer Gebrauchsanweisung alle Typen von Aufforderungs-Sätzen behandelt werden können. Zu diesem Zweck kann man bei einigen Systemen einstellen, dass ein englischer Imperativ im Deutschen mit einem Infinitiv wiedergegeben werden soll. Zum Beispiel:

Completely unroll the mains flex.
--> Kabel vollständig abwickeln.

Weitere Einstellungen betreffen das Format von Ein- und Ausgabe. So ist es praktisch, wenn das System zwischen schweizerischer und deutscher Schreibweise, zwischen alter und neuer Rechtschreibung oder zwischen britischem und amerikanischem Englisch unterscheiden kann.

Übersetzen eines Textes

Trivialerweise gehört das Übersetzen eines Textes zu den Grundfunktionen eines Maschinellen Übersetzungssystems. Dabei ist zu beachten, welche Dateiformate (z.B. Word, RTF, HTML) verarbeitet werden könnnen. Und schliesslich spielt auch die Übersetzungsgeschwindigkeit eine grosse Rolle. Ein PC-basiertes Maschinelles Übersetzungssystem sollte mindestens 100 Wörter pro Minute übersetzen können, denn sonst entstehen dem Benutzer bereits bei kürzeren Texten sehr lange Wartezeiten. Eine langsamere Verarbeitung wäre nur dann akzeptabel, wenn dadurch eine wesentliche Verbesserung der Übersetzungsqualität erreicht würde.

Mögliche Zusatzfunktionen bei einem Maschinellen Übersetzungssystem sind:

  • Integration von Texteditoren (z.B. mit speziellen Funktionen zur Vor- oder Nachbearbeitung, wie z.B. paralleles Scrollen in Quell- und Zieltext)
  • Vorbereitende Prüfung (Ermittlung der unbekannten Wörter; Hinweise auf mögliche Übersetzungsprobleme)
  • Integration mit Übersetzungsspeicher-System (Einsatz der maschinelle Übersetzung, nur wenn keine Übersetzung im Speicher gefunden wurde.)
  • Protokollierung und Statistiken (Wieviele Wörter oder Sätze wurden übersetzt? Wieviele Wörter sind unbekannt?)
  • Netzwerkanbindung (Gemeinsame Nutzung von Benutzerlexika oder abgespeicherten Übersetzungen)
[Rinsche 93] beschreibt die Evaluation der Mainframe Übersetzungs-Systeme METAL, SYSTRAN und LOGOS. Betrachtet wurde vor allem die Übersetzungsrichtung Deutsch -Englisch. Das Ziel war der Vergleich der Übersetzungsqualität. Kriterien wie Benutzerfreundlichkeit oder Anpassbarkeit wurden nicht berücksichtigt.

Die Evaluation bestand im wesentlichen aus der Erarbeitung einer Fehlerklassifikation, die zunächst auf Textstichproben (rund 200 Sätze) und anschliessend auf eine speziell erarbeitete Satzsammlung zu verschiedenen grammatischen Phänomenen (rund 300 Sätze) angewendet wurde.

Die Fehlerklassifikation war aufgeteilt in Lexikon, Syntax und Semantik. Sie umfasste insgesamt 30 Fehlertypen. Hier ein paar Beispiele:

  • Lexikon (z.B. Nomen/Verb/Adjektiv nicht/falsch übersetzt)
    immer kleinere Computer 
    --> always smaller computers
  • Syntax (z.B. Satzstellung falsch, Kongruenz falsch, Ellipse falsch interpretiert)
    Es können Daten von einem Register zum anderen übertragen werden.
    --> Data can be transmitted by a register on the other hand.
  • Semantik (z.B. Idiomatik verfehlt)
    auf der Bildfläche erscheinen
    --> to appear on the screen display area
Durch die Bestimmung und Aufsummierung dieser Fehlertypen ergaben sich deutliche Unterschiede zwischen den Übersetzungssystemen. Verbleibende Probleme waren Überlappungen von Fehlern, die eine eindeutige Einordnung unmöglich machten, sowie satzübergreifende Phänomene, die durch die Fehlerklassifikation nicht erfasst wurden. Die Anwendung von - teilweise anders strukturierter - Fehlerklassifikation zur Bestimmung der Übersetzungsqualität wurde seither auch von anderen diskutiert (s. z.B. [Flanagan 94]).

3. Empfehlungen für die eigene Evaluation

Lassen Sie uns aufgrund der obigen Überlegungen einige Empfehlungen geben, wie Sie die Evaluation eines Übersetzungswerkzeuges angehen können.

1. Klären Sie Ihre Bedürfnisse!

  • Welche Sprachpaare übersetzen Sie? Machen Sie eine Bestandsaufnahme der dadurch in Frage kommenden Werkzeuge.
  • Welche Arten von Texten übersetzen Sie? Nur Fachtexte eignen sich für maschinelle Übersetzung.
  • Sind Ihre Texte repetitiv genug, dass sich der Einrichtungsaufwand lohnt? Bedenken Sie den erforderlichen Zeitaufwand zum Füllen eines Übersetzungsarchivs oder alternativ zum Füllen des Systemlexikons bei einem Maschinellen Übersetzungssystems.
2. Gehen Sie schrittweise vor!
  • Haben Sie schon Erfahrungen mit elektronischen Wörterbüchern oder zweisprachigen Korpora gesammelt?
  • Kennen Sie Übersetzungsspeicher-Systeme? Erst dann sollten Sie sich an Maschinelle Übersetzungssysteme heranwagen.
3. Achten Sie auf die Integration in Ihre Arbeitsumgebung!
  • Läuft das Programm auf Ihrem Computer? Passt das Werkzeug zu Ihrer Textverarbeitung, Terminologiesammlung etc.?
4. Wählen Sie ein System zur Probe, oder lassen Sie es sich ausgiebig demonstrieren, und lesen Sie das Handbuch gründlich!
  • Arbeiten die oben angesprochenen Grundfunktionen zufriedenstellend?
  • Welche Zusatzfunktionen bietet Ihnen das Übersetzungssystem?
5. Nutzen Sie die Evaluationen anderer! 

Software-Testberichte erscheinen regelmässig in Computerzeitschriften wie c’t oder Byte. Oder kommen Sie zu unserem Seminar “Maschinelle Übersetzungssysteme im Test”. Schliesslich können wir anbieten, Ihnen eine Einführung in die verschiedenen Werkzeuge zu geben.

4. Schlussbemerkungen

Das grösste verbleibende Problem bei der Evaluation von Übersetzungssystemen ist die Quantifizierung der Übersetzungsqualität. Der vielversprechendste Ansatz ist die manuelle Bestimmung und Klassifikation von Übersetzungsfehlern. Klassifikationsschemata wurden in [Rinsche 93] und [Flanagan 94] vorgestellt. Dieses Verfahren ist aufwendig, bietet aber einen guten Einblick in die Leistungsfähigkeit des untersuchten Systems.

Maschinell erstellte Übersetzungen wirken auf den ersten Blick oft holprig und unnatürlich. Der professionelle Übersetzer sollte sich davon jedoch nicht abschrecken lassen. Maschinelle Übersetzung kann ein nützliches Werkzeug des Übersetzers sein. Bei geeigneten Texten und entsprechender Vorarbeit wird durch den Einsatz von maschineller Übersetzung eine Produktivitätssteigerung von 30% erzielt. 
 

Martin Volk
Universität Zürich
Institut für Informatik
Computerlinguistik
volk@ifi.unizh.ch
Tel. (+41)-1-635-4325
  

Zum Seitenanfang
 

© ADOLPH Verlag GmbH - Letztes Update 03.05.2004