Home Previous Zeitschrift 1999/02 Next Archiv Index

  Inhalt:

Entwicklungsstand des
     ISO-Formats MARTIF

MARTIF-Dokument

Terminologie-Eintrag

MARTIF-DTD

ISO 12200

Zeichensätze

Datenkategorien

Der Autor


Austausch terminologischer Daten

Derzeitiger Entwicklungsstand des ISO-Formats MARTIF

Bereits in Heft 3/1996 der Zeitschrift "Technische Dokumentation" wurde über die Notwendigkeit der Entwicklung eines Austauschformats für terminologische Daten und die generellen technischen Spezifikationen des ISO-Standards MARTIF (Machine-readable Terminology Interchange Format) berichtet.
Im folgenden soll der derzeitige Stand der MARTIF -Entwicklungen sowie zukünftige mögliche Weiterentwicklungen aufgezeigt werden. 

Im Rahmen des Technischen Komitees TC37 (Terminology – Principles and Methods) der ISO wurde in den letzten Jahren die ISO-Norm 12200 entwickelt, die das Terminologieaustauschformat MARTIF auf Basis von SGML (Standard Generalized Markup Language = ISO 8879) definiert. Die endgültige Fassung der Norm steht ebenso wie die eng mit MARTIF verbundene Norm ISO 12620 derzeit zur abschließenden Abstimmung an und wird noch in der ersten Hälfte dieses Jahres als internationale Norm veröffentlicht werden.

Der Hauptteil des MARTIF-Standards (ISO 12200 Terminology – Computer applications - Machine-readable Terminology Interchange Format (MARTIF) - Negotiated Interchange) legt im wesentlichen den Formalismus fest, in dem terminologische Einträge eines auszutauschenden Terminologiebestandes beschrieben werden, d.h. er definiert die Document Type Definition (DTD) des SGML-Dokuments mit den entsprechenden Tags (Markierungen) für die Strukturierung der Daten. Der normative Anhang A des Standards definiert die einzelnen terminologischen Datenkategorien und deren Repräsentation in MARTIF; er basiert auf der parallel zur MARTIF-Norm entwickelten ISO 12620 (Terminology - Computer applications - Data categories).

Zum Seitenanfang

Ein MARTIF-Dokument, d.h. eine entsprechend der MARTIF-Norm kodierte Datei mit terminologischen Daten, besteht aus dem <martifHeader> mit Angaben zum gesamten Datenbestand und dem <text> mit den einzelnen Datensätzen. Der <text> wiederum enthält im <body> die eigentlichen terminologischen Einträge, die in <termEntry>-Tags eingeschlossen sind, und im <back> zusätzliche Angaben (z.B. bibliographische Daten), auf die von den Einträgen des <body> aus verwiesen wird. Die folgende Abbildung veranschaulicht diese Grundstruktur.

 
<martif> 

<martifHeader> 

... (The header goes here.) 

</martifHeader> 

<text> 

<body> 

<termEntry ID=‘XXX1’> 

...(The first terminological entry goes here.) 

</termEntry> 

...(More terminological entries go here.) 

</body> 

<back> 

<refObjectList type=‘bibl’> 

...(The bibliographical <xref>s go here) 

</refObjectList> 

...(Any other external references also go here.) 

</back> 

</text> 

</martif> 

Abbildung 1: Grundstruktur eines MARTIF-Dokuments

Wie erwähnt wird der terminologische Eintrag, der alle Informationen zu einem Begriff einschließlich der sprachspezifischen Daten in den jeweiligen Sprachen enthält, entsprechend der MARTIF-Konvention in einer <termEntry>-Struktur eingebettet.
Innerhalb dieser Struktur folgen nach den begriffsorientierten und für die Verwaltung des Eintrags notwendigen Informationen (<AuxInfo>) die in <LangSet> eingeschlossenen Sprachblöcke.
Darin sind wiederum alle benennungsorientierten Datenelemente, die zu genau einer Benennung gehören, in einer <ntig>-Struktur eingeschlossen. Der Aufbau eines <termEntry> wird in der folgenden Abbildung deutlich:
 

termEntry  
   
  AuxInfo*    
 
descrip|descripGrp|admin|adminGrp|ptr|ref|date|note
 
                                          |                                 |  
                                  descrip                         admin  
 
(ptr|ref|date|note|descripNote)* (ptr|ref|date|note|adminNote)*
 
   
  LangSet+    
           
    ntig+      
               
      termGrp        
     
term
       
     
(termNote|termNoteGrp|ptr|ref|date|note)*
     
     
|
     
     
termNote
     
     
(ptr|ref|date|note)
     
             
      AuxInfo*        
     
(see above)
     
             
             
             
Abbildung 2: Aufbau eines <termEntry>

Bei der Entwicklung der MARTIF Norm wurde die Philosophie verfolgt, relativ wenige terminologische Datenkategorien als Generic Identifier (GI) in der DTD zu definieren, damit die Norm auf möglichst alle in der Praxis vorkommenden Strukturen von Terminologiebeständen anwendbar ist.

Deshalb sind in der MARTIF-DTD vorwiegend strukturelle GI wie <termEntry>, <LangSet>, <ntig> oder <termGrp> und Obergruppen terminologischer Datenkategorien wie <descrip>, <admin> oder <termNote> als GI festgelegt.
Die einzelnen terminologischen Datenkategorien werden meist nicht als eigene GI sondern durch Attribuierung der Obergruppen mittels type= beschrieben. Die folgende Abbildung aus dem normativen Anhang A der ISO 12200 zeigt, daß beispielsweise die MARTIF-Repräsentation der Datenkategorie "Wortklasse" nicht als GI <partOfSpeech> sondern als GI <termNote> mit entsprechendem type-Attribut realisiert ist.
 

Table A.3 MARTIF data category representation
Group 1: Terms and term-related data categories
Subgroup 2: Term-related information, cont. 6
Pos. 
no.
Data category 
name
MARTIF data category representation Value Examples
A.2.2 grammar <termNote type= 'grammar'> Perm. 

instance

Used only where there is no finer degree of granularity.
A.2.2.1 part of speech <termNote type= 'partOfSpeech'> Perm. 

instance

Common permisible instances include: 

n, v, adj. 

<termNote type= 'partOfSpeech'>v </termNote>

 

Abbildung 3: Beispiel für eine MARTIF-Repräsentation der terminologischen Datenkategorien

Zum Seitenanfang

ISO 12200

Mit der ISO 12200 liegt eine internationale Norm für den Austausch terminologischer Daten vor, die es erlaubt, die einzelnen Datensätze und Datenkategorien sowie die Abhängigkeiten der einzelnen Informationen untereinander eindeutig zu identifizieren. Wegen der hohen Flexibilität kann MARTIF alle Formen und Strukturen von Terminologiebeständen adäquat abbilden. Diese Flexibilität hat aber auch ihren Preis: Ein verlustfreier und korrekter Austausch von Daten zwischen stark unterschiedlich kodierten Terminologiebeständen ist nur durch zusätzliche Absprache möglich. Durch die SGML-Basiertheit von MARTIF wird die Weiterverwendung der Terminologiebestände in anderen Umgebungen und der Austausch mit anderen nicht-terminologischen Daten erleichtert.

Zur Zeit wird innerhalb der ISO-Arbeitsgruppen an der Definition eines sogenannten "blind interchange" gearbeitet, der es erlauben soll, ohne zusätzliche Absprachen terminologische Daten verlustfrei auszutauschen. In dem ersten Entwurf zu dem zweiten Teil des MARTIF-Standards wird versucht, folgende Eigenschaften des jetzt als Norm publizierten "negotiated" MARTIF (Teil 1) zu verändern:

Zum Seitenanfang

Zeichensatzproblematik

MARTIF Teil 1 benutzt zur Darstellung der Zeichen den in ISO 646 definierten 7-Bit definierten Zeichensatz; Umlaute, akzentuierte Zeichen sowie sonstige Sonderzeichen werden entsprechend Annex D der SGML-Norm ISO 8879 durch Ersatzdarstellungen repräsentiert. Diese Zeichensatzlösung ist jedoch für Sprachen mit nicht-lateinischem Alphabet vollkommen unzureichend.

MARTIF Teil 2 benutzt zur Kodierung der Daten XML (Extensible Markup Language), eine unter Federführung des World Wide Web Consortiums definierte Untermenge von SGML. Hierdurch trägt MARTIF Teil 2 nicht nur der derzeitigen Entwicklung im Bereich der Markup-Sprachen Rechnung, auch die Zeichensatzproblematik beim Austausch terminologischer Daten wird vernünftig gelöst, da XML auf dem 16-Bit Unicode-Zeichensatz basiert. Der Unicode-Zeichensatz enthält in seinen 38.885 definierten Zeichen nahezu alle Zeichen, die in unterschiedlichsten Sprachen der Welt benutzt werden, so auch für Arabisch, Chinesisch, Japanisch oder Thai.

Modellierungsvarietäten

In der ISO 12620 und entsprechend im normativen Anhang der ISO 12200 sind eine Vielzahl von terminologischen und verwaltungstechnischen Datenkategorien aufgeführt. Bestimmte Informationen gleicher Art können jedoch je nach Konzeption der eigenen Terminologieverwaltung in unterschiedlichen Datenkategorien untergebracht werden, ohne gegen diese beiden Normen zu verstoßen. Als Beispiel können die in Abbildung 3 aufgeführten Kategorien "grammar" und "part of speech" dienen; in beiden kann die Wortklasse einer Benennung kodiert sein.

Für einen "blind interchange" ist eine derartige Modellierungsvarietät undenkbar, da ohne Absprache nicht eindeutig klar ist, wie eine bestimmte Art von Information im Austauschformat abgebildet wird. Deshalb wurden in MARTIF Teil 2 diese Mehrdeutigkeiten durch die Definition einer eindeutigen Untermenge der ISO 12610 aufgelöst.

Inhalte von Datenkategorien

In der ISO 12620 werden terminologische Datenkategorien definiert, im Anhang der ISO 12000 die entsprechenden MARTIF-Repräsentationen der Datenkategorien. Die Inhalte von Datenkategorien sind jedoch in beiden Normen nicht festgelegt; es werden höchstens bei den Beispielen Empfehlungen gegeben, wie die Werte von Datenkategorien aussehen können (siehe Abbildung 3). Deshalb kann beim Austausch terminologischer Daten eine nominale Wortklasse durch noun, n., sub, sub. oder Substantiv kodiert sein, ohne die MARTIF-Norm zu verletzen.

Für einen "blind interchange" müssen jedoch in die Inhalte von Datenkategorien eindeutig definiert sein. MARTIF Teil 2 legt die Inhalte von allen Datenkategorien fest, bei denen dies möglich ist. Während bei textlichen Datenkategorien wie Benennung, Definition, Kontext oder Anmerkung eine Überprüfung des Inhalts nicht sinnvoll ist, müssen bei Datenkategorien mit einer festgelegten Menge von Werten wie Wortklasse, Genus oder Benennungstyp die Inhalte kontrolliert werden. Problematisch ist eine Festlegung von Inhalten bei Kategorien wie Fachgebiet, da es hierbei zwar um eine festlegbare Wertemenge handelt, die aber je nach Anwender und Anwendungsgebiet stark differiert. Für diesen Fall sollen bestimmten, in den entsprechenden Fachgebieten akzeptierte Klassifikationen bei einer zentralen Stelle registriert werden. MARTIF-Austauschdokumente geben dann an, welche Klassifikation benutzt wird, und dies kann dann validiert werden.

Bei der Entwicklung von MARTIF Teil 2 wird die Strategie verfolgt, die Inhalte von Datenkategorien nicht mittels einer entsprechenden DTD zu definieren und durch einen Parser zu testen. Vielmehr wird ein eigenständiges Validierungswerkzeug entwickelt, das speziell auf die Überprüfung von Datenkategorie-Inhalten ausgerichtet ist. Ob ein Dokument mit terminologischen Daten der MARTIF-Norm Teil 2 entspricht, wird dementsprechend durch einen XML-Parser und ein Validierungswerkzeug festgestellt.

Zusammenfassen läßt sich feststellen, das der Entwurf für einen MARTIF Teil 2 ein strikteres Terminologieaustauschformat definiert und einen "blind interchange" ohne zusätzliche Absprachen erlauben wird. Durch die Benutzung von XML als zugrundeliegendem Formalismus wird der derzeitigen Entwicklung bei den Markup-Sprachen Rechnung getragen, was auch einer leichteren Überführung der MARTIF-Daten in HTML zur Präsentation im World Wide Web dient. Unicode als Basis für die Zeichendarstellung ermöglicht auch die Kodierung von Terminologiebeständen in Sprachen mit nicht-lateinischem Zeichensatz.

Zur Zeit sind Bemühungen im Gange, eine gewisse Kompatibilität zwischen MARTIF Teil 2 und anderen Austauschformaten wie OLIF (Open Lexicon Interchange Format) oder TBX (TermBase eXchange) zu erreichen. OLIF wurde im von der EU-Kommission geförderten Otelo-Projekt definiert, um einen Austausch zwischen lexikalischen Datenbeständen zu ermöglichen, die als Wörterbücher für verschiedene maschinelle Übersetzungssysteme dienen. Innerhalb der LISA (Localization Industry Standards Association) wurde eine spezielle Arbeitsgruppe mit Namen OSCAR (Open Standards for Container/Content Allowing Re-use) gegründet, die das Austauschformat TMX (Translation Memory eXchange) für Datenbestände aus Übersetzungsspeichern und das Format TBX (TermBase eXchange) für Bestände aus Terminologiedatenbanken definieren wird. Es existiert eine enge Kooperation zwischen den an den jeweiligen Formaten arbeitenden Entwicklern.

 
Der Autor dieses Beitrags
Klaus-Dirk Schmitz ist Professor für Terminologielehre an der Fachhochschule Köln, Leiter des Deutschen Informations- und Dokumentationszentrums für Terminologie (DEUTERM) und Mitarbeiter des DIN NAT/AA5 und des ISO/TC37/SC3.

Zum Seitenanfang


© ADOLPH Verlag GmbH - Letztes Update 03.05.2004