Inhalt:
|
Statistische
Methoden in der Textlinguistik
"Wo Sinn ist", meint Wittgenstein (1960, 339 = SS 98), "muß vollkommene Ordnung sein", auch noch "im vagsten Satze". Das könnte man dann auch für den Signifikanten annehmen. Daher rührt das linguistische Motiv der Textstatistik: gibt es quantitative Eigenschaften der Ordnung von Texten? Ein zweites, verwandtes Motiv sucht Anwendungsbereiche der Mathematik jenseits der Natur in Erzeugnissen menschlichen Geistes. Ein drittes Motiv dient konkreten Anwendungen wie Autorenerkennung, Stilanalysen, Textoptimierung (z.B. durch Verständlichkeitsmessung) und Fremdsprachenlernen (z.B. durch Grundwortschatzbestimmung und Textauswahl). Alle drei Beweggründe setzen auch Untersuchungen über statistische Eigenschaften von Sprache als System und Sprachen als Systemen in Gang. Die folgende Darstellung gilt aber nicht der Sprachstatistik in diesem Sinne (vgl. Scholfield 1991), sondern der statistischen Untersuchung einzelner Texte und Textcorpora, auch wenn die statistischen Verfahren (Altmann 1995a, Gordesch 1991, Rietveld/van Hout 1993; Kurzdarstellungen Kauffer 1994, Schlobinski 1996, 87-167) und viele mathematische Konzepte (Piotrowski et al. 1985, 1990) grundsätzlich die gleichen sind. (Ein kompaktes Handbuch der quantitativen Linguistik liefert Tesitelová 1992, eine umfassende Bibliographie Köhler 1995.) Textstatistik untersucht alle quantifizierbaren Eigenschaften von Texten, um sie zu charakterisieren, untereinander zu vergleichen und zu klassifizieren, auf historische, geographische, soziale oder psychologische Entstehungsbedingungen zu schließen und um Gesetze zu entdecken, die die Konstruktion von Texten steuern. Sie beginnt mit der Definition und Zählung quantifizierbarer Einheiten von Texten. Solche rein deskriptiven Verfahren führen zu Häufigkeitstabellen (insbesondere Häufigkeitswörterbüchern) und statistischen Kenngrößen wie Mittelwerten und Indizes (z.B. Busemanns (1925) Aktionsquotient als Verhältnis von Adjektivanzahl zu Verbanzahl). Darüber hinaus verfolgt sie analytische Ansprüche und sucht eine "verborgene Ordnung" (Arens 1965) in Texten: sie spürt Wiederholungen (Altmann 1988) und überhaupt Mustern und Gleichförmigkeiten im Auftreten exakt definierter sprachlicher Einheiten nach. Wenn "speech is a series of nearly impossible events" (Geffroy et al. 1973, 129), so untersucht Textstatistik Wahrscheinlichkeiten in der Konstruktion von Texten in der Annahme, daß kommunikationstheoretische, anthropologische, psychologische, syntaktische, semantische und/oder pragmatische Gründe Abweichungen von völliger Zufallsverteilung erzwingen, und sei es nur um einer praktikablen Erzeugung und zugleich Reduktion von Komplexität willen. Dabei geht es um die Erfassung von Trends, Tendenzen, Häufigkeitsverteilungen, stochastischen Abhängigkeiten, Korrelationen zwischen verschiedenen textinternen und textexternen Variablen und möglicherweise universellen Gesetzmäßigkeiten. Mit Hilfe deskriptiver statistischer Verfahren werden also quantitative Eigenschaften von Texten bestimmt. Analytische Methoden bauen darauf auf und dienen dazu, Zusammenspiel, Konkurrenz und Entwicklung mehrerer Faktoren bzw. Merkmale beim Zustandekommen von Texten zu beschreiben und sprachliche Erzeugnisse auch als Ergebnis selbstregulierender Schemata und Prozesse zu verstehen (programmatisch Hrebicek/Altmann 1993) . Textstatistik insgesamt (1) zählt Textelemente aus und errechnet statistische Kennwerte von Texten, (2) mißt syntaktische und lexikalische Homogenität einzelner Texte oder einer Gruppe von Texten, (3) identifiziert Brüche innerhalb von Texten (sei es aufgrund besonderer Kreativität, Themen- oder Textsortenwechsels, schlechten Stils oder der Beteiligung verschiedener Autoren), (4) vergleicht Texte hinsichtlich quantifizierbarer Eigenschaften (z.B. um Stile, Epochen, Autoren oder Textsorten zu unterscheiden), (5) beschreibt probabilistische Charakteristika von Sprachnormen sowie Abweichungen bzw. Merkmale sprachlicher Varietäten (z.B. Fachsprachen, Soziolekte), Idiolekte oder einzelner Texte, (6) mißt und vergleicht lexikalische Reichhaltigkeit von Texten (z.B. durch Bestimmung der Anzahl verschiedener Wörter im Verhältnis zur Gesamtzahl der Wörter (type-token-ratio)), (7) mißt Verständlichkeit von Texten, soweit diese quantifiziert werden kann (vgl. Ballstaedt/Mandl 1988, Hrebicek/Altmann (eds.) 1993, 215-252), (8) beschreibt die allmähliche Entfaltung neuer Information in Texten (vgl. Wildgen 1993), (9) untersucht die lineare Präsentation nicht-linearen Wissens in Texten und (10) sucht allgemeine Eigenschaften, Unterschiede und Gesetzmäßigkeiten in Klassen aller Art von Texten (z.B. mündlich vs. schriftlich, Nachricht vs. Kommentar, Epik vs. Dramatik, Mittelalter vs. Moderne, Dialekt vs. Hochsprache) sowie (11) in "Text" überhaupt. (Einen gut verständlichen Querschnitt durch verschiedenartige Fragen und Methoden auf hohem Niveau bietet Tuldava 1995.) 3. Anwendungsbereiche in Beispielen Textstatistische Verfahren können die Behandlung klassischer geisteswissenschaftlicher Gegenstände, soweit sie quantifizierbar sind, auf eine verläßliche empirische Grundlage stellen. Dazu zählen beispielsweise die Metrik (Grotjahn 1979) und die Entscheidung über die ggf. strittige Frage, von welchem oder welchen Autoren ein Text stammt (Wickmann 1989). Statistik eröffnet aber auch neue, sonst nicht gestellte Fragen. Viele, vor allem die älteren, textstatistischen Arbeiten begnügen sich mit rein deskriptiven Verfahren, zählen also Elemente aus (z.B. die bei Harkin 1957 und Billmeier/Krallmann 1969 genannten, so etwa Krallmann 1966, Meier 1967) und erstellen etwa Häufigkeitswörterbücher (z.B. Ruoff 1981). Unerläßlich sind textstatistische Verfahren bei der Analyse und ggf. auch Konstruktion großer Textcorpora (vgl. Bergenholtz/Schaeder (ed.) 1979, Leech 1991, Stubbs 1996). Oft werden sowohl einzelne Texte als auch ganze Textcorpora als samples für vermutete Gesetzmäßigkeiten im sprachlichen System (und teilweise auch allgemeineren Gegebenheiten) statistisch untersucht (z.B. Brainerd 1971, Grotjahn 1982, Herdan 1966, Schmidt (ed.) 1996). Das gilt insbesondere für das Zipfsche Gesetz (wegen des Grundprinzips des geringsten Kraftaufwandes ist das Produkt aus Häufigkeits-Rangplatz und Verwendungshäufigkeit von Wörtern in Texten stets konstant; Zipf 1932, 1935, Guiter/Arapov (eds.) 1982) und die Menzerathsche Hypothese (je größer ein sprachliches Ganzes, desto kleiner seine Teile; Menzerath 1954, Altmann/Schwibbe 1989, Hrebicek 1995). Häufig verfolgt werden auch lexikographische (Menzerath 1954, Hellmann (ed.) 1984) und stilistische Fragestellungen (Überblick bei Hoffmann/Piotrowski 1979, 148-156; später Pieper 1979). Brainerds (1972) Untersuchung des Artikelgebrauchs als Stilindikator ist ein kleines, aber sehr typisches Beispiel. Seltener, aber meist sehr ergiebig, sind analytisch-statistische Untersuchungen zur Eigenart einzelner Texte (Orlov u.a. 1982), zu semantischen Relationen in Texten (Skorochod'ko 1981, 120-185), zur dynamischen Entwicklung von Merkmalen im Verlauf eines Textes (z.B. Entropie und Wiederholungsrate) (Köhler/Galle 1993), zu Entwicklungslinien in der Schreibweise eines einzelnen Autors (Laffal 1997), zu langfristigen Entwicklungen im Vokabular und damit verbundenen spezifischen Einstellungsänderungen in der Bevölkerung (z.B. Fortier/Keen 1997). Und schließlich können statistische Textuntersuchungen auch dazu beitragen, die Leistungsfähigkeit von Programmen zur maschinellen Erzeugung oder Analyse natürlich-sprachlicher Texte zu verbessern (vgl. z.B. Walker/Moore 1997). 4. Statistische Methoden und wissenschaftliche Theoriebildung Mit statistischen Methoden können nur quantifizierbare Eigenschaften von Texten erfaßt werden. "Information" beispielsweise als Maß für die Unwahrscheinlichkeit des Auftretens eines Elements kann gemessen werden, "Sinn" aber nicht. Damit ist die grundsätzliche Frage nach der besonderen Leistung menschlicher Sprache aufgeworfen. ("Die Form der Zahl und des Zählens ist daher das eigentliche Bindeglied, an welchem man sich den Zusammenhang zwischen sprachlichem und wissenschaftlichem Denken, wie den charakteristischen Gegensatz zwischen beiden am deutlichsten vergegenwärtigen kann." Cassirer 1953/1954, Bd.3, 399) Die Beziehungen zwischen quantitativen, symbolorientierten, strukturellen und hermeneutischen Zugangsweisen sind aufgrund gerne sich abkapselnder Schulbildungen noch nicht genügend diskutiert worden (für die beiden erstgenannten vgl. Klavans/Resnik (ed.) 1996). Während, um ein Beispiel zu nennen, die traditionelle Stilistik stark auf subjektive Urteilskraft baut, untersucht die quantitative Stilistik zähl- und also objektivierbare stilistische Merkmale. Ob und in welcher Weise beide Seiten voneinander profitieren können, ist kaum hinreichend konkret bedacht worden. "Der quantitative Ansatz vermag zwar aufzudecken, wie sich ein Einzelwerk oder auch eine verwandte Gruppe von Texten zu Sprach-, Textgruppen- oder auch Epochennormen verhält, die Interpretation der Übereinstimmung oder der Abweichung von diesen Normen in Richtung auf ein Versagen des Autors, die gesetzte Normierung zu erreichen oder eher in Richtung auf einen Erfolg, beispielsweise einen Innovationseffekt erzielt zu haben, wird Aufgabe der qualitativen Stilistik bleiben. Die quantitative Analyse schmälert also in keiner Weise eine traditionell ausgerichtete Literaturbetrachtung oder Literaturkritik. Sie liefert ihr vielmehr Werkzeug und Daten, um ihre qualitativen Aussagen empirisch zu belegen" (Pieper 1979, 125). In der Regel führen diejenigen Untersuchungen am weitesten, die ihre statistischen Analysen aus einem größeren Reflexionszusammenhang begründen. Statistik ihrerseits zwingt zur Formulierung überprüfbarer Aussagen und wirkt dadurch disziplinierend, aber auch belebend auf wissenschaftliche Begriffsbildung und Methodik. Einerseits dient sie der Überprüfung vorab formulierter Hypothesen (z.B. über den Vergleich einzelner Texte oder Stichproben untereinander, über das Verhältnis von Stichprobe und Grundgesamtheit, über das Verhältnis von beobachteten Daten und theoretischer Funktion oder Verteilung); und sie erlaubt die Vorhersage nicht beobachteter aufgrund von beobachteten Daten, die Überprüfung der Qualität einer Stichprobe sowie den Vergleich verschiedener Klassifikationen (z.B. von Textsorten) untereinander. Andererseits erfüllt sie aber auch eine heuristische Funktion und lädt zur Formulierung sonst vielleicht gar nicht erdachter Hypothesen ein, nämlich wenn (oft überraschende) Korrelationen zwischen Variablen aufgefunden werden (z.B. durch Faktorenanalyse oder pfadanalytische Verfahren). Freilich stehen alle textstatistischen Untersuchungen vier Schwierigkeiten
gegenüber.
In mathematischer Hinsicht können Texte als Ergebnisse stochastischer, dynamischer, nicht-rekursiver, nicht-stationärer, offener und zielsuchender Prozesse betrachtet werden (vgl. Altmann/Grotjahn 1988, 1026f; Hrebicek 1993). "Der Zusammenhang zwischen der strukturellen Unvollkommenheit des Systems ,Sprache` und seiner Wandlungsfähigkeit zum Ausdruck aller möglichen Gedanken läßt sich erst im Rahmen der mathematischen Chaosforschung erkennen." (Bluhme 1988, 6) Wenn dies gelänge, könnte eine quantitativ orientierte Text- und Sprachbetrachtung dazu beitragen, die künstliche Unterscheidung von Regel und Anwendung, von System und Gebrauch zu überwinden und vielmehr "die Sprache" in der Gesamtheit "des jedesmaligen Sprechens" zu sehen (vgl. Humboldt 1963, 418). Auf diese Weise könnten textstatistische Untersuchungen auch helfen, sprachgeschichtliche Tendenzen (vgl. Embleton 1986) "als notwendige unbeabsichtigte Konsequenz individueller Handlungen auszuweisen, die unter bestimmten ökologischen Bedingungen nach bestimmten Handlungsmaximen vollzogen worden sind" (Keller 1990, 199). Freilich bewährt sich Textstatistik nur im mühseligen Alltag
handwerklich sorgfältiger Einzeluntersuchungen. Dabei sollte jeweils
eine theoretisch wohldurchdachte Fragestellung Datenerhebung, -auswertung
und -interpretation bis ins einzelne leiten. Sonst versinkt man in unübersichtlichen
Zahlengräbern von geringem Erkenntniswert (z.B. Rohrmann 1974), weil
auch bei noch so objektiven Verfahren "die Vernunft nur das einsieht, was
sie selbst nach ihrem Entwurfe hervorbringt" (Kant 1956, 23 = B XIII).
Aus: Antos, Gerd/ Brinker, Klaus/ Heinemann, Wolfgang/ Sager, Sven F. (Hg.): Text- und Gesprächslinguistik. Linguistics of Text and Conversation. Ein internationales Handbuch zeitgenössischer Forschung. 1. Halbband: Textlinguistik. Berlin, New York: de Gruyter
|