Hat die Sprache in den britischen Qualitätszeitungen „The Times“, „The Guardian“ und „The Independent“ zwischen 1990 und 2001 aufgrund des Aufkommens des Internet und infolge des 11. September eine Veränderung durchlaufen? Um diese Fragen zu beantworten, wurden drei Text-Korpora erstellt, um eine diachrone Korpusanalyse durchzuführen: eins von 1990 (zwei Millionen Worte) und zwei von 2001 (mit je einer Million Worten). Das eine Korpus von 2001 beinhaltet ausschließlich Artikel, die vor dem Ereignis 11. September, das andere ausschließlich Artikel, die danach erschienen sind. Die analysierten Themenfelder sind „News“, „World News“ und „Politics“. Diese Textkorpora wurden mit Hilfe korpuslinguistischer Methoden analysiert. Dieses Verfahren bzw. die „Korpuskonstellation“ wurde gewählt, erstens, um die Besonderheiten von Zeitungssprache zu analysieren, zweitens, um lexikalische Veränderungen über eine Zeitdauer von zehn Jahren zu untersuchen. Die Ergebnisse zeigen, dass sich seit 1990 die Type-Token Relation und durchschnittliche Satzlänge verringert haben, während sich die Artikellänge vergrößert hat. Die Anzahl der Pronomina vergrößerte sich ebenfalls 2001 im Vergleich zu 1990. Des Weiteren wurde eine dramatische Veränderung in der Verwendung von Begriffen wie >ARAB<, >ISLAM< und >MUSLIM< festgestellt, die in einem engen Zusammenhang mit den Terrorangriffen vom 11. September stehen. Die Schlussfolgerung dieser Untersuchung ist, dass Zeitungssprache von den großen politischen Themen abhängig ist, die sich während des Erhebungszeitraumes ereigneten, und dass technische Veränderungen innerhalb der Zeitungshäuser Veränderungen an den Zeitungen und deren Artikel herbeiführen können. Während 1990 Formen wie >MR<, >AGED< und >PER CENT< häufiger verwendet wurden, kam es nach 9/11 zu Gebräuchlichkeitsveränderungen einiger Begriffe, dazu zählt die Verwendung von Begriffen wie >ISLAMIC< im Kontext von >TERROR<, die auf ein neues Feindbild hinweisen.
Inhalt
1. EINLEITUNG
2. KAPITEL: Die Eigenschaften der Korpuslinguistik
2.1 Die Vorteile bei der Verwendung von Korpora
2.2 Die Korpuslinguistik in Analogie zu kognitiven Fähigkeiten
3. KAPITEL: Korpuslinguistik als Sprachanalysemethode S.20
3.1 Ein Beispiel für eine populäre Korpusanalyse: Das Wendekorpus
3.2 Kommunikative Grundlagen der Korpuslinguistik
3.3 Textanalyse und Textkorpora
3.4 Die medienspezifischen Charakteristika einer Zeitung
3.5 Wahrheitswerte von Sätzen und Texten
3.6 Pressesprache und Registeranalyse
3.7 Ereignisorientierte Veränderungen von Sprache
3.8 Die Grenzen der Korpuslinguistik
4. KAPITEL: Die Strukturierung der Korpora und die technischen Hindernisse
4.1 Die Funktionsweise von Wordsmith
4.2 Die Korpusprotokolle
4.3 Das Korpusdesign
4.4 Überarbeitung des Korpusdesigns
4.5 Sortieren der Unterkorpora
4.6 Entstehungsprozess und Textformatierungsprobleme
4.7 Metatext als relevante Fehlergröße
4.8 Layout-Redundanz
4.9 Die Zusammenstellung der Subkorpora
4.10 Veränderungen in den Themenfeld-Bezeichnungen
4.11 Anzahl der Artikel pro Subkorpus
5. KAPITEL: Der 11. September als Ausgangspunkt für Veränderungen in Sprache, Medien und Gesellschaft
5.1 Das Ereignis 11. September
5.2 Die Medienreaktionen auf die Terroranschläge vom 11.9.2001
5.3 Medienwissenschaftliche Betrachtung des 11.September
5.4 Das Dilemma der Medien im Zusammenhang mit dem 11. September
5.5 Der 11. September als Auslösefaktor für Spekulationen
5.6 Kontextuelle und lexikalische Wahrscheinlichkeit
5.7 Der 11. September als Agenda-Setting-Prozess
5.8 Der Nachrichtenfaktor des 11.September
5.9 Qualitätskriterien für Informationsjournalismus
5.10 Die Nachrichtenwert-Theorie
5.11 Der 11. September als Schlüsselereignis
5.12 Das Textkorpus mit Artikeln erschienen nach dem 11. September
6. KAPITEL: Auswertung der Analysedaten
6.1 Die von Wordsmith gewonnenen Basisdaten
6.1.1 Die Auswertung der Korpusstatistiken
6.1.2 Die Type-Token Relation (TTR)
6.1.3 Die Häufigkeitslisten
6.1.4 Die alphabetischen Listen und Hapax Legomena
6.2 Grammatikalische Untersuchun gen
6.2.1 Effects of scepticism and doubt
6.2.2 Degree of probability
6.2.3 Naming als Indikator für Boulevardisierung
6.3 Untersuchungen an der Syntax
6.3.1 Vergleich der durchschnittlichen Satzlängen in den Untersuchungszeiträumen
6.3.2 Ausgewählte Konkordanzen
6.3.2.1 Die Konkordanzliste zu >ISLAM< in K1 S.117
6.3.2.2 Die Konkordanzliste zu >ISLAM< in K2 S.122
6.3.2.3 Die Konkordanzliste zu >ISLAM< in K3
6.3.2.4 Die Konkordanzen zu >ARABIC<
6.3.2.5 Konkordanzen mit dem Kontextwort [ >TERROR<]
6.3.3 Die häufigsten Kollokationen von >MUSLIM<,
>ISLAMIC< und >ARAB< S.131
6.3.3.1 Linksseitige Kollokationen zu >ARAB<
6.3.3.2 Rechtsseitige Kollokationen zu >ARAB<
6.3.3.3 Linksseitige Kollokationen zu >MUSLIM<
6.3.3.4 Rechtsseitige Kollokationen zu >MUSLIM<
6.3.3.5 Linksseitige Kollokationen zu >ISLAMIC<
6.3.3.6 Rechtsseitige Kollokationen zu >ISLAMIC<
6.3.3.7 Gebräuchlichkeitsveränderungen
6.4 Untersuchungen an der Lexik
6.4.1 Das Problem der Synonymie
6.4.2 Lexikalische Dichte und Funktionswörter
6.4.3 Die Funktion Keywords
6.4.3.1 Die Keyword-Liste von K1 mit K2 al Referenzkorpus
6.4.3.2 Die Keyword-Liste von K2 mit K1 al Referenzkorpus
6.4.3.3 Die Keyword-Liste von K2 mit K3 al Referenzkorpus
6.4.3.4 Die Keyword-Liste von K3 mit K2 al Referenzkorpus
6.4.3.5 Die Keyword-Liste von (K1 + K2) mit K3 al Referenzkorpus
6.4.3.6 Die Keyword-Liste von K3 mit (K1 + K2) al Referenzkorpus
6.4.4 Weitere Schlüsselwörter im Zusammenhang mit dem 11. September 2001
6.4.4.1 Times.2001.danach mit K2 als Referenzkorpus
6.4.4.2 Guardian.2001.danach mit K2 als Referenzkorpus
6.4.4.3 Independent.2001.danach mit K2 als Referenzkorp
6.4.5 Analyse ausgewählter Wortgruppen
6.4.5.1 Die Wortgruppe „Arabisch” S.180
6.4.5.2 Die Wortgruppe „Islamische Welt“
6.4.5.3 Die Wortgruppe „Terror“
6.4.5.4 Die Wortgruppe „Gewalt“
6.4.5.5 Die Wortgruppe „Al-Qaida“ in den Subkorpora von K1
6.5 Morphologische Analysen: Ausgewählte Komposita S.188
6.5.1 Das Problem der Erkennung von Komposita und Homonymie
6.5.2 Analyse ausgewählter Komposita
6.5.2.1 Komposita mit Bestandteilen aus den Wortgruppen
„Arabisch“ und Islamische Welt“
6.5.2.2 Komposita mit Bestandteilen aus der Wortgruppe „Terror“
6.6 Weitere Analysedaten
6.6.1 Das Zipfsche Gesetz
6.6.2 Die Entropie der Typen
7. KAPITEL: Schlussbetrachtung (Zusammenfassung, Kritik und Ausblick) S.201
7.1 Zusammenfassung der Ergebnisse
7.1.1 Gründe für die Veränderungen des Wortschatzes
7.1.2 Sprachliche Veränderungen durch die Internet-Einführung S.204
7.1.3 Emotionsneutrale Datenauswertung durch den Rechner S.206
7.1.4 Der Umgang mit dem Thema Terror
7.1.5 Halo-Effect und Primacy-Recency-Effect
7.2 Korpuslinguistische Methoden kritisch betrachtet
7.2.1 Schlüsselwort ungleich Inhalt
7.2.2 Wie sinnvoll ist der Einsatz der Korpuslinguistik?
7.3 Rückschlüsse auf die Qualität von Texten mittels quantitativer Analysen
8. LITERATURLISTE
9. VERZEICHNIS DER ABBILDUNGEN, TABELLEN, GRAFIKEN, FORMELN
1. EINLEITUNG
In dieser Dissertation werden drei Presse-Korpora mit dem Ziel analysiert, die sprachlichen Veränderungen in den britischen Qualitätszeitungen „The Times“, „The Independent“ und „The Guardian“ zwischen 1990 und 2001, und die Veränderungen im Zusammenhang mit den Terroranschlägen vom 11. September 2001 zu untersuchen. Aus diesem Grunde wurden zwei Presse-Korpora von 2001 erstellt, sowie ein Presse-Korpus von 1990, das als Vergleichskorpus dient.
Das eine Textkorpus von 2001 enthält ausschließlich Artikel, die vor dem 11. September erschienen sind (K2 genannt), das andere hingegen Artikel, die nach der Katastrophe in New York in den Zeitungen zu lesen waren (K1). Diese beiden Korpora von 2001 enthalten Zeitungsartikel von je einer Million Worten. Darunter sind in jedem der beiden Korpora 500 000 Wörter aus „The Times“,
250 000 aus „The Guardian“ und noch einmal 250 000 aus „The Independent“. Das Korpus von 1990, K3 genannt, besteht aus insgesamt 2 Millionen Worten, davon sind eine Million aus „The Times“, 500 000 Wörter aus „The Guardian“ und noch einmal 500 000 Wörter aus „The Independent“.
Die drei Presse-Korpora K1, K2 und K3 wurden miteinander verglichen. Diverse weitere Korpuskonstellationen wurden vergleichbar gemacht, indem K1 und K2 zu einem gemeinsamen Korpus zusammengefügt wurden. Zusätzlich konnten die dreimal drei Subkorpora, die K1, K2 und K3 konstituieren, ggf. miteinander verglichen werden, um weitere Ergebnisse zu gewinnen. Die Software, die dabei zur Verfügung stand war Wordsmith 2.0 und später Wordsmith 3.0.
Die für die Erstellung der Korpora herangezogenen Quellen sind soweit verfügbar den CD-Roms der drei oben genannten Qualitätszeitungen entnommen, aber auch deren Online-Zeitungen von 2001 und der Electronic Database des British Council. Da die Presse-Korpora verschiedene Zeitphasen repräsentieren, ist die vorliegende Korpusanalyse eine Longitudinalanalyse (Jarren, Bonfadelli 2001, S.507).
Wegen einer klaren Eingrenzung des Registers sind die verwendeten Zeitungsartikel ausschließlich Themenfeldern wie Politics, News und Foreign News entnommen, die von der Bezeichnung her von Zeitung zu Zeitung variierten.
Diese Dissertation umfasst insbesondere die Erläuterung des Designs der Korpora, das Beschreiben der Korpusquellen, die Funktionsweise des verwendeten Analyseprogramms und die Analyse der sodann gewonnenen Wort- und Konkordanzlisten. Die zentralen Fragestellungen der Arbeit lauten:
Wie hat sich die Sprache in den Printmedien verändert?
Üben das Internet und die Online-Zeitungen einen erkennbaren Einfluss aus?
War der 11.September tatsächlich ein dermaßen gravierendes Ereignis, dass sogar der Sprachgebrauch beeinflusst wurde?
Diese Fragen können aufgrund der Auswahl der Textquellen nur für die Zeitungssprache in Großbritannien beantwortet werden. Grundsätzlich ist das Heranziehen von Computern zur Textanalyse nur bei bestimmten Fragestellungen effektiv. Das ist der Fall, wenn besonders große Textmengen zu analysieren sind. Einschränkend muss an dieser Stelle gesagt werden, dass ein Analyseprogramm, hermeneutische Detailfragen betreffend, nicht das zu bewerkstelligen vermag, was ein einzelner, adäquat geschulter Mensch durchzuführen im Stande ist. Der Mensch kann, was Textanalysen betrifft, beim derzeitigen Stand der Technik den Computer fast ausschließlich für rein statistische Vorgänge verwenden, wie dem Auszählen von Wortklassen, Bestimmen von durchschnittlicher Satz- oder Wortlänge, Wörterzählen, Type-Token-Analyse, Erstellen von alphabetischen Wortlisten, Frequenzlisten und Differenzmengen. Die Ausnahmen zu den rein statistischen Funktionen stellen die Konkordanzen und Kollokationen zu einem festgelegten Wort oder String dar.
M.A.K. Halliday spricht in diesem Zusammenhang von Low–Level Analysis. Eine Korpusanalyse ist deshalb keine Textanalyse im herkömmlichen Sinne. Die per Hand ausgeführte Analyse wird in der Funktionalen Grammatik als High-Level Analysis bezeichnet (Halliday 2004, S.49). Dennoch kann man Computer ausgewählte Teilaufgaben der qualitativen Analyse von Texten übernehmen lassen, wenn wir nach Textstellen und Kollokationen von Bildspendern für Metaphern oder anderen Schlüsselwörtern suchen.
Eine erfolgreich durchgeführte Korpusanalyse stellt eine ausgezeichnete Hilfe beim Aufspüren von Details dar, die der Leser unter Umständen übersieht. Das sind zumeist statistische Kennwerte bezogen auf Lexik, Syntax, Wortbildung und Grammatik.
Was die Medienberichterstattung des Jahres 2001 anbetrifft, so ist der 11.9.2001 ein einschneidendes Ereignis gewesen, dass ungeahnte Veränderungen nach sich gezogen hat wie die Anti-Terror-Allianz, weltweite Sicherheitsmaßnahmen, Islamismus-Debatte und den Kriegszustand in Afghanistan und Irak. Hierzu liefert der Vergleich der beiden Korpora von 2001 Ergebnisse.
Analog dazu fand in den 90er Jahren ein technischer Umbruch statt, darüber vermag das Vergleichskorpus von 1990 Aufschluss geben. Das Internet, laut „Time-Magazine“ seit 1991 für die Öffentlichkeit nutzbar, hat sich während der 90er Jahre weltweit etabliert und ist zu einem anerkannten Kommunikationsmedium geworden. Die Veränderungen sind auf allen gesellschaftlichen Ebenen spürbar.
Die von dem Textanalyseprogramm Wordsmith produzierten Korpusstatistiken, Frequenzlisten und Differenzmengen etc. lassen Urteile über die gravierendsten Unterschiede der Presse-Korpora zu. Ebenso konnten neue Tendenzen bei der Verwendung von Sprache in den Printmedien im Zusammenhang mit dem 11. September aufgefunden werden. Die Begriffe, die sprachliche Veränderungen ausgelöst durch Großereignisse, beschreiben helfen, sind lexikalische und kontextuelle Wahrscheinlichkeit.
Ein weiterer Schwerpunkt dieser Arbeit lag in der Untersuchung, ob die verwendete politische Sprache 1990 eventuell eine andere war, als 2001, wobei auch hier wieder zwischen der Zeitungsberichterstattung vor und nach dem 11. September differenziert wird. Deshalb wurden Begriffe zu Wortgruppen wie Islamische Welt, Arabisch, Terror, Al-Qaeda und Gewalt zusammengefasst.
In weiteren Analyseschritten wurde der Fragestellung nachgegangen, ob sich der benutzte Wortschatz in den untersuchten Medien zwischen 1990 und 2001 quantitativ verändert hat, was durch die von Wordsmith erstellte Type-Token Relation überprüft wurde, durch Aussagen im Rahmen des Zipfschen Gesetzes, sowie durch die Veränderungen bei den durchschnittlichen Satzlängen.
Des Weiteren wurden Kompositabildung, Konkordanzen und Kollokationen zu Schlüsselwörtern untersucht, die ergänzend anhand von Kernsätzen plastisch dargestellt wurden.
Pressesprache wird als eigenständiges Sprachregister vorgestellt, es wird diskutiert, wie repräsentativ diese drei Presse-Korpora für die gesamte englische Sprache sind.
Eventuelle Veränderungen der britischen Presse, speziell der Qualitätspresse, manifestieren sich nicht ausschließlich am Sprachgebrauch. Diese zeigen sich auch bei der Themenwahl und beim neuen Textdesign. Doch diese beiden Punkte werden nur am Rande angesprochen.
Was die Darbietung der gewonnenen Daten anbetrifft, werden von vornherein drei Formen von Statistiken unterschieden:
Statistiken, die in Form von Protokollen bei der Entnahme der Zeitungsartikel aus den Korpusquellen entstanden sind: sie dienten der Orientierung, um zu gewährleisten, dass bei der Datenerhebung der Faden nicht verloren ging.
Diese Protokolle bilden die Basis für die zweite Form von Statistik, die beschreibt, wie viele Artikel pro Zeitung, Themenfeld und Erscheinungstag verwendet wurden. Auch diese zweite Statistik ist von Hand erstellt worden. Es wurden Aufschlüsse darüber gewonnen, ob sich die Artikel generell verkürzt haben.
Die dritte Form von Statistik ist die von Wordsmith erzeugte Korpusstatistik, die in Typen und Token differenziert und die verschiedenen Wortlisten erstellt. Ohne Computer wäre das Erstellen dieser Listen nicht möglich gewesen.
Neben den bereits angesprochenen thematischen und strukturellen Veränderungen lassen sich noch weitere Parameter wie Personalisierung der Berichterstattung anhand der Verwendung von Namen und Pronomina erkunden, dies unter dem Aspekt einer zu untersuchenden „Boulevardisierung“.
Doch Veränderungen lassen sich vor allem mit Hilfe der erstellten Wortlisten ausfindig machen, indem überprüft wird, ob bestimmte Begriffe oder Wortgruppen und damit Sachthemen in den drei Untersuchungszeiträumen gleichermaßen thematisiert sind.
Es wird der Frage nachgegangen, inwieweit die Berichterstattung über den 11. September eventuell andere Themen temporär verdrängt haben könnte, Stichwort „Agenda-Setting“, und es wird dargelegt, dass der 11.September das schwerwiegendste politische Ereignis war, das letztendlich auch zu einem Dilemma der Medien wurde.
Anhand ausgewählter Einzelfälle wurde überprüft, ob sich für Schlüsselwörter die Häufigkeiten und der Gebrauchskontext zwischen 1990 und 2001, aber auch im Hinblick auf den 9/11, verändert haben.
Es wird thematisiert, inwieweit die Korpuslinguistik zu Fragestellungen aus dem Grenzbereich Sprach- und Medienwissenschaft Methoden zur Verfügung stellen kann, ob es nicht teilweise zu wenig ist, sich auf Sprache zu konzentrieren, während weitere Codes zur Verfügung stehen wie z.B. Pressefotos.
Die Vor- und Nachteile der Korpuslinguistik werden diskutiert, hierzu zählt die Tatsache, dass ein Text zunächst zu einem bloßen Datensatz reduziert wird, um dennoch Werturteile zu treffen, aber auch dass übergroße und emotional belastende Textmengen teilweise nicht mehr von einem einzigen Menschen adäquat durchgearbeitet werden können.
Die folgende Flow-Chart lässt sich als verlässliche Orientierungsgrundlage verwenden:
Abbildung in dieser Leseprobe nicht enthalten
Abb.1: Flow-Chart Korpusanalyse
2. KAPITEL: Die Eigenschaften der Korpuslinguistik
In der Sprachwissenschaft verstehen wir unter einem Korpus eine Sammlung von geschriebenen Texten oder transkribierter Rede, die als Grundlage für eine Untersuchung mit Hilfe des Computers verwendet werden kann (Kennedy 1998, S.3 ff).
Die Elemente eines Korpus gehören in ihrer Gesamtheit bestimmten Kategorien an, die im Korpusdesign von vornherein festgelegt sind. Es handelt sich um eine mehr oder weniger zusammenhängende oder kohärente Textsammlung, wie beispielsweise ein Korpus bestehend aus Zeitungsartikeln zu einem bestimmten Thema. So kann eine Sammlung von Artikeln zu einem bestimmten politischen Ereignis ein Korpus ergeben, wie etwa Artikel ausschließlich über den Nürnberger Kriegsverbrecherprozess (Radlmaier 2001). Textkorpora könnten, was eine Kategorisierung im Bereich der Literatur oder Textlinguistik betrifft, gattungsspezifisch als maschinenlesbarer Text, Input-Text oder „recycelter Text“ bezeichnet werden. Es kommt ganz darauf an, wofür das Konstrukt verwendet werden soll. Es gibt vor allem in der Linguistik diverse Fragestellungen, bei denen Korpusanalysen heutzutage unumgänglich sind.
Grundsätzlich können Korpora auch andere Daten als Textdaten enthalten, wie z.B. Codes, Tagging- und Wortschatzinformationen etc.
2.1 Die Vorteile bei der Verwendung von Korpora
Im Rahmen dieser Arbeit verstehen wir unter einem Textkorpus einen maschinenlesbaren Text, der von einem Analyseprogramm auf die einzelnen Bestandteile hin untersucht werden kann. Sinnvollerweise ist es ein Text, der sehr groß ist und nicht von einer Person in kurzer Zeit effektiver bearbeitet werden kann.[1] Alle anderen Korpora mit nur wenig Textinhalt gelten deshalb als Probe- oder Testkorpora. Es wird weiter unterschieden in Sample Corpora, Monitorkorpora, Zeitungskorpora, Dialogstrukturenkorpora, Handbuchkorpora, Grammatikkorpora und Vergleichskorpora (Lehr 1996, S.63-69).
Korpora können nach Orten benannt sein, das sind zumeist die Erstellungsorte oder die Institute, die bei der Erstellung federführend agieren und kooperieren, wie etwa das Mannheimer Korpus 1 und 2, das Nijmwegen Korpus, das Lancaster-Oslo-Bergen Korpus etc. Ebenso existieren diverse Korpora, die nach Schriftstellern bzw. Philosophen benannt wurde, da darin ausschließlich deren Texte enthalten sind. So gibt es das Goethe Korpus, das Thomas-Mann-Korpus, das Marx-Korpus.
Ferner können Korpora nach ihren Designern benannt sein (Brown-Korpus), und es können untersuchte Zeitphasen als Namensgeber fungieren, z.B. das Wendekorpus, das die Berichterstattung unmittelbar vor und nach der deutschen Wiedervereinigung 1989 widerspiegelt (siehe Punkt 3.1).
Schließlich kann der Korpusbegriff von Wissensgebiet zu Wissensgebiet variieren. In der Geschichtswissenschaft ist es möglich, eine ganze Ideologie als Korpus zu bezeichnen. Im Zusammenhang mit der Sprache der Nationalsozialisten ist vom „Korpus des antijüdischen Denkens“ die Rede (Goldhagen 2000, S.107).
Heutzutage basieren große Grammatiken wie „A comprehensive Grammar of the English Language“ von Greenbaum und Quirk (2004) auf umfangreichen Korpusanalysen. Es sind gerade die systematischen Korpusanalysen, die in der Lage sind, vermutete Regularitäten einer Sprache aufzuzeigen, die die ausgewogene Erstellung von modernen Grammatiken erst ermöglichen (Chomsky 1995, S. 35).
Es gibt eine ganze Reihe von Analysen an Presse-Korpora, die ausgewählte Facetten von Zeitungssprache fokussieren (z.B. markers of attribution, Murphy 2005, ICAME-Journal 29, S.131-150). Verwiesen sei hier auch auf eine synchrone Korpusanalyse von deutschen und englischen Leitartikeln bezüglich der Verwendung von Konditionalität (Klein 1994, S.185 ff.).
Eine weitere interessante Analyse ist die Untersuchung von Westin und Geisler (2002, ICAME-Journal No. 26, S.133-152), die bei Editorials britischer Qualitätszeitungen während des 20. Jahrhunderts eine Zunahme der Argumentativität bei gleichzeitiger Abnahme der Narrativität festgestellt hat.
Ferner können an Printmedien synchrone Sprachanalysen durchgeführt werden, das ist der Fall, wenn unterschiedliche Zeitungen eines Erscheinungstages miteinander verglichen werden.
2.2 Die Korpuslinguistik in Analogie zu kognitiven Fähigkeiten
Noam Chomsky hebt hervor, dass bei uns Menschen gerade die Begrenztheit des Gedächtnisses, Zerstreutheit und Verwirrung, die Verschiebung der Absicht im Verlauf des Sprechens sehr typisch sind (Chomsky 1995, S. 18). Diese Eigenschaften hat ein Computer nicht. Der Computer muss sich auf die Funktionen des Analyseprogrammes beschränken. Ferner sind ihm Restriktionen durch das Textverarbeitungsprogramm und den im Rechner verwendeten Mikroprozessor auferlegt. Auch die durch eine Analyse gewonnenen Daten vermag der Computer nicht selbständig auszuwerten. Die Auswertung muss eine entsprechend geschulte Person durchführen. Die Software steuert lediglich die besagten Frequenzlisten, Textstatistiken und Konkordanzlisten bei, eine sinnvolle Analyse ist erst abgeschlossen, wenn eine Hypothese angenommen oder verworfen wurde. Eine solche Hypothese kann beispielsweise sein, dass in einem bestimmten Zeitraum der in Qualitätszeitungen verwendete Wortschatz geschrumpft ist. Der Computer ist bei der Korpusanalyse bloße Rechenmaschine, deren Vorteil darin besteht, besonders große Datenmengen zu analysieren, für deren Durchzählen ein einzelner Mensch u.U. Monate oder Jahre benötigt, ohne dabei die Zähl- und Rechenfehler zu berücksichtigen. Der Computer vollzieht dieses gefühlsneutral. Doch im Mittelpunkt steht immer der Mensch, der seine Arbeit an einem Korpus mit einer bestimmten Fragestellung verknüpft. Der Computer ist lediglich sein Werkzeug.
Gemäß der „Computermetapher“ wird von einigen Wissenschaftlern das menschliche Gehirn als biologische Maschine oder Computer aufgefasst, dessen Gedächtnis ein Riesenspeicher ist (Schmidt 1991, S.219). Umgekehrt lässt sich der Computer in seiner Funktion als Datenspeicher auch als ein systematisches Gedächtnis begreifen. Wenn wir diese Theorie logisch weiterführen, so ist das, was in der Psychologie als geistige Handlung bezeichnet wird (Galperin 1969, S. 249 ff.) nichts anderes, als ein vom Computer ausgeführter Rechenprozess. An anderer Stelle ist in der Psychologie vom selbständigen Planen und Ausführen von Konzepten als typisch menschlicher Eigenschaft die Rede (Vygotsky 1962, S. 82 ff.). Es lässt sich darüber streiten wie weit sich Computer dieser Eigenschaft schon angenähert haben.
Auf der anderen Seite behandelt laut Searle ein Computer eingegebene Daten immer nur syntaktisch, nicht aber semantisch (1990, Spektrum der Wissenschaft, S.40 ff.).
Die geistige Handlung beim Menschen, die dem Rechenprozess bei der Korpuslinguistik gleichgesetzt werden soll, ist unter anderem ein gewisses Sprachverständnis oder sprachliches Wissen, das in der Lage ist, Sprache zu kategorisieren, egal ob es sich um geschriebene Sprache (Zeitungstext, Krimi, Gesetzestext,...) oder gesprochene Sprache handelt (Slang, Dialekt, Fachjargon,...). Der Computer manipuliert letztendlich nur die Symbole. Das bietet jedoch keine Gewähr dafür, dass die Bedeutung der Symbole verstanden wird. Diesen Sachverhalt bezeichnet Searle als das „Chinesische Zimmer“ (Searle 1990, S. 40 ff.), ein Gedankenexperiment, bei dem ein Mensch in einem geschlossenen Raum Zettel mit Geschichten in chinesischer Notation zugestellt bekommt, die er ohne Kenntnisse der Fremdsprache bearbeiten soll.
Trotz der Theorie der Computermetapher sind die Unterschiede in den Funktionsweisen von menschlichem Gehirn und einem Computer offensichtlich (Rechengeschwindigkeit, soziales Gedächtnis, mechanistisches Handeln, materielle Basis, Form, etc.). Ohne Zweifel erhält ein Mensch durch diese neue Methodik einen ganz anderen Blickwinkel auf sprachliche Fragestellungen im Zusammenhang mit Soziologie, Psychologie und Politologie wie Legasthenie, Szenesprache, Analyse von Politikerreden, etc. Zusätzlich trägt die Korpuslinguistik zu einer Entwicklung der wissenschaftlichen Betrachtungsweise bei, und wir müssen Sorge tragen, dass deren Möglichkeiten nicht negativ ausgenutzt werden. Das gilt z.B. für die systematische Erforschung menschlicher Schwächen in Verkaufsgesprächen, korpusbasierte Lügendetektoren und Stigmatisierungen auf Grund von korpuslinguistischen Befunden.
Der Computer ist letztendlich nur ein Medium, auch wenn in einem ganz anderen Sinn als ein Buch oder eine Zeitung. Dass der Computer dem menschlichen Gehirn gleichkommt, ist nur eine Idealvorstellung. Während Computer in einigen Bereichen, was die Rechenleistung anbetrifft, den Menschen weit übertreffen, sind sie in anderen Bereichen unterlegen, gerade was hermeneutische Fragen anbetrifft. Der Rechner erstellt bei der Korpuslinguistik nur Textstatistiken, Kollokationen und Vergleichslisten, und dieses in relativ großem Umfang und in Sekundenschnelle. Doch letztendlich geht es um das Verstehen von Texten, und das Treffen von klaren Aussagen.
Ein Computer wird jedoch einen Text nie verstehen können, auch wenn er Daten liefert, die zum Verstehen beitragen können. Dennoch ist der Prozess bei der Korpuslinguistik dem geistigen Handeln des menschlichen Gehirns nachempfunden, denn sie zählt, kategorisiert, sortiert, listet auf, ordnet und errechnet mathematische Werte, dies auf der Basis geistiger Grundoperationen, die der Logik und der Mathematik entlehnt sind. Das geistige Repertoire des Gehirns liefert den Grundstock für das, was die Programmierer dem Rechner beibringen wollen. Doch anders als beim Menschen stehen beim Computer nicht Körper und Gehirn in Einklang, was die physische Grundvoraussetzung für sinnvolle Lernprozesse ist.
Der Mensch kann mit ausreichend Hintergrundwissen sofort kategorisieren, ob es sich um amerikanisches Englisch handelt, ein Fachgespräch von Computerfreaks oder um eine Kirchenpredigt. Der Computer hingegen kann Wort- und Keynesslisten erstellen, die bei richtiger Auswertung zu demselben Ergebnis führen können.
Ein sehr gravierender Unterschied zu Gunsten des Computers ist die Datenmenge, die es zu kategorisieren gilt. Die von einem Menschen vorgenommene Kategorisierung geschieht durch Verstand und Beurteilung. Dabei wird das im Gedächtnis verankerte Kontextwissen zu Rate gezogen. Ein Mensch kann lediglich Stichproben nehmen, wenn er große Text- oder Literaturmengen untersucht, es sei denn, dass er ein Textmedium über Jahre nutzt wie den allmorgendlichen „Tagesspiegel“ oder den Lieblingsautor Stephen King. Wenn der Rezipient diese Textmengen beurteilt, fällt er andere Schlüsse als ein Computer, erkennt, die Zeitung ist konservativ geworden oder ein Krimi-Autor langatmig.
Der Computer kann nur den Weg über eine lexikalische Analyse gehen und Sprach- oder Textmuster vergleichen, wenn durch ihn Texte kategorisiert werden sollen. Nur wenn für den Texttyp Kirchenpredigt auch ein Textmuster oder eine Wortliste für Kirchenpredigten als Vergleichswert bereitsteht, so kann der Computer das Urteil fällen, ob es sich bei dem Input-Text tatsächlich um diese Textform handelt oder nicht, sofern er dafür programmiert ist (siehe 3.6).
Das menschliche Gedächtnis ist durch seine Lernfähigkeit flexibel, der Computer muss immer jeweils neu programmiert werden, ist also vom Programmierer oder der intelligenten Software abhängig. Ein Mensch kann vergessen, ein Computer auf der anderen Seite nicht. Bei ihm spielen andere mehr oder weniger folgenreiche Einflüsse eine Rolle wie Viren oder Computerabstürze.
Bei der Computermetapher kann man jedoch einwenden, dass diese Theorie zu mechanistisch ist, dass es zu bracchial ist, das Gehirn und den menschlichen Geist mit einem Computer gleichzusetzen und alle anderen nur dem Menschen vorbehaltenen Domänen einfach zu ignorieren. Die vom Menschen kategorisierten Daten liegen nicht explizit in einer Datei gespeichert vor, sondern unterliegen den Schwächen des menschlichen Geistes wie Irrtümern, Missverständnissen, Täuschungen und Aberglaube. Der Computer ist hingegen rational-exakt, nicht aber kritisch.
Auch in der Psychologie ist vom Gedächtnis als Speicher die Rede. Es wird sogar noch weiter differenziert in gesellschaftlichen und (ontogenetischen) individuellen Speicher und (phylogenetisches) „Artgedächtnis“ (Holzkamp 1985, S.128). Ein Mensch kann durch das Erinnern, Assoziieren und Transferieren auf diesen Speicher zurückgreifen. In der Korpuslinguistik wäre das verwendete Korpus als Speicher zu begreifen, im Kontext dieser Dissertation als Speicher von 10 219 Zeitungsartikeln. Doch der Zugriff läuft nicht über Gedächtnismuster wie beim Menschen (Schmidt 1991, S.22), sondern über die Suchfunktion und die Konkordanzlisten.
Wie diese Dissertation zeigt, ist die Analysesoftware in der Lage, die Textkorpora als Speicherinhalt statistisch zu „durchpflügen“. Bei den Menschen hingegen haftet eher die Qualität als die Quantität, aber auch die Art und Weise und die Relevanz. Für den Rechner zählt ausschließlich die Quantität, was die Auszähllisten anbelangt. Die anderen drei Grice’schen Maximen Qualität, Art und Weise, Relevanz (Grice 1991, S.26 ff.) bleiben ihm in der uns bekannten Form verschlossen.
Das Gedächtnis des menschlichen Gehirns als emotions- und situationsabhängiger Speicher ist sehr umfassend: haptisches, Namens-, visuelles, akustisches, episodisches Textgedächtnis, etc. (Vester 1976, S.153/54, Kintsch und van Dijk 1983). Es ist damit in der Natur ein einzigartiges Konstrukt, das nicht annähernd in seiner Harmonie von der Technik nachgebildet werden kann. Die Komplexität des menschlichen Gedächtnisses ist adäquat durch das Modell von Atkinson und Shiffrin beschrieben (Baddeley 2003, S.44). Hier gibt es eine Unterteilung in Sensory Register, Short-term Store und Long-term Store. Auf Computer lassen sich diese Feinheiten nicht wirklich übertragen.
Es müssen also stets beide Seiten betrachtet werden: die Korpuslinguistik vermag auf der einen Seite Leistungen zu vollbringen, zu denen ein Mensch nicht ohne beträchtlichen Aufwand in der Lage ist. Auf der anderen Seite entbehrt die Korpuslinguistik der mühsam erlernten Verstehensleistung des menschlichen Verstandes.
3. KAPITEL: Korpuslinguistik als Sprachanalysemethode
Als Einstieg in dieses dritte Kapitel dient ein Beispiel für eine populäre Korpusanalyse in Deutschland. Es handelt sich dabei um das so genannte Wendekorpus. Die Korpuslinguistik wird ferner mit der klassischen Kommunikationstheorie umrissen und die Textualitätskriterien werden auf sie angewendet. Auch die medienspezifischen Charakteristika einer Zeitung, Wahrheitswerte und die zunehmende Erweiterung des Computerwortschatzes sind Bestandteil dieses Kapitels. Wir lernen die Korpuslinguistik als Sprachanalysemethode kennen und den Begriff des sprachlichen Registers.
[...]
[1] Korpora können durchaus eine enorme Größe erlangen, das ist der Fall, wenn eine ganze Sprache in einem Korpus erfasst werden soll. Dieses kann sinnvoll sein, wenn wir eine Sprache als Ganzes analysieren wollen, um hinter ihre Gesetzmäßigkeiten zu gelangen. Ein solches Korpus ist beispielsweise das "British National Corpus (BNC)", das aus etwa 100 Mio. Wörtern besteht (Kennedy 1998, S.12). Letztendlich stellt ein Wörterbuch auch ein Korpus dar, ob es nun als Buch, als CD-Rom oder als Datensatz im Internet vorliegt. Wörterbücher werden heutzutage zumeist durch Korpusanalysen erstellt. Das Longman Dictionary of Contemporary English beispielsweise versieht wichtige Wörter im laufenden Text mit kleinen Statistiken, die mit Prozentzahlen über unterschiedliche Bedeutungen und Verwendungen Aufschluss geben, die auf dem BNC und dem Longman Lancaster Corpus basieren.
-
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen.