Name: Linguistische Aspekte eines automatischen Verfahrens zum Erstellen eines Pressespiegels
Price: 0.99 EUR
Availability: InStock
Author: Matthias Wagner
ISBN: 978-3-640-06489-2

Leseprobe

Inhaltsverzeichnis

1. Einleitung

2. Zweite Gutenbergsche Revolution

3. Presseauswertung bei politischen Parteien
3.1 Der Pressespiegel
3.2 Kriterien der Presseauswertung

4. Vom Lektorat zum „Lesesklaven”
4.1 Probleme der intellektuellen Presseauswertung
4.2 Skizze eines automatischen Verfahrens zur Presseauswertung

5. Automatische Klassifikation
5.1 Information Retrieval
5.2 Distanzmaß zwischen Texten
5.3 Clustering und Kategorisierung

6. Mustererkennung „Akteur-Phrase“
6.1 Grundstruktur der Interpretation natürlicher Sprache
6.2 Informationsextraktion
6.3 Begriffsklärung „Akteur-Phrase“
6.4 Das Korpus
6.4.1 Zusammenstellung des Datenmaterials
6.4.2 Lemmatisieren des Korpus
6.5 Verfahrensentwicklung
6.5.1 Worttypen in Akteur-Phrasen
6.5.2 Typische Musterabfolge
6.5.3 Erkennung typischer Musterabfolgen
6.5.4 Geographische Eigennamen
6.6 Bewertung des entwickelten Modells

7. Schlußbetrachtung

8. Literatur- und Quellenverzeichnis

9. Anhang

CD-ROM zur Magisterarbeit kann beim Autor angefordert werden

1. Einleitung

Die Reise zu fernen Planeten ist lang. Dr. David Bowman, Leiter einer Mis- sion zum Jupiter, joggt in einer künstlichen Schwerkraft durch das Raum- schiff oder vertreibt sich die Zeit, indem er die anderen Besatzungsmitglieder zeichnet. Als er jetzt an der Kommandozentrale vorbei geht, begrüßt ihn eine freundliche, angenehme Stimme: „Guten Abend Dave.“ Es ist der HAL 9000 Computer, ein vollkommenes Elektronenhirn, dem viel Verantwortung bei dieser Mission übertragen wurde. Da ist es beruhigend, wenn HAL erklärt:

„Alles läuft nach Wunsch.“

Wer hat sich nicht irgendwann einmal einen solchen Rechner gewünscht? Der Regisseur Stanley Kubrick zeigt in seinem Science-fiction-Klassiker

„2001: Odyssee im Weltraum“ einen Computer, der nicht nur in der Lage ist, mühelos auch feinste Nuancen natürlicher Sprache zu verstehen, HAL kann sogar ohne einen Ton zu hören von den Lippenbewegungen auf den Inhalt eines Gesprächs schließen. Und er antwortet mit einer Stimme, die sich kein bißchen computergeneriert anhört. Endlich müssen keine kompliziert ge- schriebenen Anwender-Handbücher mehr gelesen werden, endlich muß die Bedienung von Programmen nicht mehr mühsam erlernt werden. Ein neues Zeitalter der Mensch-Maschine-Kommunikation. Der Anwender erklärt dem Computer z.B. wie eine bestimmte Graphik aussehen soll, die an einer Stelle im Text einzubauen ist. Der Computer macht einige Verbesserungsvor- schläge, diskutiert über den Sinn dieser oder jener Linie und druckt schließ- lich die fertige Graphik aus.

Zukunftsmusik? Es ist nicht nur Zukunftsmusik, sondern es ist letztlich un- möglich. Mit dem sogenannten Chinese Room Argument erklärte John R. Searle Anfang der achtziger Jahre das Ansinnen der KI-Forschung für un- möglich, eine Maschine zu bauen, die wie ein Mensch denkt, sich wie ein Mensch verhält^[1]:

„Man stelle sich vor, ich bin in einem Zimmer mit einer Menge chinesischer Zeichen (dem Datensatz) eingesperrt, ich habe ein Buch mit Regeln zur Mani- pulation dieser Zeichen (das Programm), und chinesische Zeichen werden durch einen Schlitz in das Zimmer gesteckt. Ich schaue im Buch nach, was ich mit diesen Zeichen machen soll, und gebe auch wieder Zeichen nach draußen. Nur: Ich weiß nicht, dass das, was reinkommt, Fragen und das, was ich raus- gebe, Antworten sind. Wenn die Programmierer ihren Job gut gemacht haben und ich die Manipulation der Zeichen auch richtig hinkriege, dann sind meine Anworten richtig: Sie sehen so aus, als wären sie von einem echten Chinesen. Und doch verstehe ich kein Wort Chinesisch. Der entscheidende Punkt ist, dass allein die Einpflanzung eines Programms noch längst kein Verständnis garan- tiert.“^[2]

Auch Winograd macht deutlich: „computers cannot understand language“^[3]. Dennoch, und dies wird auch durch das Chinese Room Argument nicht aus- geschlossen, können spezielle Computerprogramme mit durchaus nützlichen Antworten auf eine Benutzerfrage reagieren.^[4]

Besonders gewinnbringend könnten spracherkennende Computersysteme im Bereich des Information Retrieval eingesetzt werden, womit Programme ge- meint sind, die auf gezielte Fragen von Anwendern die entsprechenden In- formationen bereitstellen^[5], wie beispielsweise Internet-Suchmaschinen.

Mit dem kontinuierlich größer werdenden world wide web, mit immer mehr Zeitungen und Zeitschriften, mit der stetigen Weiterentwicklung moderner Kommunikationstechnik, prägten die neunziger Jahre das Schlagwort von der

„Informationsflut“. Ein ambivalenter Begriff, denn einerseits sind Informa- tionen im „Informationszeitalter“ zum Handelsgut geworden, doch genauso wie Wasser zwar Lebensgrundlage ist, aber auch zur Lebens bedrohenden Sintflut werden kann, können große Informationsmengen andererseits zum Problem werden, wenn der Rechercheur nicht mehr weiß, wo und wie er su- chen soll.

„Ein bedeutender Anteil der entscheidungsrelevanten Informationen liegt in Organisationen – in privatwirtschaftlichen Unternehmen, in Verbänden und auch in der öffentlichen Verwaltung – aufgezeichnet in unstrukturierten Do- kumenten vor, hauptsächlich in der Form von Texten. Schätzungen gehen von einem Anteil von rund 80% unstrukturierter Information in Unternehmen aus.

Das Management dieser Form der Information stellt alle Organisationen vor zunehmend grösser werdende Probleme.“^[6]

Zahlreiche Sofware-Hersteller^[7] sind bemüht, Programme zu entwickeln, mit denen Unternehmen rasch auf das stille Wissen ihrer Server zugreifen kön- nen, um so alle Informationen zu erhalten, die nötig sind um eine Entschei- dung zu treffen. Doch auch der Werbeslogan „the fastest way to turn data into decisions!“, mit dem Inxight für seine Produkte wirbt, kann nicht dar- über hinwegtäuschen, daß alle Versuche, der Informationsflut Herr zu wer- den, bisher kaum Erfolg hatten.

Die vorliegende Arbeit möchte an einem konkreten Beispiel den Problemen bei der automatischen Spracherkennung und Inhaltserschließung von Texten nachgehen. Es kann dabei nicht Ziel sein, die Intentionen von Texten zu er- mitteln – dies muß man womöglich HAL überlassen. Vielmehr sollen die Texte bzw. Propositionen eines Satzes, basierend auf der sprachlichen Ober- fläche, bestimmten Kategorien zugeordnet werden. Die vorliegende Arbeit wird die beiden generell möglichen Herangehensweisen an die Problematik der automatischen Erschließung von Texten nebeneinander stellen. Statisti- sche Verfahren haben in den vergangenen Jahren durch immer leistungsfähi- gere Rechner an Bedeutung gewonnen. Diese Verfahren nutzen in der Regel kaum linguistisches Know-how, obgleich linguistische Konzepte, wie sich zei- gen wird, gewinnbringend eingesetzt werden können. Generell sind statisti- sche Verfahren eher der Informatik zuzurechnen, daher soll lediglich das Grundprinzip der automatischen Klassifikation als einem statistischen Ver- fahren erläutert und die Einsatzmöglichkeiten linguistischer Analysen in die- sem Bereich diskutiert werden. Der Schwerpunkt der vorliegenden Arbeit liegt bei symbolverarbeitenden Verfahren, die sich insbesondere auf die Kon- zepte der Valenztheorie und der Dependenzgrammatik stützen. Auf der Basis der Mustererkennung wird im sechsten Kapitel ein solches Verfahren erör- tert und konzipiert werden.

Die Nachrichtenmedien bieten eine täglich neue, kaum zu überblickende Fülle von Informationen, Neuigkeiten und Analysen aus den Bereichen Politik, Wirtschaft und Forschung, sie berichten aber auch über gesellschaftspoliti- sche, kulturelle oder sportliche Ereignisse. Für viele Organisationen stellen die Nachrichtenmedien eine wichtige Informationsressource dar. Um sich über diese Ressource einen Überblick zu verschaffen, haben zahlreiche Un- ternehmen Lektorate eingerichtet, die den Blätterwald durchforsten und rele- vante Pressetexte nach bestimmten Kriterien zu einem sogenannten Presse- spiegel zusammenstellen. Dabei variieren die Kriterien nach denen Artikel für den Pressespiegel ausgewählt werden. Die Zielsetzung eines Pharma- unternehmens bei der Presseauswertung ist eine andere als etwa bei einer Baubehörde oder einer politischen Partei.

Daher war es für die vorliegende Arbeit nötig, sich auf einen konkreten An- wendungsbereich festzulegen und den „automatischen Pressespiegel“ auf der Grundlage eines bestimmten Auswertungskatalogs aufzubauen. Aus zwei Gründen wird sich das hier vorgeschlagene Modell an den Kriterien der Presseauswertung bei politischen Parteien orientieren. Zum einen ist kaum ein Organisationstyp so sehr auf die Nachrichtenmedien angewiesen wie Par- teien, was ausführlich in Kapitel „3. Presseauswertung bei politischen Par- teien“ erörtert wird. Zum anderen war der Autor im Rahmen eines Prakti- kums bei der Landesleitung der CSU sowie dem Bundesvorstand der SPD mit der Presseauswertung und Zusammenstellung des Pressespiegels betraut und kann so konkrete Erfahrung in die Arbeit einfließen lassen. Diese Erfah- rungen spiegelt insbesondere das Kapitel „4.1 Probleme der intellektuellen Presseauswertung“ wider.

Im Kapitel „4.2 Skizze eines automatischen Verfahrens zur Presseauswer- tung“ wird schließlich das Konzept eines automatischen Verfahrens vorge- schlagen, dessen wesentlicher Unterschied zum bisher üblichen Pressespiegel darin besteht, daß nicht ein Lektorat bestimmte Artikel im Vorfeld als be- deutsam auswählt, sondern dem Endnutzer alle Pressetexte angeboten wer- den. Mit dem hier vorgeschlagenen Modell eines Pressespiegels soll ihm

gleichzeitig ein Werkzeug in die Hand gegeben werden, mit dessen Hilfe er sich rasch in der kaum zu überblickenden Menge an Zeitungsartikeln orien- tieren kann, um die Artikel auszuwählen, die für ihn relevant sind.

Im fünften Kapitel werden zunächst einige zentrale Aspekte des Information Retrieval erläutert. Dabei steht die Frage im Mittelpunkt, wie bei diesem Ver- fahren ein Wortindex erstellt wird, den beispielsweise eine Internet-Suchma- schine nutzt, um Seiten im world wide web anzugeben, auf denen ein be- stimmter Suchbegriff nachgewiesen werden kann. Darauf aufbauend wird ein Konzept erklärt, das auf der Grundlage statistischer Auswertung die inhaltli- che Nähe von Texten berechnet. Dieses, als automatische Klassifikation be- zeichnete Verfahren, kann genutzt werden, um Zeitungsartikel einer Taxo- nomie – mit Oberbegriffen wie beispielsweise Wirtschaftspolitik, Gesund- heitspolitik oder Umweltpolitik – zuzuordnen. Die automatische Klassifika- tion soll allerdings nur theoretisch in das hier vorgeschlagene Modell eines

„automatischen Pressespiegels“ integriert werden, da eine praktische Umset- zung eher Fragen der Informatik und weniger der Linguistik berührt.

Im Kapitel „6. Mustererkennung ‚Akteur-Phrase‘” wird schließlich auf der Grundlage der sogenannten Mustererkennung ein Verfahren entwickelt, das solche Propositionen in einem Satz ermittelt, die sich auf Personen beziehen, wie beispielsweise „Bundeskanzler Schröder“. Im Gegensatz zur automati- schen Klassifikation, die ein gängiges Verfahren zur Klassifizierung von Tex- ten darstellt und bei der auf bestehende Konzepte zurückgriffen werden kann, stehen für die Mustererkennung „Akteur-Phrase“ solche Konzepte nicht zur Verfügung. Daher muß ein eigenes Regelsystem aufgestellt werden. Die- ses Regelsystem wird auf der Grundlage von 100 zufällig ausgewählten Zei- tungsüberschriften entwickelt. Warum für die Mustererkennung nicht der ge- samte Artikel, sondern nur seine Überschrift herangezogen wird, erläutert das Kapitel „6.4 Das Korpus“. Schließlich soll das so entwickelte Verfahren zur Isolierung von Propositionen, die sich auf Personen beziehen, auf seine Zuverlässigkeit hin geprüft werden. Es soll ermittelt werden, inwiefern das Regelsystem tatsächlich in der Lage ist, Akteursbezeichnungen zu isolieren.

Dazu werden zunächst alle Akteure, die in einem rund 1.000 Datensätze um- fassenden Korpus genannt werden, intellektuell ermittelt. Sodann wird im Rahmen des Programms FileMaker^[8] und auf der Grundlage einer Makro- Sprache^[9] ein Computertool entwickelt, das entsprechend dem hier entwickel- ten Verfahren Akteur-Phrasen in Sätzen isoliert. Im Kapitel „6.6 Bewertung des entwickelten Modells“ werden die Ergebnisse der intellektuellen Auswer- tung des Korpus mit denen der automatischen Auswertung verglichen. Die Ergebnisse des Vergleichs zeigen die Möglichkeiten einer automatischen Er- schließung natürlicher Sprache, machen aber auch die Grenzen solcher Ver- fahren deutlich.

Zunächst soll jedoch die eingangs genannte Problematik der Informationsflut ausführlicher diskutiert und Wege beschrieben werden, mit der dieser Pro- blematik entgegen gewirkt werden kann.

2. Zweite Gutenbergsche Revolution

Wer sich im Internet auf die Suche nach bestimmten Inhalten macht, dem wird schnell klar, daß dies kein trivialer Vorgang ist. Ein häufig genutzter Weg, Informationen zu einem bestimmten Themenbereich zu finden, ist der, über www-Suchmaschinen. Doch eine Suchanfrage – beispielsweise bei google.de^[10] – führt nicht selten zu 2000 oder mehr Internetseiten, auf denen das gesuchte Stichwort genannt wird. Meist sind es nur wenige Links, die zu tatsächlich relevanten Informationen führen. Wenn das Eingrenzen der Tref- fermenge nicht durch weitere Stichwörter möglich ist, die durch Boolesche Operationen verknüpft werden, lassen sich die relevanten Information nur durch das systematische Durchsehen aller angebotenen Links erschließen – ein zeitaufwendiges Unterfangen, ohne Garantie auf Erfolg.

Einerseits ermöglichen es die Entwicklungen im Bereich der Computertech- nologie, große Datenmengen auf immer kleinerem Raum zu speichern, und Computernetze bieten einen Zugriff auf viele dieser Informationsquellen, an- dererseits ist es immer aufwendiger, diese Informationen nutzbar zu machen: in zwei Textdokumenten nach bestimmten Informationen zu suchen, ist we- niger kompliziert, als in 2000 Dokumenten. Und die Informationsmenge, auf die digital zugegriffen werden kann, steigt weiter. Bücher, die bisher nur als hard copy, d.h. in materieller Form, vorlagen, werden digitalisiert, Bibliothe- ken, deren Bestand bislang auf Karteikarten verzeichnet war, bieten den Le- sern Recherchemöglichkeiten am Computer. Während alte Textdokumente, die auf Papier bzw. Mikrofilm fixiert waren, für den Computer nutzbar ge- macht werden, entstehen permanent neue Texte, die ohne besonderen techni- schen Aufwand im Internet veröffentlicht werden können. Der frei zugängli- che Teil des Internets wurde Anfang 2001 auf mehr als 1 Mrd. Seiten ge- schätzt. Würden die indirekt zugänglichen Internetseiten, die z.B. nur über Benutzer-Login zu erreichen sind, hinzugerechnet, „so ist das Datenvolumen bestimmt zehnmal so groß.“^[11]

„Mit der rasanten Verbreitung des Internet tritt das Problem der Informa- tionsüberflutung immer stärker in den Vordergrund: Je mehr Texte on-line zur Verfügung stehen, desto schwieriger wird es, das Informationspotenzial gezielt zu nutzen, d.h. relevante Informationen zu finden, zu extrahieren und in kom- pakter Form zu repräsentieren.“ ^[12]

Möglichkeiten zu entwickeln, die eine zuverlässige Datenrecherche erlauben, stellen eine so große Herausforderung dar, daß gar von einer zweiten Guten- bergschen Revolution gesprochen wird^[13]. Johannes Gutenberg schuf mit sei- nen beweglichen Lettern die Grundlage für den Buchdruck in Europa und förderte so die Verbreitung von Texten und also auch von Informationen. Bücher waren nun nicht mehr Unikate, deren Seiten in mühsamer Arbeit durch Abschrift vom Original gefüllt wurden, sondern konnten in größerer Stückzahl hergestellt werden. Was mit dem Druckstock Gutenbergs – ver- mutlich von den Weinpressen seiner Zeit inspiriert^[14] – begann, fand mit der Etablierung des Internets am Ende des 20. Jahrhunderts einen vorläufigen Höhepunkt. Während das Problem der Publizität zu Gutenbergs Zeiten darin bestand, größeren Kreisen den Zugang zu Büchern zu ermöglichen, ist der Zugang zu Medieninhalten heute durch die Fülle des Angebots verstellt. Eine zweite Gutenbergsche Revolution im 21. Jahrhundert müßte das Ziel haben,

„den Zugriff auf gewünschte Informationen mit technologischen und lingui- stischen Hilfsmitteln so zu erleichtern, daß riesige Textmengen am Computer schnell, bequem und präzise auf ihren Inhalt untersucht werden können“^[15].

Computertechnische Prozesse „zur Extraktion von gültiger, bislang unbe- kannter und verständlicher Information aus großen Datenbanken“^[16], werden unter dem Begriff Data-Mining subsumiert:

„So wie ein Minenarbeiter im Bergwerk nach verborgenen Schätzen sucht, so werden beim Data-Mining aus dem Datenwust verborgene Informationen ans Tageslicht befördert.“^[17]

Diese Definition erweckt den Anschein, als würden beim Data-Mining Inhalte erschlossen. Tatsächlich sind bisher entwickelte Rechercheinstrumente nicht in der Lage, semantische Analysen durchzuführen. Ganz im Gegenteil: die meisten Rechercheinstrumente besitzen kaum sprachliche Intelligenz.^[18] Wör- ter werden von den Programmen als zufällige Zeichenfolge zwischen Leerzei- chen gesehen und sind nicht als lexikalische Einheiten definiert. Die Konse- quenzen sollen an einem Beispiel verdeutlicht werden. Ein Lotto-Gewinner, der seinen Millionen-Treffer anlegen möchte und daher bei Google das Such- wort „Bank“ eingibt, um ein geeignetes Kreditinstitut zu finden, wird zwar auf Internetseiten hingewiesen, die sich mit einer „Bank im Park“ befassen, nicht jedoch auf Seiten, bei denen lediglich der Begriff „Sparkasse“ oder

„Kreditinstitut“ nachgewiesen werden kann. Während es für das von Google verwendete Programm keinen Unterschied macht, ob es die Zeichenfolge b-a- n-k in „Parkbank“ oder „Commerzbank“ nachweist, werden bedeutungsähnli- che Begriffe nicht gefunden.

Morphologische Analysen sind ein Ansatz den Anteil tatsächlich relevanter Links im Suchergebnis zu erhöhen. Bei der Recherche sollte demnach nicht nur die eingegebene Wortform des Suchbegriffs berücksichtigt werden, son- dern ebenso die Flexionsformen des Wortes. Auch sollten bei der Suche in Datenbanken orthographische Varianten eines Wortes berücksichtigt werden, so daß ein „Tele ph on“ genauso behandelt wird wie ein „Tele f on“. Die Zuver- lässigkeit von Suchmaschinen wird außerdem durch syntaktische Analysen erhöht. Solche Analysen sind beispielsweise dann nötig, wenn die Nominal- phrase „Berliner Umweltministerium“ in dem Satz „Berliner und Stuttgarter Umweltministerium kritisieren Betreiber“ gefunden werden soll.

Die hier nur kurz angesprochenen Beispiele sollen in den Kapiteln „5. Auto- matische Klassifikation“ und „6.1 Grundstruktur der Interpretation natürli- cher Sprache“ vertieft werden. Dennoch wird bereits an dieser Stelle deut- lich, wie fruchtbar linguistische Ansätze im Bereich des Data-Mining sein können, auch wenn bisher keine erschöpfenden Lösungen realisiert wurden.

„Bei der Vielfalt und der Komplexität der Probleme, die die natürliche Sprache stellt, sind perfekte Lösungen entweder unverhältnismäßig aufwendig oder ge- genwärtig gar nicht erreichbar. Es werden deshalb pragmatische Lösungen an- gestrebt, die in einem Umfeld, in dem es 100-protzentige Lösungen sowieso nicht gibt (das ideale Rechercheergebnis ist in der Praxis als Ziel nur Illusion), für den Zweck ausreichend erscheinen.“^[19]

Tatsächlich gibt es eine kontrovers geführte Diskussion um den Einsatz von linguistischen Verfahren im Bereich des Data-Mining, die immer wieder als zu aufwendig abgelehnt werden^[20], auch wenn Projekte gezeigt haben, daß lin- guistische Komponenten mit großem Gewinn eingesetzt werden können^[21]. Jüngste Entwicklungen deuten allerdings darauf hin, daß die interdisziplinäre Zusammenarbeit zwischen Linguistik und angewandter Informatik wieder an Bedeutung gewinnt. Dies zeigen insbesondere die in 2001 bzw. 2000 veröf- fentlichten Handbücher Klabunde [u.a.]: „Computerlinguistik und Sprach- technologie“ und Hausser: „Grundlagen der Computerlinguistik“ mit denen zum ersten Mal im deutschsprachigen Raum umfassend in die junge Disziplin eingeführt wird.

Die Computerlinguistik befaßt sich mit der Nachbildung natürlicher Informa- tionsübertragung, in dem die Sprachproduktion des Sprechers und die Sprachinterpretation des Hörers auf geeigneten Computern modelliert wird^[22]. Die Geschichte dieser Disziplin kann auf Shannon und Weaver^[23] zu- rückgeführt werden, die sich zum ersten Mal kommunikationstheoretisch mit der Schnittstelle zwischen Mensch und Maschine befassten. Die bald domi- nierende Rolle der Transformationsgrammatik – auch im Bereich der auto- matischen Sprachverarbeitung – führte zu einer „stärkeren Aufspaltung in stochastische Verfahren einerseits und symbolische Ansätze andererseits”^[24]. Die symbolische Sprachverarbeitung, die sich insbesondere auf die Arbeiten von Chomsky stützte, war lange Zeit die dominierendere Forschungsrichtung. Dies hatte auch damit zu tun, daß die Computertechnologie zum damaligen Zeitpunkt kaum in der Lage war, die großen Datenmengen zu verarbeiten, die für eine statistische Auswertung nötig sind. Dagegen ließen sich symboli- sche Verfahren anhand stark vereinfachter Modelle demonstrieren, „wobei sich die eigentlichen Schwierigkeiten dann natürlich bei der Verallgemeine- rung auf größere Sprachausschnitte einstellen”^[25]. Die Entwicklung von Com- putern mit höherer Rechenleistung, aber auch neue Erkenntnisse im Bereich der empirischen Methodik, führten Ende der achtziger Jahre zu einer Re- naissance der statistischen Sprachverarbeitung.^[26]

Die vorliegende Arbeit soll beide Ansätze, dem momentanen Trend in der Computerlinguistik entsprechend, in Bezug zueinander setzen. Das Kapitel

„5. Automatische Klassifikation“ wird sich mit einem statistischen Verfahren beschäftigen und im Kapitel „6. Mustererkennung ‚Akteur-Phrase‘” soll ein eher symbolverarbeitendes Modell erörtert werden.

3. Presseauswertung bei politischen Parteien

Die Medienauswertung und –dokumentation ist insbesondere für Vereinigun- gen des intermediären Bereichs von hohem Stellenwert. Neben Parteien oder Gewerkschaften, zählen all jene Organisationen zu diesem Bereich, die eine vermittelnde Rolle zwischen Staat und Bevölkerung einnehmen. Dafür sind zwei Gründe zu nennen: Die Nachrichtenmedien stellen eine wichtige Infor- mationsressource dar, und sie sind der bedeutsamste unidirektionale^[27] Kom- munikationskanal zwischen Politiker und Bevölkerung.

Daß Nachrichtenmedien in erster Linie eine Informationsquelle darstellen ist evident. Wenn beispielsweise die SPD neue Konzepte zur Bekämpfung der Arbeitslosigkeit entwickelt hat, so werden diese gewöhnlich im Rahmen einer Pressekonferenz oder Pressemitteilung präsentiert, und die Nachrichtenme- dien berichten darüber, wobei auch die Reaktionen der Wirtschaft und der Gewerkschaften berücksichtigt werden sowie Experten-Meinungen. Diese Be- richterstattung ist nicht nur für die Wahlentscheidung der Bevölkerung wich- tig, sondern auch für die CDU von größerer Bedeutung. Sie kann auf der Grundlage dieser Informationen Verbesserungen an eigenen Konzepten vor- nehmen und ihre Reaktion auf angekündigte Maßnahmen der SPD planen.

Natürlich sehen Parteien die Zeitung nicht nur als ein Mittel der soge- nannten Gegnerbeobachtung. Die Nachrichtenmedien sind allgemein gespro- chen ein Umweltbeobachtungssystem, welches „auf gesellschaftliche Problem- lagen und Konflikte aufmerksam macht“^[28]. Damit sind sie auch Informations- ressource für eine der zentralen Aufgaben politischer Parteien, der Aggrega- tion von Interessen. Sie eruieren die Interessen der Bevölkerung und fassen diese zu einem gesamtgesellschaftlichen Politikprogramm zusammen. Sicher- lich ist die Interessenaggregation ein vielschichtiger Prozeß, der sich nicht auf die Zeitungslektüre allein stützen kann und auf der Verwurzelung der Partei in der Gesellschaft basiert. Dennoch kann die Themenstruktur der Nachrichtenmedien auf bestimmte Interessenlagen aufmerksam machen. Dazu werde die von den Nachrichtenmedien behandelten Themen in eine Rangfolge gebracht, in der das am umfangreichsten behandelte Thema an er- ster Stelle steht. Im folgenden wird diese Themenrangfolge als Medienagenda bezeichnet.^[29] Zwar ist der Einfluß der Medien auf die Meinungen der Bevöl- kerung umstritten – „Bestimmen die wichtigen Themen die Medienberichter- stattung, oder bestimmen Medien die Themen?“^[30] –, dennoch läßt sich eine Korrelation zwischen Meinungsmehrheiten und Berichterstattung feststellen. Ohne näher auf die Frage eingehen zu müssen, wer nun wen beeinflußt, kann die Berichterstattung als Indikator für die von der Bevölkerung beson- ders wichtig erachteten Themen angesehen werden – ein sehr viel kosten- günstigerer Indikator, als teure Meinungsumfragen.

Nachrichtenmedien sind jedoch nicht nur Informationsressource. Die Auf- merksamkeit, die sie durch die Politik erfahren, resultiert auch aus der Be- deutung als Medium im kommunikationstheoretischen Sinne. Seit Mitte des

20. Jahrhunderts begannen die Nachrichtenmedien, auch aufgrund der tech- nischen Entwicklung, eine zunehmend wichtigere Rolle als Kommunikations- kanal zwischen politisch-administrativem Bereich^[31], den Organisationen des intermediären Bereichs und den Wählern zu spielen. Für den interessierten Bürger wurde es einfacher, sich über Vorgänge in der Politik zu informieren, und die Parteivorstände waren nun in der Lage, ihren Wähler direkter anzu- sprechen, anstatt einen Kommunikationsweg über Parteimitglieder und Un- terstützer zu suchen^[32]. Mair beschreibt vor diesem Hintergrund Parteien als

„competing brokers between civil society and state“^[33], und weiter heißt es:

„…, with the development of the mass media, party leaders began to enjoy a capacity to appeal to the electorate at large, an electorate made up of voters who were learning to behave more like consumers than active participants.“^[34]

„Allerdings entzieht sich die Kommunikation über Massenmedien in einem er- heblichen Ausmaß der Kontrolle der politischen Parteien, weil der Inhalt der Medienbotschaft primär durch medien-inhärente Kriterien der Nachrichtense- lektion bestimmt wird.“^[35]

In zweierlei Hinsicht kommt dies zum Ausdruck. Zum einen in der Art und Weise, in der über bestimmte Inhalte berichtet wird, d.h., wenn beispiels- weise eine Partei eine Pressemitteilung verschickt, wird diese in den selten- sten Fällen im Wortlaut von den Zeitungsredakteuren übernommen. Statt- dessen wird die Redaktion, mit dem Ziel einer ausgewogenen Berichterstat- tung, unterschiedliche Quellen nutzen. Daß die Presse kein neutrales Medium ist, wird aber vor allem dort deutlich, wo sie nur bestimmte Inhalte transpor- tiert: es wird nicht über jede Pressemitteilung berichtet, die eine Partei ver- schickt. Um die Möglichkeit des direkten Kontakts zum Wähler nutzen zu können, müssen sich Parteien mit den Mechanismen der Nachrichtenselek- tion befassen. Auf der Grundlage einer fundierten Kenntnis dieser Mecha- nismen, die sich insbesondere durch stetige Medienauswertung und –analyse eruieren lassen, versuchen Parteien „über gezielte Öffentlichkeitsarbeit und Strategien des politischen Marketing die Berichterstattung in ihrem Sinne zu beeinflussen“^[36].

Ziel der Medienauswertung ist jedoch nicht nur die Analyse der Selektions- mechanismen. Täglich wird in hunderten von Artikeln über Parteien berich- tet, über Parteiveranstaltungen, politische Programme und Personalentschei- dungen, aber auch über interne Querelen oder Affären. Die Parteien versu- chen diese Berichterstattung in die von ihr gewünschte Richtung zu lenken. Dazu ist es notwendig, die Redaktionen über Pressekontakte mit den nötigen Informationen zu versorgen. Dieser Kontakt wird vom Pressesprecher und der ihm unterstellten Pressestelle koordiniert und die Informationsweitergabe an die Presse kontrolliert, um so das Bild der Partei in den Nachrichtenme- dien aktiv mitzugestalten. Die Pressestelle nimmt Interviewanfragen der Journalisten auf, autorisiert Pressemitteilungen, die im Namen der Partei an die Öffentlichkeit gehen, und legt – gemeinsam mit dem Parteivorstand – Argumentationsstrategien zu bestimmten Themen fest, die über interne In- formationssysteme, wie beispielsweise der Parteipresse, an Parteimitglieder weitergegeben werden. Mit Hilfe der Medienauswertung soll der Erfolg dieser Koordinierungsarbeit eruiert werden. Wenn beispielsweise die SPD einen großen Kongress zum Thema „Die Mitte in Deutschland“ veranstaltet und am nächsten Morgen die großen Zeitungen mit „In Deutschland ist die Mitte rot“^[37] aufmachen, so kann von einer effektiven Pressearbeit gesprochen wer- den.

3.1 Der Pressespiegel

Um die Informationsressource Nachrichtenmedien zu erschließen, aber auch um diesen Kommunikationskanal offen zu halten, ist eine kontinuierliche Medienauswertung und -analyse von zentraler Bedeutung. Allerdings gestaltet sich die systematische Auswertung vor allem des Fernsehens und des Hör- funks schwierig. In einem Zeitungsartikel können bestimmte Inhalte zeitun- abhängig nachgelesen werden, wohingegen etwa beim Fernsehen größerer technischer Aufwand nötig ist, um dieses flüchtige Medium „einzufangen“. Die SPD hat für den Wahlkampf 2002 einen Arbeitsplatz eingerichtet zur Er- fassung der Themen, die von den wichtigsten Fernsehnachrichten und TV- Magazinen aufgegriffen werden, und vom Willy-Brandt-Pressearchiv^[38] werden auch einige Internet-Portale in die Auswertung mit einbezogen. Der Schwer- punkt der Medienauswertung liegt allerdings nach wie vor bei den Printme- dien. Dies trägt auch der Tatsache Rechnung, daß die Tageszeitung in Deutschland eines der wichtigsten Nachrichtenmedien ist. Nach einer aktuel- len Studie lesen 79,1 Prozent der Deutschen mehrmals wöchentlich die Zei- tung. Nur das Fernsehen wird mit 92 Prozent noch höher frequentiert.^[39]

Dabei ist die Durchsicht einer einzigen Zeitung kaum ein Gewinn, da sich die Kriterien zur Themenselektion von Redaktion zu Redaktion unterscheiden und die Themenagenda einer einzigen Zeitung keine Rückschlüsse auf die Medienagenda insgesamt zu läßt. Im Zentrum der Auswertung stehen sicher- lich sogenannte überregionale Tageszeitungen, d.h., Zeitungen, die nicht nur in einer bestimmten Region, sondern bundesweit vertrieben werden. Zu den überregionalen Tageszeitungen zählen in Deutschland die Frankfurter Allge- meine Zeitung, Frankfurter Rundschau, Süddeutsche Zeitung, tageszeitung, Welt, Bild und das Neue Deutschland. Aber auch die Lokalblätter sind von Bedeutung. Die 1584 Ausgaben von Tageszeitungen in Deutschland^[40] unter- scheiden sich häufig lediglich im Lokalteil von anderen Zeitungen, der soge- nannte Mantel^[41] wird von einem größeren Zeitungsverlags übernommen. Deshalb wird von publizistischen Einheiten gesprochen, die für die zahlrei- chen Lokalredaktionen einen aktuellen und universellen Nachrichten- und Kommentarteil liefern. Diese 136 publizistischen Einheiten in Deutschland^[42] müssen bei der Zeitungsauswertung besonders berücksichtigt werden.

Diese Informationsquelle für die Spitzenpolitiker und Referatsleiter einer Partei zu erschließen, ist die Aufgabe von Lektoren, die den sogenannten Pressespiegel (PS) anfertigen, einer Zusammenstellung von journalistischen Texten aus unterschiedlichen Nachrichtenmedien nach bestimmten Kriterien. Dabei werden neben den Tageszeitungen auch Wochenzeitungen und Zeit- schriften wie die ZEIT oder der Spiegel ausgewertet. Unter Umständen wer- den auch Nachrichtenagenturen und Internet-Portale bei der Analyse mit einbezogen.

Die vom Lektorat gemäß den Auswertungskriterien als relevant eingestuften Artikel werden, je nach Ausstattung der Abteilung, die für die Medienauswer- tung zuständig ist, ausgeschnitten und auf DIN A4-Papierbögen aufgeklebt,

oder aber mit einem Scanner für die weitere Bearbeitung erfaßt. Einge- scannte Zeitungsausschnitte haben nicht nur bei einer späteren Archivierung Vorteile. Mit Hilfe von OCR-Systemen^[43] lassen sich die Artikelüberschriften digital erfassen – Fehler bei der Schrifterkennung können bei kurzen Texten ohne großen Aufwand manuell korrigiert werden – und es kann ein detail- liertes Inhaltsverzeichnis für den Pressespiegel erstellt werden. Dem „gekleb- ten“ Pressespiegel kann lediglich das Sortiermuster vorangestellt werden, nach dem die relevanten Artikel geordnet wurden. Das Muster für den Bun- desvorstand einer Partei könnte sich wie folgt zusammensetzen^[44]:

l Artikel zur eigenen Organisation

l Artikel über die Bundesregierung

l Artikel über die Bundesländer

l Artikel über andere Parteien

l Artikel über Europa

l Artikel über die Weltpolitik

l Sonstige Artikel

Aus urheberrechtlichen Gründen darf ein digitaler Pressespiegel nicht als E- Mail an die Referate der Partei geschickt werden^[45]. Die eingescannten Artikel müssen ausgedruckt werden. Sie werden wie die aufgeklebten Zeitungsaus- schnitte am Fotokopierer vervielfältigt und über die Hauspost wird der Pres- sespiegel an die einzelnen Abteilungen verteilt.

Die Referate müssen bei ihrer abteilungsspezifischen Presseauswertung nun nicht mehr alle von den Zeitungen angebotenen Inhalte auf ihre Relevanz hin überprüfen, sondern können sich auf die 50 bis 150 Artikel des Pressespie- gels konzentrieren.

3.2 Kriterien der Presseauswertung

Allgemeines Ziel des Pressespiegels ist es, einen Eindruck der bedeutsamsten Medieninhalte zu vermitteln, d.h., es soll die Medienagenda erschlossen wer- den. Worüber wird im Moment diskutiert? Was bewegt die Bevölkerung? Diese Fragen soll der Pressespiegel als ein Themenindikator beantworten. Daß es eine Korrelation zwischen der Medienagenda und den politischen Themen, die von der Bevölkerung als besonders wichtig erachtet werden, gibt, wurde hier bereits festgestellt. Solche bedeutsamen Themen können er- schlossen werden, in dem z.B. Artikel mit exponierter Plazierung auf der Zei- tungsseite, in den Pressespiegel aufgenommen werden. Dabei finden die erste Seite und der Aufmacher^[46] besondere Beachtung, aber auch der Leitartikel und die besonders ausführliche Berichterstattung über ein Thema. Es zeigt sich, daß bei der Beurteilung, ob ein Artikel dem Kriterium „wichtiges Thema“ zuzuordnen ist, nicht der Inhalt des Artikels entscheidend ist, son- dern vor allem strukturelle Merkmale, wie die Seite, auf welcher der Artikel erscheint, die Länge des Artikels, die Position des Artikels auf der Zeitungs- seite etc. Der SPD-Bundesgeschäftsstelle in Berlin ist dieser Querschnitt so wichtig, daß dafür ein eigener Pressespiegel^[47] eingerichtet wurde. Diese Über- sicht liegt morgens beim Pförtner aus und gehört zur ersten Lektüre der SPD-Mitarbeiter.

Die Dokumentation und Evaluation der Koordinierungsarbeit der Pressestelle ist ein weiterer zentraler Aspekt der Medienauswertung. Es muß mit Hilfe des Pressespiegels überprüft werden können, ob Mandats- und Meinungsträ- ger der Partei korrekt zitiert wurden, um nötigenfalls mit dem zuständigen Journalisten Kontakt aufzunehmen^[48]. Darüber hinaus sollte auf der Grund- lage der Medienauswertung der Erfolg etwa einer Pressemitteilung beurteilt werden können. Wenn beispielsweise der SPD-Pressesprecher eine Pressemit- teilung verschickt, in der Franz Müntefering zur SPD-Wirtschaftspolitik zi- tiert wird, so sollte es möglich sein festzustellen, wie häufig das Müntefering- Zitat in den Zeitungen aufgegriffen wurde.

[...]

^[1] Vgl. Searle 1984.

^[2] Brinck 2001 (Interview mit Searle in der ZEIT).

^[3] Winograd/Flores 1990, S. 107.

^[4] Vgl. Winograd/Flores 1990, S. 107f. sowie Ehrlich 1990, S. 1.

^[5] Vgl. GLOSSAR.de.

^[6] Nohr 2000, S. 4. Vgl. auch Gerick 2000.

^[7] Vgl. http://www.inxight.com; http://www.ser.de/de/; http://www.usu.de; http://www.sail- labs.com; http://www.global-linxs.de.

^[8] FileMaker Pro Version 4.1 (1998).

^[9] Vgl. S. 68f. der vorliegenden Arbeit.

^[10] Internet-Suchmaschine zur Recherche im gesamten Internet. URL: http://www.google.de.

^[11] Dörre/Gerstl/Seiffert 2001, S. 425.

^[12] Neumann 2001, S. 448.

^[13] Vgl. Hausser 2000, S. 28.

^[14] Vgl. Hausser 2000, S. 28.

^[15] Hausser 2000, S. 28.

^[16] Dörre/Gerstl/Seiffert 2001, S. 426.

^[17] GLOSSAR.de.

^[18] Vgl. Renz 2001, S. 70.

^[19] Knorz 1994, S. 149.

^[20] Vgl. Ruge/Goeser 1998 sowie Heuser 2000, S. 13.

^[21] Vgl. Renz 2001, S. 71.

^[22] Vgl. Hausser 2000, S. 13.

^[23] Vgl. insbes. Shannon/Weaver 1949.

^[24] Menzel 2001, S. 2.

^[25] Menzel 2001, S. 2.

^[26] Vgl. Rapp 1996 (http://www.fask.uni-mainz.de/user/rapp/papers/disshtml/main/node2.html (09/2002)).

^[27] Zwar ist es auch der Bevölkerung möglich, sich mit bestimmten Inhalten an die Nachrichten- medien zu wenden, um die Politik auf Mißstände aufmerksam zu machen, was insbesondere auf kommunal-politischer Ebene in Form des Leserbriefs in der Lokalzeitung relativ häufig genutzt wird. Dennoch dominiert die Kommunikationsrichtung „Politiker ‡ Wähler“, so daß von einem unidirektionalen Kommunikationskanal gesprochen werden kann.

^[28] Pfetsch 1998, S. 240.

^[29] Vgl. McCombs/Shaw/Weaver 1997

^[30] Medien Tenor 2000, S. 2.

^[31] Gemeint sind die Verfassungsorgane (Regierungen, Paralamente), Behörden und der Verwaltungsapparat.

^[32] Vgl. Mair 1997, S. 103.

^[33] Mair 1997, S. 111.

^[34] Mair 1997, S. 95f.

^[35] Poguntke 2000, S. 44.

^[36] Poguntke 2000, S. 44.

^[37] Vgl. Berliner Morgenpost vom 13.02.2002.

^[38] Referat für Archiv und Dokumentation beim Parteivorstand der SPD.

^[39] VuMA 2002.

^[40] Vgl. Hellack 2002, S. 6 (Zahlen beziehen sich auf 2001).

^[41] „Seiten einer Tageszeitung (Politik, Wirtschaft, Sport), die in ihrer Berichterstattung über den örtlichen Bereich hinausreichen und über Ereignisse auf Landes- und Bundesebene sowie im Ausland berichten. Nicht immer werden Mantel- (bzw. Politik- oder überregionale Seiten) und Lokalteil von einer Redaktion produziert.“ Nach: Mindener Tageblatt online.

^[42] Vgl. Hellack 2002, S. 7 (Zahlen beziehen sich auf 2001).

^[43] „optical character recognition“. Computerprogramme zur Schrifterkennung, mit deren Hilfe relationsabhängige Textformen in relationsunabhängige Textformen überführt werden können. Vgl. etwa Hausser 2000, S. 25.

^[44] Die folgende Auflistung orientiert sich am Inhaltsverzeichnis der „Pressemappe für den Vorstand der Sozialdemokratischen Partei Deutrschlands“ (Herausgegeben vom „Politisches Archiv Willy-Brandt-Haus“). Der Begriff „Pressemappe“ entspricht dem hier gebrauchten Begriff „Pressespiegel“.

^[45] Vgl. Rogge 2001.

^[46] Hauptartikel der ersten Seite einer Zeitung. Nach: Duden-Rechtschreibung (CD-ROM, 2001).

^[47] „Presse-Spiegel für Vorstand und Bundestagsfraktion des Sozialdemokratischen Partei Deutschlands“

Häufig gestellte Fragen

Was ist der Zweck dieses Dokuments?

Dieses Dokument ist eine umfassende Sprachvorschau, die Titel, Inhaltsverzeichnis, Ziele und Leitthemen, Kapitelzusammenfassungen und Schlüsselwörter enthält. Es scheint sich um die Einleitung und Zusammenfassung einer Magisterarbeit zu handeln, die sich mit der automatischen Auswertung von Pressetexten befasst.

Was sind die Hauptthemen, die in dieser Arbeit behandelt werden?

Die zentralen Themen sind die Informationsflut, die zweite Gutenberg-Revolution im digitalen Zeitalter, die automatische Verarbeitung natürlicher Sprache (Computerlinguistik), Information Retrieval, Data Mining, die Rolle von Nachrichtenmedien (insbesondere der Presse) für politische Parteien und die automatische Erstellung von Pressespiegeln.

Was ist ein Pressespiegel, und welche Rolle spielt er in politischen Parteien?

Ein Pressespiegel ist eine Zusammenstellung von Artikeln aus verschiedenen Nachrichtenmedien, die nach bestimmten Kriterien ausgewählt wurden. Politische Parteien nutzen Pressespiegel, um sich einen Überblick über die Medienagenda zu verschaffen, die öffentliche Meinung zu beobachten und die Wirksamkeit ihrer eigenen Pressearbeit zu beurteilen.

Welche Methoden werden in der Arbeit zur automatischen Auswertung von Pressetexten untersucht?

Die Arbeit untersucht zwei generelle Herangehensweisen: statistische Verfahren (wie automatische Klassifikation) und symbolverarbeitende Verfahren (basierend auf Mustererkennung, Valenztheorie und Dependenzgrammatik). Der Schwerpunkt liegt auf der Entwicklung eines Verfahrens zur Mustererkennung von "Akteur-Phrasen" in Zeitungsüberschriften.

Was ist die "zweite Gutenberg-Revolution"?

Die "zweite Gutenberg-Revolution" bezieht sich auf die Herausforderungen und Möglichkeiten, die durch die digitale Verbreitung von Informationen entstehen, insbesondere im Internet. Während Gutenberg den Zugang zu Informationen durch den Buchdruck erleichterte, besteht die Herausforderung heute darin, relevante Informationen aus der riesigen Menge digitaler Inhalte herauszufiltern.

Was ist das "Chinese Room Argument", und wie ist es für die automatische Sprachverarbeitung relevant?

Das "Chinese Room Argument" (von John Searle) argumentiert, dass ein Computerprogramm allein kein Verständnis von Sprache garantieren kann, selbst wenn es menschenähnliche Antworten generiert. Es ist relevant, weil es die Grenzen der KI-Forschung und der automatischen Sprachverarbeitung aufzeigt und betont, dass Computerprogramme zwar nützliche Antworten liefern können, aber kein echtes Verständnis besitzen.

Was sind Akteur-Phrasen, und warum sind sie relevant für die automatische Auswertung von Pressetexten?

Akteur-Phrasen beziehen sich auf Passagen in Texten, die sich auf Personen beziehen, wie beispielsweise "Bundeskanzler Schröder". Die Erkennung solcher Phrasen ist relevant, da sie helfen kann, die Akteure in einem Nachrichtenartikel zu identifizieren und Informationen über ihre Handlungen und Meinungen zu extrahieren.

Welche Software wird für die praktische Umsetzung verwendet?

Für die Entwicklung des Computertools zur Mustererkennung von Akteur-Phrasen wird die Software FileMaker Pro verwendet, sowie eine Makro-Sprache.

Wie wird die Zuverlässigkeit des entwickelten Modells bewertet?

Die Zuverlässigkeit des Modells wird bewertet, indem die Ergebnisse der automatischen Auswertung (mit dem entwickelten Computertool) mit den Ergebnissen einer intellektuellen Auswertung eines Korpus verglichen werden.

Gibt es einen Anhang zur Magisterarbeit?

Ja, es gibt einen Anhang in Form einer CD-ROM. Diese kann beim Autor angefordert werden.

Ende der Leseprobe aus 86 Seiten - nach oben

Jetzt kaufen

Titel: Linguistische Aspekte eines automatischen Verfahrens zum Erstellen eines Pressespiegels

Magisterarbeit , 2002 , 86 Seiten , Note: 1,3

Autor:in: Matthias Wagner (Autor:in)

Germanistik - Linguistik

Blick ins Buch

Details

Titel: Linguistische Aspekte eines automatischen Verfahrens zum Erstellen eines Pressespiegels
Hochschule: Universität Hamburg
Note: 1,3
Autor: Matthias Wagner (Autor:in)
Erscheinungsjahr: 2002
Seiten: 86
Katalognummer: V108291
ISBN (eBook): 9783640064892
Sprache: Deutsch
Schlagworte: Linguistische Aspekte Verfahrens Erstellen Pressespiegels
Produktsicherheit: GRIN Publishing GmbH

Arbeit zitieren: Matthias Wagner (Autor:in), 2002, Linguistische Aspekte eines automatischen Verfahrens zum Erstellen eines Pressespiegels, München, GRIN Verlag, https://www.grin.com/document/108291