Digitale Korpora der Italianistik

Eine Auswahl italienischsprachiger Korpora im Internet - Ihre Bedeutung und ihre Nutzung


Hausarbeit (Hauptseminar), 2008
45 Seiten, Note: 1,3

Leseprobe

INHALT

EINFÜHRUNG

1. EINFÜHRUNG ZUR KORPUSLINGUISTIK
1.1. Verwendung und Bedeutung von Korpora
1.1.1. Korpus - Definition und Eigenschaften
1.1.2. Korpuslinguistik
1.2. Die Bedeutung des Computers in der Korpuslinguistik
1.3. Digitale Korpora im Internet
1.3.1. Die Verbreitung via Internet
1.3.2. Möglichkeiten und Grenzen der digitalen Korpusanalyse

2. ITALIENISCHSPRACHIGE KORPORA IM INTERNET
2.1. Web-Kataloge zur Italianistik im Netz
2.2. Korpora zur italienischen Literatur
2.2.1. Anthologien und Textdatenbanken
2.2.2. Korpora zur literaturwissenschaftlichen Analyse
2.3. Sprachwissenschaftliche Korpora
2.3.1. Korpora der gesprochenen Sprache
2.3.2. Korpora der geschriebenen Sprache
2.4. Korpora zur Sprachpraxis und Sprachdidaktik
2.4.1. Wörterbücher
2.4.2. Korpora zum Spracherwerb
2.4.3. Korpora zur Sprachdidaktik
2.5. Korpora zur italienischen Kultur und Landeskunde
2.5.1. Öffentliche Medien als Quellen der italienischer Landeskunde und Kultur
2.5.1.1. Zeitungen
2.5.1.2. Fernsehen
2.5.1.3. Radiostationen
2.5.2. Andere Archive zur italienischen Landeskunde

ANHANG

QUELLEN

Einführung

Heutzutage wird mit der modernen Sprachwissenschaft meistens die Verknüpfung von Computern und riesigen Mengen an sprachlichen Daten assoziiert. Voraussetzung für die digitale Analyse dieses sprachlichen Materials ist jedoch das Vorahndensein von Korpora. Diese systematischen Sammlungen von Texten bzw. Sprachdaten ermöglichen erst die eingehende linguistische oder auch literaturwissenschaftliche Prüfung und Forschung an dem vorgelegten Material. Dennoch ist die empirische Methodik der Korpuserstellung und Analyse - kurz der Korpuslinguistik - eigentlich kein modernes Phänomen, sondern baut vielmehr auf traditionellen Untersuchungen, die ohne Computer durchgeführt wurden, auf. So ist die Beantwortung von linguistischen Fragestellungen schon seit langem an die Analyse von großen Textmengen bzw. Sprachdaten geknüpft, die andere empirische Untersuchungsmethoden, wie das Experimentieren mit Sprache oder die stichprobenartige „Befragung von Sprechern“, ergänzen bzw. ersetzen. Abgesehen von der Linguistik ist heutzutage fast jede wissenschaftliche Beschäftigung mit Sprache auf Korpora angewiesen. So basiert beispielsweise jedes Wörterbuch auf der Auswertung eines festgesetzten sprachlichen Materials. Aus den analysierten Texten des Korpus werden die einzelnen Wortformen extrahiert und auch etymologische Lexika und Sprachatlanten sind Ergebnisse von Untersuchungen sprachlicher Korpora. Aber auch für ein Italianistik Studium an sich, sind Korpora heutzutage nicht mehr weg zu denken. So gilt die Bedeutsamkeit der Datensammlungen nicht nur für die „großen“ Werke der Forschung, sondern auch für die „kleinen“ Beiträge zur Wissenschaft. Demgemäß basieren die meisten Hausarbeiten, v.a. jene zu sprachwissenschaftlichen Fragestellungen, auf einer Auswertung von Korpora. Der Unterschied liegt dabei natürlich in der Fülle des ausgewerteten sprachlichen Materials.

Aus diesen Annahmen wird ersichtlich, dass Korpora und deren Analyse für ein Italianistikstudium überaus bedeutend sind. Da heutzutage mit der technischen Entwicklung und dem Internet vielfältige Korpora dem Studierenden frei zugänglich im Internet zur Verfügung stehen, will diese Hausarbeit einen Überblick über die verschiedenen Korpora der italienischen Sprache, welche digital im Internet abrufbar sind, geben. Natürlich wurde aus der Vielzahl, der zugänglichen Medien, nur eine kleine repräsentative Auswahl getroffen, die fast zu jedem Bereich eines Italianistikstudiums Datensammlungen bietet, welche entweder der wissenschaftliche Analyse dienen können oder das Studium der italienischen Sprache an sich erleichtern.

Im ersten Teil der vorliegenden Arbeit, wird in übersichtlicher und verkürzter Form noch einmal Bezug auf die Bedeutung von Korpora und der Korpuslinguistik genommen. Zu dem wird ausführlicher auf die technische Verarbeitung von Korpusdaten mit Hilfe der Computertechnik eingegangen und die Möglichkeiten der digitalen Korpusanalyse, vor allem durch das Internet, verdeutlicht. Abgesehen von den Vorteilen, werden jedoch auch die Grenzen der computerbasierten Korpora dargestellt. Im zweiten Teil der Arbeit erfolgt dann die Präsentation verschiedener italienischer Korpora im Internet. Dieser Teil wurde in verschiedene Unterpunkte gegliedert, die jeweils den unterschiedlichen Lehrbereichen eines Italianistikstudiums entsprechen.

So kann sich der Leser, je nach Interesse, über die Korpora eines Teilgebiets der Italianistik informieren und etwas über deren Bedeutung und mögliche Nutzung erfahren. Dementsprechend gliedert sich dieser Abschnitt der vorliegenden Arbeit in die Bereiche: Literatur, Sprachwissenschaft, Spracherwerb und Sprachdidaktik sowie Landeskunde. Bevor jedoch auf die einzelnen Teilgebiete Bezug genommen wird, kann man sich über Web-Kataloge informieren, die auf weitere italienische Korpora im Netz verweisen. Anschließend werden Korpora vorgestellt, die sich mit der Nutzung von italienischsprachiger Literatur beschäftigen, d.h. deren Recherche im Internet, dem Auffinden von online-lesbaren und herzunterladbaren Texten und der Möglichkeit der literaturwissenschaftlichen Analyse. Danach wird ein Überblick über Datensammlungen zur linguistischen Analyse gegeben und Korpora präsentiert die entweder Sprachdaten zur gesprochenen oder geschriebenen Sprache enthalten. Des Weiteren widmet sich ein Bereich von Korpora dem Spracherwerb und der Sprachdidaktik. Es werden Wörterbücher vorgestellt, die während des Sprachstudiums dienlich sein können und Internetseiten präsentiert die sich mit dem Erlernen der italienischen Sprache beschäftigen und zum Beispiel Übungen und Multimedia- material zum Spracherwerb enthalten. Der letzte Unterpunkt widmet sich abschließend Korpora, die zur landeskundlichen Recherche dienen und nicht nur für Studierende der Italianistik interessant sein können, sondern alle ansprechen, die sich für die Menschen und die Landschaft, die Kultur und Kunst, Geschichte und Politik Italiens interessieren.

Die Einteilung in die verschiedenen Kategorien, soll vor allem dem Leser helfen, schnell die gewünschten Informationen bzw. Korpora zu einem Teilgebiet der Italianistik ausfindig zu machen. Dennoch ist hierbei darauf zu achten, dass die einzelnen Korpora oft mehreren verschiedenen Anwendungen dienen können. So ist beispielsweise ein Radiosender eine hervorragende Quelle, um landeskundliche Informationen über Italien zu erhalten, obendrein kann man jedoch durch das Hören von italienischen Radiosendern seinen Wortschatz erweitern und den akustischen Umgang mit der italienischen Sprache erlernen. Daher könnte man die Radiosender ebenso in die Kategorie des Spracherwerbs einordnen.

1. Einführung zur Korpuslinguistik

Zu Beginn der vorliegenden Arbeit soll an erster Stelle ein Überblick über die Thematik „ Korpora “ , „ Korpuslinguistik “ und „ Korpusanalyse “ gegeben werden. Dabei wird auf die Definition des Terminus „Korpus“ eingegangen, die verschiedenen Formen und Eigenarten von Korpora erläutert und schließlich die Bedeutung der Korpuslinguistik bzw. Korpusanalyse dargelegt. Somit kann ein umfassendes Bild dieser sprachwissenschaftlichen Disziplin vermittelt werden, damit die, im Verlauf der Arbeit, vorgestellten spezifischen italienischsprachigen Korpora besser verstanden und eingeordnet werden können.

1.1. Verwendung und Bedeutung von Korpora

1.1.1. Korpus - Definition und Eigenschaften

Ein Korpus (auch oft Corpus; Plural: Korpora) ist im Allgemeinen eine Sammlung von sprachlichen Daten, die jedoch - und das ist der entscheidende Punkt - systematisiert zusammengestellt wurde. D.h. die vorliegenden Sprachdaten sind nach festgelegten Kriterien ausgewählt und nach diesen in eine bestimmte Ordnung gebracht. So ist nach dem Verständnis von John Sinclair ein Korpus “a collection of naturally-occuring language text, chosen to characterize a state or variety of language.” (Sinclair, 1991; S. 171)

Bei den Sprachdaten handelt es sich außerdem zu meist um geschriebene Sprache bzw. um Texte in den verschiedensten Formen, so zum Beispiel auch transkribierte Gespräche. Nichtsdestotrotz existieren unter den verschiedenen Korpora auch solche, die aus Audio- oder Videodateien bestehen und ebenso sprachliches Material enthalten. Wie bereits angedeutet besteht der Unterschied zwischen den Korpora vor allem in ihrer Systematisierung bzw. in der Aufbereitung und Zusammensetzung der Daten. Wichtige Kriterien bei der Auswahl und Zusammenstellung der Korpusdaten sind dabei vor allem: die Repräsentativität, die Beständigkeit des Korpus und seine Größe.

Die Repräsentativität bestimmt die Auswahl der Texte am stärksten. Umso repräsentativer ein Korpus ist, umso vielfältiger ist die Gesamtmenge aus der die Stichproben für den Korpus ausgewählt sind. D.h. die Repräsentativität setzt gleichzeitig die Grenzen für den Korpus. So kann man einen Korpus z.B. eingrenzen auf das Alter und Geschlecht des Urhebers der Sprachdaten, auf sozio-kulturelle oder regionale Aspekte, auf einen bestimmten Zeitraum usw. Ein Korpus der äußerst repräsentativ ist kann daher auch als balancierter Korpus bezeichnet werden. Solch ein Korpus enthält demnach in seiner Gesamtzusammenstellung viele Textformen- und Sorten sowie unterschiedliche Sprachvarianten in einer vorher bestimmten Anzahl. Sinclair spricht dabei auch von einem „general corpus“: “One of the principle uses of a corpus is to identify what is central and typical in a language”. (Sinclair, 1991, S. 17) Diese Korpora - auch Referenzkorpora genannt - bilden also die Sprache so allgemein ab, dass sie im Alltag wiederzufinden ist. Der Gegensatz zu einem balancierten Korpus ist eine Sammlung von Sprachdaten, die bewusst nur einen bestimmten Teil oder eine bestimmte Kategorie einer Sprache abbildet, und somit auch nur für diesen bestimmten Sprach- oder Texttyp repräsentativ ist. Hierzu zählen große Textsammlungen bestimmter Autoren, oder Zeitungskorpora die in Hinsicht der Auswahl der Texte auf ein Print- oder Publikationsmedium beschränkt sind, aber auch Spezialkorpora.

Ein weiteres wichtiges Kriterium ist die Beständigkeit des Korpus. So kann ein Korpus daraufhin ausgelegt sein, dass er nachträglich nicht verändert wird. Dies wäre z.B. bei einem Korpus über einen bereits verstorben Schriftsteller wie Goethe möglich. Außerdem ist das „Einfrieren“ eines Korpus ebenfalls bei der Analyse eines bestimmten zeitlichen Abschnitts sinnvoll. Alle Korpora die jedoch ständig erweitert werden und sich daher mit der sprachlichen Evolution weiter entwickeln, nennt man Monitorkorpora.

Das dritte wichtige Kriterium ist die Größe des Korpus. Diese bestimmt nicht nur den Umfang sondern oft auch die Vielfalt der Sprachdaten. Gemessen wird die Größe eines Korpus in Textwörtern. So ist mit der Digitalisierung von Sprachdaten auch mit der Zeit die mögliche Größe von Korpora gewachsen. Das Institut für dt. Sprache in Mannheim (IDS) weist folglich einen Korpus von ca. 2 Mrd. Textwörtern auf. (Solch große Korpora der Zweiten Generation werden auch Mega-Corpora genannt.) Nur ein Korpus mit ausreichend vielen Sprachdaten kann auch repräsentativ sein.

Abgesehen von diesen Kriterien, die letztendlich für den Inhalt des Korpus mitverantwortlich sind, gibt es dessen ungeachtet viele weitere Kriterien die vor der Zusammenstellung eines Korpus wichtig sind. So muss festegelegt werden, welches Sprachmedium im Mittelpunkt steht (geschriebene od. gesprochene Sprache), wie viele Sprachen das Korpus enthalten soll (einsprachig od. mehrsprachig) und vor allem auf welchem Speichermedium sich das Korpus befinden soll (computerlesbares od. nicht-computerlesbares Korpus). Letzteres Kriterium spielt v.a. bei der vorliegenden Arbeit eine entscheidende Rolle und wird in den folgenden Punkten ausführlicher angesprochen.

Außerdem sollte ein Korpus mit Metadaten (z.B. Dokumentstruktur, Informationen zum Autor, Jahr, usw.) angereichert sein und ggf. auch linguistische Annotationen beinhalten. Bei der Annotierung werden die Sprachdaten mit zusätzlichen Informationen, meist linguistischer Natur, versehen. Besonders verbreitet sind die Angabe von Wortart und syntaktischen Informationen.

1.1.2. Korpuslinguistik

Korpora wurden traditionell verwendet um Linguisten beim Erstellen von Wörterbüchern und Lexika eine Datenbasis zu bieten und ihnen eine Referenz für die Analyse von Sprache zu geben. Daraus bildete sich nun die Korpuslinguistik, als Teilbereich der Linguistik, heraus. Verallgemeinert gesagt dient die Korpuslinguistik also dazu, Theorien über die Sprache anhand der Sprachdaten aus den Korpora aufzustellen bzw. zu überprüfen. Somit ist die Korpuslinguistik aber selbst nicht als eine Disziplin der Sprachwissenschaft zu verstehen, sondern als eine empirische Methode zur sprachwissenschaftlichen Analyse. Sie findet daher in allen Teilbereichen der Linguistik Anwendung und bietet damit eine Alternative zu alten empirischen Untersuchungsmethoden der Sprachwissenschaft wie die „Befragung von Sprechern“ oder das Experimentierten mit Sprache. Durch die Korpusanalyse können authentische Sprachdaten besser abgefragt, verglichen und ausgewertet werden, wodurch ein größere Repräsentativität und Objektivität entsteht.

Die Geschichte der Korpuslinguistik kann man wie folgt grob in drei Abschnitte einteilen (Heike Zinsmeister, s. Quellen):

1. frühe Korpuslinguistik (auch prä-Chomsky genannt) Bsp.:

- Kindlicher Spracherwerb: Tagebuchstudien von Eltern (1876-1926), Longitudinalstudien (1957- heute), z.B. Brown 1973, Bloom 1970, u.a.
- Rechtschreibkonventionen: z.B. Kaeding (1897): ca. 11 Millionen Wörter
- Grammatikerstellung
- Fremdsprachunterricht: Wortfrequenzlisten
- Komparative Linguistik (u.a.)

2. Ära Noam Chomsky (1957):

Chomsky lenkte in einer Reihe von Veröffentlichungen ab 1957 die Aufmerksamkeit der Linguisten wieder weg von der Empirie hin zum Rationalismus. So unterschied er zwischen der sprachlichen Kompetenz und sprachlicher Performanz. Demnach ist die Kompetenz das Wissen um eine Sprache und die Performanz lediglich die Umsetzung dieses Wissens. Da diese Umsetzung fehlerhaft sein kann, können auch Korpora, welche Performanz-Daten sammeln, fehlerhaft sein. Sprache sei außerdem unendlich, der Korpus hingegen nicht, denn er zeigt nur einen verzerrten Ausschnitt der sprachlichen Realität. So kann das Fehlen oder das Auftreten einer sprachlichen Äußerung im Korpus nur Zufall sein. So ist es seither nur Ziel der Korpuslinguistik die sprachlichen Phänomene zwar zu erfassen aber dabei zu beachten, dass ein Korpus nur ein gewisser Ausschnitt aus der Realität sein kann. So gibt es keinen z.B. eine Sprache allumfassenden Korpus.

3. Moderne Korpuslinguistik

Das neue hierbei ist die Möglichkeit große Datenmengen durch die maschinelle und digitale Verarbeitung zu untersuchen. Außerdem werden heutzutage statistischen Methoden angewendet, um von Teilmengen auf eine Gesamtheit zu schlussfolgern. Darüber hinaus generalisiert die Quantität der Korpusdaten über Performanzprobleme und „Fehler“ werden zur Anregung der sprachlichen Analyse genutzt.

1.2. Die Bedeutung des Computers in der Korpuslinguistik

Mit der Möglichkeit des Digitalisierens des sprachlichen Materials und deren computergestützten Analyse wurde die Korpuslinguistik in ihrer Methodik revolutioniert. Die neuen technischen Möglichkeiten erleichtern nicht nur die Arbeit und erbringen einen erheblichen Zeitvorteil, sie erweitern auch die Möglichkeiten der Analyse, präzisieren diese und lassen somit auch eine repräsentativere und qualitativ hochwertigere Auswertung der sprachlichen Daten zu. So kann der Vorteil der computergestützten Datenspeicherung und -verarbeitung leicht daran illustriert werden, dass z.B. ein durchschnittlicher PC mühelos innerhalb weniger Sekunden die gezielte Suche nach einem Schlagwort innerhalb einer CD-ROM einer Tageszeitung, die mehrere Jahrgänge umfasst, bewältigt. So können sämtliche sprachliche Belege in kurzer Zeit aufgerufen, verglichen und auf eine bestimmte Fragestellung hin ausgewertet werden. Dagegen würde die herkömmliche empirische Auswertung ganzer Zeitungsjahrgänge auf Papier sich wahrscheinlich als eine Suche nach „der Nadel im Heuhaufen“ erweisen oder extrem viel Zeit in Anspruch nehmen. (Gabriel, 1999, S. 51) Hier zeigt sich auch die Qualität der neuen Möglichkeiten. Während früher bestimmte Fragestellungen gar nicht oder nur sehr unzureichend beantwortet werden konnten, da bestimmte sprachliche Verbindungen einfach nicht hergestellt werden konnten, ist die Auswertung der Korpusdaten heute in vielfältiger Art und Weise möglich.

1.3. Digitale Korpora im Internet

1.3.1. Die Verbreitung via Internet

Das Internet, als Raum zur Speicherung und Weitergabe digitaler Daten, bietet mittlerweile eine große und weitreichende Unterstützung auf dem Gebiet der Korpusanalyse. Es gibt kaum eine adäquatere Lösung, um große Datenmengen möglichst vielen interessierten Linguisten zur Verfügung zu stellen. Das WorldWideWeb selbst wird so zu einer großen Datensammlung mit vielfältigen inhaltlichen und textualen Verknüpfungen. Zu dem ist, vor allem durch umfassende Suchmaschinen, das ganze WWW zur direkten linguistischen Analyse zugänglich. Abstrakt gesehen ist daher das gesamte Netz ein großes Korpus. Allerdings ist dieser Gedanke auch schnell wieder verwerfbar, betrachtet man die große Masse an Daten und deren Heterogenität. Dies führt dazu, dass man schnell den Überblick verliert und keine sinnvollen sprachlichen Kategorisierungen wahrnehmbar sind. Stark abweichende Text- und Sprachprofile, die von lapidaren Diätempfehlungen aus Frauenzeitschriften bis hin zu formellen Gesetzestexten reichen, lassen es so als wenig sinnvoll erscheinen das Internet als einziges großes Korpus zu betrachten. Aus korpuslinguistischer Sicht lässt sich dennoch eine Typologisierung des im Internet zu konsultierenden sprachlichen Materials treffen. (Gabriel, 1999, S. 53f.) Die erste linguistisch interessante Kategorie sind dabei Texte, die spezifisch für das Internet bzw. nur in digitaler Form angefertigt wurden. Darunter zählen vor allem E-Mails, Chats, Forumsbeiträge aber auch internetspezifische Werbung, Informations- und Präsentationsseiten. Diese Textstrukturen waren jedoch bislang noch keiner ausgiebigen linguistischen Analyse unterworfen. Es ist jedoch denkbar, dass in der Zukunft durchaus die Mediensprache des Internets einen neuen Forschungsraum eröffnet.

Eine weitere Kategorie der im Internet sichtbaren Textarten für die Korpusanalyse, sind solche, die originär auf dem Datenträger Papier erschienen sind und nachträglich in digitalisierter Form für das Internet zugänglich gemacht wurden. Dazu zählen vor allem Zeitungskorpora. D.h. Webseiten von z.B. Tageszeitungen die online ein Archiv mit ihren Artikeln bereitstellen. Hierbei dient das Internet nicht als Entstehungsraum für die Texte, jedoch als Verbreitungsmedium. Diese zweite Kategorie ist sehr vielfältig. Zu ihr zählen Dokumente von Vereinen, Institutionen, Verlagen, Behörden usw. D.h. beispielsweise Gesetzestexte, Protokolle, wissenschaftliche Aufsätze, elektronische Bücher und Zeitschriften.

Die letzte, vor allem für die Linguisten entscheidende Kategorie, ist schließlich die Abrufung von Textkorpora, die speziell für die sprachwissenschaftlichen Zwecke zusammengestellt wurden. Diese Korpora enthalten vor allem annotierte Materialien, die oft auch nicht freizugänglich sind und einer Registrierung bzw. auch Bezahlung bedürfen. Im Unterschied zu den anderen beiden Kategorien, handelt es sich hierbei um Texte, die sich an einer expliziten sprachwissenschaftlichen Fragestellung orientieren und somit auch oft andere Datenformate aufweisen, als die der ersten beiden Kategorien. Im zweiten Teil der Arbeit werden schließlich Korpora aus den letzten beiden Kategorien vorgestellt, die sich freizugänglich im Internet befinden und im Allgemeinen für Italianisten interessant sind.

1.3.2. Möglichkeiten und Grenzen der digitalen Korpusanalyse

Wie bereits angemerkt kann die computergestützte Korpusanalyse wissenschaftliche Fragestellungen für viele Bereiche der allgemeinen Sprachwissenschaft besser beantworten und lösen, als das dies zu vor möglich gewesen ist. Exzellente Beispiele sind dafür Fragestellungen, die in die Teildisziplin der Pragmatik einzuordnen sind und sich mit authentischem Sprachgebrauch befassen oder auch wissenschaftliche Analysen zur Morphosyntax. Dies lässt darauf schlussfolgern, dass auch in der Zukunft wahrscheinlich viele neue Erkenntnisse über die menschliche Sprache durch die moderne Computertechnik gewonnen werden können, die vorher den Linguisten verborgen waren.

Trotz dieser ausgezeichneten Vorteile muss jedoch eingeräumt werden, dass die digitale Korpusanalyse auch ihre Grenzen hat. So steht an erster Stelle als Voraussetzung für die Verarbeitung der Daten der Umstand, dass alle Sprachdaten auch digitalisiert vorliegen müssen. Dies ist jedoch oft schwierig, wenn man beachtet, dass sich viele interessante Quellen bislang immer noch auf dem Datenträger Papier befinden und ihre Digitalisierung schwierig ist, weil es ich zu meist um alte Handschriften handelt, die teilweise sogar nur auf Pergament erhältlich sind. Eine andere wichtige Voraussetzung für die digitale Korpusanalyse ist das Vorhandensein der nötigen technischen Möglichkeiten. So bedarf es tauglicher Computersysteme und Software, um die Korpora, mit ihren großen Datenmengen, auch auswerten zu können.

Überdies muss konstatiert werden, dass auch inhaltlich, bei der Beantwortung der wissenschaftlichen Fragestellungen, klare Grenzen gesetzt sind. So kann auch die technisch versierteste Software nur schwerlich Fragen beantworten, die ein abstraktes sprachliches Verständnis voraussetzen und sich in etwa mit Metaphernbegriffen, linguistischer Stilistik und in einigen Fällen mit der Pragmatik beschäftigen. Gehen Fragestellungen über die Art der Verwendung eines klar definierbaren Zeichens heraus, so kann einem auch nicht der Computer klare Suchanfragen beantworten. Hier muss der Linguist selbst die nötigen Vorkenntnisse im Umgang mit der Analyse von Korpora besitzen und genau wissen wie und welche Suchanfragen er an den Computer stellt. Untersucht man zum Beispiel den Gebrauch von Metaphern in der Zeitungssprache, sollte man sich bereits zuvor damit auseinandergesetzt haben, an was man Metaphern erkennt und wie man sie am besten aufspürt. Festzuhalten wäre an dieser Stelle, dass es immer noch ratsam ist bei der Analyse gedrucktes und digitales Sprachmaterial miteinander zu verbinden, da sich dieses in einigen Fälle gut ergänzt, und oft ein gedruckter Text Phänomene erst entdecken lässt, die später mit Hilfe des Computers genauer erforscht werden können. (Gabriel, 1999, S. 68f.)

Die letzte hier zu erwähnende Einschränkung auf die man auch bei der computergestützten Korpusanalyse achten muss, ist die Überbewertung von statistischen Zahlen. So sind statistische Erhebungen zwar oft notwendig, um die Häufigkeit von linguistischen Besonderheiten hervorzuheben, dennoch bedarf eine solche Erhebung auch immer einer genauer Interpretation und Kontextgebundenheit. (Gabriel, 1999, S. 69f.) Hierbei ist auch entscheidend wie repräsentativ der jeweilige Korpus überhaupt ist. Wenn z.B. in einem Spezialkorpus oder auch Zeitungskorpus ein und derselbe Ausdruck in sehr ähnlichen Verwendungszusammenhängen vorkommt, so können trotzdem nicht immer allgemeingültige Rückschlüsse auf die Alltagssprache bzw. sprachliche Norm gemacht werden. D.h. die Qualität der linguistischen Interpretation verändert sich mit der Variabilität der verwendeten sprachlichen Zusammenhänge. So sind manche linguistischen Erscheinungen in einem Fall z.B. nur auf den jeweiligen Autor zurückzuführen, während andere wahrlich sprachliche Phänomene der Alltagssprache kennzeichnen.

2. Italienischsprachige Korpora im Internet

Mit diesen Vorkenntnissen können nun auch die im Folgenden vorgestellten Korpora der italienischen Sprache leichter betrachtet und bewertet werden. Die präsentierten Korpora weisen zu dem eine große Spannweite auf. So werden Korpora vorgelegt, die speziell auf das Studium der romanischen Sprache ausgerichtet sind bzw., insbesondere im Kapitel der Sprachwissenschaft, spezifisch der linguistischen Analyse dienen. Andererseits wird auch auf Korpora verwiesen, die sich nicht nur an Romanisten wenden, sondern Informationsquellen des Internets darstellen, die für jeden frei zugänglich sind und sich dennoch als Korpora erweisen. Dabei wird der Fokus zwar auf die eigentlichen Textkorpora gelegt, d.h. Datenbanken die Volltexte bzw. Textausschnitte enthalten und somit auch zur linguistischen Forschung verwendbar sind. Dennoch wird zusätzlich auch auf Datenbanken und Kataloge verwiesen, die entweder beim Auffinden von Korpora im Internet helfen oder interessante Zusatzinformationen zum Studium der Romanistik geben. Des weitern ist an dieser Stelle noch anzumerken, dass alle konsultierten Seiten freizugänglich bzw. teilweise mit einer kostenfreien Registrierung im Internet abrufbar sind.

2.1. Web-Kataloge zur Italianistik im Netz

Als Einstieg in die Italianistik des Internet werden nun kurz folgende Webseiten-Kataloge erwähnt. Sie bieten einen guten Überblick über Internetseiten, die sich der Italianistik widmen, auf Korpora im Internet zu diesem Thema verweisen und konsultiert werden können wenn tiefgründigere Recherchen in den unterschiedlichsten Bereichen der Italianistik vorgenommen werden sollen.

TUTTITALIA - Sito dedicato all’Italianistica

http://www.uibk.ac.at/tuttitalia/tutt.html

Die Seite der Universität Augsburg bietet einen ausgezeichneten Überblick über die Vielfalt der Internetseiten zur Italianistik. Sie ist nach drei Hauptkategorien aufgebaut: Civilt à , Letteratura und Linguistica. Als Zusatzkategorie gibt es noch eine Linkliste zur Italianistik in Deutschland, Österreich und der Schweiz. Unter der Kategorie Civiltà findet man Internetadressen zu den Bereichen: Arte / Musei, Città e Reti, Istituzioni, Mass Media (z.B. Radio, Cinema, Stampa, u.a.), Musica, Socità, Scuole, Turismo sowie die Verweise auf NO.BI.L.I. (Bibliografische Verweise zur Literatur- und Sprachwissenschaft), S.I.&N.A. (eine Informationsseite zu Universitäten und Akademisches Leben). Die Kategorie Letteratura ist aufgeteilt in: Autori / Testi, Riviste letterarie, Università in rete und Sonstiges. Unter Linguistica findet man Adressen zu: verschiedenen Organisationen und Institutionen, die sich mit Sprachwissenschaft und Sprache beschäftigen (wie der Accademia della Crusca), sowie Seiten zu „Grammatica“, dem Studiengang italienische Linguistik und den Universitäten in Italien sowie sonstige Verweise zur Sprachwissenschaft. Die Seite Tuttitalia ist vollständig in Italienisch aber auch in Englisch abrufbar. Sie ist gut strukturiert aufgebaut und alle Internetadressen sind kommentiert. Allerdings fand die letzte Aktualisierung im Dezember 1999 statt, weshalb leider einige Adressen bereits veraltet sind. Die Seite ist dennoch für einen Überblick gut geeignet.

Pagina Italiana

http://www.paginaitaliana.de/novita.html

Im Gegensatz zu Tuttitalia scheint diese Seite von Elmar Esch zumindest 2004 aktualisiert wurden zu sein. Sie enthält eine sehr vollständige Sammlung italienischer Datenquellen und ist in zahlreiche Rubriken unterteilt. Unter anderem hat man auch hier wieder Zugriff auf Verweise zu Letteratura und Linguistica. Zusätzlich gibt es Rubriken zu speziellen Gebieten wie z.B. der Region Sizilien oder Sardegna und politisch- historischen Ereignissen wie den Mord an Falcone und Borsellino (was die Seite für landeskundliche Recherchen ebenfalls interessant macht). Auch Rubriken wie meteo, quotidiani und arte / musei, u.v.m. sind vertreten. Leider sind u.a. auch Quellen zu deutschen Adressen wie wissen.de oder Korpora wie der britannica vorhanden, was für Verwirrung sorgt. Außerdem fehlt bei den Angaben teilweise die Übersichtlichkeit.

[...]

Ende der Leseprobe aus 45 Seiten

Details

Titel
Digitale Korpora der Italianistik
Untertitel
Eine Auswahl italienischsprachiger Korpora im Internet - Ihre Bedeutung und ihre Nutzung
Hochschule
Otto-Friedrich-Universität Bamberg  (Romanische Sprachwissenschaft)
Veranstaltung
Korpuslinguistik
Note
1,3
Autor
Jahr
2008
Seiten
45
Katalognummer
V140216
ISBN (eBook)
9783640473229
ISBN (Buch)
9783640473359
Dateigröße
5086 KB
Sprache
Deutsch
Schlagworte
Korpora, Korpuslinguistik, Italianistik, Datenbanken, Italienisch, Datenanalyse, Computerlinguistik, Sprachwissenschaft, Literaturwissenschaft, Wörterbuch, Datensammlung, Datenbank
Arbeit zitieren
Helen-Marie Hecker (Autor), 2008, Digitale Korpora der Italianistik, München, GRIN Verlag, https://www.grin.com/document/140216

Kommentare

  • Noch keine Kommentare.
Im eBook lesen
Titel: Digitale Korpora der Italianistik


Ihre Arbeit hochladen

Ihre Hausarbeit / Abschlussarbeit:

- Publikation als eBook und Buch
- Hohes Honorar auf die Verkäufe
- Für Sie komplett kostenlos – mit ISBN
- Es dauert nur 5 Minuten
- Jede Arbeit findet Leser

Kostenlos Autor werden