In dieser Arbeit gehen wir näher auf die Analyse verschiedener geschriebener Texte ein, die im sozialen Netzwerk „Facebook“ veröffentlicht wurden. Die Texte stammen von Personen die einen Facebook-Account privat nutzen, Organisationen oder auch Personen die in der Öffentlichkeit stehen wie zum Beispiel Politiker oder Musiker. Analysiert werden die verschiedenen Texte und Aussagen mit dem Programm WebLicht, mit dem man Textkorpora annotieren kann.
Zunächst beschäftigen wir uns mit den Funktionen und der Benutzerfunktionalitäten des Programmes. Die Funktionalitäten bestehen aus verschiedenen Werkzeugen, welche die Texte zunächst tokenisieren und im Nachhinein auf grammatikalischer und semantischer Ebene annotieren und analysieren. Durch unsere Beschreibung der Benutzerfunktionen soll der Nutzer den Aufbau des Programmes nachvollziehen können und individuell Anwendbarkeit WebLichts verstehen.
Die Untersuchungen veranschaulicht, wie die Theorien von Textanalysen insbesondere von WebLicht auf die Praxis umsetzbar sind. Die Besonderheit in dieser Ausarbeitung ist die Analyse von „Facebook Texten“, die oft grammatikalische oder orthografische Fehler enthalten. Darüber hinaus wird auch oft von „Slang“ Ausdrücken und Emoticons Gebrauch gemacht. In diesem Zusammenhang ist das Ziel herauszustellen wie gut WebLicht informelle Texte erschließen kann. Gibt es bestimmte Muster nach denen WebLicht (fehlerhaft) analysiert und interpretiert? In welchen Bereichen weist WebLicht Fehlerpotentiale auf und wie lassen sich diese systematisieren?
Inhaltsverzeichnis
1 Einleitung
2 WebLicht
2.1 Benutzerfunktionalität
2.2 Nutzen
3 Computerlinguistik als Sprachwissenschaft
3.1 Informationsextraktion
3.2 Textkorpora
4 WebLicht in der Praxis
4.1 Analyse von Beispielen aus dem sozialen Netzwerk „Facebook“
4.1.1 Orthographisch richtige Wörter im falschen Kontext
4.1.2 Slang, Dialekte und Fremdwörter
4.1.3 Fehler in der Orthographie die durch ein Vertippen entstehen
4.1.4 Erkennen von Substantiven
4.1.5 Sonstiges
4.2 Ergebnisse der untersuchten Textbeispiele
5 Fazit
Zielsetzung und Themen der Arbeit
Die vorliegende Arbeit untersucht die Anwendbarkeit und Leistungsfähigkeit des Programms WebLicht zur linguistischen Annotation von informellen Texten aus dem sozialen Netzwerk Facebook. Dabei liegt der Fokus auf der Identifikation von Fehlerpotentialen bei der automatisierten Sprachanalyse, insbesondere im Hinblick auf orthographische Abweichungen, Slang, Emoticons und Hyperlinks.
- Funktionsweise und Architektur von WebLicht
- Grundlagen der Computerlinguistik und Textkorpora
- Analyse von User-Generated Content auf Facebook
- Identifikation von Fehlerquellen bei nicht-formeller Sprache
- Bewertung der Leistungsfähigkeit automatisierter Annotationswerkzeuge
Auszug aus dem Buch
4.1.1 Orthographisch richtige Wörter im falschen Kontext
Das folgende Beispiel wurde aus dem sozialen Netzwerk Facebook entnommen und kann dem Themenbereich „Liebe“ zugeordnet werden. Hierbei geht es um eine kurze Liebeserklärung, welche via Facebook den Partner erreichen soll. WebLicht weist in diesem Beispiel gewisse Probleme bei der Analyse auf, welche in die für unsere Untersuchungsaspekte interessanten Bereiche im Detail betrachtet werden. Diese Vorgehensweise wenden wir auf alle folgenden Beispiele an.
Wir können davon ausgehen, dass sich die Person in diesem Beispiel (vermutlich) verschrieben und anstelle „beschreiben“, „beschrieben“ getippt hat. Die Anwendung konnte hier lediglich erkennen, dass es ein Verb ist, eine weitere Konjugation und eine eventuelle Feststellung darüber, dass das Tempus falsch gewählt ist, findet nicht statt.
Zusammenfassung der Kapitel
1 Einleitung: Diese Einleitung führt in die Grundlagen der Face-to-Face-Kommunikation, die Entstehung von Textkorpora und die Bedeutung der Computerlinguistik ein, bevor die spezifische Zielsetzung der Arbeit erläutert wird.
2 WebLicht: Das Kapitel beschreibt die service-orientierte Architektur von WebLicht als virtuelle Forschungsumgebung sowie die verschiedenen Benutzer-Modi zur Annotation von Sprachdaten.
3 Computerlinguistik als Sprachwissenschaft: Hier wird der theoretische Rahmen der Computerlinguistik und der linguistischen Datenverarbeitung abgesteckt sowie die Konzepte der Informationsextraktion und der Textkorpora erläutert.
4 WebLicht in der Praxis: Dieser Abschnitt analysiert die Funktionsweise von WebLicht anhand realer Facebook-Posts, wobei systematisch auf Rechtschreibfehler, Slang, Dialekte und die Erkennung von Wortarten eingegangen wird.
5 Fazit: Das Fazit fasst zusammen, dass WebLicht zwar für formelle Texte geeignet ist, bei informellen Inhalten wie Social-Media-Beiträgen jedoch deutliche Schwächen in der Interpretation von Dialekten, Emoticons und Abkürzungen aufweist.
Schlüsselwörter
WebLicht, Computerlinguistik, Textkorpora, Annotation, Facebook, Social Media, Sprachverarbeitung, User-Generated Content, Informationsextraktion, Morphologie, Syntaxanalyse, Parsing, Fehleranalyse, Sprachressourcen, Korpuslinguistik.
Häufig gestellte Fragen
Worum geht es in dieser Arbeit grundsätzlich?
Die Arbeit untersucht die praktische Anwendbarkeit der Annotationssoftware WebLicht auf informelle Sprachdaten aus dem sozialen Netzwerk Facebook.
Was sind die zentralen Themenfelder?
Die Themen umfassen die Architektur von WebLicht, computerlinguistische Grundlagen sowie die Herausforderungen bei der Analyse von Social-Media-Sprache.
Was ist das primäre Ziel der Arbeit?
Das Ziel ist es, die Leistungsfähigkeit von WebLicht bei nicht-normativen Texten zu testen und Fehlermuster bei der automatisierten Sprachanalyse aufzudecken.
Welche wissenschaftliche Methode wird verwendet?
Es wird eine explorative Datenanalyse angewendet, bei der verschiedene Nutzer-Posts mit WebLicht annotiert und die Ergebnisse auf syntaktische und semantische Korrektheit geprüft werden.
Was wird im Hauptteil behandelt?
Der Hauptteil gliedert sich in eine theoretische Einführung und einen umfangreichen Praxisteil, in dem spezifische Fehlerszenarien wie Dialekte oder Vertipper analysiert werden.
Welche Schlüsselwörter charakterisieren die Arbeit?
Zentrale Begriffe sind WebLicht, Korpuslinguistik, Annotation, soziale Netzwerke und Fehleranalyse in der automatisierten Sprachverarbeitung.
Wie geht das Programm mit Emoticons und informeller Sprache um?
WebLicht zeigt Schwächen in der Interpretation solcher Zeichenfolgen, da es oft versucht, diese fälschlicherweise als Adjektive oder Nomen in die bestehende Grammatik einzuordnen.
Warum spielt die Groß- und Kleinschreibung für die Analyse eine Rolle?
WebLicht nutzt die Großschreibung oft als Indikator für Nomen oder Eigennamen; wird diese im User-Generated Content vernachlässigt, kommt es zu Fehlinterpretationen bei der Wortartbestimmung.
- Quote paper
- Bahadir Düsendi (Author), 2014, Erstellung annotierter Textcorpora mit WebLicht. Computerlinguistik als Sprachwissenschaft, Munich, GRIN Verlag, https://www.grin.com/document/320731