Programmiersprachen im Vergleich. Sentimentanalyse und Verbreitung von Python, Java, JavaScript, TypeScript und Matlab


Hausarbeit, 2022

76 Seiten, Note: 1,3


Leseprobe


Inhaltsverzeichnis

1 Einleitung

2 Daten und Methoden
2.1 Google Trends
2.2 Twitter

3 Ergebnisse
3.1 Google Trends
3.2 Twitter

4 Schlussfolgerungen
4.1 Diskussion
4.2 Limitationen und Ausblick

Literaturverzeichnis

Abbildungsverzeichnis

Tabellenverzeichnis

Dateiverzeichnis

Anhang
A Tabellen
B Abbildungen
C Code
a. Google Trends
b. Twitter

1 Einleitung

„Computer science is not just for smart 'nerds' in hoodies coding in basements. Coding is extremely creative and is an integral part of almost every industry.“1

Reshma Saujani beschreibt mit dieser Aussage treffend, welche Rolle das Programmieren in unserer Gesellschaft einnimmt. Längst ist das Coden keine Nischenbeschäftigung für „Nerds“ mehr. Mittlerweile hat das Programmieren eine zentrale Rolle in nahezu allen Branchen eingenommen. Die Entwicklung der Technik wird als vierte industrielle Revolution beschrieben, auch Zeitalter des Digitalen genannt (Holtgrewe et al. 2015). Durch andauernde Technisierung und Einzug des Internets weltweit in alle Lebensbereiche haben sich auch die Anforderungen an Arbeitnehmerinnen und Arbeitnehmer geändert. Mittlerweile wird in Schulen planmäßig Informatik unterrichtet. Auch in immer mehr Studiengängen werden Programmierkenntnisse vermittelt, sei es in der Soziologie, in Data Science oder der Statistik. Es sind Code-Kenntnisse gefragt, sei es in der Wirtschaft oder in der Forschung selbst. In allen Unternehmen werden Daten produziert, die immer öfter digital vorliegen sollen. Die Datenmenge soll ausgewertet und analysiert werden. Deshalb ist das Programmieren längst kein Hobby mehr, das von schlauen „Nerds“ in Kellern ausgeführt wird, sondern eine zentrale Kompetenz für alle Bereiche. Deshalb lernen viele Menschen eine oder sogar mehrere Programmiersprachen.

Doch wer verwendet Programmiersprachen und wie werden diese Sprachen bewertet? Um dieser Frage nachzugehen, werden Suchanfragen auf Google und Kurznachrichten auf Twitter zu exemplarisch ausgewählten Programmiersprachen ausgewertet und visualisiert. Durch Google-Daten werden Veränderungen in den Suchen nach einzelnen Sprachen im zeitlichen Verlauf weltweit dargestellt. Die Twitter-Daten dienen dazu, den Diskurs in den sozialen Medien zu analysieren.

Um das Vorgehen dieser Arbeit begreifen zu können, ist es als erstes wichtig, einige Begriffe und Konzepte zu klären. Deshalb wir der Ausdruck der Programmierschnittstelle erläutert.

Ein zentraler Begriff dieser Arbeit ist die Programmierschnittstelle, auch API (application programming interface) genannt. Sylos und Myers definieren eine Schnittstelle als eine Sammlung an Code, mit Interfaces versehen, die anderen Developern helfen diese zu nutzen (Stylos und Myers 2007). Twitter beschreibt den Vorgang folgendermaßen: „Simpel gesagt sind APIs die Methode, mit der sich Computerprogramme untereinander ‚unterhalten‘, um Informationen anzufordern und bereitzustellen.“ (Twitter 2022c). Diese Schnittstellen können über Software genutzt werden. Diese Programme werden mittels Programmiersprache bedient, also mit einem Syntax-System von Wörtern und Symbolen.

Empirische Ansätze zur quantifizierbaren Leistungsfähigkeit und anderen technischen Aspekten der unterschiedlichen Programmieranwendungen wurden bereits vielfach erforscht (Amadin und Nwelih 2010; L. Prechelt 2000; Prechelt 2000). Interessant darüber hinaus ist die Nutzung von Programmiersprachen in der Bevölkerung, da es hierzu kaum Quellen mit nachvollziehbarer soziologischer Auswertung über Suchmaschinen oder soziale Medien gibt.

Deshalb wird in dieser Arbeit untersucht, wie die Stimmungen zu exemplarisch ausgewählten Programmiersprachen sind. Dazu werden konkret Google Trends und Twitter genutzt. Über Google Trends werden im ersten Schritt Daten zu Suchhäufigkeiten im zeitlichen Verlauf gewonnen, die anschließend bereinigt werden. Twitter ermöglicht es wiederum, Kurznachrichten, in denen Programmiersprachen erwähnt wurden, abzurufen. Auf Datengrundlage der Twitter-Daten wird eine Sentimentanalyse durchgeführt. Auf Basis der gewonnenen und bereinigten Daten von Google Trends und Twitter können dann Grafiken und Tabellen im zweiten Schritt vorgestellt werden. Abschließend werden diese diskutiert und ein Ausblick gegeben.

2 Daten und Methoden

In diesem Kapitel werden die Schnittstellen von Google Trends und Twitter dargestellt. Anschließend werden die gewonnenen Daten und die Methode, mit denen diese ausgewertet wurden vorgestellt.

2.1 Google Trends

Die Google Trends API bietet öffentlich zugänglich und ohne zusätzliche Kosten eine Schnittstelle zur Abfrage von Google-Suchanfragen. Diese Daten umfassen Echtzeitdaten der vergangenen sieben Tage oder auch Nicht-Echtzeitdaten. Die Nicht-Echtzeitdaten reichen historisch bedingt von maximal Januar 2004 bis zu vor den letzten 36 Stunden (Google Trends 2022). Google stellt dort beispielsweise Anfragen nach Region, Zeitverlauf, Land, Stadt oder auch verwandte Schlüsselwörter oder Themen bereit. Analysiert werden Suchanfragen an Google auf der ganzen Welt.

Die Rohdaten werden zunächst von Google automatisch durch die Gesamtzahl der Anfragen in der jeweiligen geografischen Region zu der spezifischen Zeit geteilt. Dadurch werden alle Trends aus dem Wachstum der gesamten Anzahl der Nutzenden oder aus einer Änderung der relativen Beliebtheit entfernt. Ebenso entsteht eine relative Nachfrage, damit Bereiche verglichen werden können.

Anschließend werden die normierten Daten skaliert, sodass sie Werte zwischen null und 100 aufweisen, welche sich nach Nachfrage zu einem Thema im Vergleich zu allen Suchanfragen für alle Themen richten. Das bedeutet, dass ein bestimmter Wert in zwei Regionen trotzdem ein anderes Gesamt-Suchvolumen aufweisen kann. Die Werte sind insgesamt skaliert und normiert, um relative Suchanfragen vergleichen zu können.

In dieser explorativen Arbeit werden Suchanfragen zu fünf exemplarisch ausgewählten Programmiersprachen verwendet. Folgende Schlüsselwörter zu Programmiersprachen werden untersucht: „Python“, „Java“, „JavaScript“, „Typescript“ und „Matlab“. Ausgewählt wurden diese Programmiersprachen, da sie laut Statista populär sind (Wunderer 2022). Die Sprachen „C+“, „C++“ und „C#“ wurden aufgrund von technischen Gründen ausgeschlossen, da Google Trends Sonderzeichen in Suchen nicht berücksichtigt. Somit ist keine Trennung der Anfragen nach diesen drei unterschiedlichen Sprachen möglich gewesen. Zudem wird die Programmiersprache „R“ nicht in die Analyse mitaufgenommen. Bei Sprachen mit nur einem Buchstaben ist nicht eindeutig, dass es bei einer Suche um die betreffende Programmiersprache ging. Auch die Programmiersprache „PHP“ wird nicht analysiert, da der Begriff außerdem eine Abkürzung für die philippinische Währung ist. Neben den fünf ausgewählten Programmiersprachen wurden drei verschiedene Zeiträume verwendet. Als Referenzpunkt dient der 01.07.2022, von dem aus drei Zeitspannen genutzt wurden: ein Jahr, fünf Jahre und die letzten 18 Jahre. Durch die Trends der letzten 18 Jahre ist erkennbar, wie das Suchverhalten insgesamt aussieht. Denn Programmiersprachen sind kein neues Phänomen, sie gehen der Google Trends Dokumentation weit voraus. Innerhalb der letzten fünf Jahre sind einzelne Zyklen oder abgetrennte Schwankungen feiner sichtbar, als das bei 18 Jahren der Fall wäre. Beim letzten Zeitraum über ein Jahr hinweg sind die Schwankungen innerhalb eines Jahres sehr detailliert sichtbar. Neben den Schlüsselworten und den Zeiträumen wurden zudem zwei verschiedene Geodaten betrachtet. Als Erstes wurde deutschlandweit gesucht und als Zweites international. Dadurch kann das Deutsche Googlen im globalen Kontext eingebettet werden.

Um die Daten von Google Trends zu bekommen, wurde die öffentlich zugängliche API genutzt. Anfragen wurden mit Hilfe von R Studio mit Version 4.2.0 (2022-04-22) über x86_64-apple-darwin17.0 (64-bit) und macOS Monterey 12.4 gestellt. Genutzte Pakete umfassen das tidyverse, patchwork, lubridate, ggsci, scales und gtrendsR (Wickham et al. 2019; Rinker und Kurkiewicz 2018; Pedersen 2020; Grolemund und Wickham 2011; Pruim 2010; Wickham und Seidel 2022; Massicotte und Eddelbuettel 2022). Das zentrale Paket ist das gtrendsR -Package von Massicotte und Eddelbuettel. Dieses Paket ermöglicht es, Daten von Google Trends abzufragen. GtrendsR speichert diese Daten in einem grtends -Klassen-Objekt, was einem Data Frame stark ähnelt, und Spalten und Zeilen aufweist. Über R Studio konnten Daten von Google zu den fünf ausgewählten Programmiersprachen gewonnen und anschließend in Liniendiagramme, Kartengrafiken und Tabellen dargestellt werden.

Als aller erstes wurden sämtliche genutzten Pakete installiert, das Referenzdatum als Skalar gespeichert und die Ordner „plots“ und „tables“ erstellt, in denen alle erzeugten Grafiken und Tabellen als CSV-Dateien gespeichert werden (vgl. Datei 1, Zeile 1-13). Um die Daten später einheitlich einfärben zu können wurden fünf Farben dess ggsci -Pakets in zwei verschiedenen Transparenzgraden in zwei Vektoren gespeichert (vgl. Datei 1, Zeile 14-24).

Vor dem eigentlichen Erzeugen der Dataframes wurden zunächst Vektoren für die darauffolgende Schleife angelegt und mit Namen versehen (vgl. Datei 1, Zeile 25-41). Diese umfassen Schlüsselbegriffe, Geodaten und Zeitspannen. Dafür wurden die fünf interessierenden Keywords „python“, „matlab“, „java“, „typescript“ und „javascript“ in einem Vektor eines Dataframes genutzt. Die Geodaten sind in einem weiteren Vektor gespeichert und lauten „DE“ für deutschlandweite Suchen und „“ für internationale Suchen. Die Zeitspannen umfassen die letzten 18 Jahre mittels „2004-07-01 2022-07-01“, die letzten fünf Jahre mit „2017-07-01 2022-07-01“ und das letzte Jahr „2021-07-01 2022-07-01“.

Zur Erzeugung der Datensätze wurde der gtrends -Befehl genutzt (vgl. Datei 1, Zeile 42-127). Dieser Befehl wurde als erstes in einer dreistufigen, genesteten For-Loop ausgeführt. Iteriert wurde dreimal, um sämtliche Kombinationen aus den einzelnen Variationen zu erhalten. Die oberste Ebene der For-Loop iteriert über die Schlüsselbegriffe. Die zweite Ebene der For-Loop umfassen die Geodaten. Die dritte und letzte Ebene der For-Loop ist die Iteration über drei Zeitspannen. Der gtrends -Befehl verwendet in den drei Iterationen die zuvor gespeicherten Objekte: Keywords, Zeitspannen und Geodaten. Ein mitlaufendender Iterationszähler dient zur durchnummerierten Speicherung der fertigen Datensätze in einer Liste und zusätzlich in einer CSV-Datei. Der gtrends -Befehl zog die jeweiligen Schlüsselworte, Geodaten und Zeitdaten aus der Web-Kategorie. Insgesamt wurden sechs Dataframes erzeugt.

Um die Datensätze zu visualisieren, wurde dann eine weitere For-Loop erstellt, die daraus Plots erzeugt (vgl. Datei 1, Zeile 128-168). Diese Schleife iteriert über die verschiedenen Slots in der Liste und erstellt zu jeder Datengrundlage über den Zeitverlauf ein Liniendiagramm. Verwendet wird dabei der ggplot -Befehl des tidyverse -Pakets. Der zeitliche Verlauf ist auf der x-Achse und die Anzahl der Anfragen auf der y-Achse abgetragen. Gruppiert und gefärbt wurde nach den faktorisierten fünf Schlüsselworten.

Für die erstellten Plots wurden anschließend Titel und Untertitel als Vektor bereitgestellt und diese innerhalb einer Schleife basierend auf den festgelegten Index zugeordnet (vgl. Datei 1, Zeile 169-245). Damit erhielt jedes Liniendiagramm einen eigenen Titel und Untertitel. Die x-Achse wurde je nach Zeitspanne entsprechend skaliert. Anschließend wurden alle fertigen Plots als PDF gespeichert.

Im nächsten Schritt wurden die Suchanfragen an die fünf Programmiersprachen als Karten geplottet (vgl. Datei 1, Zeile 246-350). Dafür wurde Kartendaten des ggplot -Pakets über R Studio eingelesen. Abkürzungen, wie USA und UK, wurden ausgeschrieben. Dadurch sind die Länderbezeichnungen der Kartendaten und die der Google Trends Daten übereinstimmend. Anschließend wurde in einer For-Loop über die drei internationalen Länder-Datensätze iteriert. Diese Datensätze wurden dann innerhalb der Schleife so angepasst, dass nur der Eintrag mit den meisten Anfragen pro Land bestehen bleibt. Dadurch ist es möglich, diese neuen Datensätze als Karte darzustellen, da jedes Land eine eindeutige meist geklickte Programmiersprache und zugehörige Rate erhalten hat. Die Visualisierungen basieren auf den eingelesenen Kartendaten zu Längen- und Breitengraden der Länder und den abgefragten Google Trends Daten nach Ländern. Mit dem ggplot -Paket wurden dann durch einer weiteren Schleife über die drei erzeugten Datensätze Karten-Plots erstellt. Gefärbt wurden die Länder nach zugeordneter Programmiersprache. Die Sättigung basiert auf den Werten der Suchanfragen.

Um als nächstes Karten für die einzelnen Programmiersprachen zu erstellen, wurden außerdem fünf neue Anfragen über den gtrends -Befehl zu jeweils einer Programmiersprache gestellt (vgl. Datei 1, Zeile 351-414). Ausgehend von den Datensätzen nach Ländern konnten mittels ggplot erneut diese Daten als Karten geplottet werden. Analog wurden ebenfalls die Sättigung der Farben nach Suchanfragenvolumen festgelegt.

Im letzten Schritt wurden die verwandten Suchanfragen pro Programmiersprache in je einem Datensatz gespeichert. Analog dazu wurden Datensätze zu verwandten Themen erstellt (vgl. Datei 1, Zeile 415-482).

Zusammengefasst wurden über R Studio und dem gtrendsR -Paket Anfragen an die Google Trends API gesendet. Die daraus extrahierten Datensätze sind in Plots gespeichert worden. Insgesamt liegen damit Liniendiagramme der Google Suchanfragen zu fünf Programmiersprachen entweder deutschlandweit oder international vor. Diese wurden jeweils in drei Zeitspannen ausgeführt, entweder ein Jahr, fünf Jahre oder 18 Jahre. Das Referenzdatum ist dafür stets der 01.07.2022. Außerdem wurden drei Karten erstellt, die das globale Suchverhalten der verschiedenen Zeitspannen zu den fünf Programmiersprachen anzeigen. Weitere fünf Karten wurden zu jeder einzelnen Programmiersprache erstellt, die das globale Suchvolumen von Juli 2021 bis Juli 2022 visualisieren. Dann wurden Tabellen zu verwandten Suchbegriffen und verwandten Themen zu jeder einzelnen Programmiersprache erstellt. In den Ergebnissen werden diese Grafiken und Tabellen vorgestellt und eingeordnet.

2.2 Twitter

Bei Twitter handelt es sich um eine Plattform, die Userinnen und Usern ermöglicht, sogenannte Tweets zu veröffentlichen. Diese Tweets sind Kurznachrichten, die maximal 280 Zeichen aufweisen können. Trotz der Möglichkeit Links, GIF-, Bild- und Videomaterial zu posten, ist Twitter vordergründig textbasiert (Twitter 2022a). Wie viele andere Plattformen ermöglicht diese mit Inhalten und Personen zu interagieren. Gerade Hashtags werden genutzt, um Tweets zu finden oder zu verbreiten.

Neben ihrer regulären Plattform bietet Twitter eine öffentlich zugängliche API, über die Tweets und deren zugehörigen Daten abgerufen werden können. Zu diesen Daten gehören sowohl Tweet- als auch User_innendaten. Zu den Tweet-Informationen zählen beispielsweise Verfassungsdatum, Geodaten und die Quelle (z.B. iOS). Die Userdaten umfassen User_innenname, Name, Standort und Verifikations-Status (Twitter 2022b). Die API kann durch verschiedene, teils kostenpflichtige Zugänge genutzt werden. Diese Zugänge unterscheiden sich hinsichtlich der Anzahl der abgerufenen Tweets. Für diese Arbeit wurde ein akademischer Zugang benutzt, der ein größeres Volumen an Abfragen gestattet.

Methodisch wurde eine lexikon-basierte Sentimentanalyse angewandt, die Wörtern Subjektivität und Polarität zuordnet.

Um an die Twitter-Daten zu gelangen, wurde Spyder 5.1.5 über Anaconda 3 unter x86_64-apple-darwin17.0 (64-bit) und macOS Monterey 12.4 genutzt. Die genutzten Pakete umfassen pandas, tweepy und textblob (McKinney et al. 2010; Roesslein 2020; Loria 2018). Authentifiziert wurden die Anfragen durch ein Token, über das ein akademischer Zugang zur Schnittstelle ermöglicht wurde. Nach Paketinstallation und Authentifizierung per Token im tweepy.client -Befehl wurden dann Start- und Endzeitpunkt der Abfrage in zwei Objekten gespeichert (vgl. Datei 2, Zeile 1-17). Der Startzeitpunkt ist der 30.06.2022 und lautet „022-06-30T00:00:00Z“ und der Endzeitpunkt ist der 01.07.2022 und lautet damit „2022-07-01T00:00:00Z“. Start- und Endzeitpunkt auf dem Referenzdatum des 01.07.2022.

Darauffolgend wurden für alle Programmiersprachen per  client.search_all_tweets -Befehl des tweepy-Pakets Daten angefordert (vgl. Datei 2, Zeile 17-33). Dieser Befehl verwendet Suchworte (z.B.: „python“), Startzeitpunkt und Endzeitpunkt. Pro Suche wurden maximal 100 Tweets geladen, um den akademischen Zugang nicht zu sehr auszuschöpfen. Die abgefragten Tweet-Informationen umfassen den Tweet-Text, das Verfassungsdatum, die Geodaten und die Quelle (z.B.: Android). Die Userdaten enthalten den Namen, den User_innennamen, den Standort und den booleschen Verifikations-Status.

Anschließend wird über jeden Tweet iteriert und jeder in einem Dataframe und dieser in einer CSV-Datei gespeichert (vgl. Datei 2, Zeile 35-328). Die verschiedenen Informationen werden in den beschriebenen Spalten gesichert. Zusätzlich wird in dieser Schleife mit dem textblob -Paket eine englische Sentimentanalyse durchgeführt. Jeder Tweet-Text bekommt basierend auf einem angewandten Wörterbuch einen zugeordneten Polaritätswert. Diese Polarität basiert auf den kumulierten Werten der einzelnen Worte innerhalb des Tweets. Der Wertebereich umfasst [-1; 1], von negativer bis positiver Konnotation. Zusätzlich wird ebenso ein Subjektivitätswert zugeordnet, der auch anhand der einzelnen Worte ermittelt wird. Der Wertebereich umfasst [0; 1], von neutral bis subjektiv. Abschließend wird jeder erzeugte Dataframe in einer CSV-Datei gesichert. Diese konnten anschließend exportiert werden.

Zur Auswertung der CSV-Dateien wurden diese mit Hilfe von R Studio mit Version 4.2.0 (2022-04-22) über x86_64-apple-darwin17.0 (64-bit) und macOS Monterey 12.4 bearbeitet. Für die Verarbeitungen kamen die Pakete pacman, tidyverse, stringr, cld2 und cld3 zum Einsatz (Rinker und Kurkiewicz 2018; Wickham et al. 2019; Wickham 2019; Ooms 2020, 2021). Nach Installation aller relevanten Pakete und dem Einlesen der im Vorhinein erstellten CSV-Dateien über Python zu jeweils einer Programmiersprache wurden diese zusammengeführt (vgl. Datei 3, Zeile 1-70). Dazu wurden zuvor alle Datensätze mit einer neuen Spalte zur Zuordnung der jeweiligen Programmiersprache versehen und anschließend alle fünf Datensätze in einen vereint.

Im zusammengeführten Datensatz wurde dann die Spalte zur Sentimentanalyse korrigiert. Da jede der zugehörigen Zellen zwei Werte und Text aufwies (z.B.: „Sentiment(polarity=0.0, subjectivity=0.0“) wurde die Sentiment-Spalte bereinigt (vgl. Datei 3, Zeile 71-113). Es wurden Buchstaben, Klammern, Gleichheitszeichen, Leerzeichen und Tabs mit Hilfe des stringr -Pakets entfernt. Danach wurden die zwei mit Komma getrennten Werte in zwei numerische Spalten aufgeteilt, Subjektivität und Polarität. Hierauf wurden zwei neue Spalten hinzugefügt, die eine Spracherkennung abbilden. Dazu wurden die zwei Pakete cld2 und cld3 verwendet, da diese teilweise abweichende Ergebnisse liefern. Um möglichst sicher bezüglich der Spracherkennung zu sein, wurden beide Verfahren genutzt. Aus dem Datensatz wurden dann bloß jene Einträge beibehalten, die sowohl von cld2 als auch cld3 als englisch erkannt wurden. Dadurch gehen schlussendlich nur englische Tweets in die Auswertung mit ein. Jeder anderssprachige Tweet hätte sonst die Ergebnisse verzerrt, da diese eine neutrale Subjektivität und neutrale Polarität zugeordnet wurde.

Im letzten Schritt wurden dann für jede Programmiersprache Kennwerte aus den Subjektivitäts- und Polaritätsspalten gebildet (vgl. Datei 3, Zeile 114-154). Der damit erzeugte Dataframe wurde ebenfalls als CSV-Datei gesichert.

Anschließend wurden die Daten der Subjektivitätswerte und Polaritätswerte nach Programmiersprachen in Abbildungen visualisiert (vgl. Datei 3, Zeile 155-206). Für die erste Grafik wurde die Polarität auf der x-Achse und die Anzahl der Werte auf der y-Achse abgetragen. Die zuvor bereinigten Daten konnten nach den einzelnen Programmiersprachen aufgesplittet werden, wodurch jede einen abgetrennten Subplot erhielt. Analog erfolgte die Visualisierung für die Subjektivitätswerte. Diesmal wurde auf der x-Achse die Subjektivität abgetragen. Titel und Farben wurden entsprechend angepasst und die Graphen als PNG-Dateien im Ordner „plots“ gespeichert.

Im nächsten Kapitel werden die Ergebnisse der Twitter- und Google-Trends-Datengewinnung und die Auswertung dieser präsentiert.

3 Ergebnisse

3.1 Google Trends

Im vorherigen Kapitel wurde beschrieben, wie Suchanfragen zu fünf exemplarischen Programmiersprachen über die Google Trends Schnittstelle abgefragt wurden (siehe 2.1 Google Trends). Mit diesen Daten wurden Plots erstellt, die in diesem Abschnitt präsentiert werden. Sortiert sind die Liniendiagramme und Karten-Plots nach den verschiedenen drei Zeitspannen: 18 Jahre, fünf Jahre, ein Jahr. Das Referenzdatum ist dabei der 01.07.2022

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 01: Liniendiagramm weltweit seit 01.07.2004 (eigene Darstellung)

Als Erstes wurde die Häufigkeit der globalen Suchanfragen bezüglich der einzelnen Programmiersprachen geprüft. Auffällig ist, dass die Sprache Java gerade zu Beginn der Aufzeichnung Anfang 2004 mit 100% klar heraussticht. Bis Juli 2022 fällt der anfängliche Vorsprung überwiegend linear auf einen Wert von 20%. Auch das Googeln nach Javascript hat über die 18 Jahre nachgelassen. Da das Interesse zu Beginn der Aufzeichnung aber schon 2004 relativ klein war ist dieses im Verhältnis zu Java nur gering von ca. 34% auf ca. 8% gesunken. Matlab beginnt Anfang 2004 bei ungefähr 7% und Typescript bei ca. 1%. Sowohl Matlab als auch Typescript verändern sich über die 18 Jahre unmerklich. Umgekehrt zu Javascript verlaufen die Suchen zu Python. Python ist nahezu deckungsgleich mit Matlab bis Ende 2016 und steigt dann von ungefähr 10% auf ungefähr 26% im Juli 2022. Damit überholt Python Java Ende 2018.

Bei Betrachtung der Suchanfragen in Deutschland sind die Verläufe fast identisch (vgl. Abbildung 7).

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 02: Liniendiagramm weltweit seit 01.07.2017 (eigene Darstellung)

Betrachtet man die vergangen fünf Jahre genauer, wird erneut deutlich, dass Python Java in den letzten zwei Kalenderjahren abgelöst hat. Im Jahr 2019 schneiden sich die Suchanfragen, da Python steigt und Java weiter sinkt. Bei TypeScript sind die Veränderungen so gering, dass dort keine Unterschiede sichtbar sind. Die Anfragen liegen konstant bei 0-1%.

Die übrigen vier zeigen hingegen ausnahmslos ein prägnantes Muster: Im Dezembermonat sinken die Anfragen drastisch mit Abfällen von bis zu 30%. Im Januar steigen die Suchanfragen um circa denselben Wert wieder explosionsartig.

Auch in Deutschland sind die Einbrüche im Dezember und die sofortige Erholung ab Januar deutlich (vgl. Abbildung 8).

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 03: Liniendiagramm weltweit seit 01.07.2021 (eigene Darstellung)

In den letzten zwölf Monaten wird der Vorsprung von Python, gefolgt von Java, erneut sichtbar. TypeScript weist mit ca. 1% am wenigsten Suchhäufigkeiten auf. Matlab startet Juli 2021 mit ca. 12% und wächst leicht auf ca. 22%. Ähnlich verläuft Javascript mit anfänglichen ca. 20% und abschließenden ca. 27%. Weit darüber verläuft Java und steigt von ca. 45% auf 55%. Etwas darüber verlaufen Pythons Suchanfragen und steigen von 50% im Juli 2021 auf ca. 77%.

Noch deutlicher wird der Einbruch im Dezember beim Betrachten des Jahreszyklus von Juli 2021 bis Juli 2022. Dieser Fall beginnt Ende November und hat den niedrigsten Punkt im letzten Drittel im Dezember. Ende Dezember steigen die Anfragen wiederum leicht und dann stärker zum Jahreswechsel. Alle fünf Programmiersprachen sind ausnahmslos von diesem Muster betroffen. Am stärksten ist er jedoch bei den zwei am meisten gesuchten Programmiersprachen Python und Java. Bei diesen beiden steigen die Suchanfragen nach dem Jahreswechsel noch mal stärker an.

Wiederum etwas stärker ist dieser Effekt im Dezember in Deutschland (vgl. Abbildung 9).

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 04: Karte weltweit seit 01.07.2004 (eigene Darstellung)

Nationale Unterschiede lassen sich besonders anschaulich anhand der geplotteten Weltkarte der Suchanfragen von Juli 2004 bis Juli 2021 ablesen. Grundsätzlich ist das Suchinteresse ausschließlich von Java dominiert. Geballt ist das Interesse in Mexiko, in weiten Teilen Südamerikas, Bangladesch und Indonesien. Auch Indien, China und die Türkei haben ein hohes Suchinteresse. Ein mittleres Interesse an Java besitzen Gebiete wie Nordamerika, Russland, Skandinavien und Australien. Auffallend ist das geringe Suchvolumen in den meisten Teilen Afrikas, Zentralamerikas und Zentralasiens. Zudem wird in einigen Teilen im nördlichen und südlichen Osteuropa und in Grönland wenig gesucht.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 05: Karte weltweit seit 01.07.2017 (eigene Darstellung)

Eingegrenzt im Zeitraum von Juli 2017 bis Juli 2021 ist der Umschwung von Java zu Python besonders sichtbar. Die Gebiete mit geringem Suchvolumen haben sich kaum geändert. Die meisten Teile Afrikas, Zentralamerikas und Zentralasiens, sowie Grönland weisen auch in den letzten fünf Jahren ein kleines Suchinteresse auf. Im nördlichen und im südlichen Osteuropa sind einige Bereiche mit minimalem Suchvolumen vertreten. Gebiete, die zuvor ein mittleres Suchinteresse nach Java hatten, haben nun vorwiegend Interesse an Python, z.B.: Nordamerika, Russland, Skandinavien und Australien. Gebiete mit mehr Google-Anfragen wie Indien und die Türkei überwiegen weiterhin mit Java. China hat nun das stärkste Interesse an Python. In den vorigen Ballungen des Java-Interesses bleibt diese Präferenz weitestgehend bestehen, z.B.: in Südamerika, Bangladesch und Indonesien.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 06: Karte weltweit seit 01.07.2021 (eigene Darstellung)

Betrachtet man den Zeitraum von Juli 2021 bis Juli 2022 fällt erneut der Wandel hin zu Python auf. Länder, in denen Java überwiegt, sind nur noch vereinzelt sichtbar, z.B.: Mexiko, Peru, Ecuador, Indien, die Philippinen und Vietnam. Heraus sticht das gleichbleibend hohe Suchinteresse nach Java in Indonesien. Die restlichen Gebiete sind von Python dominiert. Auffallend ist das höchste Interesse in Russland und China. Die Regionen mit geringem Suchvolumen sind weitestgehend unverändert, mit Afrika, Grönland, Zentralamerika, Osteuropa und Zentralasien.

Bleibt man im Zeitraum vom Juli 2021 bis Juli 2022 und betrachtet das globale Interesse aufgeteilt nach den einzelnen Programmiersprachen, werden wiederum einige Muster deutlich.

Abbildung 07: Karte Python weltweit seit 01.07.2021 (eigene Darstellung)

Abbildung in dieser Leseprobe nicht enthalten

Das Suchvorkommen für Python ist global bei ungefähr 50% angesiedelt. Nur die meisten Teile Afrikas und Grönland weisen ein geringes Suchvolumen auf. Zentriert mit 100% ist das Suchvorkommen in China. Dieses Muster gilt ebenso für Java, Javascript und TypeScript (vgl. Abbildung 11, Abbildung 12, Abbildung 14).

Abbildung 08: Karte Matlab weltweit seit 01.07.2021 (eigene Darstellung)

Abbildung in dieser Leseprobe nicht enthalten

Sehr ähnlich ist das Interesse an Matlab vertreten. In Nigeria und Kenia ist das Suchvolumen jedoch kleiner. Außerdem haben Usbekistan und Kasachstan nun nur ein minimales Volumen. Während in Afrika und Zentralasien das Interesse im Vergleich zu den restlichen vier Programmiersprachen geringer ist, ist das Suchvolumen in Indien wesentlich höher.

Insgesamt unterscheidet sich Matlab von dem Suchverhalten nach anderen Programmiersprachen nur in einigen Gebieten Afrikas, Zentralasiens und in Indien (s.o.).

Beim Betrachten der verwandten Suchthemen und verwandten Suchen wird erneut deutlich, dass Matlab in Indien häufig gesucht wird. Viele ähnliche Suchen nach Matlab sind auf Hindi verfasst oder suchen explizit mit dem zusätzlichen Schlagwort „Hindi“ (vgl. Tabelle 2, Spalte Matlab). Ferner ist eins der verwandten Themen bei der Programmiersprache Matlab ebenfalls Hindi (vgl. Tabelle 3, Spalte Matlab, Zeile 3).

Insgesamt enthalten die verwandten Suchthemen und Suchen des Öfteren Anfragen nach Zugängen zu den Programmiersprachen. Oft wird nach Downloads, Lernmaterial und Dateiformaten gegoogelt (z. B. mit dem Schlagwort „json“; vgl. Tabelle 2). Speziell bei Java tauchen in den verwandten Suchen das Schlagwort „minecraft“ auf. Abgesehen davon unterscheiden sich die Suchthemen nur marginal. Ein Großteil sucht nach Installationsmaterial, Kursen oder Klassen. Die verwandten Themen zu den Programmiersprachen zeigen, dass Listen, Strings, HTML und Datentypen ähnliche Suchen sind (vgl. Tabelle 3). Zudem tauchen teilweise andere Programmiersprachen in den verwandten Themen auf. Verwandte Themen von Java sind beispielsweise Javascript und Python (vgl. Tabelle 3, Spalte Java, Zeile 13 und 26). Auch Themen zu Javascript enthalten die Sprachen PHP und Python (vgl. Tabelle 3, Spalte Javascript, Zeile 22 und 25). Matlab weist ebenfalls Python als verwandtes Thema auf (vgl. Tabelle 3, Spalte Matlab, Zeile 10). TypeScript hat Javascript als verwandte Suche (vgl. Tabelle 3, Spalte Typescript, Zeile 3). Python ist demnach ein verwandtes Thema von Java, Jacascript und Matlab. Die verwandten Themen von Python hingegen weisen selbst allerdings keine andere Programmiersprache auf.

Insgesamt suchen Personen vermehrt nach den Programmiersprachen, wenn sie im Zusammenhang mit diesen Verständnisprobleme oder Lernbedarf haben.

3.2 Twitter

Die Sentimentanalyse der verschiedenen Programmiersprachen weisen zwei Werte zu jeder Programmiersprache auf: Polarität und Subjektivität. Der Subjektivitäts-Wert gibt von 0 bis 1 an, wie neutral oder affektiv/emotional ein Text verfasst wurde. 0 steht dabei für eine neutrale Formulierung und 1 für eine subjektive Formulierung. Der Polaritäts-Wert gibt von -1 bis 1 an, wie negativ oder positiv ein Text ist. -1 ist dabei eine negative und 1 eine positive Wertung des Textes.

Durchschnittlich haben alle fünf Programmiersprachen einen Polaritätswert von 0,05 und eine Subjektivität von 0,38. Demnach sind alle Tweets zu allen Programmiersprachen im Mittel neutral bis schwach positiv und eher leicht subjektiv verfasst worden (vgl. Tabelle 1, Zeile 7).

Java hat eine Polarität von 0,13 und Subjektivität von 0,5. Demnach wurde über Java positiver und mit mittlerer Subjektivität getweetet (vgl. Tabelle 1, Zeile 2). Javascript hat als einzige Programmiersprache einen negativen Polaritätswert von -0,004. Dieser Wert ist jedoch sehr nah an null, weswegen im Schnitt weder positiv noch negativ über Javscript geschrieben wurde. Javascript hat zudem eine schwache bis mittlere Subjektivität mit 0,33 (vgl. Tabelle 1, Zeile 3). Matlab hat eine leicht positive Polarität von 0,05 und schwache bis mittlere Subjektivität von 0,29 (vgl. Tabelle 1, Zeile 4). Python hat eine geringe positive Polarität von 0,02 und schwache bis mittlere Subjektivität von 0,32 (vgl. Tabelle 1, Zeile 5). TypeScript hat eine schwach positive Polarität von 0,07 und mittlere Subjektivität von 0,45 (vgl. Tabelle 1, Zeile 6).

Abbildung 09: Histogramm Sentimentanalyse: Polarität (eigene Darstellung)

Abbildung in dieser Leseprobe nicht enthalten

Sieht man sich die Histogramme der Polarität nach den einzelnen Programmiersprachen an, wird die überwiegende neutrale Meinung deutlich. Alle Programmiersprachen weisen einen Modus von null auf. Die Polaritätsergebnisse zu Java streuen fast über den gesamten Wertebereich. Javascript hat eine relative mittlere Streuung. Matlab, Python und TypeScript streuen sehr wenig um null.

Abbildung 10: Histogramm Sentimentanalyse: Subjektivität (eigene Darstellung)

Abbildung in dieser Leseprobe nicht enthalten

Betrachtet man die Histogramme zur Subjektivität nach den einzelnen Programmiersprachen, fällt auf, dass der Modus jeder Programmiersprache bei null liegt. Die Verteilungen sind alle rechtsschief. Java, Javascript, Matlab und Typescript streuen über den gesamten Wertebereich. Nur Python weist eine geringere Streuung auf, über Python wird weniger persönlich getweetet. Über Java hingegen wird eher subjektiv gesprochen.

4 Schlussfolgerungen

4.1 Diskussion

Ziel dieser Arbeit war es, mit Google Trends und Twitter-Daten zu untersuchen, wie die Stimmungen zu fünf exemplarisch gewählten Programmiersprachen sind.

Dazu wurden zunächst Google Trends Daten zu fünf Programmiersprachen abgerufen, jeweils weltweit und dann separat erneut für Deutschland. Hinzu kamen noch drei verschiedene Zeitspannen: Juli 2004 bis Juli 2022, Juli 2017 bis Juli 2022 und Juli 2021 bis Juli 2022. Zusätzlich wurden separat Anfragen zu einzelnen Programmiersprachen international zur letzten Zeitspanne gesendet.

Aus diesen Datensätzen konnten dann Liniendiagramme erzeugt werden. Durch diese Visualisierungen wurde deutlich, dass das ehemals höchste Suchinteresse an Java über die letzten 18 Jahre kontinuierlich gefallen ist. Python hingegen erlebte einen Aufschwung, der innerhalb der vier Kalenderjahre Java in den Suchhäufigkeiten ablöste. Matlab, Typescript und Javascript waren geringer und ohne prägnante Veränderungen vertreten. Ein Muster haben sie jedoch gemein: Im Dezember nehmen die Anfragen stark ab und zum Jahreswechsel wiederum rasant zu. Stärker noch ist dieser Effekt in Deutschland sichtbar. Es scheint so, als würde um die Weihnachtszeit herum das Interesse an Programmiersprachen abnehmen, nur um dann im darauffolgenden Jahr wieder zuzunehmen. Mit hoher Wahrscheinlichkeit geht das auf die christlichen Feiertage bis Neujahr zurück.

Im globalen Vergleich durch die Karten wurde der Trend weg von Java und hin zu Python erneut deutlich. Abgesehen von dieser Veränderung ist über die gesamte Zeit sichtbar, dass Afrika, Zentralasien, Zentralamerika, nördliche und südliche Teile Osteuropas und Grönland kaum Suchanfragen an Programmiersprachen stellen. Mit hoher Wahrscheinlichkeit geht das auf eine mangelnde Infrastruktur mir eingeschränkten Zugängen zu Internet oder Technik einher. Jede einzelne der untersuchten Programmiersprachen ist zudem in China geballt, dort wird bei jeder der fünf Sprachen am meisten nach ihnen gegoogelt.

Verwandte Suchen und Themen ergaben, dass oft gegoogelt wird, um einen Einstieg in die jeweilige Programmiersprache zu erhalten oder wenn weiterer Lernbedarf beispielsweise zu Datenformen besteht.

Im zweiten Teil wurden Twitter-Daten zu den Programmiersprachen abgerufen und eine Sentimentanalyse durchgeführt. Dadurch bekam jeder Tweet einen Subjektivitäts- und Polaritätswert. Nach Ausschluss aller nicht-englischen Tweets konnten diese Daten in Histogrammen visualisiert und zusammengefasst in Tabellen festgehalten werden. Überwiegend sind die Tweets zu den Sprachen geringfügig positiv und überwiegend aus einer neutralen Position verfasst worden. Unterschiede zwischen Programmiersprachen sind oft nur marginal.

4.2 Limitationen und Ausblick

Zum Schluss gilt es zu erwähnen, die vordergründige Einschränkung dieser Arbeit ist die potenzielle Verallgemeinerbarkeit der vorliegenden Ergebnisse. Um die Stimmungen zu Programmiersprachen abzufragen, wurden im Rahmen dieser Arbeit lediglich Google Trends- und Twitter-Daten verwendet. Ein Grund für die Wahl dieser beiden Schnittstellen ist der öffentliche und kostenfreie Zugang zu diesen sowie die Popularität der beiden Webseiten. Über Google Trends können zudem nur Daten von 2004 an abgefragt werden. Auch Twitter bietet eine zeitliche Einschränkung.

Zusätzlich zu den zeitlichen Einschränkungen der Webseiten kommt die zeitliche Einschränkung der in der Arbeit verwendeten Zeitspannen hinzu. Für Google wurden extra drei Spannen herausgearbeitet, um sowohl einen großen Überblick zu erhalten, als auch feinere Unterschiede in kürzeren Zeitspannen zu erkennen. Trotz dieser Überlegungen ist die Auswahl der Zeiten trotzdem einer gewissen Willkür unterlegen, die auch durch die Festlegung des Referenzdatums zustande gekommen ist. Über Twitter wurde eine Zeitspanne gewählt, die ebenfalls auf dem Referenzdatum basiert. Da nur einige wenige Tweets extrahiert wurden, können keine allgemeinen Aussagen zur gesamten Stimmung auf Twitter getätigt werden. Auch befindet sich das Datum der Tweets in der Sommerzeit und Google zeigt über das Jahr hinweg Unterschiede des Interesses je nach Jahreszeit. Möglicherweise gäbe es zu den Tweets im Winter andere Meinungen zu Programmiersprachen als im Sommer.

Ein weiterer Aspekt erfolgte durch die interne Funktionalität von Google Trends. Bei Suchen mit Sonderzeichen werden diese nicht registriert. Dadurch war es nicht möglich, „C“, „C+“, „C++“ und „C#“ separat auszuwerten. Eine Suche nach „C“ hätte also alle Programmiersprachen zusammengefasst. Zusätzlich sind Suchen mit nur einem Buchstaben noch anfälliger für Fehler, da auch aus Versehen nach diesen gesucht worden hätte können. Ein weiterer Aspekt ist der Ausschluss der Programmiersprache „PHP“. Bei Sichtung der verwandten Suchen nach PHP wurde deutlich, dass das Schlagwort sich ebenso auf die philippinische Währung bezogen haben könnte. Um dieser Verzerrung entgegenzuwirken, musste diese Sprache ausgeschlossen werden. Durch diese beiden Aspekte konnten wichtige Programmiersprachen nicht ausgewertet werden.

Eine weitere mögliche Verzerrung beider Webseiten könnte durch Bots aufgekommen sein. Obwohl Google und auch Twitter systematisch Filter eingebaut haben, um diese abzublocken, können nicht alle Bots aufgehalten werden, was wiederum die Daten verzerrt. Der Grad der Verzerrung ist unklar. Da es sich inhaltlich um Programmiersprachen handelt, ist die Wahrscheinlichkeit geringer, dass Bots eingesetzt werden, als es beispielsweise bei Inhalten zu Politik der Fall gewesen wäre. Gerade Bots werden oft verwendet, wenn ein wirtschaftlicher oder politischer Vorteil durch die Instrumentalisierung von Suchanfragen oder Tweets möglich ist. Beide Datensätze haben gleichermaßen das Problem, Personen, welche Google oder Twitter nicht nutzen, nicht abzufragen. Außerdem unterliegt diese Forschung wie alle Online-Forschungen dem Umstand, dass in der digitalen Welt viel mit Bots gearbeitet wird. Noch eine Fehlerquelle stellen Google- und Twitter-Nutzende dar, die mit „virtual private networks“ (VPNs) arbeiten, welche die IP-Adressen der elektronischen Geräte manipuliert und als Resultat abweichende Geodaten dokumentiert werden. Diese Geodaten verzerren alle Daten zu Räumen auf Twitter und Google. Trotz dieser Einschränkung ist allerdings zu erwähnen, dass Google und Twitter aufgrund ihrer großen Anzahl an Nutzenden nichtsdestotrotz interessante Ergebnisse liefern, die nicht uneingeschränkt akkurat sind, aber ein verlässliches Bild abgeben.

Zudem untersuchen Suchanfragen über Google die Stimmungen zu den verwendeten Programmiersprachen nur bedingt. Wie auch in den Ergebnissen angesprochen wird häufiger nach Programmiersprachen gesucht, wenn diese installiert werden, Probleme auftauchen oder Lernbedarf besteht. Dadurch, dass bei Komplikationen Google eingesetzt wird, könnte ein Teil der Anfragen nicht auf Popularität der betreffenden Sprache hinweisen, sondern auf das genaue Gegenteil. Möglicherweise wird auch mehr gesucht, wenn Menschen diese Programmiersprache eben nicht gefällt, sondern Fehler behoben werden müssen und die Programmiersprachen damit negativ bewertet werden. Eine weitere Verzerrung könnte dadurch gegeben sein, dass Google nur eine Suchmaschine darstellt. Sicherlich verwenden nicht alle Programmiererinnen und Programmierer Google, um nach etwas zu suchen. Es gibt unzählige Alternativen, wie „Ecosia“, „Startpage“ oder beispielsweise „DuckDuckGo“. Letztere dürfte besonders verbreitet unter Menschen mit Programmierkenntnissen sein, da Datenschutz besonders berücksichtigt wird und weniger Werbefläche geboten wird. Die Google-Suchmaschine wiederum schaltet viel Werbung, speichert Cookies und arbeitet viel mit Google-Konten, um Informationen über die betreffenden Personen zu sammeln.

Auch die Twitter API unterliegt einer Verzerrung der Daten. Programmiersprachen werden auf sämtlichen Plattformen diskutiert und Meinungen zu diesen besprochen. Für diese Arbeit wurde lediglich Twitter verwendet. Tweets bilden aber nicht die gesamte Menschheit ab, sondern eine bestimmte Teilmenge dieser.

Auch das Verfahren der Sentimentanalyse reduziert Texte auf nur einen Polaritäts- und Subjektivitätswert. Bei sarkastischen Texten oder Verneinungen können so abweichende Ergebnisse zustande gekommen sein. Da es sich nach Sichtung der Tweets und Betrachtung der Subjektivitätswerte überwiegend um neutrale Tweets handelt, ist die Verzerrung der Werte höchstwahrscheinlich nur marginal.

Für künftige Forschung wäre es interessant, Tweets über einen längeren Zeitraum, beispielsweise ein Jahreszyklus, abzufragen und auszuwerten. Damit könnten die Daten einen größeren Umfang erreichen und die Unterschiede innerhalb eines Jahres untersuchen. Auch ist es denkbar neben einer Sentimentanalyse mehrere Verfahren anzuwenden, um Tweets auf Twitter besser zu verstehen. Beispielsweise wären auch Darstellungen in Wortwolken, Keywords-In-Context, Worthäufigkeiten oder andere Vorgehensweisen interessant.

Über Google wären außerdem feinere Analysen möglich, die sich Bereiche innerhalb von Ländern oder sogar Städten widmen. Gerade auffallende Gebiete mit wenig Suchinteresse könnten weiter analysiert werden oder Länder mit hohem Suchvolumen wie China oder Indien genauer aufgeschlüsselt werden.

Zudem wäre es spannend, Befragungen durchzuführen oder qualitative Elemente aufzunehmen und Interviews mit Programmiererinnen und Programmierern zu führen. Gründe für das große Interesse in anderen Ländern und geringes Interesse in anderen Gebieten könnten dadurch möglicherweise erfragt werden. Auch umgekehrt wäre es denkbar, das bemerkenswerte Suchvolumen Chinas an allen besprochenen Programmiersprachen und Indiens bedeutsames Googeln nach Matlab nachzuvollziehen. Es wäre zudem möglich, genauste Beweggründe für die geringen Suchen um die Weihnachtszeit herum herauszufinden. Das betrifft sowohl das christlich geprägte Deutschland als auch die ganze Welt. Das Muster Einbrüche im Dezember könnten weiter in anderen Ländern im Verhältnis zu Religion und Tradition aufgesplittet werden.

Außerdem wäre es interessant, die Stimmung und Googeln nach Programmiersprachen stärker in die technischen Aspekte der Sprachen einzuordnen. Im Rahmen dieser Arbeit konnten keine historischen oder technischen Parameter mitaufgenommen werden. Sicherlich wäre es aber möglich, die Sprachen weiter zu kategorisieren und somit Unterschiede von Tweets oder Google-Suchanfragen besser vergleichen und einordnen zu können.

Literaturverzeichnis

Amadin, IF, und E Nwelih. 2010. An Empirical Comparison Of: HTML, PHP, COLDFUSION, PERL, ASP .NET, JAVASCRIPT, VBSCRIPT, PYTON AND JSP. Global Journal of Computer Science and Technology 10: 9–17.

Google Trends. 2022. FAQ about Google Trends data. https://www.google.com/trends (Zugegriffen: 8. Aug. 2022).

Grolemund, Garrett, und Hadley Wickham. 2011. Dates and Times Made Easy with {lubridate}. Journal of Statistical Software 40: 1–25.

Holtgrewe, Ursula, Thomas Riesenecker-Caba, und Jörg Flecker. 2015. „Industrie 4.0 “–eine arbeitssoziologische Einschätzung. Endbericht für die AK Wien. Wien.

L. Prechelt. 2000. An empirical comparison of seven programming languages. Computer 33: 23–29.

Loria, Steven. 2018. textblob Documentation. 2.

Massicotte, Philippe, und Dirk Eddelbuettel. 2022. gtrendsR: Perform and Display Google Trends Queries. https://CRAN.R-project.org/package=gtrendsR.

McKinney, Wes, Wes McKinney, und Wes McKinney. 2010. Data structures for statistical computing in python. In Proceedings of the 9th Python in Science Conference, 51–56. Austin, Texas.

Ooms, Jeroen. 2020. cld2: Google’s Compact Language Detector 2. https://CRAN.R-project.org/package=cld2.

Ooms, Jeroen. 2021. cld3: Google’s Compact Language Detector 3. https://CRAN.R-project.org/package=cld3.

Pedersen, Thomas Lin. 2020. patchwork: The Composer of Plots. https://CRAN.R-project.org/package=patchwork.

Prechelt, Lutz. 2000. An empirical comparison of c, c++, java, perl, python, rexx and tcl. IEEE Computer 33: 23–29.

Pruim, Randall J. 2010. LocusZoom: regional visualization of genome-wide association scan results. Bioinformatics. 26: 2336–2337.

Rinker, Tyler W., und Dason Kurkiewicz. 2018. {pacman}: {P}ackage Management for {R}. http://github.com/trinker/pacman.

Roesslein, Joshua. 2020. tweepy: Twitter for Python! https://github.com/tweepy/tweepy.

Stylos, Jeffrey, und Brad Myers. 2007. Mapping the space of API design decisions. 50–60. IEEE.

Twitter. 2022a. So twitterst du. https://help.twitter.com/de/using-twitter/how-to-tweet (Zugegriffen: 26. Aug. 2022).

Twitter. 2022b. Twitter API. https://developer.twitter.com/en/products/twitter-api (Zugegriffen: 26. Aug. 2022).

Twitter. 2022c. Über Twitter APIs. https://help.twitter.com/de/rules-and-policies/twitter-api (Zugegriffen: 26. Aug. 2022).

Wickham, Hadley. 2019. stringr: Simple, Consistent Wrappers for Common String Operations. https://CRAN.R-project.org/package=stringr.

Wickham, Hadley et al. 2019. Welcome to the {tidyverse}. Journal of Open Source Software 4: 1–1686.

Wickham, Hadley, und Dana Seidel. 2022. scales: Scale Functions for Visualization. https://CRAN.R-project.org/package=scales.

Wunderer, Felix. 2022. Die beliebtesten Programmiersprachen weltweit laut PYPL-Index im August 2022. Statista. https://de.statista.com/statistik/daten/studie/678732/umfrage/beliebteste-programmiersprachen-weltweit-laut-pypl-index/#professional (Zugegriffen: 8. Aug. 2022).

Abbildungsverzeichnis

Abbildung 01: Liniendiagramm weltweit seit 01.07.2004 (eigene Darstellung)

Abbildung 02: Liniendiagramm weltweit seit 01.07.2017 (eigene Darstellung)

Abbildung 03: Liniendiagramm weltweit seit 01.07.2021 (eigene Darstellung)

Abbildung 04: Karte weltweit seit 01.07.2004 (eigene Darstellung)

Abbildung 05: Karte weltweit seit 01.07.2017 (eigene Darstellung)

Abbildung 06: Karte weltweit seit 01.07.2021 (eigene Darstellung)

Abbildung 07: Karte Python weltweit seit 01.07.2021 (eigene Darstellung)

Abbildung 08: Karte Matlab weltweit seit 01.07.2021 (eigene Darstellung)

Abbildung 09: Histogramm Sentimentanalyse: Polarität (eigene Darstellung)

Abbildung 10: Histogramm Sentimentanalyse: Subjektivität (eigene Darstellung)

Abbildung 11: Liniendiagramm deutschlandweit seit 01.07.2004 (eigene Darstellung)

Abbildung 12: Liniendiagramm deutschlandweit seit 01.07.2017 (eigene Darstellung)

Abbildung 13: Liniendiagramm deutschlandweit seit 01.07.2021 (eigene Darstellung)

Abbildung 14: Karte Java weltweit seit 01.07.2021 (eigene Darstellung)

Abbildung 15: Karte Javascript weltweit seit 01.07.2021 (eigene Darstellung)

Abbildung 16: Karte Typescript weltweit seit 01.07.2021 (eigene Darstellung)

Tabellenverzeichnis

Tabelle 1: Sentimentanalyse

Tabelle 2: Verwandte Suchen

Tabelle 3: Verwandte Themen

Dateiverzeichnis

Datei 1: Googletrends.Rmd

Datei 2: Twitter_01.py

Datei 3: Twitter_02.Rmd

Anhang

Alle verwendeten Dateien sind unter https://github.com/lpkiemes/Essay_DataScience verfügbar. Dazu gehören unter anderem Tabellen, Abbildungen und Code.

A Tabellen

Tabelle 1: Sentimentanalyse

Abbildung in dieser Leseprobe nicht enthalten

Tabelle 2: Verwandte Suchen

Abbildung in dieser Leseprobe nicht enthalten

Tabelle 3: Verwandte Themen

Abbildung in dieser Leseprobe nicht enthalten

B Abbildungen

Abbildung 11: Liniendiagramm deutschlandweit seit 01.07.2004 (eigene Darstellung)

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 12: Liniendiagramm deutschlandweit seit 01.07.2017 (eigene Darstellung)

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 13: Liniendiagramm deutschlandweit seit 01.07.2021 (eigene Darstellung)

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 14: Karte Java weltweit seit 01.07.2021 (eigene Darstellung)

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 15: Karte Javascript weltweit seit 01.07.2021 (eigene Darstellung)

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 16: Karte Typescript weltweit seit 01.07.2021 (eigene Darstellung)

Abbildung in dieser Leseprobe nicht enthalten

C Code

a. Google Trends

Datei 1: Googletrends.Rmd

Abbildung in dieser Leseprobe nicht enthalten

[...]


1 Reshma Saujani.

Ende der Leseprobe aus 76 Seiten

Details

Titel
Programmiersprachen im Vergleich. Sentimentanalyse und Verbreitung von Python, Java, JavaScript, TypeScript und Matlab
Hochschule
Ludwig-Maximilians-Universität München  (Soziologie)
Veranstaltung
Soziologische Vertiefung 1
Note
1,3
Autoren
Jahr
2022
Seiten
76
Katalognummer
V1289569
ISBN (eBook)
9783346752390
ISBN (Buch)
9783346752406
Sprache
Deutsch
Schlagworte
explorativ, r, python, typescript, java, javascript, code, programmieren, sentimentanalyse, trends, google, twitter, tweets, api, CSS, Computational Social Science, Big Data
Arbeit zitieren
Laura Kiemes (Autor:in)Felix Grams (Autor:in), 2022, Programmiersprachen im Vergleich. Sentimentanalyse und Verbreitung von Python, Java, JavaScript, TypeScript und Matlab, München, GRIN Verlag, https://www.grin.com/document/1289569

Kommentare

  • Noch keine Kommentare.
Blick ins Buch
Titel: Programmiersprachen im Vergleich. Sentimentanalyse und Verbreitung von Python, Java, JavaScript, TypeScript und Matlab



Ihre Arbeit hochladen

Ihre Hausarbeit / Abschlussarbeit:

- Publikation als eBook und Buch
- Hohes Honorar auf die Verkäufe
- Für Sie komplett kostenlos – mit ISBN
- Es dauert nur 5 Minuten
- Jede Arbeit findet Leser

Kostenlos Autor werden