Die Diplomarbeit ist in vier Kapitel gegliedert. Im ersten Kapitel wird eine Auswahl an Software vorgestellt, die an Sozial- und Wirtschaftswissenschaftlichen Universitäten im Rahmen des elementaren Statistikunterrichts Anwendung findet. Es werden in einem Überblick deren Grundgedanken und Funktionsweisen beschrieben. Anhand der Vor- und Nachteile dieser Softwareangebote wird gezeigt, dass es möglich ist, etliche Vorteile zu vereinen, ohne jedoch die Nachteile zu übernehmen.
Eine wesentliche Rolle kommt dabei der Software R zu. R bietet sich auf mehrfache Weise an. Da R als Open-Source Software geschrieben wurde, ist sie frei verfügbar. Andere Softwarepakete sind teuer, leisten jedoch nicht mehr als R. Weiters zeichnet sich R durch eine sehr moderne Programmierung, durch schnelle Berechnungen und eine einfache Syntax aus. Diese erlaubt es dem Benutzer, auf unkomplizierte Weise komplexe Modelle zu bilden.
Diese Rechenstärke R's wird mit der Bedienungsfreundlichkeit von Excel in Form von SEMIR verbunden. SEMIR wird im zweiten und dritten Kapitel ausführlich beschrieben.
Im zweiten Kapitel wird eine eingehende Beschreibung von SEMIR für den Anwender gegeben. Dieser Teil der Diplomarbeit kann gewissermaßen als „Reference Manual“ und Unterstützung bei der Einarbeitung herangezogen werden. Ausgehend von der Installation werden nach und nach alle Funktionen einzeln beschrieben. Diese werden mit Screenshots und Handlungsanweisungen ergänzt. Das zweite Kapitel wird von einer Beschreibung der Deinstallation von SEMIR abgeschlossen.
Im dritten Kapitel wird der Quellcode erklärt. Diese Erklärung soll eine Verständnishilfe für das Zusammenspiel der einzelnen Elemente und die Weiterentwicklung von SEMIR darstellen. Der Quellcode ist zweigeteilt. Ein Teil der Makros wurde als Visual Basic Code, ein Zweiter als R Programmbibliothek verfasst. Es wird beschrieben werden, welche Funktionen die einzelnen Makros übernehmen und wie sie interagieren.
Das vierte Kapitel diskutiert abschließend Möglichkeiten, SEMIR weiterzuentwickeln. Es werden Vorschläge gemacht, in welche Richtung die Weiterentwicklung gehen könnte und Beispiele von Funktionalitäten gebracht, die in der jetzigen Version von SEMIR noch nicht enthalten sind.
In den Anhängen sind die Programmcodes der R Makros und der VB Makros abgedruckt.
Inhaltsverzeichnis:
Danksagung
Vorwort
1. Einleitung
1.1. Statistische Softwarelösungen
1.1.1. SPSS
1.1.2. Excel
1.1.3. R
1.2. Überblick über die behandelte Statistiksoftware
1.3. Die Synthese: Die Verbindung von R und Excel
2. Beschreibung des Interfaces
2.1. Installation
2.2. Grundsätze der Funktionalität SEMIRs
2.3. Funktionalität der einzelnen Menüpunkte
2.3.1. Menüstruktur
2.3.2. Manager
2.3.3. Data
2.3.4. Statistics (Excel Dataset)
2.3.5. Statistics (R Dataset)
2.3.6. Random
2.3.7. Diagrams
2.3.8. Das Kontextmenü
2.4. Deinstallation des Interfaces
3. Programmierung
3.1. Programmierung in Visual Basic
3.2. Programmierung in R
4. Ansätze zur Weiterentwicklung
4.1. Bedienungsfreundlichkeit
4.2. Funktionalität
Literaturverzeichnis
Abbildungsverzeichnis
Anhang1: Visual Basic Codierung
Anhang2: RLibrary Rfunctions.r
Danksagung
Ich möchte mich vorab bei all jenen Menschen bedanken, die mir geholfen haben, diese Diplomarbeit zu realisieren.
Dies sind zunächst mein Vater, Mag. Dr. Manfred Haas, und meine liebenswerte Mutter, Brigitte Haas, die es mir mit ihrer mentalen und finanziellen Unterstützung ermöglicht haben, mein Studium an der Wirtschaftsuniversität aufzunehmen und - wie ich hoffe - erfolgreich zu Ende zu führen. Ausserdem haben sie seit jeher mein Leben und meine Taten durch Ermutigung und konstruktive Kritik gestärkt. Danke.
Auf pädagogischer Ebene kommt ein besonderer Dank Professor Dr. H. S., meinem Betreuer, zu. Er hat mir dieses Thema zur Bearbeitung vorgeschlagen und mich damit vor eine sehr herausfordernde Aufgabe gestellt. Darüber hinaus hat er sich aber auch sehr viel Zeit genommen, um mich in die Programmierung einzuführen, die mir bis dato gänzlich unbekannt war. Ich bin der Meinung, dank Ihm sehr viel für meine zukünftige berufliche Laufbahn gelernt zu haben und möchte mich an dieser Stelle dafür bedanken.
Danken möchte ich nicht zuletzt meiner Freundin, N. P.g, die während der Zeit der Erstellung der Diplomarbeit Diskussionspartner und Aufmunterung für mich war.
Vorwort
In der vorliegenden Diplomarbeit wird ein neuer Lösungsansatz für die einfache statistische Datenanalyse auf Office Ebene angeboten. Dieser Lösungsansatz ist als Excel Add-In konzipiert und trägt den Namen SEMIR. SEMIR steht für “Statistical Excel Menu, Interacting with R”. SEMIR besteht aus zwei zusätzlichen Excel-Menüs, die sich dem Benutzer bieten. Diese werden genützt, um einfache statistische Analysen durchzuführen.
Zielsetzung
SEMIR ist eine Symbiose mehrerer Programme mit einem klar gesteckten Ziel. Das Ziel ist es, Studienanfängern der Sozial- und Wirtschaftswissenschaftlichen Studienrichtungen ein Werkzeug in die Hand zu geben, um damit die elementare Statistik zu erlernen.
Dazu ist eine Symbiose mehrerer Programme notwendig. Obwohl bereits hoch entwickelte Statistikprogramme am Markt sind, sind diese nicht optimal auf die Bedürfnisse der erwähnten Benutzergruppe abgestimmt. Zu komplexe Bedienung und zu große Optionalität verhindern ein leichtes Zurechtfinden. Andere Programme, mit denen der Studienanfänger bereits vertraut ist (wie z.B. Microsoft Excel), weisen nicht die erforderlichen Funktionen auf, um den statistischen Anforderungen gerecht zu werden.
Es wird daher mit SEMIR versucht, in einer vertrauten Umgebung, nämlich MS Excel, jene Funktionen einzubauen, die für die grundlegende Statistik nötig sind.
Inhaltsübersicht
Die Diplomarbeit ist in vier Kapitel gegliedert. Im ersten Kapitel wird eine Auswahl an Software vorgestellt, die an Sozial- und Wirtschaftswissenschaftlichen Universitäten im Rahmen des elementaren Statistikunterrichts Anwendung findet. Es werden in einem Überblick deren Grundgedanken und Funktionsweisen beschrieben. Anhand der Vor- und Nachteile dieser Softwareangebote wird gezeigt, dass es möglich ist, etliche Vorteile zu vereinen, ohne jedoch die Nachteile zu übernehmen.
Eine wesentliche Rolle kommt dabei der Software R zu. R bietet sich auf mehrfache Weise an. Da R als Open-Source Software geschrieben wurde, ist sie frei verfügbar. Andere Softwarepakete sind teuer, leisten jedoch nicht mehr als R. Weiters zeichnet sich R durch eine sehr moderne Programmierung, durch schnelle Berechnungen und eine einfache Syntax aus. Diese erlaubt es dem Benutzer, auf unkomplizierte Weise komplexe Modelle zu bilden.
Diese Rechenstärke R's wird mit der Bedienungsfreundlichkeit von Excel in Form von SEMIR verbunden. SEMIR wird im zweiten und dritten Kapitel ausführlich beschrieben.
Im zweiten Kapitel wird eine eingehende Beschreibung von SEMIR für den Anwender gegeben. Dieser Teil der Diplomarbeit kann gewissermaßen als „Reference Manual“ und Unterstützung bei der Einarbeitung herangezogen werden. Ausgehend von der Installation werden nach und nach alle Funktionen einzeln beschrieben. Diese werden mit Screenshots und Handlungsanweisungen ergänzt. Das zweite Kapitel wird von einer Beschreibung der Deinstallation von SEMIR abgeschlossen.
Im dritten Kapitel wird der Quellcode erklärt. Diese Erklärung soll eine Verständnishilfe für das Zusammenspiel der einzelnen Elemente und die Weiterentwicklung von SEMIR darstellen. Der Quellcode ist zweigeteilt. Ein Teil der Makros wurde als Visual Basic Code, ein Zweiter als R Programmbibliothek verfasst. Es wird beschrieben werden, welche Funktionen die einzelnen Makros übernehmen und wie sie interagieren.
Das vierte Kapitel diskutiert abschließend Möglichkeiten, SEMIR weiterzuentwickeln. Es werden Vorschläge gemacht, in welche Richtung die Weiterentwicklung gehen könnte und Beispiele von Funktionalitäten gebracht, die in der jetzigen Version von SEMIR noch nicht enthalten sind.
In den Anhängen sind die Programmcodes der R Makros und der VB Makros abgedruckt.
Aufbau von SEMIR
SEMIR fußt im Wesentlich auf 4 Pfeilern:
Erstens sind dies die Programme Excel und R. Excel dient dabei als „Basis“ und Arbeitsumgebung, in die ein zusätzliches Menü eingesetzt wird. Excel ist jenes Programm, das der Benutzer sieht. Die eigentliche Rechenarbeit wird jedoch im Hintergrund von R ausgeführt. R wird aufgrund seiner Rechenleistung und leichten Programmierbarkeit verwendet1. Jedoch sind noch zwei weitere Pfeiler notwenig, um SEMIR zu tragen.
Zwei österreichische Wissenschafter haben dazu wesentliche Beiträge geleistet:
Thomas Baier von der TU-Wien hat den DCOM Server entwickelt. Dieser ist für die Kommunikation zwischen den Programmen Excel und R notwendig. Der DCOM Server ist die Voraussetzung dafür, dass Daten von Excel nach R transferiert, Befehle von Excel aus in R abgesetzt und deren Ergebnisse nach Excel zurückgeführt werden können.
Das Gegenstück dazu hat Erich Neuwirth, Universität Wien, verfasst. Er hat das „Grundgerüst“ in Visual Basic programmiert2, auf dem meine Arbeit aufbaut. Die von ihm in Visual Basic geschriegenen Befehle steuern den DCOM Server3.
Weitere Funktionen, die ebenfalls in SEMIR integriert wurden, wurden von Helmut Strasser, WU-Wien, verfasst. An entsprechender Stelle wird im Quellcode auf die Urheberschaft hingewiesen.
Auf Basis dieser funktionierenden Kommunikationsstruktur war es meine Hauptaufgabe, mich der Überführung der statistischen Berechnungen in Excel Befehle mit sinnvoller Menügestaltung zu widmen. Dies habe ich in Form des zusätzlichen Menüs „REngine“ und des Kontextmenüs in Excel realisiert.
Zur Programmierung
Die Programmierung in Visual Basic, als auch in R, fußen auf drei Prinzipien, die ich mir anfänglich als Ziel gesetzt habe: Leichte Verständlichkeit, Durchgängigkeit und Ausbaufähigkeit.
1) Leichte Verständlichkeit
Ich habe bei der Gestaltung der Menüs, der Vergabe der Variablennamen und der Zusammenstellung von Subs und Functions versucht, einen sinnvollen Aufbau zu finden. Der Aufbau der Module entspricht in etwa der Form des Menüs REngine. Ebenso sind die Befehle der Library Rfunctions.r in jener Reihenfolge angeordnet, wie sie in der Menüstruktur vorkommen.
Nicht zuletzt sollen ausführliche Kommentare im VB Code und in der Library Rfunctions.r dazu dienen, die Einarbeitung zu erleichtern und die Urheberschaft klarzustellen. Genauere Ausführungen im Hinblick auf die Programmierung sind in „3. Programmierung“ zu finden.
2) Durchgängigkeit
Aus Rücksichtnahme auf eine leichtere Verständlichkeit der Programmierung und ein einheitliches Erscheinungsbild wurden teilweise umständlichere Prozeduren in Kauf genommen. So wurde z.B. die Beschriftung der Werte der Regressionsgeraden in R produziert und erst dann nach Excel übertragen. Da dies bei anderen, dynamischen Funktionen, durchaus Sinn macht (z.B. Modelselection) wurde diese Programmierweise im Hinblick auf eine durchgängige Programmierung beibehalten.
Dies ist deshalb akzeptabel, da sowohl die Functions in Visual Basic sehr geringe Komplexität aufweisen, als auch R äußerst schnell mit der Erstellung ist, sodass keine wesentlichen Leistungseinbußen zu erwarten sind.
3) Ausbaufähigkeit
Das Ziel der vorliegenden Arbeit war es nicht, eine perfekte Softwarelösung anzubieten, in der alle Funktionalitäten vorhanden sind. Dies hätte auch den Rahmen gesprengt. Vielmehr kann die geschaffene Struktur mit ihren Menüpunkten als Ausgangspunkt für weitere Entwicklungen dienen. Sie soll die Basis darstellen, auf der nachfolgende Studenten und Interessenten weiterbauen können. Dies ist nun durch bereits vorhandene Strukturen und Verfahren schneller möglich. So sind z.B. die Untermenüs Graphical Models und Cluster lediglich mit jeweils einem Menüpunkt belegt. Dies wäre bei einem herkömmlichen GUI- Design4 nicht sinnvoll.
Zusammenfassend gesagt ist SEMIR eine Weiterentwicklung, die R weiter in die MS Office Ebene integriert und somit leichter zugänglich macht. R wurde über die vergangenen Jahre immer weiter entwickelt und mit zusätzlichen Libraries, Packages und Möglichkeiten versehen. Ähnlich verhält es sich mit SEMIR. Es baut auf bereits Vorhandenes auf und soll selbst Basis für Weiterentwicklungen sein. Das langfristige Ziel ist ein ausgedehntes Zusammenspiel von Excel und R mit zusätzlicher Funktionalität. Anhaltspunkte für eine weiterführende Entwicklung von SEMIR werden im Kapitel „4. Ansätze zur Weiterentwicklung“ genauer abgehandelt.
1. Einleitung
Ausgehend von einer Zielgruppe von Personen, die die grundlegende Statistik im Rahmen der Sozial- und Wirtschaftswissenschaften betreiben, werden in einem ersten Schritt zwei der seit längerer Zeit am Markt vorhandenen Programme, die für diese Zwecke geeignet sind, beschrieben. Es werden deren Herkunft und Hintergründe beschreiben und vor allem erklärt, welches ihre grundlegenden Funktionsweisen sind. Davon ausgehend werden Vorteile und Nachteile herausgearbeitet.
Anhand dieser Darstellung wird erläutert, welche Eigenschaften für die angeführte Zielgruppe bedeutend sind und inwieweit die Programme dazu beitragen können, die angestrebten Erfordernisse zu erfüllen. Eine neue Software spielt hier eine bedeutende Rolle. Dies ist R. Auch R wird in seinen Grundzügen beleuchtet. Dabei wird vor allem die Neuartigkeit der zugrunde liegenden Konzepte unterstrichen.
Das erste Kapitel abschließend, wird erläutert, wie die Verbindung von R und Excel dazu beitragen kann, jene Eigenschaften zu vereinen, die für das Erlernen der elementaren Statistik im Rahmen der Sozial- und Wirtschaftswissenschaften notwendig sind. Ebenso werden an markanten Stellen Referenzen zu SEMIR gesetzt. Diese sollen Hinweise darauf sein, wie das jeweilige Thema im Rahmen von SEMIR behandelt wurde.
1.1. Statistische Softwarelösungen
Begonnen wird mit der Beschreibung einer seit langem vorhandenen und sehr umfassenden Statistikanwendung, SPSS. Die zweite vorgestellte Software ist Excel. Excel wurde zwar nicht als Statistikprogramm konzipiert, kann jedoch in begrenztem Umfang auch statistische Datenanalysen durchführen. Die dritte Softwarelösung, R, ist eine Entwicklung der letzten zehn Jahre. Das Programm ist der Open-Source Klon des von Wilk entwickelten Programms S. R ist auf so genannte Power-User zugeschnitten und verfügt aus diesem Grund über kein ausgebautes GUI5.
1.1.1. SPSS
In diesem Abschnitt wird eine kurze Darstellung der Entwicklung des Programms SPSS gegeben und dessen grundlegende Funktionsweisen herausgearbeitet.
1) Entstehung
Die erste Version von SPSS für Großrechneranlagen entstand 1965 in den USA in Chicago, Illinois. Damals stand die Abkürzung noch für „Statistical Package for the Social Sciences“. Heute hat das Unternehmen expandiert und bietet neben dem Kernprogramm SPSS Base ein Bündel an Datenverarbeitungssoftware an. SPSS steht heute für „Superior Performance Software Systems“. In dieser Arbeit wird in Hinkunft mit SPSS lediglich das Kernpackage SPSS Base bezeichnet.
Abbildung in dieser Leseprobe nicht enthalten
Abb. 1: Softwareangebot von SPSS
Mittlerweile ist SPSS 11.5 am Markt. Die Benutzergruppen sind neben Statistikern der Sozial- und Wirtschaftswissenschaften vor allem Mediziner, Marktforschungs- und Marketingunternehmen, sowie Universitäten.
Ein großes Plus von SPSS ist dessen Verfügbarkeit auf den wichtigsten Computersystemen. SPSS läuft unter Windows, Mac, UNIX und MVS. Die Daten können zwischen den einzelnen Systemen frei ausgetauscht werden.
Ab der Version 5 suchte SPSS vermehrt nach Schnittstellen zu anderen Programmen und ermöglichte das direkte Einlesen eines Excel-Datenblattes. Ebenfalls ab Version 5 können die Daten auch über das neue Datenfenster (es wird im Folgetext als Daten Editor beschrieben) eingegeben werden. Dieses ermöglicht ein direktes Zugreifen und Bearbeiten der Daten.
„Im Grafikbereich besteht heute die Möglichkeit, SPSS-Grafiken zur Weiterbearbeitung in andere Programme zu exportieren. So kann z.B. das Format PICT für den Mac gewählt werden, wo dieses Format von allen Zeichnungsprogrammen gelesen wird. Wenn man bedenkt, dass SPSS bis vor kurzem keinen richtigen Grafikmodus kannte, sondern einen speziellen Zeichensatz zur Erstellung von Grafiken benutzte, ist dies eine bedeutende Änderung.“6
2) Funktionalität
Um die Funktionalität von SPSS aus Anwendersicht zu beschreiben, wird hier auf die wesentlichen Charakteristika abgestellt. Diese sind unter anderem eine Teilung in mehrere Fenster7 oder Sichten. Zwei dieser fünf wird man im Umgang mit SPSS ständig benötigen:
Daten Editor:
Im Daten Editor werden die Variablen verwaltet. Er ist selbst wieder zweiteilig.
In der Variablenansicht können neben dem Namen der Variablen auch andere Eigenschaften festgelegt werden, wie z.B. deren Länge, Zahlenformat, ob es sich um eine qualitative oder eine quantitative Variable handelt, usw.
Die Erstellung der Variablen hat vor der eigentlichen Dateneingabe in der Datenansicht zu erfolgen, kann jedoch im Nachhinein in beschränktem Ausmaß abgeändert werden. So ist es z.B. möglich, eine qualitative Variable mit 8 Ausprägungen in acht dichotome Variable umzuwandeln. Ebenso lassen sich Daten verdichten indem Gruppierungen oder Rundungen vorgenommen werden.
Abbildung in dieser Leseprobe nicht enthalten
Abb. 2: Variablenansicht: der Datensatz „Wachstum“ wird zunächst durch die Definition der Variablen und deren Eigenschaften bestimmt.
Dadurch, dass die Variablen in ihrem Format und in ihren Werten begrenzt werden, kann zweierlei erreicht werden:
Erstens können bei der Eingabe keine unerlaubten Werte eingetragen werden, da dies SPSS nicht zulässt. SPSS vermeidet somit Eingabefehler. Zweitens ist der Ersteller des Datensatzes gezwungen sich Gedanken über die Form, Verwendung und das Design der einzelnen Variablen zu machen. Dies erspart unter Umständen eine langwierige Nachbearbeitung.
Abbildung in dieser Leseprobe nicht enthalten
Abb. 3: Datenansicht: Die Dateneingabe erfolgt in einem Spreadsheet
Anstatt die Variablen händisch in das Spreadsheet einzutragen, kann auch eine bestehende Datei (.sav, .xls, .txt) eingelesen werden. Dazu geht man auf Datei/Öffnen/Daten. Handelt es sich nicht um ein .sav file, so bietet SPSS einen Dialog, der dabei hilft, die Daten richtig zu klassifizieren.
Der Vorteil der oben beschriebenen Variablenstrenge wird in SEMIRübernommen. Beim Einlesen der Daten ist es notwendig den Variablentyp zu definieren 8 . Ebenso ist es möglich ein bestehendes Datensheet als .txt file in das Working Directory von R zu spielen und direkt mit diesem zu rechnen.
SPSS Viewer oder Ausgabefenster:
Das zweite Fenster, mit dem der Benutzer ständig arbeitet, ist das Ausgabefenster. Es öffnet sich, nachdem die erste Analyse durchgeführt wurde. Das Ausgabefenster ist selbst wieder zweigeteilt. Links enthält es das Gliederungsfenster, das eine leichtere Navigation in den oft umfangreichen Ergebnissen ermöglicht. Rechts steht die eigentliche Ausgabe. Zu den möglichen Ausgaben zählen statistische Kennzahlen, Tabellen und Grafiken. Weiters besteht die Möglichkeit, Ergebnisse (z.B. die Zugehörigkeit zu einem Cluster im Rahmen der Clusteranalyse) als neue Variablen einzufügen, d.h. diese in den Daten Editor überzuführen.
Die Ergebnisse sind jedoch statisch und können vom Benutzer nicht verändert werden. Das erneute Ausführen von Befehlen wird nur dadurch erleichtert, dass die im Menü getroffenen Einstellungen in derselben Sitzung gespeichert werden. Ein Exportieren und Nachbearbeiten der Ergebnisse ist als .html oder .txt Datei möglich.
In Abbildung 4 wird die Ausgabe einer Clusteranalyse unter SPSS mit einigen Kennzahlen angezeigt. Das Markieren eines Eintrages in der linken Struktur zeigt die entsprechenden Resultate in der rechten Hälfte des Bildschirms an.
Abbildung in dieser Leseprobe nicht enthalten
Abb. 4: Ausgabefenster: zweiteilig
Der Nachteil der Statik der Ergebnisse wird im Rahmen von SEMIR dadurch umgangen, dass die Arbeitsumgebung Excel9 ist. Diese ist wesentlich benutzerfreundlicher. Dadurch kann eine intensive Nach- und Weiterbearbeitung stattfinden. Ebenso ist mittels der Worksheetfunctions ein automatisches Neuberechnen möglich.
Syntax-Editor
Als drittes Element existiert die Kommandosprache, welche dem Benutzer zweierlei erlaubt: Erstens ist damit bei wiederholten Prozeduren ein Umgehen der Menüstruktur möglich. Zweitens kann der Benutzer durch zusätzliche Befehle, die nicht den Eingang in die Dialogstruktur gefunden haben, eine gewisse Individualisierung vornehmen und so Abfragen durchführen oder Variablen bearbeiten, die über das Menü nicht gangbar wären. Weiters ist es möglich, eine Befehlsdatei zu erstellen, zu speichern und zu starten.
Allerdings weist die Kommandosprache SPSS’s einige Mängel auf: Sie ist unflexibel und den Erfordernissen einer modernen Skriptsprache nicht gewachsen. Aus diesem Grund hat der Syntax Editor mit zunehmendem Umfang des Paketes an Bedeutung verloren.
Es sei an dieser Stelle erwähnt, dass auch hinter SEMIR eine Skriptsprache läuft, nämlich jene von R . Diese ist jedoch wesentlich flexibler und Benutzerfreundlicher, da
sie in einem sehr modernen Stil in C10 programmiert ist, der rasche Berechnungen erlaubt.
Neben den drei bisher beschriebenen Sichten (Daten Editor, SPSS Viewer und Syntax Editor) existieren noch zwei weitere Sichten: Der Diagramm Editor (auch Grafikfenster genannt) und der Skript Editor. Da die Benutzer dieser Editoren jedoch immer seltener werden und jedenfalls nicht die Zielgruppe von SEMIR umfassen, wird hier auf eine Beschreibung verzichtet.
Jedes der fünf Fenster verfügt über eine Menüleiste, die nahezu identische Menüs beinhalten11. Es können daher alle Grundfunktionen in allen Ansichten aufgerufen werden. Die Menüs von Syntax-Editor, Diagramm-Editor und Skript-Editor weisen zwar dieselben Bezeichnungen und dieselben Grundfunktionen auf, sind aber hinsichtlich der Befehlsstruktur dem jeweiligen Editor angepasst.
Die Vorteile des Programms SPSS sind zusammenfassend folgende:
- Die Dateneingabe kann leicht über eine, einem Spreadsheet ähnliche Struktur erfolgen.
- In begrenztem Umfang sind Copy & Paste Funktionen möglich.
- Das GUI ist benutzerfreundlich und erlaubt eine Vielzahl von möglichen Abfragen mit unzähligen Optionen.
- Diese Abfragen sind von jedem der fünf Fenster aus ausführbar.
- Über die Kommandosprache sind die Befehle über die Menüstruktur hinaus gestaltbar.
- Das Einlesen der Daten kann aus verschiedenen Dateiformaten erfolgen und ist über einen Dialog gestaltet.
Allerdings verfügt SPSS auch über einige wesentliche Nachteile:
- Das Spreadsheet ist unflexibel und statisch. Es können keinerlei Verknüpfungen bzw. automatische Aktualisierungen eingebaut werden. Werden die, der Berechnung zugrunde liegenden Daten verändert, erfolgt keine automatische Neuberechnung.
- Die Kommandosprache ist alt, unflexibel, und entspricht nicht den Erfordernissen einer modernen Programmiersprache. Sie kennt weder das Konzept der Vektorisierung noch ein Objektkonzept12. Diese beiden Konzepte wurden in R sehr gut realisiert.
- Das Nachbearbeiten und Exportieren der Ergebnisse ist sehr beschränkt und kompliziert.
- Die grafische Benutzeroberfläche und Menüführung entspricht eher der durch die Weiterentwicklungen des Programms historisch gewachsenen Struktur, als inhaltlich durchstrukturierten Gedankengebäuden.
Insgesamt ist SPSS ein äußerst umfangreiches und potentes Statistikpaket, das dem User umfassende Möglichkeiten der Datenanalyse bietet. SPSS erfreut sich nach wie vor großer Beliebtheit im medizinischen, wirtschafts- und sozialwissenschaftlichen Bereich. Nichtsdestoweniger ist die Rigidität und teilweise Unhandlichkeit des Programms störend.
Beispiel: - Lineare Regression
SPSS bietet für die lineare Regression alleine den in Abb.5 dargestellten Dialog an, der sich weiter verzweigt:
Ausgehend von diesem Dialogfenster sind zahlreiche Optionen definierbar. Es wird hier das Konzept der Linearen Regression angeboten. Eine Vielzahl möglicher Berechnungen und Diagramme, die sich um dieses Konzept anbieten, sind in das Dialogfeld eingearbeitet.
Abbildung in dieser Leseprobe nicht enthalten
Abb. 5: SPSS „Lineare Regression“: ausgiebige Funktionalität
Wie bereits erwähnt, wird im Rahmen von SEMIR versucht, die Vorteile von SPSS zuübernehmen. Die Nachteile werden durch zweierlei gemindert: Die Arbeitsumgebung ist Excel. Dies erleichtert das „ Handling13 “ mit den Basisdaten und den Ergebnissen. Die Rigidität der Programmiersprache wird durch die moderne Skriptsprache R ersetzt.
1.1.2. Excel
Auch hier soll nach einer kurzen Darstellung der Herkunft des Programms vor allem auf die Möglichkeiten der Statistikverwendung eingegangen werden.
1)Entwicklung
Microsoft Excel gibt es schon seit über 15 Jahren. Bereits 1987 war die Version 2.0 erhältlich. MS Excel löste damals Programme wie „Multiplan“ ab. Seit damals machte Excel einen gewaltigen Veränderungsprozess durch. Der zentrale Punkt, um den sich das Programm dreht, ist der Aufbau des GUI als Kalkulationstabelle. Von diesem ausgehend, wurden immer mehr Funktionalitäten in Excel eingebaut.
1987 stand nicht die statistische Datenverarbeitung14 im Vordergrund des Programms, sondern die neue Form der sinnvollen Verknüpfung von Daten zu den verschiedensten Zwecken. Dabei war man nicht an Strukturen gebunden und konnte so das Blatt den individuellen Bedürfnissen anpassen. Die Verwendungen von Excel reichen vom Einsatz als Taschenrechner, über die Buchhaltung, bis hin zu einfachen Datenbankanwendungen15.
„Seit 1996 ist MS Excel Marktführer und hat das bis dahin führende Tabellenkalkulationsprogramm Lotus 1-2-3 in den Verkaufszahlen überholt“ (Körn/Weber 2002: 26). Mittlerweile ist MS Excel unter dem Verkaufsnamen Excel XP in der Version 10.0 erhältlich.
2) Funktionalität
Das Datenblatt, in der Folge auch Spreadsheet genannt, welches Excel benutzt, kann bis zu 255 Spalten breit und 65.000 Zeilen lang werden. In die einzelnen Zellen können die verschiedensten Datenformate eingegeben werden. Das Datenformat umfasst dabei von einfachen Zahlenschreibweisen in allen ihren Modulationen, über Text, bis hin zu den verschiedenen Datumsformaten alle möglichen Variationen16.
Jede Zelle ist individuell ansprechbar und so mit anderen verknüpfbar. Es sind einige Funktionen vorgesehen, die es erlauben einfache statistische Operationen durchzuführen und Grafiken zu erstellen. Die errechneten Werte und Grafiken werden wiederum entweder in das vorhandene oder in ein neues Datenblatt zurückgegeben.
MS Excel verfügt über mehrere Grundfunktionen, die einzeln erwähnt werden sollten:
1) Adressierung
Jede Zelle in einer Arbeitsmappe ist individuell ansprechbar. Es können somit Referenzierungen gesetzt werden. Das Ergebnis einer Berechnung kann als Basis einer zweiten Berechnung oder einer Grafik herangezogen werden.
2) Neuberechnung
Die Neuberechnung ist eng mit dem Konzept der direkten Adressierung der Felder verbunden. Sie bewirkt zweierlei: Erstens werden anhand der Verweisstrukturen in den einzelnen Zellen die Zellfunktionen neu berechnet, wenn ein Wert sich ändert.
Zweitens werden Grafiken automatisch aktualisiert, sind sie an das Arbeitsblatt gekoppelt. Diese Funktion ist deaktivierbar. Werden Zufallszahlen erzeugt, oder ist die automatische Neuberechnung deaktiviert, kann mit der Taste F9 bzw. einer
Kombination mehrerer Tasten eine Neuberechnung erzwungen werden.
3) Benennung von Bereichen
An rechteckige Bereiche können Namen vergeben werden. Diese Bereiche sind dann direkt mit dem vergebenen Namen, an Stelle der Adresscodierung, ansprechbar. Diese Funktion bringt Vorteile, da häufig verwendete Bereiche so rasch eingegeben werden können und die Variablenverwaltung leichter möglich ist. Das genaue Vorgehen sei hier kurz erläutert:
Zuerst muss der betreffende Datensatz markiert werden. Dann geht man auf Einfügen/Namen/Erstellen. Esöffnet sich ein Dialogfenster, wobei bereits die oberste Checkbox aktiviert sein sollte. Drückt man auf ok, sind die Namen gespeichert und die Datenbereicheüber Namen ansprechbar, wie in Abb. 8 gezeigt. Der Name, derübrigens auch ein Phantasiename sein kann, ersetzt somit für den Benutzer die Zellreferenz.
Abbildung in dieser Leseprobe nicht enthalten
Abb. 6, 7 und 8: Vorgang des Vergebens von Namen für Datenbereiche
Zusammenfassend ergeben sich daraus folgende wesentliche Vorteile Excels für die Statistikverarbeitung:
- Direkte Ansprechbarkeit von Zellen und rechteckigen Bereichen von Zellen.
- Die Verknüpfung dieser Bereiche in Form von Formeln und über die Befehlsstruktur des Menüs.
- Automatisches Aktualisieren der Berechnungen, sobald die zugrunde liegenden Daten verändert werden.
- Grafiken werden automatisch aktualisiert und können im Nachhinein bearbeitet werden.
- Die Funktionalität der automatischen Neuberechnung kann auch deaktiviert werden. § Zahlreiche Möglichkeiten der optischen Aufbereitung von Ergebnissen. Ein Beispiel soll an dieser Stelle das Arbeiten mit Excel als Statistiksoftware veranschaulichen.
Beispiel: Regressionsanalyse
In Excel stehen in der Basisversion zur Regressionsanalyse folgende Möglichkeiten offen:
Ausgehend von einer Datenreihe können die Parameter einer linearen Regression (RGP) bzw. die einer exponentiellen Regression (RKP) errechnet werden. Darüber hinaus existiert im Diagrammassistenten die Möglichkeit Trendlinien in bereits bestehende Streudiagramme einzuzeichnen. Die Punkte dieser Trendlinien werden jedoch nicht ausgegeben.
Abbildung in dieser Leseprobe nicht enthalten
Abb. 9: Excel „Funktion einfügen“: 2 Regressionsfunktionen stehen zur Auswahl
Dieses Beispiel unterstreicht die Grenzen von Excel in Bezug auf Statistikanwendungen. Es sind lediglich einige Basisfunktionen vorhanden.
Neben den erwähnten Vorteilen sind somit auch folgende Nachteile von Excel anzuführen:
- Die Leistungsfähigkeit Excels in Bezug auf statistische Methoden ist auf die Basisfunktionen beschränkt. Univariate Statistik ist mit Excel gut möglich, sowie teilweise auch bivariate Statistik. Was jedoch darüber hinausgeht, ist ohne Erweiterungen nicht durchführbar.
- Erweiterungen können in beschränktem Ausmaß über Visual Basic vorgenommen werden.
- Umfassendere Methoden sind nur mittels komplexer Programmiersprachen einzubauen und müssen als .dll Programmbibliothek hinzugefügt werden.
Es gibt jedoch weitere Möglichkeiten, Excel in seiner Funktionalität zu erweitern. An dieser Stelle soll ein Überblick über die Funktion und die Installation dieser Möglichkeiten gegeben werden.
Drei dieser Erweiterungsmöglichkeiten werden nachstehend erklärt17: Zwei werden von Microsoft selbst angeboten. Eine Dritte wurde in Australien entwickelt und ist als Freeware verfügbar. In einem kurzen Exkurs wird zuerst das Add-In Analysis (MS) beschrieben. Weiters gibt es die Möglichkeit selbst mittels VB-Makros (MS) Erweiterungen zu schreiben. Drittens wird das Add-In Pop-tools (Freeware) beleuchtet.
I) Add-In Analysis18
Nach Installation des Add-Ins Analysis bietet sich dem Benutzer ein neues Menü, welches einige Funktionen der statistischen Datenanalyse beinhaltet.
Die Vorgehensweise der Installation sieht wie folgt aus:
Sind die Analysefunktionen bei der Standardinstallation noch nicht eingerichtet worden, müssen sie im Nachhinein von der CD-Rom installiert werden. Ist dies geschehen, geht man auf Extras/Add-Ins. Folgendes Fenster öffnet sich:
Abbildung in dieser Leseprobe nicht enthalten
Abb. 10: Die Aktivierung der Analyse-Funktionen
Hier sind die ersten zwei Optionen anzuklicken. Ist dies geschehen, stehen dem Benutzer die zusätzlichen Analysefunktionen zur Verfügung. Man findet sie nun unter Extras/Analyse- Funktionen. Beim Aufrufen wird folgendes Fenster angezeigt:
Abbildung in dieser Leseprobe nicht enthalten
Abb. 11: Auswahl an zusätzlichen Funktionen mittels „Analyse-Funktionen“
Je nach ausgewählter Funktion öffnet sich wiederum ein Eingabefenster, das den Benutzer nach den erforderlichen Daten fragt und so den Dialog beginnt.
II) Visual Basic
Die zweite Möglichkeit geht in Richtung Programmierung. Im Hintergrund von Excel arbeitet das Programm Visual Basic (VB). Mittels VB ist es möglich, gewisse Verweis- und Formatierfunktionen über ein Makro zu programmieren. Ein Makro ist eine vom Benutzer vorgeführte Folge von Befehlen, die unter einem Namen abgespeichert wird, und sodann entweder mit absoluten oder relativen Verweisen mittels einer einfachen Tastenkombination erneut aufgerufen werden kann. Der Vorteil für den Benutzer liegt darin, dass nicht immer wieder die gleiche Befehlsfolge eingegeben werden muss. Ein Makro kann auf zweifache Weise erstellt werden.
Die erste besteht darin, Extras/Makro/Aufzeichnen aufzurufen. Es öffnet sich ein Dialogfenster, in dem ein Makroname, als auch eine Tastenkombination angegeben werden kann. Danach wird das Makro - ähnlich der Funktionalität eines Kassettenrekorders - aufgezeichnet. Beendet wird die Aufzeichnung entweder mit Extras/Makro/Aufzeichnung beenden oder mit folgender Schaltfläche:
Abbildung in dieser Leseprobe nicht enthalten
Abb. 12: Schaltfläche: links wird die Aufzeichnung beendet, rechts werden relative Verweise erstellt
Diese einfache Art der Erweiterung der Funktionalität ist auch von Benutzern, die nicht in VB programmieren können, leicht durchführbar. Weiters besteht auch die Möglichkeit, direkt in den Quellcode einzugreifen und in Visual Basic die gewünschten Routinen zu programmieren. Jedoch ist das Kontingent des Möglichen mit der Kompilierungsstärke Visual Basics beschränkt. Dies heißt nicht, dass VB grundsätzlich nicht in der Lage wäre, komplexe statistische Operationen durchzuführen. Jedoch ist VB aufgrund einer umständlichen Kompilierung der Makros zu langsam, um in kurzer Zeit Ergebnisse liefern zu können.
In Visual Basic können neben vorgegebenen Reihenfolgen von Befehlen auch Interaktionsfenster programmiert werden. Diese stellen ein Kommunikationsmedium zwischen Excel und dem Endbenutzer dar. Der Benutzer kann innerhalb einer Auswahl von vorgegebenen Möglichkeiten wählen. Die Gelegenheit, Fehler zu machen, wird dadurch minimiert. Dies stellt einen zusätzlichen Komfort dar.
Von dieser Möglichkeit wird auch bei SEMIR Gebrauch gemacht. Dem User wird mittels Dialogfenstern eine Reihe von Möglichkeiten vorgegeben, aus denen frei gewählt werden kann. Anweisungen, Schaltflächen und Eingabezeilen führen den Benutzer zu dem, was er zu machen gewillt ist.
Um jedoch komplexere Statistikverfahren zu implementieren, reicht VB nicht aus. Es ist aufgrund der komplizierten und umfangreichen Skriptsprache zu langsam um effizient zu sein. Hier muss man sich höherer Programmiersprachen wie C oder Pascal bedienen und diese über ein eigenes Add-In (als .dll file) einfügen.
Programmiersprachen wie C oder Pascal besitzen gewisse Nachteile: Sie sind schwer zu erlernen. Programme mit ihnen zu schreiben erfordert viel Zeit und Aufwand. SEMIR umgeht diesen Nachteil mit der Verwendung von R : mit R können durch einfache Skripts sehr rasch komplexe Modelle gebildet werden19. Dabei verwendet R zwar C als Kompiliersprache im Hintergrund, macht es aberüber R -Befehle leicht manipulierbar.
III) Pop Tools
Das Add-In Pop Tools20, am „Pest Animal Control Co-operative Research Centre“ in Canberra, Australien, entwickelt, verfügt ebenfalls über eine zusätzliche Funktionalität. Diese umfasst unter anderem Zufallszahlen, Wahrscheinlichkeitsberechnungen und Regressionsanalysen. Der einfachste Weg dieses Add-In zu installieren, ist das file poptools254_setup.exe direkt von der Downloadseite aus auszuführen. Das Menü PopTools erscheint nach Abschluss der Installation automatisch in der Excel Kopfzeile.
Einer der wesentlichsten Vorteil Excels gegenüber SPSS ist, dass das Programm eine weite Verbreitung genießt und dass es für den Durchschnittsbenutzer folgende zentrale Vorteile bietet:
- Leichtes Handling durch viele Interaktionsfenster, Mausbedienung und geführte Vorgehensweisen
- Leichte Weiterverarbeitung der Ergebnisse
- Leichte Ausbaufähigkeit durch Visual Basic: Makros und Add-Ins
Optimal wäre somit für den Endbenutzer ein Programm, das die Rechenstärke und die Optionenvielfalt von SPSS mit der Benutzerfreundlichkeit von Excel verbindet. Hier kommt uns R zu Hilfe. R bietet ein sehr umfassendes Repertoire an Funktionen an und ist mit seiner Befehlsschreibweise leicht erweiterbar.
1.1.3. R
R ist ein sehr junges Programm, welches einen, wenn nicht den zentralen Pfeiler von SEMIR darstellt. Auch hier wird wiederum zunächst ein kurzer Abriss über die Entwicklung R’s geliefert und dann ausführlich auf dessen Funktionalität eingegangen.
1.1.3.1. Die Entwicklung von R
R ist eine Software für statistische Berechnungen und grafische Auswertungen von Daten. R wurde dem bekannten Statistikprogramm S21 nachprogrammiert. Das heißt, dass die Befehlssyntax größtenteils identisch ist. R hat aber gegenüber S zwei wesentliche Vorteile: R wurde als Open-Source Software konzipiert und ist somit frei zugänglich. Weiters basiert R auf einer anderen Programmierung in C. Es ist moderner programmiert und somit leistungsfähiger.
Die Entwicklung von R begann im Jahr 1992, als Ross Ihaka und Robert Gentleman am Institut für Statistik an der Universität von Auckland in Neuseeland die Basis für die weitere Arbeit legten. Darüber hinaus hat eine große Gruppe von Benutzern ihren Beitrag mittels Codes oder Fehlerreporten geleistet. Seit 1997 ist ein „R Core Team“ mit der Weiterentwicklung beschäftigt.
1.1.3.2. Die Funktionalität von R
Die Funktionalität von R kann wie folgt beschrieben werden:
R verfügt über ein befehlsorientiertes Eingabe- oder Arbeitsfenster, auch CLI (Command Line Interface) genannt. Über das Eingabefenster können Befehle abgesetzt und Daten eingegeben werden. Die Ergebnisse liefert R entweder in Form eines Text- und Zahlenoutputs direkt unter dem eingegebenen Befehl oder als Grafik in einem eigenen Grafikfenster.
Befehlseingabe
Die Befehlseingabe gestaltet sich in R sehr einfach. Direkt nach dem Aufrufen des Programms öffnet sich das Arbeitsfenster, in das die Befehle eingegeben werden können. Zunächst können einfache Taschenrechnerfunktionen über den numerischen Teil der Tastatur abgesetzt werden. Ab jenen Funktionen, die über die vier Grundrechnungsarten hinausgehen, sind jedoch Befehle in Buchstabenform notwendig. So ist z.B. die Wurzelfunktion über sqrt(„zahl“) erreichbar.
Für die Befehlseingabe in Zeichenform kommen wiederum vier Fälle in Betracht.
1) Zunächst können jene Befehle verwendet werden, die in der R Grundinstallation vorhanden sind. sqrt(„zahl“)ist ein Beispiel für solch eine Funktion. Da eine Darstellung der Grundfunktionen an dieser Stelle nicht möglich ist, sei hier auf eine ausführliche Darstellung der Befehle im Online Reference Manual22 verwiesen.
2) Eine zweite Möglichkeit, vor allem Statistiken mittels komplexerer Methoden zu berechnen, besteht darin, Befehle aus dem Umfang der mitgelieferten Programmbibliotheken zu verwenden. Im Standardpaket werden 27 dieser Programmbibliotheken mitgeliefert. Sie decken nahezu die ganze Bandbreite anspruchsvoller Statistikverfahren ab. Dabei umfasst jede Programmbibliothek ein Themengebiet. So existiert z.B. das Package cluster, welches Methoden der Clusteranalyse beinhaltet.
Der Vorteil der ersten beiden Möglichkeiten besteht darin, dass ausführliche Dokumentationen für die jeweiligen Funktionen zur Verfügung stehen. Diese sind mit dem Fragezeichen ?, dem Befehlsnamen vorangestellt, oder help.search(„Befehl“) aufrufbar. Neben der Erklärung der Funktionsweise werden auch allfällige optionale Befehlsteile erklärt. Oft werden auch Beispiele gegeben, wie der jeweilige Befehl verwendet werden kann.
3) Die dritte Möglichkeit ist die Automatisierung von Befehlssequenzen durch Makros. Dabei wird einer Abfolge von Befehlen ein neuer Name zugewiesen. Mit dem Aufrufen des Makronamens werden die Befehlssequenzen auf die gewünschten Daten angewandt. Dies erspart viel Tipparbeit und Zeit.
4) Die vierte und umfangreichste Möglichkeit besteht darin, eine Sammlung von Makros in Form einer Programmbibliothek zu erstellen23. Diese kann in einem Texteditor geschrieben werden. Wird sie mit der Extension .r als R-Datei im Arbeitsverzeichnis abgespeichert, kann sie vom R-Arbeitsfenster aus aufgerufen und geladen werden. Sodann stehen alle Befehle der eigenhändig erstellten Programmbibliothek zur Verfügung. Werden jedoch Änderungen in der Programmbibliothek vorgenommen, muss sie erneut geladen werden.
Beispiel:
Hier sind Beispiele für die unter 1)-4) angeführten Befehlstypen. Der Prompt „ > “ steht dafür, dass R auf die Befehlseingabe wartet. Zunächst wird R als „ Taschenrechner “ benutzt. Zweitens wird die Wurzelfunktion angewandt. In einem dritten Schritt wurde die Programmbibliothek „ MASS “ geladen. Mit befehl1 wird ein Befehl erstellt, welcher für den Rest der Sitzung aktiv bleibt, sofern er nichtüberschrieben wird ( e steht für die verwendete
Variable). Danach wird die unter befehl1 gespeicherte Funktion auf die Zahl 9 angewandt. Mit dem Befehl source() wird die als Textdatei editierte Programmbibliothek Rfunctions.r geladen. Befehle, die darin gespeichert wurden, stehen nun in der aktiven Sitzung zur Verfügung24.
Abbildung in dieser Leseprobe nicht enthalten
Dateneingabe
Die Vorteile von R kommen vor allem bei umfangreichen Berechnungen zum Tragen. In diesem Fall ist es oft gefragt, Daten von externen Quellen, beispielsweise einer Datenbank, zu verwenden.
Der Datenimport/Export wird in R in einem 35 Seiten umfassenden Manual beschrieben. Das Einlesen von Daten erfolgt ausgehend von einer Quelldatei generell mittels eines Befehls von R aus. Es ist möglich, Daten im Tabellenformat mit dem Befehl read.table() einzulesen. Es können ebenso Datenformate von anderen Statistikprogrammen, wie z.B. S-Plus und SPSS, eingelesen werden. Mit dem Befehl download.data() kann man sogar auf einen HTTP oder FTP Server zugreifen.
Hat man es mit kleinen Datenmengen zu tun, kann man diese in einem Dateneditor in R bearbeiten. Mit dem Befehl edit.matrix() erhält man ein Spreadsheet, in dem Dateneingaben und Modifikationen von vorhandenen Datensätzen und Matrizen möglich sind. Die Funktionalität des Dateneditors ist jedoch sehr restriktiv. Um die vorgenommenen Änderungen abzuspeichern, muss man dies vor dem Öffnen des Editors in den Befehl einarbeiten.
Programmierung
R verfügt über wesentliche Vorteile, verglichen mit anderen Programmiersprachen.
1) Rapid Prototyping
Da R in einer sehr modernen Weise programmiert wurde, verfügt es über eine große Rechenkapazität. Diese, vereint mit dem Objektkonzept, welches es erlaubt, Befehle auf Datenranges, Matrizen, Vektoren oder Listen - ohne Hinsicht auf deren Form - anzuwenden, ermöglicht es, sehr rasch komplexe Modelle abzubilden und Programme in R zu erstellen. Dieses Konzept wird angewandt, bevor ein Programm als Software programmiert wird, mit dem Zweck, zuerst dessen fehlerfreies Funktionieren zu prüfen. Es können auf diese Weise schnell und unkompliziert Modifikationen vorgenommen werden, was bei einer eigenständigen Software (z.B. ausschließlich in C programmiert) wesentlich schwieriger wäre.
2) Vektorisierung
Die Vektorisierung ist ein sehr modernes Konzept. Grob gesagt ermöglicht es schnellere Berechnungen, da es beim Ausführen der Befehle Schleifen vermeidet. Dies soll mit einem Beispiel verdeutlicht werden:
Beispiel:
Die Datenliste [1,2,3,4] soll quadriert werden. Ein herkömmliches Programm, z.B. Basic geht folgenderma ß en vor: Das erste Element wird quadriert [1 ² =1], mit einer Schleife wird die Liste durchlaufen, um zuüberprüfen, welches Element als nächstes quadriert werden soll: [1,2 ² =4]. Dann folgt der dritte Durchlauf [1,4,3 ² =9] usw., bis die Liste komplett durchlaufen ist [1,4,9,16].
R hingegen fasst die Liste als Vektor auf und quadriert mit einem Schlag alle Elemente dieser Liste [1,4,9,16]. R ist daher bei dieser einfachen Prozedur ca. viermal so schnell. Bei komplexen Methoden potenziert sich diese Differenz noch.
3) Arrays
Ein weiterer Vorteil, der das Arbeiten mit R erleichtert, ist das Konzept der Arrays: Arrays sind Datenstrukturen, die das Vereinen von Strings, ganzzahligen und realen Zahlen in einem Objekt ermöglichen. Ebenso wird von R automatisch erkannt, um welche Datenstruktur es sich bei einem bestimmten Objekt handelt. Dies ist praktisch, da dieselben Befehle so auf die einzelnen Objekte, ungeachtet Ihrer Form, angewandt werden können. Ebenfalls können Objekte unterschiedlicher Länge kombiniert werden. Dabei orientiert sich R immer an den Ausmaßen des „höherrangigen“ Objektes.
Beispiel:
Die Multiplikation wird in diesem Beispiel auf eine Matrix angewandt. Dasselbe Multiplikationszeichen wird hingegen auch für eine einfache Zahl verwendet.
Zweitens wird eine Reihe von 1 bis 3 in eine Matrix der Gr öß e [4,5] geschrieben. Zunächst wird damit begonnen, die Reihe in die erste Spalte zu schreiben. Ist das Ende der Reihe erreicht, wird von vorne begonnen. Dieser Vorgang wird solange wiederholt, bis das Ende der Matrix erreicht ist. Hier endet die Matrix mit der Zahl 2.
Abbildung in dieser Leseprobe nicht enthalten
4) Datenframes
Das Konzept der Datenframes ist eng mit dem Listenkonzept und dem Array-Konzept verwandt. Datenframes erleichtern den Umgang mit Variablen erheblich. Gemeinsam mit Matrizen und Listen stellen die Datenframes die fundamentale Struktur von R’s Modellierungssoftware dar. Ein Datenframe ermöglicht es, sowohl numerische als auch faktorielle Variablen in einem Array zu kombinieren und diesen als Einheit zu verwalten.
Beispiel:
Hier wurde die Matrix aus obigem Beispiel weiterverwendet und als q abgespeichert. Weiters wurde eine Liste mit den Buchstaben von a bis d erstellt. Dann wurden die beiden Objekte zusammengeführt( cbind ) und als Datenframe abgespeichert( as.data.frame ). Mit dem Befehl attach(qq) steht der Datensatz nun in der aktiven R Sitzung zur Verfügung. Da in qq keine Variablennamen vorhanden waren, hat R V1-V5 selbst vergeben. V1-V5 sind nun als eigene Variablen ansprechbar.
Abbildung in dieser Leseprobe nicht enthalten
5) Libraries
Wie bereits erwähnt, ist es möglich, neben den mitgelieferten Packages selbst Libraries zu schreiben. Diese ermöglichen es, umfangreiche Customizing Aktivitäten durchzuführen und R auf seine eigenen, individuellen Bedürfnisse abzustimmen.
Ein weiterer Punkt in der Skriptsprache R’s bezieht sich auf die Ausgestaltung der Befehle: Werden Befehle ineinander verschachtelt, erkennt R den Befehlsbaum und löst die Verschachtelung richtig auf.
Beispiel:
Im dritten Befehl errechnet R zuerst den Klammerausdruck und wendet dann auf das Ergebnis die Wurzelfunktion an.
Abbildung in dieser Leseprobe nicht enthalten
Nachteile der Funktionalität von R
Der wesentlichste Nachteil in R ist das Fehlen eines benutzerfreundlichen GUIs für statistische Anwendungen, wie man es von SPSS oder Excel gewohnt ist. Abgesehen von einigen Funktionen, die in der Kopfzeile des R-GUIs vorhanden sind, jedoch nur verwaltende Funktionen aufweisen, bietet R kein GUI an, mit dem Analysen durchführbar wären. Das zwingt den Benutzer dazu, sich mit den Befehlen auseinanderzusetzen und vertraut zu machen.
Jene Benutzergruppe, an die sich SEMIR adressiert, ist mit einem wesentlichen Problemfeld konfrontiert. Dies ist das Erlernen und Verstehen von statistischen Verfahren. Käme daneben noch die Auseinandersetzung mit der computertechnischen Seite hinzu, die im Falle von R ein intensives Einarbeiten in die Syntax und deren Konzepte verlangt, wäre der Studienanfänger mit Sicherheit überfordert.
SEMIR verfolgt in diesem Sinn klar zwei Ziele: Einerseits soll dem Studienanfänger geholfen werden, indem er in einer gewohnten (Office-) Umgebung die statistischen Verfahren erlernen kann. In einem zweiten Schritt soll jedoch auch sein Interesse geweckt werden, fundierte Analysen und Verfahren mit Hilfe von R auszuführen.
Will man komplexe Berechnungen anstellen, führt der Weg nicht an der Verwendung von R mit dessen CLI vorbei. Dies allein deshalb, da es nicht möglich ist, alle Funktionen, die R anbietet, in ein GUI zu überführen. Mit SEMIR kann und soll aus diesem Grund lediglich ein erster verbindender Schritt versucht werden.
1.1.3.3. Die technischen Voraussetzungen für SEMIR
R hat den Vorteil unter den beiden am häufigsten verwendeten Betriebssystemen, Windows und Unix, zu funktionieren. Während Unix vor allem unter naturwissenschaftlichen Benutzern und Technikern Verwendung findet, kennt Windows die weitaus größere Verbreitung. Unter der großen Anzahl von Windows Benutzern wird dieses Betriebssystem auch von den ökonomischen und sozialwissenschaftlichen Universitäten benutzt.
Da es einerseits das Ziel von SEMIR ist, letzteren ein Statistik-Tool zur Verfügung zu stellen, andererseits, die Benutzerfreundlichkeit von Excel zu übernehmen, wurde für SEMIR Windows als Plattform gewählt.
Nachdem SEMIR die Kommunikation zwischen R und Excel vornimmt, soll an dieser Stelle kurz die Funktionsweise der Interaktion der verwendeten Programme dargestellt werden:
Windows Programme kommunizieren untereinander mittels eines Dialogsystems, das sich DCOM25 nennt. Über dieses Protokoll werden Informationen von einem Windows Programm zum nächsten weitergegeben. Diese Funktion kommt zum Tragen, verwendet man z.B. Copy & Paste. Bei den Dialogen zwischen den Programmen agiert dabei ein Programm als Server, das andere als Client bzw. vice-versa.
Damit R mit Excel kommunizieren kann, ist es notwendig, R diesem DCOM Standard anzupassen. Diese Arbeit wurde von Thomas Baier von der TU Wien übernommen. Er hat eine .dll Bibliothek geschrieben, die als DCOM Interface agiert. Dabei ist R der Server und Excel der Client26. Mittels dieses Interfaces ist es möglich, einfache Objekte (Vektoren und Matrizen), nach R zu schicken und von R zurückzubekommen, sowie Befehle in R abzusetzen.
Darauf aufbauend wurde von Erich Neuwirth, Universität Wien, ein Excel Add-In entwickelt, welches ein Menü enthält, um Befehle von Excel aus in R auszuführen. Etliche grundlegende Befehle wurden hiervon in SEMIR übernommen, vor allem jene, die mit der Steuerung des DCOM Servers zu tun haben27. Im Quellcode wird an den jeweiligen Stellen auf die Urheberschaft hingewiesen.
Abbildung in dieser Leseprobe nicht enthalten
Abb. 13: Menü des Excel Add-lns von Erich Neuwirth
1.1.3.4. R und GUIs
R verfügt, wie bereits erwähnt, lediglich über einige rudimentäre, den Ablauf des Programms verwaltende und unterstützende Funktionen in Form eines GUIs (Graphical User Interface). Ansonsten muss jeder Befehl eingegeben werden. Dies wird CLI (Command Line Interface) genannt. Um mit dem CLI umgehen zu können, ist eine intensive Einarbeitung notwendig. „However, good knowledge of the language is required. CLI is thus intimidating for beginners” (http://www.sciviews.org/_rgui/, am 07.04.2003). In diesem kurzen Abschnitt wird dargestellt, was getan werden muss, um R einer größeren Benutzergruppe zugänglich zu machen.
Der typische Office Anwender verfügt nicht über das nötige Wissen und die Zeit, sich in die Syntax von R einzuarbeiten. Es bedarf daher, um die Möglichkeiten von R für eine größere Benutzergruppe nutzbar zu machen, einer grafischen Benutzeroberfläche die mittels einer Menüstruktur einen Dialog mit dem Benutzer herstellt. Ist es möglich, den Großteil der Befehle mittels Mausbedienung abzusetzen, wird der Umgang mit dem Programm wesentlich erleichtert. Die davon am meisten profitierende Gruppe ist dabei vor allem jene der Gelegenheitsbenutzer: „A fraction of the R users are asking for, and would probably benefit from a R GUI, mainly occasional users and some teachers” (http://www.sciviews.org/_rgui/, am 07.04.2003)
Das GUI ist die grafische Oberfläche eines Programms, die es dem Benutzer ermöglicht ohne Programmierkenntnisse und Befehlseingaben, die über die Tastatur abgesetzt werden müssen, mit dem zugrunde liegenden Programm zu kommunizieren. „GUI-Design ist die Gestaltung der grafischen Oberfläche einer Software, der Schnittstelle zwischen Mensch und Maschine. GUI-Design kennzeichnet das, was der Anwender von Software zu sehen bekommt: das, was über ihr schlichtes Funktionieren hinausreicht.“ (Wessel 2002: 19) und weiter: „Gutes GUI- Design erlaubt schnelleres Erstellen von Applikationen, effizienteres Arbeiten bei höherer Zufriedenheit des Anwenders, Verringerung von Bedienungsfehlern, bessere Wiedererkennbarkeit und damit eine leichtere Einarbeitung.“ (Wessel 2002: 19)
Die wesentlichen Vorteile, die ein GUI dem Durchschnittsbenutzer bringen, sind:
- Übersichtlichkeit: Der Benutzer erfasst mit einem Blick welche Funktionen und Optionen ihm offen stehen. Er muss nicht mit „Trial & Error“ arbeiten
- Leichtere Erlernbarkeit: Der Benutzer muss sich nicht erst mit einer neuen Kommandosprache vertraut machen
- Daraus folgt: Erhöhte Produktivität in der Einarbeitungsphase und bei Wenigbenutzern
- Weniger Benutzerfehler: Dadurch, dass der Benutzer sich innerhalb vorgegebener Bahnen bewegt, kann er auch weniger Fehler produzieren. Die Fehler die dann noch möglich sind liegen in Reaktionsweisen des Benutzers, die vom GUI Designer nicht vorgesehen wurden
- Daraus resultiert eine höhere Benutzerzufriedenheit
- Weniger Kosten: gut durchdachte GUIs können eine Menge Arbeitszeit und somit Geld sparen
Die Prinzipien, denen zufolge eine Benutzeroberfläche gestaltet sein sollte sind laut Wessel folgende:
Automatisierung: „Beim Öffnen einer Datenmaske ist das sinnvollste Steuerelement (zumeist wohl das erste) zu fokussieren“ (Wessel 2002: 41). Im Falle der Datenanalyse mittels R wird dies vorwiegend das Einlesen der Daten sein.
Berücksichtigung wiederkehrender Aufgaben: Wird eine Prozedur in verschiedenen Zusammenhängen gebraucht, soll auch der Ablauf gleich gestaltet sein, um ein leichteres Zurechtfinden zu ermöglichen.
Sinnvolle Vorgabewerte: Diese kann dadurch geschehen, dass das Programm begrenzt „mitdenkt“.
Eine der Hauptaufgaben bei der Entwicklung von SEMIR war der Entwurf und die Realisierung von Dialogfenstern. Diese sollen zum einen die wesentlichsten statistischen Funktionen beinhalten, zum anderen selbsterklärend sein und den Benutzer bei der Verwendung unterstützen. So wird z.B. der aktuell markierte Bereich als Ausgangswert einer Berechnung herangezogen.
1.2. Überblick über die behandelte Statistiksoftware
Abbildung in dieser Leseprobe nicht enthalten
Abb. 14: Die behandelten Statistikanwendungen im Überblick
1.3. Die Synthese: Die Verbindung von R und Excel
In den bisherigen Abschnitten wurden die Stärken und Schwächen der Programme ausführlich beschrieben.
Es wurde gezeigt, dass MS Excel weit verbreitet ist und durch seine Benutzerfreundlichkeit besticht. Es wurde weiters unterstrichen, dass die wesentlichen Vorteile die Referenzierung von Bereichen, deren Adressierung mittels Namen ist. Dadurch ist es möglich, Daten automatisch neu berechnen und Grafiken aktualisieren zu lassen.
R kennt diesen Automatisierungsgrad nicht, verfügt jedoch über wesentliche andere Vorteile: Diese sind das Listenkonzept, die Arrays welche auch über zwei Dimensionen umfassen können, sowie die Datenframes. Letztere entsprechen in etwa Datenmatrizen in Excel. Wesentlich ist auch das Objektkonzept, welches nicht nur Daten, sondern auch Befehle als Objekte betrachtet und so das Verschachteln von Befehlen ineinander erlaubt.
Optimal wäre die Verbindung dieser zwei Programme, wobei von jedem lediglich die Vorteile übernommen werden. Dies wird mit der SEMIR versucht.
SEMIR realisiert folgende Grundidee: Ein Datensatz ist in Excel vorhanden; dieser ist leicht aus den verschiedenen Quellen einzulesen bzw. zu editieren28. Dieser Datensatz kann mit Hilfe des Menüs REngine analysiert werden. Die Berechnungen werden sehr schnell in R durchgeführt. Die Ergebnisse werden wieder an Excel zurückgegeben und können dort auf vielfältige Weise weiterverarbeitet werden. Untenstehende Grafik soll diese Vorgangsweise veranschaulichen:
Abbildung in dieser Leseprobe nicht enthalten
Abb. 15: Die Vorgangsweise des Datentransfers von SEMIR
Der Vorteil dieser Symbiose der zwei Programme liegt zum einen darin, dass Excel als Standardprogramm eine stabile Plattform bietet, die von fast allen Windows Benutzern in ihren Grundzügen beherrscht wird, zum anderen R eine nahezu unbegrenzte Funktionalität bietet und über modernste statistische Methoden verfügt.
Obwohl SEMIR wesentliche Vorteile für die Statistikanwendungen in Excel bringt, ist jedoch anzumerken, dass die Funktionalität nur soweit reicht, als die Befehlsstrukturen von R in Excel-Menüs überführt werden. Ein erster Schritt in diese Richtung ist mit SEMIR getan. Im Folgenden werden die einzelnen Funktionen der Menüs REngine und des Kontextmenüs ausführlich erklärt.
2. Beschreibung des Interfaces
Das zweite Kapitel umfasst den praktischen Teil von SEMIR. Hier wird die Installation von SEMIR, das Interface selbst und dessen Deinstallation erklärt. „Interface“ bezeichnet die zwei Menüs, die der Benutzer im Rahmen von SEMIR kennen lernt: Einerseits das Menü in der Kopfzeile von Excel, namens „REngine“, andererseits das Kontextmenü, welches bei einem rechten Mausklick erscheint.
Abbildung in dieser Leseprobe nicht enthalten
Abb. 16: Das Menü REngine
Abbildung in dieser Leseprobe nicht enthalten
Abb. 17: Das Kontextmenü
Da in diesem Kapitel hauptsächlich die Funktionalität der einzelnen Menüpunkte beschrieben wird, kann dieser Teil als Reference Manual, als Ergänzung und Erklärung zum Programm, herangezogen werden. Eine Beschreibung des programmiertechnischen Teils wird im 3. Kapitel gegeben.
Um die Begrifflichkeit in den Beschreibungen klarzustellen, sei hier eine kurze Terminologie vorangestellt:
Ein Datensatz besteht aus mehreren Variablen. In R wird die Unterscheidung zwischen qualitativen (faktoriellen) und quantitativen (numerischen) Variablen vorgenommen. Die Ausprägungen geben jene Werte an, die die Variable annehmen kann. Die Länge des Datensatzes bzw. einer Variablen gibt an, wie viele Fälle untersucht wurden. Der Datensatz ist ebenso in das Datenfeld und die Beschriftung zu unterteilen. Nachfolgende Grafik soll die Terminologie unterstützen.
Abbildung in dieser Leseprobe nicht enthalten
Abb. 18: Datensatz mit Bezeichnungen
Bevor auf die einzelnen Menüpunkte eingegangen werden kann, ist zunächst die Installation von SEMIR vorzunehmen, welche für den Benutzer der erste Schritt im Zuge der Verwendung sein wird.
2.1. Installation
Die Installation des Interfaces teilt sich aufgrund der Verbindung von verschiedenen Programmteilen in fünf Schritte29.
Schritt 1: R
Die Grundvoraussetzung, um mit dem Interface arbeiten zu können, ist R. Die aktuelle Version von R steht auf der Seite http://cran.r-project.org30 kostenlos zum Download bereit. Zurzeit ist die Version R 1.6.2. verfügbar. Jedoch ist das R-Projekt fortlaufend in Entwicklung, sodass weitere Versionen absehbar sind.
Das vorliegende Interface wurde auf Basis der R Version 1.5.1 (2002) geschrieben, ist jedoch ebenso mit der aktuellen Version kompatibel.
R steht für Windows als selbst entpackendes .exe file zur Verfügung. Über einen Dialog kann der Installationspfad angegeben werden (z.B.: C:\Programme\R). Unter diesem Verzeichnis wird eine umfangreiche Struktur angelegt, von der vor allem das \bin Verzeichnis relevant ist. Hier befindet sich nach dem Entpacken die Datei Rgui.exe. Von dieser Datei aus wird R normalerweise gestartet. Ein Doppelklick auf diese Datei liefert das Arbeitsfenster, in das die Befehle direkt eingegeben werden können.
Abbildung in dieser Leseprobe nicht enthalten
Abb. 19: Das herkömmliche R-GUI
Mit dieser Oberfläche wird der Benutzer von SEMIR im weiteren Verlauf nicht konfrontiert sein. Das Aufrufen der Datei kann jedoch als Überprüfung der korrekten Installation des R- GUI dienen.
Grundsätzlich ist es möglich, eine aktive Sitzung von R neben dem Interface parallel laufen zu lassen oder mehrere R Sitzungen nebeneinander zu öffnen. SEMIR startet jedoch, von Excel aus, einen eigenen R Prozess. Dieser Prozess hat kein Kommandofenster. Es ist somit weder möglich, die Ausführung der einzelnen Befehle mitzuverfolgen, noch von R aus auf die aus Excel überspielten Daten und Berechnungen einzuwirken.
Schritt 2: DCOM Server
Im zweiten Schritt ist es notwendig das Verbindungselement zwischen R und Excel herzustellen. Dies ist mit dem bereits erwähnten DCOM Server möglich. Dieser wurde von Thomas Baier an der TU-Wien entwickelt und steht ebenfalls auf der R Homepage unter http://cran.r-project.org/contrib/extra/dcom/ zum Download bereit. Da sich der DCOM Server noch in Weiterentwicklung befindet, ist es empfehlenswert vor der Installation zuerst das Readme.txt file zu lesen, da sich unter Umständen die Installation ändern kann.
Zum Zeitpunkt des Verfassens der Diplomarbeit war lediglich eine Version vorhanden, bei der die Installation selbst vorgenommen werden musste. Es wird jedoch in absehbarer Zeit eine selbst entpackende Version verfügbar sein.
Schritt 3: SEMIR 1.0
Der dritte Schritt umfasst die Installation des Interfaces. Dieses wird in Excel zwei zusätzliche Menüs kreieren. Es trägt den Namen SEMIR 1.0, umfasst ca. 750 KB, und ist als Add-In zu aktivieren. Am besten geht man dabei folgendermaßen vor: Kopieren von SEMIR 1.0 in
C:\Programme\Microsoft Office\Office10\Makro. Beim nächsten Aufrufen von Excel geht man auf Extras\Add-Ins. Sollte SEMIR 1.0 nicht in der Auswahlliste aufscheinen, geht man auf Durchsuchen und folgt dem Verzeichnis, in welches man das Add-In zuvor kopiert hat.
Schritt 4: Rfunctions.r
Damit das Add-In funktioniert, muss die R-library31 Rfunctions.r hinzugefügt werden. In ihr befinden sich die R-Makros, auf die das Add-In zugreift. Rfunctions.r ist in das bin Verzeichnis der R Installation zu kopieren (z.B.: C:\Programme\R\rw1062\bin).
Schritt 5: Customizing
Im abschließenden Schritt müssen zwei Verzeichnisse im Quellcode des SEMIR 1.0 Add-Ins angepasst werden. Die einzutragenden Verzeichnisnamen hängen von den Installationen am verwendeten Computer ab. Wesentlich ist dabei, ob genügend Schreibrechte vorhanden sind und welche Verzeichnisse bei den vorigen Schritten verwendet wurden.
Um diese Einstellungen vornehmen zu können, ist es notwendig, nachdem das Add-In aktiviert wurde, in Excel den Visual Basic Code zu öffnen. Dies ist möglich, indem man folgendes Symbol in der Excel Menüleiste drückt:
Abbildung in dieser Leseprobe nicht enthalten
Abb. 20: VB-Editor
Ist dieses Symbol nicht vorhanden, kann der Menüpunkt unter Extras/Makro/Visual-Basic Editor gefunden werden. Daraufhin öffnet sich der Visual Basic Editor. Auf der linken Seite des Bildschirms findet man die Verzeichnisstruktur (Projekt-Explorer), zu der man auch über die Tastenkombination Strg+R gelangt. Hier befindet sich das aktivierte Add-In SEMIR 1.0, welches sich in Formulare und Module teilt. Unter SEMIR 1.0\Module\RConnection findet man ab Zeile 23 anfänglich folgende Codierung:
Abbildung in dieser Leseprobe nicht enthalten
Die zwei rot markierten Verweise stehen am Anfang des VB-Codes als zentrale Variable. Dies deshalb, um sie bei Änderungen rasch aufzufinden und lange und wiederholte Suchprozesse in der VB Codierung zu vermeiden. C:\\Programme\\R\\rw1062\\bin stellt das Arbeitsverzeichnis von R dar. C:\\Programme\\R\\rw1062\\bin\\Rtemp.clp ist notwendig, um Daten von Excel nach R zu exportieren. Dieses Verzeichnis wir mit dem ersten Datenexport erstellt und mit jedem weiteren Export überschrieben. Dies sind die Defaulteinstellungen. Sie können beibehalten werden, wenn der Benutzer unter C:\\Programme über die entsprechenden Schreibrechte verfügt.
Es kann aber auch ein anderes Verzeichnis als Arbeitsverzeichnis und für die Auslagerungsdatei (Rtemp.clp) angeführt werden. Zum Beispiel wäre es möglich ein eigenes Verzeichnis, in dem Datensätze aufbewahrt werden, als Arbeits- und Auslagerungsverzeichnis heranzuziehen.
Unter SEMIR 1.0\Module\VBASystem ist im Header dasselbe Verzeichnis wie im Modul RConnection anzugeben, um die Auslagerungsdatei zu bezeichnen. Der Verweis dazu befindet sich in Zeile 14:
Abbildung in dieser Leseprobe nicht enthalten
Als letzter Schritt muss im VB Editor unter Extras/Verweise überprüft werden, ob die Verweise StatConnectorClnt 1.0 Type Library und StatConnector Srv 1.0 Type Library aktiviert sind. Sind sie nicht aktiviert, können sie in der alphabetischen Liste unter S gefunden werden. Ist auch dies nicht der Fall, geht man auf Durchsuchen. Die Dateien StatConnectorClnt.tlb und StatconnectorSrv.tlb befinden sich im Working Directory (/bin) von R.
Abbildung in dieser Leseprobe nicht enthalten
Abb. 21: Verweise im VB Editor
Hiermit sind alle erforderlichen Elemente installiert und die Anpassungen vorgenommen. SEMIR kann in Betrieb genommen werden.
2.2. Grundsätze der Funktionalität SEMIRs
In diesem Unterkapitel werden die Grundfunktionen und Funktionsweisen dargestellt, auf denen SEMIR basiert. Dabei gibt es vier große Themen: der Umgang mit Daten, die Funktionen, der Umgang mit Datenbereichen und die Grafiken.
[...]
1 Excel und R werden im 1. Kapitel in ihren Grundzügen beschrieben.
2 Im Quellcode sind an den entsprechenden Stellen Verweise auf die Urheberschaft angebracht.
3 Die Kommunikationsstruktur von DCOM Server und Visual Basic Programmierung wird in „1.1.3.3. Die technischen Voraussetzungen für SEMIR“ beschrieben.
4 Siehe „1.1.3.4. R und GUIs“.
5 GUI steht für „Graphical User Interface“.
6 http://www.id.unizh.ch/publications/rzu-aktuell/editor100/editor_5.html, konsultiert am 21. März 2003.
7 Zur Bezeichnung der Teile SPSS’s: Janssen/Laatz (1999).
8 siehe „2.3.3. Data“, Befehl Define Data.
9 Vorteile Excels: siehe „1.1.2. Excel“.
10 auf C als Basis von R wird in dieser Diplomarbeit nicht weiter eingegangen.
11 Diese identischen Menüs sind Statistik, Grafiken und Hilfe (mit Ausnahme des Skript Fensters) sowie Fenster (nicht im Diagramm-Editor).
12 Eine Erklärung der beiden Konzepte: Siehe „1.1.3.2. Die Funktionalität von R“.
13 Das englische Wort „Handling“ drückt meiner Meinung nach besser als das deutsche Wort „Umgang“ die Vor-, Weiter- und Nachbearbeitung der Daten aus.
14 Dies ist auch heute nicht vorrangiger Zweck. Jedoch hat sich die Funktionalität weiterentwickelt, sodass immer mehr statistische Anwendungen möglich sind.
15 Diese Funktionalität wurde mit dem Aufkommen von MS Access von diesem Programm übernommen.
16 Diese umfassen: Zahl, Währung, Buchhaltung, Datum, Uhrzeit, Prozent, Bruch, Text und einen benutzerdefinierten Typ.
17 Wenn von Erweiterungsmöglichkeiten gesprochen wird, ist dies ausschließlich im Hinblick auf statistische Anwendungen zu sehen.
18 Obwohl der Name auf Analysis lautet, werden darin statistische Methoden angeboten.
19 Siehe „1.1.3.2. Die Funktionalität von R“, Konzept des Rapid Prototyping.
20 Es kann von der Internetseite http://sunsite.univie.ac.at/Spreadsite/poptools/download.htm heruntergeladen werden.
21 S wurde im Wesentlichen von den Wissenschaftern Becker, Chambers und Wilk realisiert.
22 R Development Core Team (2002): The R Environment for Statistical Computing and Graphics - Reference Index - Version 1.6.2, Online Manual zu R.
23 SEMIR nutzt diese Möglichkeit in Form der Programmbibliothek „Rfunctions.r“.
24 Es ist zu beachten, dass die Programmbibliothek im Working Directory gespeichert sein muss, damit das Laden funktioniert. Steht die Programmbibliothek ausserhalb des Working Directory, ist der exakte Speicherort anzugeben (z.B.: „C:/Programme/R/rw1062/Rfunctions.r“).
25 COM steht für „component object model“, DCOM steht für „distributed COM“.
26 Installation: siehe „2.1. Installation“, Schritt 2.
27 Übernommen und leicht abgewandelt wurden: AddMenuItems, AddInterface, AddToContextMenu, Auto_Open, Auto_Close, RemuveMenuItems, RemoveInterface, StartRServer, StopRServer [letztere zwei wurden ebenfalls im Namen abgewandelt: StartREngine, StopREngine].
28 Es ist zu beachten, dass die Zielgruppe von SEMIR, Studenten der Wirtschaftswissenschaftlichen Studienrichtungen, selten Datensätze bearbeiten, die die Kapazität eines Excel-Sheets übersteigen.
29 Die korrekte Installation von Excel und entsprechende Schreib- und Leserechte auf dem Rechner werden vorausgesetzt.
30 Die genaue Adresse lautete am 12.02.03 http://cran.r-project.org/bin/windows/base/rw1062.exe.
31 Libraries sind in R Ansammlungen von Funktionen, die bei Bedarf aufgerufen werden können.
- Arbeit zitieren
- Markus Haas (Autor:in), 2003, SEMIR - Statistical Excel Menu, Interacting with R, München, GRIN Verlag, https://www.grin.com/document/30228