Diese Arbeit behandelt das Thema der Zeichensätze und bezieht dabei die Historik, den ASCII-Zeichensatz als auch die ASCII-Erweiterungen ein. Weiterhin wird der Unicode erläutert als auch verschiedene Zahlensysteme. Ein Repertoire an Zeichen nennt man Zeichensatz. Es enthält Zahlen, Buchstaben, Umlaute, Satzzeichen, Symbole, Sonderzeichen, Steuerzeichen und Formelzeichen. Bei einem kodierten Zeichensatz wird jedem Zeichen ein fester Code zugewiesen. Anwendung finden Zeichensätze vor allem in Computersystemen, welche nur binäre Codes speichern und verarbeiten können.
1833 baute Samuel Morse den ersten elektromagnetischen Schreibtelegrafen mit einem Zeichenvorrat an 10 Ziffern. Zum Codieren und Decodieren wurden Tabellen verwendet. 5 Jahre später entwarf Alfred Lewis Vail einen Code, der auch Buchstaben enthielt. Lange Zeit galt dieses Verfahren als Standard in der Telegrafie, bis 1870 Jean Maurice Émili Baudot einen 5-Bit-Code und passende Sende- und Empfangsgeräte entwickelte. Mit den 32 Wertigkeiten dieses Codes konnten nicht alle Buchstaben, Zahlen und sonstige Zeichen dargestellt werden, also erarbeitete Baudot ein System mit einer Doppelbelegung und zwei Schriftsätzen. Donald Murray passte diesen Code später an alphanumerische Tastaturen an. Als Vorläufer für den ASCII-Zeichensatz gilt ein US-amerikanisches Militärprojekt aus den 1950er und 1960er Jahren namens Fielddata.
Inhaltsverzeichnis
- Zeichensätze
- Historik
- ASCII-Zeichensatz
- ASCII-Erweiterungen
- Unicode
- UCS-Formate
- Unicode-Konsortium
- Emojis
- Kritik
- Zahlensysteme
- Dezimalsystem
- Binärsystem
- Hexadezimalsystem
- Fazit
Zielsetzung und Themenschwerpunkte
Diese Hausarbeit untersucht die Entwicklung und Funktionsweise von Zeichensätzen, beginnend mit frühen telegrafischen Codes bis hin zum Unicode-Standard. Die Arbeit beleuchtet die Herausforderungen der Darstellung verschiedener Schriftzeichen und Symbole in Computersystemen und analysiert verschiedene Codierungsmethoden.
- Entwicklung historischer Zeichensätze
- Funktionsweise des ASCII-Zeichensatzes und dessen Erweiterungen
- Der Unicode-Standard und seine verschiedenen Formate (UCS)
- Vergleich verschiedener Zahlensysteme (dezimal, binär, hexadezimal)
- Herausforderungen bei der Darstellung und Kompatibilität von Zeichen
Zusammenfassung der Kapitel
Zeichensätze: Der einführende Abschnitt definiert den Begriff "Zeichensatz" als ein Repertoire an Zeichen, inklusive Zahlen, Buchstaben, Satzzeichen und Symbolen. Er betont die Bedeutung der Codierung, um diese Zeichen in binären Codes für Computersysteme darzustellen, die nur binäre Daten verarbeiten können. Die Anwendung in Computersystemen steht im Mittelpunkt der Einführung.
Historik: Dieses Kapitel beleuchtet die historische Entwicklung von Zeichensätzen, beginnend mit dem Morse-Code und dem Baudot-Code. Es beschreibt die Entwicklung vom einfachen Zahlencode über alphanumerische Codes hin zu den Vorläufern des ASCII-Zeichensatzes, unter Einbezug von Meilensteinen wie dem elektromagnetischen Schreibtelegrafen und der Anpassung an alphanumerische Tastaturen. Der Fokus liegt auf der schrittweisen Erweiterung der Zeichenvorräte und den technischen Herausforderungen der jeweiligen Zeit. Das US-amerikanische Militärprojekt Fielddata wird als Vorläufer des ASCII-Zeichensatzes erwähnt.
ASCII-Zeichensatz: Dieser Abschnitt konzentriert sich auf den 7-Bit ASCII-Zeichensatz, seine Entwicklung durch IBM (insbesondere Robert Bemer) und seine Standardisierung 1968. Es wird erklärt, dass die ersten 32 Zeichen Steuerzeichen sind, die unterschiedlich von verschiedenen Programmen verwendet werden (z.B. Zeilenumbrüche in UNIX vs. Windows). Die Abbildung 1 visualisiert den Zeichensatz im hexadezimalen System und hebt die Problematik unterschiedlicher Zeilenumbruch-Codierungen hervor, die jedoch durch moderne Textverarbeitungsprogramme gelöst werden.
ASCII-Erweiterungen: Dieses Kapitel behandelt die Erweiterungen des ASCII-Zeichensatzes, die notwendig wurden, um länderspezifische Zeichen und eine wachsende Anzahl von Symbolen darzustellen. Die Erweiterung von 7 auf 8 Bit und die Entstehung von Zeichensätzen wie dem erweiterten ASCII-Zeichensatz von IBM und dem ANSI-Zeichensatz von Microsoft werden erläutert. Die Problematik der Inkompatibilität zwischen verschiedenen Erweiterungen und die Entwicklung von Codepages als betriebssystemunabhängige Lösungen, wie z.B. ISO-Latin-1, werden detailliert besprochen.
Unicode: Dieser Abschnitt stellt den Unicode-Standard als umfassende Lösung zur Darstellung aller Zeichen aller Sprachen vor. Die verschiedenen Formate (UTF) werden angesprochen, sowie die Organisation des Unicode-Konsortiums. Die Einführung des Standards 1991 und dessen Aufnahme in die ISO-Normung werden erwähnt, ebenso wie die erste Verwendung in Windows NT 4.0. Die Einzigartigkeit und Unveränderlichkeit der Codepoints, Zeichennamen und -eigenschaften werden betont. Die ständige Erweiterung des Zeichensatzes und die Rolle des Unicode-Konsortiums werden hervorgehoben.
UCS Formate: Das Kapitel beschreibt die verschiedenen UCS-Formate (Universal Coded Character Set) und deren Notwendigkeit, um die große Anzahl an Unicode-Zeichen darzustellen. Es erläutert die unterschiedlichen Ansätze zur Codierung (z.B. 4 Byte pro Zeichen in UTF-32) und den Kompromiss zwischen Speicherplatzbedarf und Effizienz. Die Aufteilung des Unicode in Ebenen und Blöcke wird anhand von Beispielen in Tabelle 2 (Abb. 2/1 und Abb. 2/2) veranschaulicht, die die wichtigsten Blöcke in der BMP (Mehrsprachige Basis-Ebene) zeigt. Die Unterscheidung zwischen BMP und SMP (Mehrsprachige Zusatzebene) wird erklärt, ebenso die Behandlung von konstruierten Sprachen und historischen Zeichen in privaten Bereichen.
UTF-8: Die Beschreibung dieses weit verbreiteten Unicode-Formats hebt seine variable Byte-Anzahl und die Abwärtskompatibilität mit ASCII hervor. Die Vorteile der Flexibilität und Effizienz werden erläutert, jedoch auch der Nachteil der unterschiedlichen Byte-Anzahl pro Zeichen für die Programmierung angesprochen.
UTF-16: Hier wird das ursprüngliche Unicode-Format mit 2 Byte pro Zeichen und dessen Vorteile bezüglich der Verarbeitung in Programmen und vertretbarer Speichergröße beschrieben. Die Erweiterung mittels High- und Low-Surrogates zur Darstellung weiterer Zeichen wird detailliert erklärt, inklusive der Reservierung spezifischer Codebereiche. Der Verzicht auf die Aufnahme in die ISO-Normung aufgrund des geringen Bedarfs an dieser Erweiterung wird erwähnt.
UTF-32: Dieser Abschnitt beschreibt das Unicode-Format mit 4 Byte pro Zeichen und seinen hohen Speicherplatzbedarf. Die direkte Darstellung aller Unicode-Zeichen wird als Hauptvorteil genannt, gleichzeitig aber auch der seltenere Einsatz aufgrund des hohen Speicherplatzbedarfs betont.
Schlüsselwörter
Zeichensätze, ASCII, Unicode, UCS, UTF-8, UTF-16, UTF-32, Codepages, Codierung, Zahlensysteme (Dezimal-, Binär-, Hexadezimalsystem), Informationsaustausch, historische Entwicklung, Kompatibilität, Datenverarbeitung.
Häufig gestellte Fragen (FAQ) zur Hausarbeit: Zeichensätze, Unicode und Zahlensysteme
Was ist der Inhalt dieser Hausarbeit?
Die Hausarbeit bietet einen umfassenden Überblick über die Entwicklung und Funktionsweise von Zeichensätzen, vom Morse-Code bis zum Unicode-Standard. Sie behandelt die Herausforderungen der Darstellung verschiedener Schriftzeichen in Computersystemen, analysiert verschiedene Codierungsmethoden und vergleicht unterschiedliche Zahlensysteme (Dezimal-, Binär-, Hexadezimalsystem).
Welche Themen werden im Einzelnen behandelt?
Die Arbeit umfasst die historische Entwicklung von Zeichensätzen, die Funktionsweise des ASCII-Zeichensatzes und dessen Erweiterungen, den Unicode-Standard und seine verschiedenen Formate (UCS, UTF-8, UTF-16, UTF-32), die Herausforderungen bei der Darstellung und Kompatibilität von Zeichen sowie einen Vergleich verschiedener Zahlensysteme.
Welche Zeichensätze werden untersucht?
Die Hausarbeit untersucht den ASCII-Zeichensatz (inklusive seiner Erweiterungen), verschiedene Codepages (z.B. ISO-Latin-1) und vor allem den Unicode-Standard mit seinen verschiedenen Formaten (UTF-8, UTF-16, UTF-32). Die historische Entwicklung wird anhand von Vorläufern wie dem Morse-Code und dem Baudot-Code beleuchtet.
Was sind die wichtigsten Herausforderungen im Zusammenhang mit Zeichensätzen?
Eine zentrale Herausforderung besteht in der Kompatibilität zwischen verschiedenen Zeichensätzen und Codierungen. Die Hausarbeit beleuchtet die Probleme, die durch die unterschiedliche Darstellung von Zeichen (z.B. Zeilenumbrüche) und die Inkompatibilität zwischen verschiedenen Erweiterungen des ASCII-Zeichensatzes entstanden sind. Die Lösung dieser Probleme durch den Unicode-Standard wird hervorgehoben.
Wie sind die Kapitel aufgebaut?
Die Hausarbeit ist in Kapitel gegliedert, die sich mit der Definition von Zeichensätzen, ihrer historischen Entwicklung (einschließlich Morse-Code und Baudot-Code), dem ASCII-Zeichensatz und seinen Erweiterungen, dem Unicode-Standard und seinen Formaten (UCS, UTF-8, UTF-16, UTF-32) sowie verschiedenen Zahlensystemen befassen. Jedes Kapitel bietet eine Zusammenfassung der wichtigsten Aspekte.
Welche Zahlensysteme werden verglichen?
Die Hausarbeit vergleicht das Dezimalsystem, das Binärsystem und das Hexadezimalsystem. Der Vergleich dient dazu, das Verständnis für die Darstellung von Zeichen in binären Codes zu vertiefen, da Computersysteme nur binäre Daten verarbeiten können.
Was ist der Unicode-Standard?
Der Unicode-Standard ist ein umfassender Standard zur Darstellung von Zeichen aller Sprachen. Die Hausarbeit erklärt seine verschiedenen Formate (UTF-8, UTF-16, UTF-32), die Organisation des Unicode-Konsortiums und die Vorteile von Unicode gegenüber älteren Zeichensätzen hinsichtlich der Kompatibilität und der Darstellung einer großen Anzahl von Zeichen.
Was sind die Unterschiede zwischen UTF-8, UTF-16 und UTF-32?
UTF-8 verwendet eine variable Anzahl von Bytes pro Zeichen (1-4), ist abwärtskompatibel mit ASCII und effizient im Speicherverbrauch. UTF-16 verwendet 2 Bytes pro Zeichen (mit Surrogates für erweiterte Zeichen) und bietet einen Kompromiss zwischen Speicherbedarf und Effizienz. UTF-32 verwendet 4 Bytes pro Zeichen und bietet eine einfache Darstellung, ist aber speicherintensiv.
Welche Schlüsselwörter beschreiben den Inhalt der Arbeit?
Schlüsselwörter sind: Zeichensätze, ASCII, Unicode, UCS, UTF-8, UTF-16, UTF-32, Codepages, Codierung, Zahlensysteme (Dezimal-, Binär-, Hexadezimalsystem), Informationsaustausch, historische Entwicklung, Kompatibilität, Datenverarbeitung.
- Arbeit zitieren
- Fabienne Vivien Bucher (Autor:in), 2020, Zeichensätze in Computersystemen. Zahlensysteme, ASCII und Unicode, München, GRIN Verlag, https://www.grin.com/document/913372