Zeichensätze, Unicode und Zahlensysteme. Eine Übersicht


Ausarbeitung, 2020

10 Seiten, Note: 1


Leseprobe


Gliederung

1 Zeichensätze
1.1 Historik
1.2 ASCII-Zeichensatz
1.3 ASCII-Erweiterungen

2 Unicode
2.1 UCS-Formate
2.2 Unicode-Konsortium
2.3 Emojis
2.4 Kritik

3 Zahlensysteme >
3.1 Dezimalsystem
3.2 Binärsystem
3.3 Hexadezimalsystem

4 Fazit

5 Quellenverzeichnis >

1. Zeichensätze

Ein Repertoire an Zeichen nennt man Zeichensatz. Es enthält Zahlen, Buchstaben, Umlaute, Satzzeichen, Symbole, Sonderzeichen, Steuerzeichen und Formelzeichen. Bei einem kodierten Zeichensatz wird jedem Zeichen ein fester Code zugewiesen. Anwendung finden Zeichensätze vor allem in Computersystemen, welche nur binäre Codes speichern und verarbeiten können.

1.1 Historik

1833 baute Samuel Morse den ersten elektromagnetischen Schreibtelegrafen mit einem Zeichenvorrat an 10 Ziffern. Zum Codieren und Decodieren wurden Tabellen verwendet.

5 Jahre später entwarf Alfred Lewis Vail einen Code, der auch Buchstaben enthielt. Lange Zeit galt dieses Verfahren als Standard in der Telegrafie, bis 1870 Jean Maurice Emili Baudot einen 5-Bit-Code und passende Sende- und Empfangsgeräte entwickelte. Mit den 32 Wertigkeiten dieses Codes konnten nicht alle Buchstaben, Zahlen und sonstige Zeichen dargestellt werden, also erarbeitete Baudot ein System mit einer Doppelbelegung und zwei Schriftsätzen. Donald Murray passte diesen Code später an alphanumerische Tastaturen an. Als Vorläufer für den ASCII-Zeichensatz gilt ein US-amerikanisches Militärprojekt aus den 1950er und 1960er Jahren namens Fielddata.

1.2 ASCII-Zeichensatz

Der mit 7-Bit codierte ASCII-Zeichensatz gilt als wichtigste Grundlage und umfasst 128 Zeichen. In den 1960er Jahren entwickelte IBM, insbesondere Robert Bemer diesen Code, 1968 wurde er standarisiert. ,ASCII‘ steht für ,American Standard Code for Information Interchange', übersetzt Amerikanischer Standard-Code für den Informationsaustausch'. Zu Beginn entsprach der ASCII-Zeichensatz einfach einer Durchnummerierung aller Zeichen und Funktionen einer amerikanischen Schreibmaschine. Die Zeichen 00 bis 1F, also die ersten 32 Zeichen in der ASCII-Tabelle sind Steuerzeichen. Diese werden von verschiedenen Programmen teilweise unterschiedlich genutzt. So gibt es für den Zeilenumbruch keine einheitliche Nummerierung, UNIX verwendet das Steuerzeichen LF, also Line Feed, während Windows eine Kombination aus Carriage Return und Line Feed benutzt. In Textverarbeitungsprogrammen wie Open Office oder Microsoft Word stellt das kein Problem dar, hier sind die Zeilenumbrüche geschützt. Die Tabelle zeigt den ASCII-Zeichensatz mit

Abbildung in dieser Leseprobe nicht enthalten

Abb. 1: ASCII-Zeichensatz im hexadezimalen Zahlensystem

1.3 ASCII-Erweiterungen

Bis zu den 1980er Jahren war der ASCII-Zeichensatz universell in Gebrauch und länderspezifische Zeichen wie beispielsweise das „ä“ mussten umgeschrieben werden. Die zunehmende Nutzung im Berufsalltag und der weltweiten Vernetzund durch das Internet verlangten nach einheitlichen Erweiterungen und so wurde der 7-Bit-Code, der ohnehin in 8-Bit großen Einheiten gespeichert wurde, um 128 Zeichen erweitert. IBM war das erste Unternehmen, das den „erweiterten ASCII-Zeichensatz“ entwickelte. Eine andere Erweiterung ist der ANSI-Zeichensatz (ANSI: American National Standards Institute) von Microsoft. Dieser enthält die wesentlichen diakritischen Zeichen der west- und mitteleuropäischen Sprachen und außerdem einige Grafikzeichen. Andere Unternehmen entwickelten andere Zeichensätze, sodass es immer wieder zu Problemen kam und außerdem waren immer noch nicht alle länderspezifischen Zeichen untergebracht. Das führte zu dem Entwurf von universell angepassten Zeichensätzen, sogenannten Codepages; betriebssystemunabhängige Lösungen, die als internationale Norm gelten. So enthält der Zeichensatz „ISO-Latin-1“ alle in Westeuropa benötigten Zeichen. Auch hier entstanden Probleme in der Konvertierung und Kompatibilät zwischen den verschiendenen Erweiterungen.

2. Unicode

Ein weiterer und weitgehend erfolgreicher Lösungsansatz ist die Entwicklung des Unicode, der zum Ziel hat, alle Zeichen jeder Sprache und aller Anwendungsbereiche zu inkludieren, sodass dieser betriebssystem- und länderunabhängig eingesetzt werden kann. Da dies sehr viel mehr Zeichen beinhaltet als beispielsweise der ASCII-Zeichensatz, gibt es verschiedene Formate. Unicode selbst weist jedem Codepoint, also einem Zahlenwert innerhalb des Codes, eine bestimmte Codierung zu, die Definition dieser Codepoints zu codierten Zeichen geschieht in den Umwandlungsformaten (UTF, Unicode Transformation Format). 1991 wurde der Unicode-Standard veröffentlicht und fünf Jahre darauf von der Internatio­nalen Organisation für Normung (ISO) aufgenommen. Das erste Betriebssystem, das den Unicode nutze, war Windows NT 4.0. Jedes Unicode-Zeichen besitzt einen eigenen, nicht veränderbaren Code, einen Zeichennamen und dokumentierte Zeicheneigenschaften. Der Zeichensatz wird ständig um weitere Zeichen ergänzt, für das gesamte Regelwerk ist das sogenannte Unicode Konsortium zuständig. Zeichen, die in das Regelwerk aufgenommen werden, bleiben gespeichert.

2.1 UCS - Formate

UCS steht für Universal Coded Character Set, Unicode gilt als eine synonyme Bezeichnung für diesen Ausdruck. Für verschiedene Ansprüche gibt es unterschiedliche Formate. Unicode führt etwa 140000 Zeichen, wofür eine Codierung mit einem Byte (1 Byte = 8 Bits = 28 = 256 mögliche Zustände) bei Weitem nicht ausreichend ist. Eine direkte Möglichkeit, alle Zeichen in einem einzigen Zeichensatz darzustellen, bietet die Codierung mit je 4 Byte pro Zeichen. Die durchgängige Codierung mit 4 Byte wäre allerdings eine Verschwendung an Speicherplatz, denn die meist verwendeten Zeichen finden sich zu Beginn des alphanumerischen Zeichensatzes.

Der Unicode wird in Ebenen unterteilt, die in Böcke gegliedert sind. In der Tabelle sind einige Beispiele aufgeführt, sortiert nach den Parametern Ebene, Block, Positionen in hexadezimaler Schreibweise und Anzahl der enthaltenen Zeichen.

Abbildung in dieser Leseprobe nicht enthalten

Die Mehrsprachige Basis-Ebene (BMP) enthält die wichtigsten Zeichen lebender Sprachen, Piktogramme und Symbole. In der Mehrsprachigen Zusatzebene (SMP) finden sich Zeichen toter Sprachen und mehrere Symbole und Bildzeichen. Weitere Ebenen sind die Jdeografische Zusatzebene' (SIP), einige nicht belegte Ebenen, eine Zusatzebene zur besonderen Verwendung und privat genutzte Bereiche. Was Unicode als Standard nicht enthält, sind konstruierte Sprachen wie Klingonisch und manche historische Zeichen, für solche Fälle sind dann die privaten Bereiche vorgesehen. Die Ebene SIP enthält Sammlungen an CJK-Ideogrammen, also Schriftzeichen aus dem chinesischen, japanischen und koreanischen Sprachraum, die ganze Begriffe anstatt nur einzelne Lautungen repräsentieren.

Abbildung in dieser Leseprobe nicht enthalten

Abb. 3/1: Auswahl wichtiger Blöcke in der BMP

Abbildung in dieser Leseprobe nicht enthalten

Abb. 3/2: Auswahl wichtiger Blöcke in der BMP zu 2.1 UCS-Formate

UTF-8 Dieses Format ist am weitesten verbreitet wenn es um das Speichern und Übertragen von Textdaten geht. Die variable Anzahl an Bytes für die Darstellung der Zeichen macht UTF-8 zu einer flexiblen und effizienten Lösung. Der eindeutige Vorteil besteht in der Abwärts-Kompatibilität mit dem ASCII-Zeichensatz, der sich in diesem Format mit nur einem Byte darstellen lässt. Das heißt, Systeme und Programme, die nur den ASCII-Code „verstehen“, funktionieren auch mit UTF-8. Bei höherwertigen Zeichen erfolgt die Darstellung durch längere Bytefolgen. Ein Nachteil ist die Problematik bei der Verarbeitung innerhalb von Programmen, die für ihre Algorithmen auf eine gleichbleibende Anzahl der Bytes pro Zeichen angewiesen sind.

UTF-16 Das ursprüngliche Unicode-Format wurde mit je 2 Byte pro Zeichen codiert. Die feste Breite ist von Vorteil für die Verarbeitung in Programmen und die Speichergröße ist vertretbar, daher ist UTF-16 für manche Anwendungen ein guter Kompromiss. Eine Möglichkeit, mit UTF-16 mehr Zeichen zu codieren als ursprünglich vorgesehen ist die Darstellung durch Zweibytewörter. Dazu wird von der Nummer des darzustellenden Zeichens die Zahl 65536 (10000 hex) subtrahiert. Daraus entstehen zwei Blöcke zu je 10 Bit, denen jeweils eine Bitfolge (dem ersten Block Bitfolge 110110, dem zweiten 110111) vorangestellt wird; das erste der Zwei­bytewörter wird als High-Surrogate und das zweite als Low-Surrogate bezeichnet. Für diesen Vorgang, mit dem sich die Unicode-Zeichen U+10000 bis U+10FFFF darstellen lassen, sind bestimmte Codebereiche reserviert. Der geringe Bedarf nach dieser Erweiterung machte eine Aufnahme in die ISO überflüssig, hier existiert nach wie vor das Format mit der durchgängigen Codierung von 2 Byte pro Zeichen; allerdings ist dieses Wissen von Bedeutung für die Konvertierung zwischen ver­schiedenen Formaten.

UTF-32 Ein weiteres Unicode-Format, welches eine Darstellung der Zeichen durch je 4 Byte vorsieht. Es kommt eher selten zum Einsatz, der Speicherplatzbedarf ist hierbei sehr hoch. UTF-32 ist jedoch der direkteste Weg, alle in Unicode vorkommenden Zeichen in einem Format darzustellen.

2.2 Unicode Konsortium

Das Unicode Konsortium gilt als gemeinnütziges Unternehmen mit Sitz in Kalifornien, welches für die Entwicklung und Verwaltung von Internationalisierungsstandards wie dem Unicode-Standard zuständig ist. Mitglieder sind unter anderem große Unternehmen wie Adobe, Facebook und Apple und interessierte Einzelpersonen, außerdem arbeitet das Konsortium eng mit der ISO und der IEC (International Electrotechnical Comission) zusammen. Mehrere Ausschüsse beraten über die Entwicklung und Herausgabe neuer

Zeichen und stellen die Interoperabilität1 und die syntaktische2 Validität3 sicher. Das bedeutet, verschiedene ineinandergreifende Systeme halten gemeinsame Standards ein und innerhalb dieser Standards stimmen empirische Messungen mit dem theoretischen Messkonzept überein. Auch entscheidet es über die Aufnahme neuer Emojis im Unicode-Standard.

2.3 Emojis

„Emoji“ ist Japanisch und bedeutet „Piktogramm“, denn genau das sind die kleinen Bilder, stilisierte Darstellungen von Gegenständen, Tieren, Personen mit verschiedenen Emotionsausdrücken und vieles mehr. Im Prinzip kann jede Person ein Emoji vorschlagen, über die Aufnahme in den Unicode Standard entscheidet das Konsortium nach verschiedenen Kriterien. Zum einen muss die Bedeutung des Piktogrammes gut erkennbar sein, außerdem ist eine überzeugende Begründung für den Bedarf notwendig. Dieser Bedarf wird unter anderem durch Anfragen in Suchmaschinen belegt. Verboten bei der Darstellung sind Gottheiten, Marken-Logos und Abbildungen lebender Personen. Schafft es ein Emoji in den Unicode-Standard, wird ihm eine Codierung, also ein fester Platz zugewiesen und Unicode stellt das Piktogramm in seiner Grundform Unternehmen wie Apple oder Samsung zur Verfügung, welche sich um die Darstellung in den von ihnen entwickelten Programmen kümmern. Mittlerweile gibt es über 1800 Emojis, die auf verschiedene Blöcke aufgeteilt sind. So findet man das grinsende Gesicht in dem Block ,Smileys‘, während der Regenbogen und andere piktografische Symbole sich im Block darüber befinden.

2.4 Kritik

Grenzen und Probleme bei Unicode entstehen vor allem durch begrenzte Fonts, die nicht alle Schriftzeichen führen und inkompatible Software. Der Standard bringt in der Praxis nur einen Nutzen, wenn die Endgeräte und alle Zwischenfaktoren für die Be- und Verarbeitung in Computersystemen entsprechende Formate unterstützen. In Deutschland wurden insgesamt 900 einheitlich verwendete Buchstaben und Symbole festgelegt, während gängige Schriftarten bis zu 500 Zeichen führen, eher weniger. Dieses Problem wird durch eine Verknüpfung verschiedener Schriftarten korrigiert. Darüber hinaus wurde der Standard DIN SPEC 91379 eingeführt, der Zeichen in Unicode für die elektronische Verarbeitung von Namen und den Datenaustausch in Europa enthält.

Eine weitere Komplikation ist die unterschiedliche Handhabung bei der Byte-Reihenfolge, also der Endianness. Man unterscheidet zwischen ,Big Endian', also dem höchstwertigen Byte an erster Stelle und ,Little Endian', hier ist die Byte-Reihenfolge genau umgekehrt. Dieses Problem wird mit einer Markierung für die entsprechende Reihenfolge umgangen und über Hex-Editoren1 ist es möglich, den Aufbau eines Dateiformates zu analysieren.

» Die Bezeichnungen „Little Endian“ und „Big Endian“ stammen aus dem Roman „Gullivers Reisen“ von Jonathan Swift. Mit diesen Begriffen parodiert er den jahrhundertelangen Zwist zwischen der katholischen und der anglikanischen Kirche in Großbritannien als blutigen Kampf zwischen Volksgruppen, die ihre Frühstückseier am spitzen beziehungsweise am runden Ende köpfen.

- zitiert aus „IT-Handbuch für Fachinformatiker“ von Sascha Kersken, Seite 851

Auch die Sicherheit weist Schwachstellen auf; so ist es ein Leichtes, eine dem Original zum Verwechseln ähnliche Kopie einer Firmen-Website zu erstellen und damit Phishing2 zu betreiben indem ein anderer Zeichensatz mit identisch dargestellten Zeichen verwendet wird. So durchlaufen die falschen Websites die domain-validierten3 Sicherheits-Zertifikate, ohne aufzufallen. Unwissenheit der User und Sicherheitslücken der Browser begünstigen diese Betrugsmasche. An diesem Problem wird seit einigen Jahren gearbeitet. Tatsächlich kann diese Art des Betruges kaum verhindert werden, eher wird hier an die User und Website- Betreiber*innen appelliert, auf seriöse Sicherheits-Zertifikate zu achten.

Von Seiten der Sprachwissenschaftler*innen und Historiker*innen kommt Kritik; die Vereinheitlichung aller Schriftbilder führe zum Verlust regionaler Besonderheiten. Darüber hinaus fehlen im Unicode Standard historische Zeichen, was an sich kein Problem darstellt, da ausreichend freie Codepunkte zur Verfügung stehen und Unicode kontinuierlich weiterentwickelt wird.

Ein Punkt von aktuellem Interesse sind Emojis; zu Beginn sollten die Piktogramme so simpel wie möglich gestaltet sein um eine größtmögliche Flexibilität der Bedeutung zu schaffen. Der Wunsch nach mehr Diversität und Integration von Minderheiten führt zu immer spezifischer dargestellten Emojis, was wiederum das Fehlen von Darstellungen weiterer Minderheiten verdeutlicht. Die Sorge hier ist, dass die Auswahl zunehmend unübersichtlich wird. Ein Lösungsansatz ist die Funktion einer in Bildschirmtastaturen eingebundene Suchleiste für Emojis.

Trotz aller Problematiken kann davon ausgegangen werden, dass der Unicode Standard wächst und sich weiter als universeller Zeichensatz etabliert. Aktuell verzögern sich durch die Corona-Krise die Entwicklungen neuer Emojis, die eigentlich 2021 veröffentlicht werden sollten.

1 Hex-Editor: Programm, welches die Bytes einer Datei als Hexadezimalzahlen anzeigt (Quelle: „IT-Handbuch“ s. Quellenverzeichnis, S.850)
2 Phishing: Beschaffung persönlicher Daten anderer Personen (wie Passwort, Kreditkartennummer o. Ä.) mit gefälschten E-Mails oder Websites (Quelle: Duden)
3 domain-validiert: Prüfung der Identität bzw. des administrativen Zugriffes auf eine Internetadresse per Email (Quelle: https://www.cmo.de/

wissensdatenbank/was-bedeutet-domain-validation-bei-ssl-zertifikaten/) 7

3. Zahlensysteme

In einem Zahlensystem ist der Wert einer Ziffer von ihrer Position innerhalb der gesamten Zahl abhängig. Das heißt, der Grundwert jeder Stelle wird mit dem Wert der einzelnen Ziffer multipliziert, um den Gesamtwert festzustellen. Auch im Alltag begegnet uns diese Tatsache im Umgang mit dem Dezimalsystem. Neben diesem für uns allgegenwärtigen Zahlensystem gibt es noch weitere: das Binär-, Oktal- und Hexadezimalsystem zum Beispiel. Für das Thema Zeichensätze und ins Besondere Unicode sind vor allem die Zahlensysteme Dezimal, Binär und Hexadezimal von Bedeutung.

3.1 Dezimalsystem

Das Dezimalsystem hat die Basis 10, diese Zahl gibt den Vorrat an Ziffern an, in diesem Fall die Ziffern 0 bis 9. Der Faktor einer Ziffer errechnet sich durch ihre Multiplikation mit der dem Stellenwert entsprechenden Potenzierung mit der jeweiligen Basis und gegebenenfalls anschließender Addition der einzelnen Faktoren. Hier ein Beispiel:

Abbildung in dieser Leseprobe nicht enthalten

Da uns dieses Zahlensystem so vertraut ist, brauchen wir nicht lange über den Wert einer Zahl nachdenken. Anders sieht es hier aus:

3.2 Binärsystem

Das Binärsystem mit der Basis 2 besteht nur aus Nullen und Einsen und kommt vor allem in der Computertechnik zum Einsatz, da die elektronischen Bauteile ebenfalls binär arbeiten; entweder fließt Strom (1) oder es fließt keiner (0).

3.3 Hexadezimalsystem

Abbildung in dieser Leseprobe nicht enthalten

Große Binärzahlen sind in der Handhabung eher unübersichtlich, daher werden sie häufig in die hexadezimale Schreibweise umgewandelt. Dazu sind je 4 Bit einer Binärzahl zu einem hexadezimalen Zeichen zusammengefasst. Da eine 4 -Bit-Binärzahl 16 Zustände annehmen kann, die dezimale Schreibweise aber nur 10 davon abdeckt, wurden die Buchstaben A bis F des lateinischen Alphabetes angehängt.

4.0 Fazit

Zeichensätze gibt es viele, etabliert hat sich jedoch eindeutig Unicode.

Unicode ist auf jeden Fall wichtig für das Voranschreiten der Internationalisierung. Eine Schwierigkeit ist der Balanceakt zwischen lückenloser Vereinheitlichung und dem Erhalt der Individualität; ein Paradoxon, wie auch die zuvor schon erwähnte Problematik der Emojis zeigt. Interessant finde ich die Wirkung der Nutzung von Emojis, insbesondere Smileys, auf unsere Kommunikation. Die kleinen Bilder sollen ersetzen, was durch den indirekten Kontakt verloren geht und Aufschluss geben über den aktuellen Gefühlszustand. Die Textwirkung kann sich hierdurch vollkommen verändern. Piktogramme wie das Feuerwehrauto oder eine Blume werden häufig verwendet, um eine Textnachricht mit entsprechendem Inhalt zu ergänzen, sie liefern also Kontext und geben sofort Auskunft über die Situation; der Sprachwissenschaftler Prof. Anatol Stefanowitsch vom Institut für englische Philologie an der Freien Universität Berlin nennt diesen Effekt „situative Einbettung“.

Der Versuch des Konsortiums, für Gleichberechtigung und Inklusion zu sorgen, halte ich für zeitgemäß und angebracht.

Überwiegend werden mit Emojis positive Gefühle zum Ausdruck gebracht, wie dieses Diagramm von Unicode zeigt: https:// lh4.googleusercontent.com/7mnwFwlkCCdSfXxST7uT9CvPiFPkgGuFNC0CAie4jVu2fSJ- CC4VQbXGPnzq7Nbms2pm5652eH- ekbThAPWSPIXxRlM_rUdLtsJNSn1NKk7r4_7SLosZMqvVW5nJ7_wMIp0WdHMZ

Diese Abbildung wurde aus urheberrechtlichen Gründen von der Redaktion entfernt.

Abb. 6: Meistverwendete Emojis der Unicode-Version 12.0

»Es gibt keine größere Illusion als die Meinung, Sprache sei ein Mittel der Kommunikation zwischen Menschen.

- Zitat von Elias Canetti

5.0 Quellenverzeichnis

Einige der Informationen stammen aus dem Buch „IT-Handbuch für Fachinformatiker“ von Sascha Kersken (Rheinwerk Verlag, 2019), nachfolgend abgekürzt durch „IT-Handbuch“.

Abbildung in dieser Leseprobe nicht enthalten

[...]


1 Interoperabilität: Fähigkeit unterschiedlicher Systeme, möglichst nahtlos zusammenzuarbeiten

2 Syntax: Gesamtheit der Regeln, die innerhalb einer Programmiersprache zur exakten Formulierung eines Programms erforderlich sind

3 Validität: Kriterium für die Güte eines Tests oder einer Messung (Quelle: Duden)

Ende der Leseprobe aus 10 Seiten

Details

Titel
Zeichensätze, Unicode und Zahlensysteme. Eine Übersicht
Note
1
Autor
Jahr
2020
Seiten
10
Katalognummer
V1181160
ISBN (eBook)
9783346609199
Sprache
Deutsch
Schlagworte
Informatik, Zeichensätze, ASCII, Unicode, Hexadezimal
Arbeit zitieren
Fabienne Vivien Bucher (Autor:in), 2020, Zeichensätze, Unicode und Zahlensysteme. Eine Übersicht, München, GRIN Verlag, https://www.grin.com/document/1181160

Kommentare

  • Noch keine Kommentare.
Blick ins Buch
Titel: Zeichensätze, Unicode und Zahlensysteme. Eine Übersicht



Ihre Arbeit hochladen

Ihre Hausarbeit / Abschlussarbeit:

- Publikation als eBook und Buch
- Hohes Honorar auf die Verkäufe
- Für Sie komplett kostenlos – mit ISBN
- Es dauert nur 5 Minuten
- Jede Arbeit findet Leser

Kostenlos Autor werden