Von Schriftarten verwendete Zeichensätze
Alle Schriftarten verwenden einen Zeichensatz. Ein Zeichensatz enthält Interpunktionszeichen, Ziffern, Groß- und Kleinbuchstaben sowie alle anderen druckbaren Zeichen. Jedes Element eines Zeichensets wird durch eine Zahl identifiziert.
Die meisten verwendeten Zeichensätze sind Obermengen des US-ASCII-Zeichensatzes, der Zeichen für die 96 numerischen Werte von 32 bis 127 definiert. Es gibt fünf Hauptgruppen von Zeichensätzen:
- Windows
- Unicode
- OEM (Originalgerätehersteller)
- Symbol
- Anbieterspezifisch
Windows Zeichensatz
Der Windows Zeichensatz ist der am häufigsten verwendete Zeichensatz. Dies entspricht im Wesentlichen dem ANSI-Zeichensatz. Das leere Zeichen ist das erste Zeichen im Windows Zeichensatz. Er hat den Hexadezimalwert 0x20 (dezimal 32). Das letzte Zeichen im Windows zeichensatz hat den Hexadezimalwert 0xFF (dezimal 255).
Viele Schriftarten geben ein Standardzeichen an. Wenn eine Anforderung für ein Zeichen erfolgt, das nicht in der Schriftart enthalten ist, stellt das System dieses Standardzeichen zur Verfügung. Viele Schriftarten, die Windows Zeichensatz verwenden, geben den Zeitraum (.) als Standardzeichen an. TrueType- und OpenType-Schriftarten verwenden in der Regel ein offenes Feld als Standardzeichen.
Schriftarten verwenden ein Breakzeichen, das als Quad bezeichnet wird, um Wörter zu trennen und Text zu rechtfertigen. Die meisten Schriftarten, die Windows Zeichensatz verwenden, geben an, dass das leere Zeichen als Haltezeichen dient.
Unicode-Zeichensatz
Der Windows Zeichensatz verwendet 8 Bits, um jedes Zeichen zu darstellen. Daher beträgt die maximale Anzahl von Zeichen, die mit 8 Bits ausgedrückt werden können, 256 (2^8). Dies ist in der Regel für westesische Sprachen ausreichend, einschließlich der diakritischen Markierungen, die in Französisch, Deutsch, Spanisch und anderen Sprachen verwendet werden. Allerdings verwenden die Ostsprachen Tausende von separaten Zeichen, die nicht mithilfe eines Single-Byte-Codierungsschemas codiert werden können. Mit der Verbreitung des Computer-Commerce wurden Doppel-Byte-Codierungsschemas entwickelt, sodass Zeichen in 8-Bit-, 16-Bit-, 24-Bit- oder 32-Bit-Sequenzen dargestellt werden konnten. Dies erfordert komplizierte übergebende Algorithmen. Dennoch kann die Verwendung verschiedener Codesätze auf zwei verschiedenen Computern zu völlig unterschiedlichen Ergebnissen führen.
Um das Problem mehrerer Codierungsschemas zu beheben, wurde der Unicode-Standard für die Datendarstellung entwickelt. Ein 16-Bit-Zeichencodierungsschema, Unicode kann 65.536 (2^16) Zeichen darstellen. Dies reicht aus, um alle Sprachen im heutigen Computerhandel sowie Satzzeichen, mathematische Symbole und Platz für Erweiterungen einbetten zu können. Unicode erstellt einen eindeutigen Code für jedes Zeichen, um sicherzustellen, dass die Zeichenübersetzung immer korrekt ist.
OEM-Zeichensatz
Der OEM-Zeichensatz wird in der Regel in MS-DOS-Vollbildsitzungen für die Bildschirmanzeige verwendet. Die Zeichen 32 bis 127 sind in den Zeichensätzen OEM, US-ASCII und Windows identisch. Die anderen Zeichen im OEM-Zeichensatz (0 bis 31 und 128 bis 255) entsprechen den Zeichen, die in einer MS-DOS-Vollbildsitzung angezeigt werden können. Diese Zeichen unterscheiden sich im Allgemeinen von Windows Zeichen.
Symbolzeichensatz
Der Symbolzeichensatz enthält Sonderzeichen, die normalerweise zur Darstellung mathematischer und wissenschaftlicher Formeln verwendet werden.
Herstellerspezifische Zeichensätze
Viele Drucker und andere Ausgabegeräte stellen Schriftarten basierend auf Zeichensätzen zur Verfügung, die sich von den Windows- und OEM-Sätzen unterscheiden, z. B. den Extended Binary Coded Decimal Interchange Code(EBCDIC)-Zeichensatz. Um einen dieser Zeichensätze zu verwenden, übersetzt der Druckertreiber aus Windows Zeichensatz in den herstellerspezifischen Zeichensatz.