Einzelbyte- und Mehrbyte-Zeichensätze

Mit dem ASCII-Zeichensatz werden Zeichen im Bereich von 0x00 bis 0x7F definiert. Von einigen anderen Zeichensätzen (hauptsächlich europäischer Herkunft) werden wie beim ASCII-Zeichensatz die Zeichen im Bereich von 0x00 bis 0x7F definiert; zusätzlich wird ein erweiterter Zeichensatz im Bereich von 0x80 bis 0xFF definiert. Ein 8-Bit-Einzel byte-Zeichensatz (Single-Byte-Character Set, SBCS) ist ausreichend, um den ASCII-Zeichensatz sowie die Zeichensätze für viele europäische Sprachen darzustellen. Einige nicht europäische Zeichensätze, z.B. japanische Kanji, enthalten jedoch viel mehr Zeichen, als in einem Einzelbyte-Codierungsschema dargestellt werden können, und erfordern daher multibyte-zeichensatz(MBCS)-Codierung.

Hinweis

Viele SBCS-Routinen in der Microsoft-Laufzeitbibliothek behandeln Multibyte-Bytes, Zeichen und Zeichenfolgen entsprechend. Viele Multibyte-Zeichensätze definieren den ASCII-Zeichensatz als Teilmenge. In vielen Multibyte-Zeichensätzen sind die Zeichen im Bereich von 0x00 bis 0x7F mit den gleichwertigen Zeichen des ASCII-Zeichensatzes identisch. Das ein Byte lange Zeichen NULL („\0“) hat z.B. in ASCII- und MBCS-Zeichenfolgen den Wert 0x00 und steht für das abschließende NULL-Zeichen.

Ein Multibyte-Zeichensatz kann aus 1-Byte- und 2-Byte-Zeichen bestehen. Eine Multibytezeichenfolge kann eine Mischung aus Einzelbyte- und Doppelbytezeichen enthalten. Ein 2-Byte-Multibytezeichen verfügt über ein führendes Byte und ein nachfolgendes Byte. In einem bestimmten Mehrbyte-Zeichensatz liegen die führenden Bytes ebenso wie die nachfolgenden Bytes innerhalb eines bestimmten Bereichs. Wenn sich diese Bereiche überschneiden, müssen Sie möglicherweise den Kontext auswerten, um zu bestimmen, ob ein bestimmtes Byte als lead-Byte oder als nachfolgendes Byte fungiert.

Siehe auch

Internationalisierung
Universelle C-Laufzeitroutinen nach Kategorie