UnicodeCategory Enumeration

Definition

Definiert die Unicode-Kategorie eines Zeichens.

public enum class UnicodeCategory
public enum UnicodeCategory
[System.Serializable]
public enum UnicodeCategory
[System.Serializable]
[System.Runtime.InteropServices.ComVisible(true)]
public enum UnicodeCategory
type UnicodeCategory = 
[<System.Serializable>]
type UnicodeCategory = 
[<System.Serializable>]
[<System.Runtime.InteropServices.ComVisible(true)>]
type UnicodeCategory = 
Public Enum UnicodeCategory
Vererbung
UnicodeCategory
Attribute

Felder

ClosePunctuation 21

Schließendes Zeichen eines Satzzeichenpaars wie einfache, eckige oder geschweifte Klammern. Gekennzeichnet durch die Unicode-Bezeichnung „Pe“ (Punctuation, Close (Interpunktion, schließend)). Der Wert ist 21.

ConnectorPunctuation 18

Verbindungssatzzeichen, das zwei Zeichen verbindet. Gekennzeichnet durch die Unicode-Bezeichnung „Pc“ (Punctuation, Connector (Interpunktion, Verbindung)). Der Wert ist 18.

Control 14

Steuerungscodezeichen, dessen Unicode-Wert gleich U+007F ist oder im Bereich U+0000 bis U+001F oder U+0080 bis U+009F liegt. Gekennzeichnet durch die Unicode-Bezeichnung „Cc“ (Character, Control (Zeichen, Steuerung)). Der Wert ist 14.

CurrencySymbol 26

Währungssymbolzeichen. Gekennzeichnet durch die Unicode-Bezeichnung „Sc“ (Symbol, Currency (Symbol, Währung)). Der Wert ist 26.

DashPunctuation 19

Gedankenstrich- oder Bindestrichzeichen. Gekennzeichnet durch die Unicode-Bezeichnung „Pd“ (Punctuation, Dash (Interpunktion, Bindestrich)). Der Wert ist 19.

DecimalDigitNumber 8

Dezimalzifferzeichen, also ein Zeichen im Bereich von 0 bis 9. Gekennzeichnet durch die Unicode-Bezeichnung „Nd“ (Number, Decimal Digit (Zahl, Dezimalzahl)). Der Wert ist gleich „8“.

EnclosingMark 7

Einschließendes Zeichen. Dies ist ein Kombinationszeichen ohne Zwischenraum, das alle vorhergehenden Zeichen bis einschließlich eines Basiszeichens umgibt. Gekennzeichnet durch die Unicode-Bezeichnung „Me“ (Mark, Enclosing (Satzzeichen, einschließend)). Der Wert ist 7.

FinalQuotePunctuation 23

Schließendes Anführungszeichen oder Schlussanführungszeichen. Gekennzeichnet durch die Unicode-Bezeichnung „Pf“ (Punctuation, Fnitial Quote (Satzzeichen, Schlussanführungszeichen)). Der Wert ist 23.

Format 15

Formatzeichen, das sich auf das Textlayout oder die Textverarbeitungsvorgänge auswirkt, normalerweise aber nicht gerendert wird. Gekennzeichnet durch die Unicode-Bezeichnung „Cf“ (Character, Format (Zeichen, Format)). Der Wert ist 15.

InitialQuotePunctuation 22

Öffnendes Anführungszeichen oder Anfangsanführungszeichen. Gekennzeichnet durch die Unicode-Bezeichnung „Pi“ (Punctuation, Initial Quote (Satzzeichen, Anfangsanführungszeichen)). Der Wert ist 22.

LetterNumber 9

Eine Zahl, die nicht durch eine Dezimalzahl, sondern durch einen Buchstaben dargestellt wird, z. B. „V“, das römische Zahlzeichen für Fünf. Der Indikator wird durch die Unicode-Bezeichnung „Nl“ (Number, Letter (Zahl, Buchstabe)) gekennzeichnet. Der Wert ist 9.

LineSeparator 12

Zeichen, das zum Trennen von Textzeilen verwendet wird. Gekennzeichnet durch die Unicode-Bezeichnung „Zl“ (Separator, Line (Trennzeichen, Zeile)). Der Wert ist 12.

LowercaseLetter 1

Kleinbuchstabe. Gekennzeichnet durch die Unicode-Bezeichnung „Ll“ (Letter, Lowercase (Buchstabe, Kleinschreibung)). Der Wert ist "1".

MathSymbol 25

Mathematisches Symbolzeichen, z. B. „+“ oder „=“. Gekennzeichnet durch die Unicode-Bezeichnung „Sm“ (Symbol, Math (Symbol, Mathematik)). Der Wert ist 25.

ModifierLetter 3

Modifiziererbuchstabe, d. h. ein frei stehendes Leerzeichen, das Änderungen an einem vorangehenden Buchstaben angibt. Gekennzeichnet durch die Unicode-Bezeichnung „Lm“ (Letter, Modifier (Buchstabe, Modifizierer)). Der Wert ist "3".

ModifierSymbol 27

Modifizierersymbolzeichen, das Änderungen an umgebenden Zeichen angibt. So gibt z. B. der Bruchstrich an, dass die links stehende Zahl der Zähler und die rechts stehende Zahl der Nenner ist. Der Indikator wird durch die Unicode-Bezeichnung „Sk“ (Symbol, Modifier (Symbol, Modifizierer)) gekennzeichnet. Der Wert ist 27.

NonSpacingMark 5

Ein Zeichen ohne Abstand, das Änderungen eines Basiszeichens angibt. Gekennzeichnet durch die Unicode-Bezeichnung „Mn“ (Mark, Nonspacing (Satzzeichen, ohne horizontalen Vorschub)). Der Wert ist "5".

OpenPunctuation 20

Öffnendes Zeichen eines Satzzeichenpaars wie einfache, eckige oder geschweifte Klammern. Gekennzeichnet durch die Unicode-Bezeichnung „Ps“ (Punctuation, Open (Interpunktion, öffnend)). Der Wert ist 20.

OtherLetter 4

Ein Buchstabe, der kein Großbuchstabe, Kleinbuchstabe, Titelschriftbuchstabe oder Modifiziererbuchstabe ist. Gekennzeichnet durch die Unicode-Bezeichnung „Lo“ (Letter, Other (Buchstabe, anderer)). Der Wert ist "4".

OtherNotAssigned 29

Zeichen, das keiner Unicode-Kategorie zugeordnet ist. Gekennzeichnet durch die Unicode-Bezeichnung „Cn“ (Character, Not Assigned (Zeichen, nicht zugewiesen)). Der Wert ist 29.

OtherNumber 10

Eine Zahl, die weder eine Dezimalzahl noch eine Buchstabenzahl ist, z. B. der Bruch 1/2. Der Indikator wird durch die Unicode-Bezeichnung „No“ (Number, Other (Zahl, andere)) gekennzeichnet. Der Wert ist 10.

OtherPunctuation 24

Satzzeichen, das kein Verbindungszeichen, Gedankenstrich, öffnendes Satzzeichen, schließendes Satzzeichen, öffnendes Anführungszeichen oder schließendes Anführungszeichen ist. Gekennzeichnet durch die Unicode-Bezeichnung „Po“ (Punctuation, Other (Interpunktion, andere)). Der Wert ist 24.

OtherSymbol 28

Symbolzeichen, das kein mathematisches Symbol, Währungssymbol oder Modifizierersymbol ist. Gekennzeichnet durch die Unicode-Bezeichnung „So“ (Symbol, Other (Symbol, andere)). Der Wert ist 28.

ParagraphSeparator 13

Zeichen, das zum Trennen von Absätzen verwendet wird. Gekennzeichnet durch die Unicode-Bezeichnung „Zp“ (Separator, Paragraph (Trennzeichen, Absatz)). Der Wert ist 13.

PrivateUse 17

Zeichen zur privaten Verwendung, dessen Unicode-Wert im Bereich U+E000 bis U+F8FF liegt. Gekennzeichnet durch die Unicode-Bezeichnung „Co“ (Character, Other (Zeichen, anderes)). Der Wert ist 17.

SpaceSeparator 11

Leerzeichen, das keine Glyphe hat, aber weder ein Steuer- noch ein Formatzeichen ist. Gekennzeichnet durch die Unicode-Bezeichnung „Zs“ (Separator, Space (Trennzeichen, Leerzeichen)). Der Wert ist 11.

SpacingCombiningMark 6

Ein Leerzeichen, das Änderungen eines Basiszeichens anzeigt und die Breite der Glyphe für dieses Basiszeichen beeinflusst. Gekennzeichnet durch die Unicode-Bezeichnung „Mc“ (Mark, Spacing Combining (Satzzeichen, Kombinationszeichen mit Vorschub)). Der Wert ist 6.

Surrogate 16

Ein hohes oder niedriges Ersatzzeichen. Die Codewerte für Ersatzzeichen liegen im Bereich U+D800 bis U+DFFF. Gekennzeichnet durch die Unicode-Bezeichnung „Cs“ (Character, Surrogate (Zeichen, Ersatzzeichen)). Der Wert ist 16.

TitlecaseLetter 2

Titelschriftbuchstabe. Gekennzeichnet durch die Unicode-Bezeichnung „Lt“ (Letter, Titlecase (Buchstabe, großer Anfangsbuchstabe)). Der Wert ist "2".

UppercaseLetter 0

Großbuchstabe. Gekennzeichnet durch die Unicode-Bezeichnung „Lu“ (Letter, Uppercase (Buchstabe, Großschreibung)). Der Wert ist "0".

Beispiele

Im folgenden Beispiel werden die Zeichen und die entsprechenden Codepunkte für Zeichen in der Kategorie UppercaseLetter angezeigt. Sie können das Beispiel so ändern, dass die Buchstaben in einer beliebigen anderen Kategorie angezeigt werden, indem Sie UppercaseLetter durch die Kategorie ersetzen, die für Sie bei der Zuweisung zur Variablen von Interesse category ist. Beachten Sie, dass die Ausgabe für einige Kategorien umfangreich sein kann.

using System;
using System.Globalization;

public class Example
{
   public static void Main()
   {
      int ctr = 0;
      UnicodeCategory category = UnicodeCategory.UppercaseLetter;

      for (ushort codePoint = 0; codePoint < ushort.MaxValue; codePoint++) {
         Char ch = (char)codePoint;

         if (CharUnicodeInfo.GetUnicodeCategory(ch) == category) {
            if (ctr % 5 == 0)
               Console.WriteLine();
            Console.Write("{0} (U+{1:X4})     ", ch, codePoint);
            ctr++;
         }
      }
      Console.WriteLine();
      Console.WriteLine("\n{0} characters are in the {1:G} category",
                        ctr, category);
   }
}
Imports System.Globalization

Module Example
   Public Sub Main()
      Dim ctr As Integer = 0
      Dim category As UnicodeCategory = UnicodeCategory.UppercaseLetter
      
      For codePoint As UShort = 0 To UShort.MaxValue - 1
         Dim ch As Char = Convert.ToChar(codePoint)

         If CharUnicodeInfo.GetUnicodeCategory(ch) = category Then
            If ctr Mod 5 = 0 Then Console.WriteLine()
            Console.Write("{0} (U+{1:X4})     ", ch, codePoint)
            ctr += 1
         End If 
      Next
      Console.WriteLine()
      Console.WriteLine()
      Console.WriteLine("{0} characters are in the {1:G} category", 
                        ctr, category)   
   End Sub
End Module

Hinweise

Ein Member der UnicodeCategory -Enumeration wird von der -Methode und der Char.GetUnicodeCategory -Methode CharUnicodeInfo.GetUnicodeCategory zurückgegeben. Die UnicodeCategory -Enumeration wird auch verwendet, um Methoden Char wie zu IsUpper(Char) unterstützen. Solche Methoden bestimmen, ob ein angegebenes Zeichen ein Mitglied einer bestimmten allgemeinen Unicode-Kategorie ist. Eine allgemeine Unicode-Kategorie definiert die allgemeine Klassifizierung eines Zeichens, d.&160;B. die Bezeichnung als Typ von Buchstabe, Dezimalzahl, Trennzeichen, mathematisches Symbol, Interpunktion und so weiter.

Diese Enumeration basiert auf The Unicode Standard, Version 5.0. Weitere Informationen finden Sie in den Unterthemen „UCD File Format“ (UCD-Dateiformat) und „General Category Values“ (Allgemeine Kategorienwerte) der Unicode Character Database.

Der Unicode-Standard definiert Folgendes:

Ein Ersatzzeichenpaar ist eine codierte Zeichendarstellung für ein einzelnes abstraktes Zeichen, das aus einer Sequenz von zwei Codeeinheiten besteht, wobei die erste Einheit des Paars ein hohes Ersatzzeichen und das zweite ein niedriges Ersatzzeichen ist. Ein hohes Ersatzzeichen ist ein Unicode-Codepunkt im Bereich U+D800 bis U+DBFF, und ein niedriges Ersatzzeichen ist ein Unicode-Codepunkt im Bereich U+DC00 bis U+DFFF.

Eine kombinierende Zeichenfolge ist eine Kombination aus einem Basiszeichen und mindestens einem kombinierenden Zeichen. Ein Ersatzzeichenpaar stellt ein Basiszeichen oder ein kombinierende Zeichen dar. Ein kombinierende Zeichen ist entweder ein Abstand oder ein Nicht-Paczeichen. Ein Abstands-Kombinationszeichen nimmt beim Rendern allein eine Abstandsposition ein, während es bei einem kombinationsfreien Zeichen nicht zu einer Anderen passt. Diakritische Zeichen sind ein Beispiel für kombinationsfreie Zeichen.

Ein Modifiziererbuchstaben ist ein freistehendes Abstandszeichen, das wie ein kombinierende Zeichen auf Änderungen eines vorangehenden Buchstabens hinweist.

Eine umschließende Markierung ist ein kombinationsfreies Zeichen, das alle vorherigen Zeichen bis einschließlich eines Basiszeichens umschließt.

Ein Formatzeichen ist ein Zeichen, das normalerweise nicht gerendert wird, sich aber auf das Layout des Texts oder den Betrieb von Textprozessen auswirken kann.

Der Unicode-Standard definiert mehrere Variationen einiger Interpunktionsmarkierungen. Ein Bindestrich kann beispielsweise einer von mehreren Codewerten sein, die einen Bindestrich darstellen, z. B. U+002D (Bindestrich-Minus) oder U+00AD (weicher Bindestrich) oder U+2010 (Bindestrich) oder U+2011 (kein Bindestrich). Dasselbe gilt für Bindestriche, Leerzeichen und Anführungszeichen.

Der Unicode-Standard weist auch Darstellungen von Dezimalziffern Codes zu, die für ein bestimmtes Skript oder eine bestimmte Sprache spezifisch sind, z. B. U+0030 (Ziffer 0) und U+0660 (arabisch-indische Ziffer 0).

Gilt für

Siehe auch