UnicodeCategory Enumeration

Definition

Definiert die Unicode-Kategorie eines Zeichens.Defines the Unicode category of a character.

public enum class UnicodeCategory
[System.Runtime.InteropServices.ComVisible(true)]
[System.Serializable]
public enum UnicodeCategory
type UnicodeCategory = 
Public Enum UnicodeCategory
Vererbung
UnicodeCategory
Attribute

Felder

ClosePunctuation 21

Das schließende Zeichen eines Satzzeichenpaars, z. B. von einfachen, eckigen oder geschweiften Klammern.Closing character of one of the paired punctuation marks, such as parentheses, square brackets, and braces. Dargestellt wird es durch die Unicode-Bezeichnung "Pe" (Punctuation, Close, d. h. Interpunktion, schließen).Signified by the Unicode designation "Pe" (punctuation, close). Der Wert ist 21.The value is 21.

ConnectorPunctuation 18

Das Verbindungssatzzeichen, das zwei Zeichen verbindet.Connector punctuation character that connects two characters. Dargestellt wird es durch die Unicode-Bezeichnung "Pc" (Punctuation, Connector, d. h. Interpunktion, Verbindung).Signified by the Unicode designation "Pc" (punctuation, connector). Der Wert ist 18.The value is 18.

Control 14

Ein Steuerungscodezeichen, dessen Unicode-Wert U+007F ist oder im Bereich zwischen U+0000 und U+001F oder zwischen U+0080 und U+009F liegt.Control code character, with a Unicode value of U+007F or in the range U+0000 through U+001F or U+0080 through U+009F. Dargestellt wird es durch die Unicode-Bezeichnung "Cc" (Other, Control, d. h. Andere, Steuerzeichen).Signified by the Unicode designation "Cc" (other, control). Der Wert ist 14.The value is 14.

CurrencySymbol 26

Ein Währungssymbolzeichen.Currency symbol character. Dargestellt wird es durch die Unicode-Bezeichnung "Sc" (Symbol, Currency, d. h. Symbol, Währung).Signified by the Unicode designation "Sc" (symbol, currency). Der Wert ist 26.The value is 26.

DashPunctuation 19

Das Gedankenstrich- oder Bindestrichzeichen.Dash or hyphen character. Dargestellt wird es durch die Unicode-Bezeichnung "Pd" (Punctuation, Dash, d. h. Interpunktion, Bindestrich).Signified by the Unicode designation "Pd" (punctuation, dash). Der Wert ist 19.The value is 19.

DecimalDigitNumber 8

Ein Dezimalzifferzeichen, also ein Zeichen im Bereich von 0 bis 9.Decimal digit character, that is, a character in the range 0 through 9. Wird durch die Unicode-Bezeichnung "Nd" (Nummer, Dezimalziffer) dargestellt.Signified by the Unicode designation "Nd" (number, decimal digit). Der Wert ist 8.The value is 8.

EnclosingMark 7

Ein einschließendes Zeichen. Dies ist ein Kombinationszeichen ohne Zwischenraum, das alle vorhergehenden Zeichen bis einschließlich eines Basiszeichens umgibt.Enclosing mark character, which is a nonspacing combining character that surrounds all previous characters up to and including a base character. Dargestellt wird es durch die Unicode-Bezeichnung "Me" (Mark, Enclosing, d. h. Satzzeichen, einschließend).Signified by the Unicode designation "Me" (mark, enclosing). Der Wert ist 7.The value is 7.

FinalQuotePunctuation 23

Das schließende Anführungszeichen oder Schlussanführungszeichen.Closing or final quotation mark character. Dargestellt wird es durch die Unicode-Bezeichnung "Pf" (Punctuation, Final Quote, d. h. Interpunktion, schließendes Anführungszeichen).Signified by the Unicode designation "Pf" (punctuation, final quote). Der Wert ist 23.The value is 23.

Format 15

Ein Formatzeichen, das sich auf das Textlayout oder die Textverarbeitungsvorgänge auswirkt, normalerweise jedoch nicht gerendert wird.Format character that affects the layout of text or the operation of text processes, but is not normally rendered. Dargestellt wird es durch die Unicode-Bezeichnung "Cf" (Other, Format, d. h. Andere, Format).Signified by the Unicode designation "Cf" (other, format). Der Wert ist 15.The value is 15.

InitialQuotePunctuation 22

Das öffnende Anführungszeichen oder Anfangsanführungszeichen.Opening or initial quotation mark character. Dargestellt wird es durch die Unicode-Bezeichnung "Pi" (Punctuation, Initial Quote, d. h. Interpunktion, öffnendes Anführungszeichen).Signified by the Unicode designation "Pi" (punctuation, initial quote). Der Wert ist 22.The value is 22.

LetterNumber 9

Eine Zahl, die anstelle einer Dezimalzahl durch einen Buchstaben dargestellt wird, z. B. "V", die römische Ziffer Fünf.Number represented by a letter, instead of a decimal digit, for example, the Roman numeral for five, which is "V". Dargestellt wird es durch die Unicode-Bezeichnung "Nl" (number, letter, d. h. Zahl, Buchstabe).The indicator is signified by the Unicode designation "Nl" (number, letter). Der Wert ist 9.The value is 9.

LineSeparator 12

Ein zum Trennen von Textzeilen verwendetes Zeichen.Character that is used to separate lines of text. Dargestellt wird es durch die Unicode-Bezeichnung "Zl" (Separator, Line, d. h. Trennzeichen, Zeile).Signified by the Unicode designation "Zl" (separator, line). Der Wert ist 12.The value is 12.

LowercaseLetter 1

Ein Kleinbuchstabe.Lowercase letter. Dargestellt wird es durch die Unicode-Bezeichnung "Ll" (Letter, Lowercase, d. h. Buchstabe, Kleinschreibung).Signified by the Unicode designation "Ll" (letter, lowercase). Der Wert ist 1.The value is 1.

MathSymbol 25

Ein mathematisches Symbolzeichen, z. B. "+" oder "=".Mathematical symbol character, such as "+" or "= ". Dargestellt wird es durch die Unicode-Bezeichnung "Sm" (Symbol, Math, d. h. Symbol, Mathematik).Signified by the Unicode designation "Sm" (symbol, math). Der Wert ist 25.The value is 25.

ModifierLetter 3

Ein Modifikationszeichen, d. h. ein allein stehendes Zeichen mit Leerzeichen, das Änderungen an einem vorangehenden Buchstaben angibt.Modifier letter character, which is free-standing spacing character that indicates modifications of a preceding letter. Dargestellt wird es durch die Unicode-Bezeichnung "Lm" (Letter, Modifier, d. h. Buchstabe, Modifizierer).Signified by the Unicode designation "Lm" (letter, modifier). Der Wert ist 3.The value is 3.

ModifierSymbol 27

Ein Modifikationssymbolzeichen, das Änderungen an umgebenden Zeichen angibt.Modifier symbol character, which indicates modifications of surrounding characters. So gibt z. B. der Bruchstrich an, dass die links stehende Zahl der Zähler und die rechts stehende Zahl der Nenner ist.For example, the fraction slash indicates that the number to the left is the numerator and the number to the right is the denominator. Dargestellt wird es durch die Unicode-Bezeichnung "Sk" (Symbol, Modifier, d. h. Symbol, Modifizierer).The indicator is signified by the Unicode designation "Sk" (symbol, modifier). Der Wert ist 27.The value is 27.

NonSpacingMark 5

Ein Zeichen ohne Zwischenraum, das Änderungen eines Basiszeichens angibt.Nonspacing character that indicates modifications of a base character. Dargestellt wird es durch die Unicode-Bezeichnung "Mn" (Mark, Nonspacing, d. h. Satzzeichen, ohne horizontalen Vorschub).Signified by the Unicode designation "Mn" (mark, nonspacing). Der Wert ist 5.The value is 5.

OpenPunctuation 20

Das öffnende Zeichen eines Satzzeichenpaars, z. B. von einfachen, eckigen oder geschweiften Klammern.Opening character of one of the paired punctuation marks, such as parentheses, square brackets, and braces. Dargestellt wird es durch die Unicode-Bezeichnung "Ps" (Punctuation, Open, d. h. Interpunktion, öffnend).Signified by the Unicode designation "Ps" (punctuation, open). Der Wert ist 20.The value is 20.

OtherLetter 4

Ein Buchstabe, der kein Großbuchstabe, Kleinbuchstabe, Titelschriftbuchstabe oder Modifikationszeichen ist.Letter that is not an uppercase letter, a lowercase letter, a titlecase letter, or a modifier letter. Dargestellt wird es durch die Unicode-Bezeichnung "Lo" (Letter, Other, d. h. Buchstabe, andere).Signified by the Unicode designation "Lo" (letter, other). Der Wert ist 4.The value is 4.

OtherNotAssigned 29

Ein Zeichen, das keiner Unicode-Kategorie zugeordnet ist.Character that is not assigned to any Unicode category. Dargestellt wird dies durch die Unicode-Bezeichnung "Cn" (Other, Not Assigned, d. h. Andere, nicht zugeordnet).Signified by the Unicode designation "Cn" (other, not assigned). Der Wert ist 29.The value is 29.

OtherNumber 10

Eine Zahl, die weder eine Dezimalzahl noch eine Buchstabenzahl ist, z. B. der Bruch 1/2.Number that is neither a decimal digit nor a letter number, for example, the fraction 1/2. Dieses Zeichen wird durch die Unicode-Bezeichnung "No" (Number, Other = Zahl, Sonstiges) dargestellt.The indicator is signified by the Unicode designation "No" (number, other). Der Wert ist 10.The value is 10.

OtherPunctuation 24

Ein Satzzeichen, das kein Verbindungszeichen, Gedankenstrich, öffnendes Satzzeichen, schließendes Satzzeichen, öffnendes Anführungszeichen oder schließendes Anführungszeichen ist.Punctuation character that is not a connector, a dash, open punctuation, close punctuation, an initial quote, or a final quote. Dargestellt wird es durch die Unicode-Bezeichnung "Po" (Punctuation, Other, d. h. Interpunktion, Andere).Signified by the Unicode designation "Po" (punctuation, other). Der Wert ist 24.The value is 24.

OtherSymbol 28

Ein Symbolzeichen, das kein mathematisches Symbol, Währungssymbol oder Modifikationssymbol ist.Symbol character that is not a mathematical symbol, a currency symbol or a modifier symbol. Dargestellt wird es durch die Unicode-Bezeichnung "So" (Symbol, Other, d. h. Symbol, Andere).Signified by the Unicode designation "So" (symbol, other). Der Wert ist 28.The value is 28.

ParagraphSeparator 13

Ein zum Trennen von Absätzen verwendetes Zeichen.Character used to separate paragraphs. Dargestellt wird es durch die Unicode-Bezeichnung "Zp" (Separator, Paragraph, d. h. Trennzeichen, Absatz).Signified by the Unicode designation "Zp" (separator, paragraph). Der Wert ist 13.The value is 13.

PrivateUse 17

Ein Zeichen zur privaten Verwendung, dessen Unicode-Wert im Bereich zwischen U+E000 und U+F8FF liegt.Private-use character, with a Unicode value in the range U+E000 through U+F8FF. Dargestellt wird es durch die Unicode-Bezeichnung "Co" (Other, Private Use, d. h. Andere, persönliche Verwendung).Signified by the Unicode designation "Co" (other, private use). Der Wert ist 17.The value is 17.

SpaceSeparator 11

Ein Leerzeichen, das nicht über eine Glyphe verfügt, jedoch kein Steuerungs- oder Formatzeichen ist.Space character, which has no glyph but is not a control or format character. Dargestellt wird es durch die Unicode-Bezeichnung "Zs" (Separator, Space, d. h. Trennzeichen, Leerzeichen).Signified by the Unicode designation "Zs" (separator, space). Der Wert ist 11.The value is 11.

SpacingCombiningMark 6

Ein Leerzeichen, das Änderungen eines Basiszeichens anzeigt und die Breite der Glyphe für dieses Basiszeichen beeinflusst.Spacing character that indicates modifications of a base character and affects the width of the glyph for that base character. Dargestellt wird es durch die Unicode-Bezeichnung "Mc" (Mark, Spacing Combining, d. h. Satzzeichen, Kombinationszeichen mit Vorschub).Signified by the Unicode designation "Mc" (mark, spacing combining). Der Wert ist 6.The value is 6.

Surrogate 16

Ein hohes oder niedriges Ersatzzeichen.High surrogate or a low surrogate character. Die Codewerte für Ersatzzeichen liegen im Bereich von U+D800 bis U+DFFF.Surrogate code values are in the range U+D800 through U+DFFF. Dargestellt werden solche Zeichen durch die Unicode-Bezeichnung "Cs" (Other, Surrogate, d. h. Andere, Ersatzzeichen).Signified by the Unicode designation "Cs" (other, surrogate). Der Wert ist 16.The value is 16.

TitlecaseLetter 2

Ein Titelschriftbuchstabe.Titlecase letter. Dargestellt wird es durch die Unicode-Bezeichnung "Lt" (Letter, Titlecase, d. h. Buchstabe, großer Anfangsbuchstabe).Signified by the Unicode designation "Lt" (letter, titlecase). Der Wert ist 2.The value is 2.

UppercaseLetter 0

Ein Großbuchstabe.Uppercase letter. Dargestellt wird es durch die Unicode-Bezeichnung "Lu" (Letter, Uppercase, d. h. Buchstabe, Großbuchstabe).Signified by the Unicode designation "Lu" (letter, uppercase). Der Wert ist 0 (null).The value is 0.

Beispiele

Im folgenden Beispiel werden die Zeichen und ihre entsprechenden Code Punkte für Zeichen in der Kategorie UppercaseLetter angezeigt.The following example displays the characters and their corresponding code points for characters in the UppercaseLetter category. Sie können das Beispiel so ändern, dass die Buchstaben in einer anderen Kategorie angezeigt werden, indem Sie UppercaseLetter durch die relevante Kategorie in der Zuweisung category zur Variablen ersetzen.You can modify the example to display the letters in any other category by replacing UppercaseLetter with the category of interest to you in the assignment to the category variable. Beachten Sie, dass die Ausgabe für einige Kategorien sehr umfangreich sein kann.Note that the output for some categories can be extensive.

using System;
using System.Globalization;

public class Example
{
   public static void Main()
   {
      int ctr = 0;
      UnicodeCategory category = UnicodeCategory.UppercaseLetter;
      
      for (ushort codePoint = 0; codePoint < ushort.MaxValue; codePoint++) {
         Char ch = Convert.ToChar(codePoint);

         if (CharUnicodeInfo.GetUnicodeCategory(ch) == category) {
            if (ctr % 5 == 0)
               Console.WriteLine();
            Console.Write("{0} (U+{1:X4})     ", ch, codePoint);
            ctr++;
         } 
      }
      Console.WriteLine();
      Console.WriteLine("\n{0} characters are in the {1:G} category", 
                        ctr, category);   
   }
}
Imports System.Globalization

Module Example
   Public Sub Main()
      Dim ctr As Integer = 0
      Dim category As UnicodeCategory = UnicodeCategory.UppercaseLetter
      
      For codePoint As UShort = 0 To UShort.MaxValue - 1
         Dim ch As Char = Convert.ToChar(codePoint)

         If CharUnicodeInfo.GetUnicodeCategory(ch) = category Then
            If ctr Mod 5 = 0 Then Console.WriteLine()
            Console.Write("{0} (U+{1:X4})     ", ch, codePoint)
            ctr += 1
         End If 
      Next
      Console.WriteLine()
      Console.WriteLine()
      Console.WriteLine("{0} characters are in the {1:G} category", 
                        ctr, category)   
   End Sub
End Module

Hinweise

Ein Member der UnicodeCategory -Enumeration wird von der-Methode CharUnicodeInfo.GetUnicodeCategory und der Char.GetUnicodeCategory -Methode zurückgegeben.A member of the UnicodeCategory enumeration is returned by the Char.GetUnicodeCategory and CharUnicodeInfo.GetUnicodeCategory methods. Die UnicodeCategory -Enumeration wird auch verwendet, Char um Methoden zu unter IsUpper(Char)stützen, z. b.The UnicodeCategory enumeration is also used to support Char methods, such as IsUpper(Char). Solche Methoden bestimmen, ob ein bestimmtes Zeichen ein Member einer bestimmten allgemeinen Unicode-Kategorie ist.Such methods determine whether a specified character is a member of a particular Unicode general category. Eine allgemeine Unicode-Kategorie definiert die Breite Klassifizierung eines Zeichens, d. h. die Bezeichnung als Typ von Buchstaben, Dezimalziffern, Trennzeichen, mathematischem Symbol, Interpunktions Zeichen usw.A Unicode general category defines the broad classification of a character, that is, designation as a type of letter, decimal digit, separator, mathematical symbol, punctuation, and so on.

Diese Enumeration basiert auf dem Unicode-Standard, Version 5,0.This enumeration is based on The Unicode Standard, version 5.0. Weitere Informationen finden Sie in den Unterthemen „UCD File Format“ (UCD-Dateiformat) und „General Category Values“ (Allgemeine Kategorienwerte) der Unicode Character Database.For more information, see the "UCD File Format" and "General Category Values" subtopics at the Unicode Character Database.

Der Unicode-Standard definiert Folgendes:The Unicode Standard defines the following:

Ein Ersatz Zeichenpaar ist eine codierte Zeichen Darstellung für ein einzelnes abstraktes Zeichen, das aus einer Sequenz von zwei Code Einheiten besteht, wobei die erste Einheit des Paars ein hohes Ersatz Zeichen und das zweite ein niedriges Ersatz Zeichen ist.A surrogate pair is a coded character representation for a single abstract character that consists of a sequence of two code units, where the first unit of the pair is a high surrogate and the second is a low surrogate. Ein hohes Ersatz Zeichen ist ein Unicode-Codepunkt im Bereich u + D800 und bis u + DBFF, und ein niedriges Ersatz Zeichen ist ein Unicode-Codepunkt im Bereich u + DC00 und bis u + DFFF.A high surrogate is a Unicode code point in the range U+D800 through U+DBFF and a low surrogate is a Unicode code point in the range U+DC00 through U+DFFF.

Eine kombinierte Zeichen Sequenz ist eine Kombination aus einem Basiszeichen und einem oder mehreren kombinierten Zeichen.A combining character sequence is a combination of a base character and one or more combining characters. Ein Ersatz Zeichenpaar stellt ein Basiszeichen oder ein kombinierungseleichen dar.A surrogate pair represents a base character or a combining character. Ein Kombinations Zeichen ist entweder Abstand oder kein Abstand.A combining character is either spacing or nonspacing. Ein Abstand-Kombinations Zeichen nimmt beim Rendern eine Leerraum Position selbst an, während es bei einem nicht Abstands Kombinations Zeichen nicht der Fall ist.A spacing combining character takes up a spacing position by itself when rendered, while a nonspacing combining character does not. Diakritik ist ein Beispiel für Kombinations Zeichen ohne Abstände.Diacritics are an example of nonspacing combining characters.

Ein Modifiziererbuchstabe ist ein freistehendes Leerzeichen, das, wie z. b. ein Kombinations Zeichen, Änderungen eines vorangehenden Buchstabens angibt.A modifier letter is a free-standing spacing character that, like a combining character, indicates modifications of a preceding letter.

Eine einschließende Markierung ist ein Kombinations Zeichen ohne zwischen Raum, das alle vorhergehenden Zeichen bis einschließlich eines Basis Zeichens umgibt.An enclosing mark is a nonspacing combining character that surrounds all previous characters up to and including a base character.

Ein Formatzeichen ist ein Zeichen, das normalerweise nicht gerendert wird, aber sich auf das Layout von Text oder den Vorgang von Text Prozessen auswirkt.A format character is a character that is not normally rendered but that affects the layout of text or the operation of text processes.

Der Unicode-Standard definiert mehrere Variationen für einige Interpunktions Zeichen.The Unicode Standard defines several variations to some punctuation marks. Ein Bindestrich kann z. b. einer von mehreren Codewerten sein, die einen Bindestrich darstellen, z. b. u + 002D (Bindestrich-minus) oder u + 00ad (Soft-Bindestrich) oder u + 2010 (Bindestrich) oder u + 2011 (nicht unterbrechende Bindestrich).For example, a hyphen can be one of several code values that represent a hyphen, such as U+002D (hyphen-minus) or U+00AD (soft hyphen) or U+2010 (hyphen) or U+2011 (nonbreaking hyphen). Das gleiche gilt für Bindestriche, Leerzeichen und Anführungszeichen.The same is true for dashes, space characters, and quotation marks.

Der Unicode-Standard weist auch Codes zu Darstellungen von Dezimalziffern zu, die für ein bestimmtes Skript oder eine bestimmte Sprache spezifisch sind, z. b. u + 0030 (Ziffer 0) und U + 0660 (arabische-indic-Ziffer Null).The Unicode Standard also assigns codes to representations of decimal digits that are specific to a given script or language, for example, U+0030 (digit zero) and U+0660 (Arabic-Indic digit zero).

Gilt für:

Siehe auch