UnicodeCategory Enumeration

Definition

Definiert die Unicode-Kategorie eines Zeichens.Defines the Unicode category of a character.

public enum class UnicodeCategory
public enum UnicodeCategory
[System.Serializable]
public enum UnicodeCategory
[System.Runtime.InteropServices.ComVisible(true)]
[System.Serializable]
public enum UnicodeCategory
type UnicodeCategory = 
Public Enum UnicodeCategory
Vererbung
UnicodeCategory
Attribute

Felder

ClosePunctuation 21

Schließendes Zeichen eines Satzzeichenpaars wie einfache, eckige oder geschweifte Klammern.Closing character of one of the paired punctuation marks, such as parentheses, square brackets, and braces. Gekennzeichnet durch die Unicode-Bezeichnung „Pe“ (Punctuation, Close (Interpunktion, schließend)).Signified by the Unicode designation "Pe" (punctuation, close). Der Wert ist 21.The value is 21.

ConnectorPunctuation 18

Verbindungssatzzeichen, das zwei Zeichen verbindet.Connector punctuation character that connects two characters. Gekennzeichnet durch die Unicode-Bezeichnung „Pc“ (Punctuation, Connector (Interpunktion, Verbindung)).Signified by the Unicode designation "Pc" (punctuation, connector). Der Wert ist 18.The value is 18.

Control 14

Steuerungscodezeichen, dessen Unicode-Wert gleich U+007F ist oder im Bereich U+0000 bis U+001F oder U+0080 bis U+009F liegt.Control code character, with a Unicode value of U+007F or in the range U+0000 through U+001F or U+0080 through U+009F. Gekennzeichnet durch die Unicode-Bezeichnung „Cc“ (Character, Control (Zeichen, Steuerung)).Signified by the Unicode designation "Cc" (other, control). Der Wert ist 14.The value is 14.

CurrencySymbol 26

Währungssymbolzeichen.Currency symbol character. Gekennzeichnet durch die Unicode-Bezeichnung „Sc“ (Symbol, Currency (Symbol, Währung)).Signified by the Unicode designation "Sc" (symbol, currency). Der Wert ist 26.The value is 26.

DashPunctuation 19

Gedankenstrich- oder Bindestrichzeichen.Dash or hyphen character. Gekennzeichnet durch die Unicode-Bezeichnung „Pd“ (Punctuation, Dash (Interpunktion, Bindestrich)).Signified by the Unicode designation "Pd" (punctuation, dash). Der Wert ist 19.The value is 19.

DecimalDigitNumber 8

Dezimalzifferzeichen, also ein Zeichen im Bereich von 0 bis 9.Decimal digit character, that is, a character in the range 0 through 9. Gekennzeichnet durch die Unicode-Bezeichnung „Nd“ (Number, Decimal Digit (Zahl, Dezimalzahl)).Signified by the Unicode designation "Nd" (number, decimal digit). Der Wert ist gleich „8“.The value is 8.

EnclosingMark 7

Einschließendes Zeichen. Dies ist ein Kombinationszeichen ohne Zwischenraum, das alle vorhergehenden Zeichen bis einschließlich eines Basiszeichens umgibt.Enclosing mark character, which is a nonspacing combining character that surrounds all previous characters up to and including a base character. Gekennzeichnet durch die Unicode-Bezeichnung „Me“ (Mark, Enclosing (Satzzeichen, einschließend)).Signified by the Unicode designation "Me" (mark, enclosing). Der Wert ist 7.The value is 7.

FinalQuotePunctuation 23

Schließendes Anführungszeichen oder Schlussanführungszeichen.Closing or final quotation mark character. Gekennzeichnet durch die Unicode-Bezeichnung „Pf“ (Punctuation, Fnitial Quote (Satzzeichen, Schlussanführungszeichen)).Signified by the Unicode designation "Pf" (punctuation, final quote). Der Wert ist 23.The value is 23.

Format 15

Formatzeichen, das sich auf das Textlayout oder die Textverarbeitungsvorgänge auswirkt, normalerweise aber nicht gerendert wird.Format character that affects the layout of text or the operation of text processes, but is not normally rendered. Gekennzeichnet durch die Unicode-Bezeichnung „Cf“ (Character, Format (Zeichen, Format)).Signified by the Unicode designation "Cf" (other, format). Der Wert ist 15.The value is 15.

InitialQuotePunctuation 22

Öffnendes Anführungszeichen oder Anfangsanführungszeichen.Opening or initial quotation mark character. Gekennzeichnet durch die Unicode-Bezeichnung „Pi“ (Punctuation, Initial Quote (Satzzeichen, Anfangsanführungszeichen)).Signified by the Unicode designation "Pi" (punctuation, initial quote). Der Wert ist 22.The value is 22.

LetterNumber 9

Eine Zahl, die nicht durch eine Dezimalzahl, sondern durch einen Buchstaben dargestellt wird, z. B. „V“, das römische Zahlzeichen für Fünf.Number represented by a letter, instead of a decimal digit, for example, the Roman numeral for five, which is "V". Der Indikator wird durch die Unicode-Bezeichnung „Nl“ (Number, Letter (Zahl, Buchstabe)) gekennzeichnet.The indicator is signified by the Unicode designation "Nl" (number, letter). Der Wert ist 9.The value is 9.

LineSeparator 12

Zeichen, das zum Trennen von Textzeilen verwendet wird.Character that is used to separate lines of text. Gekennzeichnet durch die Unicode-Bezeichnung „Zl“ (Separator, Line (Trennzeichen, Zeile)).Signified by the Unicode designation "Zl" (separator, line). Der Wert ist 12.The value is 12.

LowercaseLetter 1

Kleinbuchstabe.Lowercase letter. Gekennzeichnet durch die Unicode-Bezeichnung „Ll“ (Letter, Lowercase (Buchstabe, Kleinschreibung)).Signified by the Unicode designation "Ll" (letter, lowercase). Der Wert ist "1".The value is 1.

MathSymbol 25

Mathematisches Symbolzeichen, z. B. „+“ oder „=“.Mathematical symbol character, such as "+" or "= ". Gekennzeichnet durch die Unicode-Bezeichnung „Sm“ (Symbol, Math (Symbol, Mathematik)).Signified by the Unicode designation "Sm" (symbol, math). Der Wert ist 25.The value is 25.

ModifierLetter 3

Modifiziererbuchstabe, d. h. ein frei stehendes Leerzeichen, das Änderungen an einem vorangehenden Buchstaben angibt.Modifier letter character, which is free-standing spacing character that indicates modifications of a preceding letter. Gekennzeichnet durch die Unicode-Bezeichnung „Lm“ (Letter, Modifier (Buchstabe, Modifizierer)).Signified by the Unicode designation "Lm" (letter, modifier). Der Wert ist "3".The value is 3.

ModifierSymbol 27

Modifizierersymbolzeichen, das Änderungen an umgebenden Zeichen angibt.Modifier symbol character, which indicates modifications of surrounding characters. So gibt z. B. der Bruchstrich an, dass die links stehende Zahl der Zähler und die rechts stehende Zahl der Nenner ist.For example, the fraction slash indicates that the number to the left is the numerator and the number to the right is the denominator. Der Indikator wird durch die Unicode-Bezeichnung „Sk“ (Symbol, Modifier (Symbol, Modifizierer)) gekennzeichnet.The indicator is signified by the Unicode designation "Sk" (symbol, modifier). Der Wert ist 27.The value is 27.

NonSpacingMark 5

Ein Zeichen ohne Abstand, das Änderungen eines Basiszeichens angibt.Nonspacing character that indicates modifications of a base character. Gekennzeichnet durch die Unicode-Bezeichnung „Mn“ (Mark, Nonspacing (Satzzeichen, ohne horizontalen Vorschub)).Signified by the Unicode designation "Mn" (mark, nonspacing). Der Wert ist "5".The value is 5.

OpenPunctuation 20

Öffnendes Zeichen eines Satzzeichenpaars wie einfache, eckige oder geschweifte Klammern.Opening character of one of the paired punctuation marks, such as parentheses, square brackets, and braces. Gekennzeichnet durch die Unicode-Bezeichnung „Ps“ (Punctuation, Open (Interpunktion, öffnend)).Signified by the Unicode designation "Ps" (punctuation, open). Der Wert ist 20.The value is 20.

OtherLetter 4

Ein Buchstabe, der kein Großbuchstabe, Kleinbuchstabe, Titelschriftbuchstabe oder Modifiziererbuchstabe ist.Letter that is not an uppercase letter, a lowercase letter, a titlecase letter, or a modifier letter. Gekennzeichnet durch die Unicode-Bezeichnung „Lo“ (Letter, Other (Buchstabe, anderer)).Signified by the Unicode designation "Lo" (letter, other). Der Wert ist "4".The value is 4.

OtherNotAssigned 29

Zeichen, das keiner Unicode-Kategorie zugeordnet ist.Character that is not assigned to any Unicode category. Gekennzeichnet durch die Unicode-Bezeichnung „Cn“ (Character, Not Assigned (Zeichen, nicht zugewiesen)).Signified by the Unicode designation "Cn" (other, not assigned). Der Wert ist 29.The value is 29.

OtherNumber 10

Eine Zahl, die weder eine Dezimalzahl noch eine Buchstabenzahl ist, z. B. der Bruch 1/2.Number that is neither a decimal digit nor a letter number, for example, the fraction 1/2. Der Indikator wird durch die Unicode-Bezeichnung „No“ (Number, Other (Zahl, andere)) gekennzeichnet.The indicator is signified by the Unicode designation "No" (number, other). Der Wert ist 10.The value is 10.

OtherPunctuation 24

Satzzeichen, das kein Verbindungszeichen, Gedankenstrich, öffnendes Satzzeichen, schließendes Satzzeichen, öffnendes Anführungszeichen oder schließendes Anführungszeichen ist.Punctuation character that is not a connector, a dash, open punctuation, close punctuation, an initial quote, or a final quote. Gekennzeichnet durch die Unicode-Bezeichnung „Po“ (Punctuation, Other (Interpunktion, andere)).Signified by the Unicode designation "Po" (punctuation, other). Der Wert ist 24.The value is 24.

OtherSymbol 28

Symbolzeichen, das kein mathematisches Symbol, Währungssymbol oder Modifizierersymbol ist.Symbol character that is not a mathematical symbol, a currency symbol or a modifier symbol. Gekennzeichnet durch die Unicode-Bezeichnung „So“ (Symbol, Other (Symbol, andere)).Signified by the Unicode designation "So" (symbol, other). Der Wert ist 28.The value is 28.

ParagraphSeparator 13

Zeichen, das zum Trennen von Absätzen verwendet wird.Character used to separate paragraphs. Gekennzeichnet durch die Unicode-Bezeichnung „Zp“ (Separator, Paragraph (Trennzeichen, Absatz)).Signified by the Unicode designation "Zp" (separator, paragraph). Der Wert ist 13.The value is 13.

PrivateUse 17

Zeichen zur privaten Verwendung, dessen Unicode-Wert im Bereich U+E000 bis U+F8FF liegt.Private-use character, with a Unicode value in the range U+E000 through U+F8FF. Gekennzeichnet durch die Unicode-Bezeichnung „Co“ (Character, Other (Zeichen, anderes)).Signified by the Unicode designation "Co" (other, private use). Der Wert ist 17.The value is 17.

SpaceSeparator 11

Leerzeichen, das keine Glyphe hat, aber weder ein Steuer- noch ein Formatzeichen ist.Space character, which has no glyph but is not a control or format character. Gekennzeichnet durch die Unicode-Bezeichnung „Zs“ (Separator, Space (Trennzeichen, Leerzeichen)).Signified by the Unicode designation "Zs" (separator, space). Der Wert ist 11.The value is 11.

SpacingCombiningMark 6

Ein Leerzeichen, das Änderungen eines Basiszeichens anzeigt und die Breite der Glyphe für dieses Basiszeichen beeinflusst.Spacing character that indicates modifications of a base character and affects the width of the glyph for that base character. Gekennzeichnet durch die Unicode-Bezeichnung „Mc“ (Mark, Spacing Combining (Satzzeichen, Kombinationszeichen mit Vorschub)).Signified by the Unicode designation "Mc" (mark, spacing combining). Der Wert ist 6.The value is 6.

Surrogate 16

Ein hohes oder niedriges Ersatzzeichen.High surrogate or a low surrogate character. Die Codewerte für Ersatzzeichen liegen im Bereich U+D800 bis U+DFFF.Surrogate code values are in the range U+D800 through U+DFFF. Gekennzeichnet durch die Unicode-Bezeichnung „Cs“ (Character, Surrogate (Zeichen, Ersatzzeichen)).Signified by the Unicode designation "Cs" (other, surrogate). Der Wert ist 16.The value is 16.

TitlecaseLetter 2

Titelschriftbuchstabe.Titlecase letter. Gekennzeichnet durch die Unicode-Bezeichnung „Lt“ (Letter, Titlecase (Buchstabe, großer Anfangsbuchstabe)).Signified by the Unicode designation "Lt" (letter, titlecase). Der Wert ist "2".The value is 2.

UppercaseLetter 0

Großbuchstabe.Uppercase letter. Gekennzeichnet durch die Unicode-Bezeichnung „Lu“ (Letter, Uppercase (Buchstabe, Großschreibung)).Signified by the Unicode designation "Lu" (letter, uppercase). Der Wert ist "0".The value is 0.

Beispiele

Im folgenden Beispiel werden die Zeichen und ihre entsprechenden Code Punkte für Zeichen in der Kategorie UppercaseLetter angezeigt.The following example displays the characters and their corresponding code points for characters in the UppercaseLetter category. Sie können das Beispiel so ändern, dass die Buchstaben in einer beliebigen anderen Kategorie angezeigt werden, indem Sie UppercaseLetter durch die relevante Kategorie in der Zuweisung zur category Variablen ersetzen.You can modify the example to display the letters in any other category by replacing UppercaseLetter with the category of interest to you in the assignment to the category variable. Beachten Sie, dass die Ausgabe für einige Kategorien sehr umfangreich sein kann.Note that the output for some categories can be extensive.

using System;
using System.Globalization;

public class Example
{
   public static void Main()
   {
      int ctr = 0;
      UnicodeCategory category = UnicodeCategory.UppercaseLetter;

      for (ushort codePoint = 0; codePoint < ushort.MaxValue; codePoint++) {
         Char ch = Convert.ToChar(codePoint);

         if (CharUnicodeInfo.GetUnicodeCategory(ch) == category) {
            if (ctr % 5 == 0)
               Console.WriteLine();
            Console.Write("{0} (U+{1:X4})     ", ch, codePoint);
            ctr++;
         }
      }
      Console.WriteLine();
      Console.WriteLine("\n{0} characters are in the {1:G} category",
                        ctr, category);
   }
}
Imports System.Globalization

Module Example
   Public Sub Main()
      Dim ctr As Integer = 0
      Dim category As UnicodeCategory = UnicodeCategory.UppercaseLetter
      
      For codePoint As UShort = 0 To UShort.MaxValue - 1
         Dim ch As Char = Convert.ToChar(codePoint)

         If CharUnicodeInfo.GetUnicodeCategory(ch) = category Then
            If ctr Mod 5 = 0 Then Console.WriteLine()
            Console.Write("{0} (U+{1:X4})     ", ch, codePoint)
            ctr += 1
         End If 
      Next
      Console.WriteLine()
      Console.WriteLine()
      Console.WriteLine("{0} characters are in the {1:G} category", 
                        ctr, category)   
   End Sub
End Module

Hinweise

Ein Member der UnicodeCategory Enumeration wird von den Methoden Char.GetUnicodeCategory und CharUnicodeInfo.GetUnicodeCategory zurückgegeben.A member of the UnicodeCategory enumeration is returned by the Char.GetUnicodeCategory and CharUnicodeInfo.GetUnicodeCategory methods. Die UnicodeCategory-Enumeration wird auch verwendet, um Char Methoden zu unterstützen, z. b. IsUpper(Char).The UnicodeCategory enumeration is also used to support Char methods, such as IsUpper(Char). Solche Methoden bestimmen, ob ein bestimmtes Zeichen ein Member einer bestimmten allgemeinen Unicode-Kategorie ist.Such methods determine whether a specified character is a member of a particular Unicode general category. Eine allgemeine Unicode-Kategorie definiert die Breite Klassifizierung eines Zeichens, d. h. die Bezeichnung als Typ von Buchstaben, Dezimalziffern, Trennzeichen, mathematischem Symbol, Interpunktions Zeichen usw.A Unicode general category defines the broad classification of a character, that is, designation as a type of letter, decimal digit, separator, mathematical symbol, punctuation, and so on.

Diese Enumeration basiert auf dem Unicode-Standard, Version 5,0.This enumeration is based on The Unicode Standard, version 5.0. Weitere Informationen finden Sie in den Unterthemen „UCD File Format“ (UCD-Dateiformat) und „General Category Values“ (Allgemeine Kategorienwerte) der Unicode Character Database.For more information, see the "UCD File Format" and "General Category Values" subtopics at the Unicode Character Database.

Der Unicode-Standard definiert Folgendes:The Unicode Standard defines the following:

Ein Ersatz Zeichenpaar ist eine codierte Zeichen Darstellung für ein einzelnes abstraktes Zeichen, das aus einer Sequenz von zwei Code Einheiten besteht, wobei die erste Einheit des Paars ein hohes Ersatz Zeichen und das zweite ein niedriges Ersatz Zeichen ist.A surrogate pair is a coded character representation for a single abstract character that consists of a sequence of two code units, where the first unit of the pair is a high surrogate and the second is a low surrogate. Ein hohes Ersatz Zeichen ist ein Unicode-Codepunkt im Bereich u + D800 und bis u + DBFF, und ein niedriges Ersatz Zeichen ist ein Unicode-Codepunkt im Bereich u + DC00 und bis u + DFFF.A high surrogate is a Unicode code point in the range U+D800 through U+DBFF and a low surrogate is a Unicode code point in the range U+DC00 through U+DFFF.

Eine kombinierte Zeichen Sequenz ist eine Kombination aus einem Basiszeichen und einem oder mehreren kombinierten Zeichen.A combining character sequence is a combination of a base character and one or more combining characters. Ein Ersatz Zeichenpaar stellt ein Basiszeichen oder ein kombinierungseleichen dar.A surrogate pair represents a base character or a combining character. Ein Kombinations Zeichen ist entweder Abstand oder kein Abstand.A combining character is either spacing or nonspacing. Ein Abstand-Kombinations Zeichen nimmt beim Rendern eine Leerraum Position selbst an, während es bei einem nicht Abstands Kombinations Zeichen nicht der Fall ist.A spacing combining character takes up a spacing position by itself when rendered, while a nonspacing combining character does not. Diakritik ist ein Beispiel für Kombinations Zeichen ohne Abstände.Diacritics are an example of nonspacing combining characters.

Ein Modifiziererbuchstabe ist ein freistehendes Leerzeichen, das, wie z. b. ein Kombinations Zeichen, Änderungen eines vorangehenden Buchstabens angibt.A modifier letter is a free-standing spacing character that, like a combining character, indicates modifications of a preceding letter.

Eine einschließende Markierung ist ein Kombinations Zeichen ohne zwischen Raum, das alle vorhergehenden Zeichen bis einschließlich eines Basis Zeichens umgibt.An enclosing mark is a nonspacing combining character that surrounds all previous characters up to and including a base character.

Ein Formatzeichen ist ein Zeichen, das normalerweise nicht gerendert wird, aber sich auf das Layout von Text oder den Vorgang von Text Prozessen auswirkt.A format character is a character that is not normally rendered but that affects the layout of text or the operation of text processes.

Der Unicode-Standard definiert mehrere Variationen für einige Interpunktions Zeichen.The Unicode Standard defines several variations to some punctuation marks. Ein Bindestrich kann z. b. einer von mehreren Codewerten sein, die einen Bindestrich darstellen, z. b. u + 002D (Bindestrich-minus) oder u + 00ad (Soft-Bindestrich) oder u + 2010 (Bindestrich) oder u + 2011 (nicht unterbrechende Bindestrich).For example, a hyphen can be one of several code values that represent a hyphen, such as U+002D (hyphen-minus) or U+00AD (soft hyphen) or U+2010 (hyphen) or U+2011 (nonbreaking hyphen). Das gleiche gilt für Bindestriche, Leerzeichen und Anführungszeichen.The same is true for dashes, space characters, and quotation marks.

Der Unicode-Standard weist auch Codes zu Darstellungen von Dezimalziffern zu, die für ein bestimmtes Skript oder eine bestimmte Sprache spezifisch sind, z. b. u + 0030 (Ziffer 0) und U + 0660 (arabische-indic-Ziffer Null).The Unicode Standard also assigns codes to representations of decimal digits that are specific to a given script or language, for example, U+0030 (digit zero) and U+0660 (Arabic-Indic digit zero).

Gilt für:

Siehe auch