UnicodeCategory Wyliczenie

Definicja

Definiuje kategorię Unicode znaku.Defines the Unicode category of a character.

public enum class UnicodeCategory
public enum UnicodeCategory
[System.Serializable]
public enum UnicodeCategory
[System.Serializable]
[System.Runtime.InteropServices.ComVisible(true)]
public enum UnicodeCategory
type UnicodeCategory = 
[<System.Serializable>]
type UnicodeCategory = 
[<System.Serializable>]
[<System.Runtime.InteropServices.ComVisible(true)>]
type UnicodeCategory = 
Public Enum UnicodeCategory
Dziedziczenie
UnicodeCategory
Atrybuty

Pola

ClosePunctuation 21

Znak zamykający jednego ze sparowanych znaków interpunkcyjnych, takich jak nawiasy, nawiasy kwadratowe i nawiasy klamrowe.Closing character of one of the paired punctuation marks, such as parentheses, square brackets, and braces. Oznaczane przez oznaczenie Unicode "PE" (interpunkcja, Zamknij).Signified by the Unicode designation "Pe" (punctuation, close). Wartość to 21.The value is 21.

ConnectorPunctuation 18

Znak interpunkcji łącznika, który łączy dwa znaki.Connector punctuation character that connects two characters. Oznaczane przez oznaczenie Unicode "PC" (interpunkcja, łącznik).Signified by the Unicode designation "Pc" (punctuation, connector). Wartość to 18.The value is 18.

Control 14

Kontrolowanie znaku kodu przy użyciu wartości Unicode 007F U + lub z zakresu U + 0000 do U + 001F lub U + 0080 za pomocą U + 009F.Control code character, with a Unicode value of U+007F or in the range U+0000 through U+001F or U+0080 through U+009F. Oznaczane przez oznaczenie Unicode "DW" (inne, kontrolka).Signified by the Unicode designation "Cc" (other, control). Wartość to 14.The value is 14.

CurrencySymbol 26

Symbol waluty.Currency symbol character. Oznaczane przez oznaczenie Unicode "SC" (symbol, waluta).Signified by the Unicode designation "Sc" (symbol, currency). Wartość to 26.The value is 26.

DashPunctuation 19

Znak kreski lub łącznika.Dash or hyphen character. Oznaczane przez oznaczenie Unicode "PD" (interpunkcja, kreska).Signified by the Unicode designation "Pd" (punctuation, dash). Wartość to 19.The value is 19.

DecimalDigitNumber 8

Znak cyfry dziesiętnej, czyli znak z zakresu od 0 do 9.Decimal digit character, that is, a character in the range 0 through 9. Oznaczane przez oznaczenie Unicode "ND" (liczba, cyfra dziesiętna).Signified by the Unicode designation "Nd" (number, decimal digit). Wartość to 8.The value is 8.

EnclosingMark 7

Znak znacznika otaczającego, który jest nieodstępem łączącym znak, który otacza wszystkie poprzednie znaki do i włącznie z znakiem podstawowym.Enclosing mark character, which is a nonspacing combining character that surrounds all previous characters up to and including a base character. Oznaczane przez oznaczenie kodu Unicode "Me" (oznaczanie, otaczające).Signified by the Unicode designation "Me" (mark, enclosing). Wartość to 7.The value is 7.

FinalQuotePunctuation 23

Znak zamykającej lub końcowej cudzysłowu.Closing or final quotation mark character. Oznaczane przez oznaczenie Unicode "PF" (interpunkcja, cudzysłów końcowy).Signified by the Unicode designation "Pf" (punctuation, final quote). Wartość to 23.The value is 23.

Format 15

Formatowanie znaku, który ma wpływ na układ tekstu lub operacji procesów tekstowych, ale nie jest zwykle renderowany.Format character that affects the layout of text or the operation of text processes, but is not normally rendered. Oznaczane przez oznaczenie Unicode "CF" (inne, format).Signified by the Unicode designation "Cf" (other, format). Wartość to 15.The value is 15.

InitialQuotePunctuation 22

Otwierający lub początkowy znak cudzysłowu.Opening or initial quotation mark character. Oznaczane przez oznaczenie Unicode "Pi" (interpunkcja, cytat początkowy).Signified by the Unicode designation "Pi" (punctuation, initial quote). Wartość to 22.The value is 22.

LetterNumber 9

Liczba reprezentowana przez literę zamiast cyfry dziesiętnej, na przykład cyfry rzymskie dla pięciu, czyli "V".Number represented by a letter, instead of a decimal digit, for example, the Roman numeral for five, which is "V". Wskaźnik jest oznaczany przez oznaczenie Unicode "NL" (numer, litera).The indicator is signified by the Unicode designation "Nl" (number, letter). Wartość wynosi 9.The value is 9.

LineSeparator 12

Znak używany do oddzielania wierszy tekstu.Character that is used to separate lines of text. Oznaczane przez oznaczenie Unicode "zl" (separator, wiersz).Signified by the Unicode designation "Zl" (separator, line). Wartość wynosi 12.The value is 12.

LowercaseLetter 1

Mała litera.Lowercase letter. Oznaczane przez oznaczenie Unicode "szystkie" (litera, małe litery).Signified by the Unicode designation "Ll" (letter, lowercase). Wartość jest równa 1.The value is 1.

MathSymbol 25

Znak matematyczny symbol, taki jak "+" lub "=".Mathematical symbol character, such as "+" or "= ". Oznacza oznaczeniem Unicode "SM" (symbol, matematyka).Signified by the Unicode designation "Sm" (symbol, math). Wartość to 25.The value is 25.

ModifierLetter 3

Znak litery modyfikującej, który jest niezależnym znakiem odstępu, który wskazuje modyfikacje powyższej litery.Modifier letter character, which is free-standing spacing character that indicates modifications of a preceding letter. Oznaczane przez oznaczenie Unicode "LM" (litera, modyfikator).Signified by the Unicode designation "Lm" (letter, modifier). Wartość to 3.The value is 3.

ModifierSymbol 27

Znak symbolu modyfikatora, który wskazuje modyfikacje otaczających znaków.Modifier symbol character, which indicates modifications of surrounding characters. Na przykład, ukośnik ułamek wskazuje, że liczba po lewej stronie to licznik, a liczba po prawej stronie to mianownik.For example, the fraction slash indicates that the number to the left is the numerator and the number to the right is the denominator. Wskaźnik jest oznaczany przez oznaczenie Unicode "sk" (symbol, modyfikator).The indicator is signified by the Unicode designation "Sk" (symbol, modifier). Wartość to 27.The value is 27.

NonSpacingMark 5

Znak niebędący odstępem, który wskazuje modyfikacje znaku podstawowego.Nonspacing character that indicates modifications of a base character. Oznaczane przez oznaczenie Unicode "MN" (oznaczanie, brak odstępów).Signified by the Unicode designation "Mn" (mark, nonspacing). Wartość to 5.The value is 5.

OpenPunctuation 20

Otwierający znak jednego ze sparowanych znaków interpunkcyjnych, takich jak nawiasy, nawiasy kwadratowe i nawiasy klamrowe.Opening character of one of the paired punctuation marks, such as parentheses, square brackets, and braces. Oznaczane przez oznaczenie Unicode "PS" (interpunkcja, otwarte).Signified by the Unicode designation "Ps" (punctuation, open). Wartość wynosi 20.The value is 20.

OtherLetter 4

Litera, która nie jest wielką literą, małą literą, literą nazwach własnych lub listą modyfikującą.Letter that is not an uppercase letter, a lowercase letter, a titlecase letter, or a modifier letter. Oznaczane przez oznaczenie Unicode "lo" (litera, inne).Signified by the Unicode designation "Lo" (letter, other). Wartość to 4.The value is 4.

OtherNotAssigned 29

Znak, który nie jest przypisany do żadnej kategorii Unicode.Character that is not assigned to any Unicode category. Oznaczane przez oznaczenie Unicode "CN" (inne, nieprzypisane).Signified by the Unicode designation "Cn" (other, not assigned). Wartość to 29.The value is 29.

OtherNumber 10

Liczba, która nie jest cyfrą dziesiętną ani literą, na przykład ułamek 1/2.Number that is neither a decimal digit nor a letter number, for example, the fraction 1/2. Wskaźnik jest oznaczany przez oznaczenie Unicode "No" (liczba, inne).The indicator is signified by the Unicode designation "No" (number, other). Wartość wynosi 10.The value is 10.

OtherPunctuation 24

Znak interpunkcyjny, który nie jest łącznikiem, kreską, otwartym interpunkcją, zamykaniem interpunkcji, cudzysłowem początkowym ani ofertą końcową.Punctuation character that is not a connector, a dash, open punctuation, close punctuation, an initial quote, or a final quote. Oznacza oznaczeniem Unicode "ZZ" (interpunkcja, inne).Signified by the Unicode designation "Po" (punctuation, other). Wartość wynosi 24.The value is 24.

OtherSymbol 28

Symbol znaku, który nie jest symbolem matematycznym, symbolem waluty ani symbolem modyfikatora.Symbol character that is not a mathematical symbol, a currency symbol or a modifier symbol. Oznacza oznaczeniem Unicode "so" (symbol, inne).Signified by the Unicode designation "So" (symbol, other). Wartość to 28.The value is 28.

ParagraphSeparator 13

Znak używany do rozdzielania akapitów.Character used to separate paragraphs. Oznaczane przez oznaczenie Unicode "ZP" (separator, akapit).Signified by the Unicode designation "Zp" (separator, paragraph). Wartość to 13.The value is 13.

PrivateUse 17

Znak użycia prywatnego, z wartością Unicode z zakresu U + E000 przez U + F8FF.Private-use character, with a Unicode value in the range U+E000 through U+F8FF. Oznaczane przez oznaczenie Unicode "co" (inne, prywatne użycie).Signified by the Unicode designation "Co" (other, private use). Wartość wynosi 17.The value is 17.

SpaceSeparator 11

Znak spacji, który nie ma glifu, ale nie jest znakiem kontrolnym ani formatu.Space character, which has no glyph but is not a control or format character. Oznaczane przez oznaczenie Unicode "ZS" (separator, spacja).Signified by the Unicode designation "Zs" (separator, space). Wartość to 11.The value is 11.

SpacingCombiningMark 6

Znak odstępu, który wskazuje modyfikacje znaku podstawowego i ma wpływ na szerokość glifu dla tego znaku podstawowego.Spacing character that indicates modifications of a base character and affects the width of the glyph for that base character. Oznaczane przez oznaczenie Unicode "MC" (oznaczenie, odstępy łączenia).Signified by the Unicode designation "Mc" (mark, spacing combining). Wartość to 6.The value is 6.

Surrogate 16

Duży Surogat lub niski znak dwuskładnikowy.High surrogate or a low surrogate character. Wartości kodu wieloskładnikowego znajdują się w zakresie od U + D800 do U + DFFF.Surrogate code values are in the range U+D800 through U+DFFF. Oznaczane przez oznaczenie Unicode "CS" (inne, Surogat).Signified by the Unicode designation "Cs" (other, surrogate). Wartość wynosi 16.The value is 16.

TitlecaseLetter 2

Nazwach własnych.Titlecase letter. Oznaczane przez oznaczenie Unicode "lt" (litera, nazwach własnych).Signified by the Unicode designation "Lt" (letter, titlecase). Wartość jest równa 2.The value is 2.

UppercaseLetter 0

Wielka litera.Uppercase letter. Oznaczane przez oznaczenie Unicode "Lu" (litera, wielkie litery).Signified by the Unicode designation "Lu" (letter, uppercase). Wartość jest równa 0.The value is 0.

Przykłady

Poniższy przykład wyświetla znaki i odpowiadające im punkty kodu dla znaków w kategorii UppercaseLetter.The following example displays the characters and their corresponding code points for characters in the UppercaseLetter category. Możesz zmodyfikować przykład, aby wyświetlić litery w dowolnej innej kategorii, zastępując UppercaseLetter z kategorią zainteresowania w przypisaniu do category zmiennej.You can modify the example to display the letters in any other category by replacing UppercaseLetter with the category of interest to you in the assignment to the category variable. Należy pamiętać, że dane wyjściowe dla niektórych kategorii mogą być obszerne.Note that the output for some categories can be extensive.

using System;
using System.Globalization;

public class Example
{
   public static void Main()
   {
      int ctr = 0;
      UnicodeCategory category = UnicodeCategory.UppercaseLetter;

      for (ushort codePoint = 0; codePoint < ushort.MaxValue; codePoint++) {
         Char ch = Convert.ToChar(codePoint);

         if (CharUnicodeInfo.GetUnicodeCategory(ch) == category) {
            if (ctr % 5 == 0)
               Console.WriteLine();
            Console.Write("{0} (U+{1:X4})     ", ch, codePoint);
            ctr++;
         }
      }
      Console.WriteLine();
      Console.WriteLine("\n{0} characters are in the {1:G} category",
                        ctr, category);
   }
}
Imports System.Globalization

Module Example
   Public Sub Main()
      Dim ctr As Integer = 0
      Dim category As UnicodeCategory = UnicodeCategory.UppercaseLetter
      
      For codePoint As UShort = 0 To UShort.MaxValue - 1
         Dim ch As Char = Convert.ToChar(codePoint)

         If CharUnicodeInfo.GetUnicodeCategory(ch) = category Then
            If ctr Mod 5 = 0 Then Console.WriteLine()
            Console.Write("{0} (U+{1:X4})     ", ch, codePoint)
            ctr += 1
         End If 
      Next
      Console.WriteLine()
      Console.WriteLine()
      Console.WriteLine("{0} characters are in the {1:G} category", 
                        ctr, category)   
   End Sub
End Module

Uwagi

Element członkowski UnicodeCategory wyliczenia jest zwracany przez Char.GetUnicodeCategory CharUnicodeInfo.GetUnicodeCategory metody i.A member of the UnicodeCategory enumeration is returned by the Char.GetUnicodeCategory and CharUnicodeInfo.GetUnicodeCategory methods. UnicodeCategoryWyliczenie jest również używane do obsługi Char metod, takich jak IsUpper(Char) .The UnicodeCategory enumeration is also used to support Char methods, such as IsUpper(Char). Takie metody określają, czy określony znak jest członkiem określonej kategorii Ogólne Unicode.Such methods determine whether a specified character is a member of a particular Unicode general category. Ogólna kategoria Unicode definiuje szeroką klasyfikację znaku, czyli oznaczenie jako typ litery, cyfrę dziesiętną, separator, symbol matematyczny, interpunkcja i tak dalej.A Unicode general category defines the broad classification of a character, that is, designation as a type of letter, decimal digit, separator, mathematical symbol, punctuation, and so on.

To wyliczenie jest oparte na standardzie Unicode w wersji 5,0.This enumeration is based on The Unicode Standard, version 5.0. Aby uzyskać więcej informacji, zobacz temat "UCD File Format" i "ogólne wartości kategorii" w bazie danych znaków Unicode.For more information, see the "UCD File Format" and "General Category Values" subtopics at the Unicode Character Database.

Standard Unicode definiuje następujące elementy:The Unicode Standard defines the following:

Para dwuskładnikowa jest reprezentacją kodowanego znaku dla pojedynczego znaku abstrakcyjnego, który składa się z sekwencji dwóch jednostek kodu, gdzie pierwsza jednostka pary jest dużym surogatem, a druga jest dolnym surogatem.A surrogate pair is a coded character representation for a single abstract character that consists of a sequence of two code units, where the first unit of the pair is a high surrogate and the second is a low surrogate. Duży Surogat jest punktem kodu Unicode w zakresie U + D800 za pomocą U + DBFF, a dolny Surogat jest punktem kodu Unicode w zakresie U + DC00 za pomocą U + DFFF.A high surrogate is a Unicode code point in the range U+D800 through U+DBFF and a low surrogate is a Unicode code point in the range U+DC00 through U+DFFF.

Łączenie sekwencji znaków jest kombinacją znaku podstawowego i jednego lub więcej łączących znaków.A combining character sequence is a combination of a base character and one or more combining characters. Para zastępcza reprezentuje znak podstawowy lub łączący znak.A surrogate pair represents a base character or a combining character. Łączący znak jest odstępem lub brakiem odstępu.A combining character is either spacing or nonspacing. Odstęp łączący znak powoduje, że podczas renderowania, podczas gdy nie jest wyświetlany odstępy.A spacing combining character takes up a spacing position by itself when rendered, while a nonspacing combining character does not. Znaki diakrytyczne są przykładem nieodstępów łączących znaków.Diacritics are an example of nonspacing combining characters.

Litera modyfikująca jest niezależnym znakiem odstępu, który, taki jak łączenie znaku, wskazuje modyfikacje poprzedniej litery.A modifier letter is a free-standing spacing character that, like a combining character, indicates modifications of a preceding letter.

Otaczający znacznik to nieodstęp łączący znak, który otacza wszystkie poprzednie znaki do i łącznie z znakiem podstawowym.An enclosing mark is a nonspacing combining character that surrounds all previous characters up to and including a base character.

Znak formatu jest znakiem, który nie jest zwykle renderowany, ale ma wpływ na układ tekstu lub działanie procesów tekstowych.A format character is a character that is not normally rendered but that affects the layout of text or the operation of text processes.

Standard Unicode definiuje kilka wariacji do niektórych znaków interpunkcyjnych.The Unicode Standard defines several variations to some punctuation marks. Na przykład łącznik może być jedną z kilku wartości kodu, które reprezentują łącznik, takich jak U + 002D (łącznik-minus) lub U + 00AD (Łącznik elastyczny) lub U + 2010 (łącznik) lub U + 2011 (Łącznik nierozdzielający).For example, a hyphen can be one of several code values that represent a hyphen, such as U+002D (hyphen-minus) or U+00AD (soft hyphen) or U+2010 (hyphen) or U+2011 (nonbreaking hyphen). Ta sama wartość dotyczy kresek, znaków spacji i znaków cudzysłowu.The same is true for dashes, space characters, and quotation marks.

Standard Unicode przypisuje również kody do reprezentacji cyfr dziesiętnych, które są specyficzne dla danego skryptu lub języka, na przykład U + 0030 (cyfry zero) i U + 0660 (cyfry arabskie-indyjskie zero).The Unicode Standard also assigns codes to representations of decimal digits that are specific to a given script or language, for example, U+0030 (digit zero) and U+0660 (Arabic-Indic digit zero).

Dotyczy

Zobacz też