UnicodeCategory Enum

Definition

Определяет категорию Юникода для символа.Defines the Unicode category of a character.

public enum class UnicodeCategory
public enum UnicodeCategory
[System.Serializable]
public enum UnicodeCategory
[System.Runtime.InteropServices.ComVisible(true)]
[System.Serializable]
public enum UnicodeCategory
type UnicodeCategory = 
Public Enum UnicodeCategory
Inheritance
UnicodeCategory
Attributes

Fields

ClosePunctuation 21

Закрывающий символ для одного из парных знаков препинания, таких как круглые, квадратные и фигурные скобки.Closing character of one of the paired punctuation marks, such as parentheses, square brackets, and braces. Принятое обозначение в Юникоде — "Pe" (punctuation, close).Signified by the Unicode designation "Pe" (punctuation, close). Значение равно 21.The value is 21.

ConnectorPunctuation 18

Знак препинания, являющийся соединителем двух символов.Connector punctuation character that connects two characters. Принятое обозначение в Юникоде — "Pc" (punctuation, connector).Signified by the Unicode designation "Pc" (punctuation, connector). Значение равно 18.The value is 18.

Control 14

Управляющий символ кода со значением в Юникоде, равным U+007F либо находящемся в диапазоне от U+0000 до U+001F или от U+0080 до U+009F.Control code character, with a Unicode value of U+007F or in the range U+0000 through U+001F or U+0080 through U+009F. Принятое обозначение в Юникоде — "Cc" (other, control).Signified by the Unicode designation "Cc" (other, control). Значение равно 14.The value is 14.

CurrencySymbol 26

Символ денежной единицы.Currency symbol character. Принятое обозначение в Юникоде — "Sc" (symbol, currency).Signified by the Unicode designation "Sc" (symbol, currency). Значение равно 26.The value is 26.

DashPunctuation 19

Знак тире или дефиса.Dash or hyphen character. Принятое обозначение в Юникоде — "Pd" (punctuation, dash).Signified by the Unicode designation "Pd" (punctuation, dash). Значение равно 19.The value is 19.

DecimalDigitNumber 8

Знак десятичной цифры в диапазоне от 0 до 9.Decimal digit character, that is, a character in the range 0 through 9. Принятое обозначение в Юникоде — "Nd" (number, decimal digit).Signified by the Unicode designation "Nd" (number, decimal digit). Значение равно 8.The value is 8.

EnclosingMark 7

Вложенный символ — непробельный несамостоятельный знак, который окружает все предыдущие символы до базового символа включительно.Enclosing mark character, which is a nonspacing combining character that surrounds all previous characters up to and including a base character. Принятое обозначение в Юникоде — "Me" (mark, enclosing).Signified by the Unicode designation "Me" (mark, enclosing). Значение равно 7.The value is 7.

FinalQuotePunctuation 23

Закрывающий или заключительный знак кавычки.Closing or final quotation mark character. Принятое обозначение в Юникоде — "Pf" (punctuation, final quote).Signified by the Unicode designation "Pf" (punctuation, final quote). Значение равно 23.The value is 23.

Format 15

Символ форматирования, который влияет на расположение текста или на операции по обработке текста, но обычно не отображается.Format character that affects the layout of text or the operation of text processes, but is not normally rendered. Принятое обозначение в Юникоде — "Cf" (other, format).Signified by the Unicode designation "Cf" (other, format). Значение равно 15.The value is 15.

InitialQuotePunctuation 22

Открывающий или начальный знак кавычки.Opening or initial quotation mark character. Принятое обозначение в Юникоде — "Pi" (punctuation, initial quote).Signified by the Unicode designation "Pi" (punctuation, initial quote). Значение равно 22.The value is 22.

LetterNumber 9

Число, представленное буквой вместо десятичной цифры, например обозначение римской цифры пять — V.Number represented by a letter, instead of a decimal digit, for example, the Roman numeral for five, which is "V". Принятое обозначение в Юникоде — "Nl" (number, letter).The indicator is signified by the Unicode designation "Nl" (number, letter). Значение равно 9.The value is 9.

LineSeparator 12

Символ, используемый для разделения строк текста.Character that is used to separate lines of text. Принятое обозначение в Юникоде — "Zl" (separator, line).Signified by the Unicode designation "Zl" (separator, line). Значение равно 12.The value is 12.

LowercaseLetter 1

Строчная буква.Lowercase letter. Принятое обозначение в Юникоде — "Ll" (letter, lowercase).Signified by the Unicode designation "Ll" (letter, lowercase). Значение равно 1.The value is 1.

MathSymbol 25

Математические символы, например "+" или "=".Mathematical symbol character, such as "+" or "= ". Принятое обозначение в Юникоде — "Sm" (symbol, math).Signified by the Unicode designation "Sm" (symbol, math). Значение равно 25.The value is 25.

ModifierLetter 3

Символ буквы модификатора, представляющий собой отдельно стоящий знак ненулевой ширины, указывающий на изменение предшествующей буквы.Modifier letter character, which is free-standing spacing character that indicates modifications of a preceding letter. Принятое обозначение в Юникоде — "Lm" (letter, modifier).Signified by the Unicode designation "Lm" (letter, modifier). Значение равно 3.The value is 3.

ModifierSymbol 27

Символ модификатора, который указывает на изменения окружающих его символов.Modifier symbol character, which indicates modifications of surrounding characters. Например, дробная черта указывает, что число слева является числителем, а число справа — знаменателем.For example, the fraction slash indicates that the number to the left is the numerator and the number to the right is the denominator. Индикатор отмечается специальным знаком Юникода "Sk" (symbol, modifier).The indicator is signified by the Unicode designation "Sk" (symbol, modifier). Значение равно 27.The value is 27.

NonSpacingMark 5

Непробельный символ, указывающий на изменения базового символа.Nonspacing character that indicates modifications of a base character. Принятое обозначение в Юникоде — "Mn" (mark, nonspacing).Signified by the Unicode designation "Mn" (mark, nonspacing). Значение равно 5.The value is 5.

OpenPunctuation 20

Открывающий символ для одного из парных знаков препинания, таких как круглые, квадратные и фигурные скобки.Opening character of one of the paired punctuation marks, such as parentheses, square brackets, and braces. Принятое обозначение в Юникоде — "Ps" (punctuation, open).Signified by the Unicode designation "Ps" (punctuation, open). Значение равно 20.The value is 20.

OtherLetter 4

Буква, не являющаяся прописной, строчной, буквой модификатора и не находящаяся в регистре заголовка.Letter that is not an uppercase letter, a lowercase letter, a titlecase letter, or a modifier letter. Принятое обозначение в Юникоде — "Lo" (letter, other).Signified by the Unicode designation "Lo" (letter, other). Значение равно 4.The value is 4.

OtherNotAssigned 29

Символ, не относящийся ни к одной из категорий Юникода.Character that is not assigned to any Unicode category. Принятое обозначение в Юникоде — "Cn" (other, not assigned).Signified by the Unicode designation "Cn" (other, not assigned). Значение равно 29.The value is 29.

OtherNumber 10

Число, не являющееся ни десятичной цифрой, ни буквенной цифрой, например дробь 1/2.Number that is neither a decimal digit nor a letter number, for example, the fraction 1/2. Принятое в Юникоде обозначение индикатора — "No" (number, other).The indicator is signified by the Unicode designation "No" (number, other). Значение равно 10.The value is 10.

OtherPunctuation 24

Знак препинания, который не является соединителем, тире, открывающим или закрывающим знаком препинания, начальной или заключительной кавычкой.Punctuation character that is not a connector, a dash, open punctuation, close punctuation, an initial quote, or a final quote. Принятое обозначение в Юникоде — "Po" (punctuation, other).Signified by the Unicode designation "Po" (punctuation, other). Значение равно 24.The value is 24.

OtherSymbol 28

Символ, который не является математическим символом, символом денежной единицы или символом модификатора.Symbol character that is not a mathematical symbol, a currency symbol or a modifier symbol. Принятое обозначение в Юникоде — "So" (symbol, other).Signified by the Unicode designation "So" (symbol, other). Значение равно 28.The value is 28.

ParagraphSeparator 13

Символ, используемый для разделения абзацев.Character used to separate paragraphs. Принятое обозначение в Юникоде — "Zp" (separator, paragraph).Signified by the Unicode designation "Zp" (separator, paragraph). Значение равно 13.The value is 13.

PrivateUse 17

Символ для личного использования, значение которого в Юникоде находится в диапазоне от U+E000 до U+F8FF.Private-use character, with a Unicode value in the range U+E000 through U+F8FF. Принятое обозначение в Юникоде — "Co" (other, private use).Signified by the Unicode designation "Co" (other, private use). Значение равно 17.The value is 17.

SpaceSeparator 11

Символ пробела, не имеющий глифа, но не являющийся управляющим символом или символом форматирования.Space character, which has no glyph but is not a control or format character. Принятое обозначение в Юникоде — "Zs" (separator, space).Signified by the Unicode designation "Zs" (separator, space). Значение равно 11.The value is 11.

SpacingCombiningMark 6

Символ ненулевой ширины, который указывает на изменения базового символа и влияет на ширину его глифа.Spacing character that indicates modifications of a base character and affects the width of the glyph for that base character. Принятое обозначение в Юникоде — "Mc" (mark, spacing combining).Signified by the Unicode designation "Mc" (mark, spacing combining). Значение равно 6.The value is 6.

Surrogate 16

Старший или младший символ-заместитель.High surrogate or a low surrogate character. Значения кодов символов-заместителей находятся в диапазоне от U+D800 до U+DFFF.Surrogate code values are in the range U+D800 through U+DFFF. Принятое обозначение в Юникоде — "Cs" (other, surrogate).Signified by the Unicode designation "Cs" (other, surrogate). Значение равно 16.The value is 16.

TitlecaseLetter 2

Буква регистра заголовка.Titlecase letter. Принятое обозначение в Юникоде — "Lt" (letter, titlecase).Signified by the Unicode designation "Lt" (letter, titlecase). Значение равно 2.The value is 2.

UppercaseLetter 0

Прописная буква.Uppercase letter. Принятое обозначение в Юникоде — "Lu" (letter, uppercase).Signified by the Unicode designation "Lu" (letter, uppercase). Значение равно 0.The value is 0.

Examples

В следующем примере отображаются символы и соответствующие кодовые точки для символов в категории Упперкаселеттер.The following example displays the characters and their corresponding code points for characters in the UppercaseLetter category. Можно изменить пример, чтобы отобразить буквы в любой другой категории, заменив Упперкаселеттер на интересующую категорию в назначении переменной category.You can modify the example to display the letters in any other category by replacing UppercaseLetter with the category of interest to you in the assignment to the category variable. Обратите внимание, что выходные данные некоторых категорий могут быть обширными.Note that the output for some categories can be extensive.

using System;
using System.Globalization;

public class Example
{
   public static void Main()
   {
      int ctr = 0;
      UnicodeCategory category = UnicodeCategory.UppercaseLetter;

      for (ushort codePoint = 0; codePoint < ushort.MaxValue; codePoint++) {
         Char ch = Convert.ToChar(codePoint);

         if (CharUnicodeInfo.GetUnicodeCategory(ch) == category) {
            if (ctr % 5 == 0)
               Console.WriteLine();
            Console.Write("{0} (U+{1:X4})     ", ch, codePoint);
            ctr++;
         }
      }
      Console.WriteLine();
      Console.WriteLine("\n{0} characters are in the {1:G} category",
                        ctr, category);
   }
}
Imports System.Globalization

Module Example
   Public Sub Main()
      Dim ctr As Integer = 0
      Dim category As UnicodeCategory = UnicodeCategory.UppercaseLetter
      
      For codePoint As UShort = 0 To UShort.MaxValue - 1
         Dim ch As Char = Convert.ToChar(codePoint)

         If CharUnicodeInfo.GetUnicodeCategory(ch) = category Then
            If ctr Mod 5 = 0 Then Console.WriteLine()
            Console.Write("{0} (U+{1:X4})     ", ch, codePoint)
            ctr += 1
         End If 
      Next
      Console.WriteLine()
      Console.WriteLine()
      Console.WriteLine("{0} characters are in the {1:G} category", 
                        ctr, category)   
   End Sub
End Module

Remarks

Член перечисления UnicodeCategory возвращается методами Char.GetUnicodeCategory и CharUnicodeInfo.GetUnicodeCategory.A member of the UnicodeCategory enumeration is returned by the Char.GetUnicodeCategory and CharUnicodeInfo.GetUnicodeCategory methods. Перечисление UnicodeCategory также используется для поддержки методов Char, таких как IsUpper(Char).The UnicodeCategory enumeration is also used to support Char methods, such as IsUpper(Char). Такие методы определяют, является ли указанный символ членом определенной общей категории Юникода.Such methods determine whether a specified character is a member of a particular Unicode general category. Общая категория Юникода определяет общую классификацию символа, то есть обозначение в виде типа буквы, десятичной цифры, разделителя, математического символа, пунктуации и т. д.A Unicode general category defines the broad classification of a character, that is, designation as a type of letter, decimal digit, separator, mathematical symbol, punctuation, and so on.

Это перечисление основано на стандарте Юникода версии 5,0.This enumeration is based on The Unicode Standard, version 5.0. Дополнительные сведения см. в подразделах "Формат файлов UCD" и "Значения общих категорий" в разделе База данных символов Юникода.For more information, see the "UCD File Format" and "General Category Values" subtopics at the Unicode Character Database.

Стандарт Unicode определяет следующее:The Unicode Standard defines the following:

Суррогатная пара представляет собой закодированное символьное представление для одного абстрактного символа, состоящего из последовательности двух единиц кода, где первая единица пары является старшим символом-заместителем, а второй — младшим символом-заместителем.A surrogate pair is a coded character representation for a single abstract character that consists of a sequence of two code units, where the first unit of the pair is a high surrogate and the second is a low surrogate. Старший суррогат — это кодовая точка Юникода в диапазоне U + D800 до U + DBFF, а младший символ-заместитель — это кодовая точка Юникода в диапазоне от U + DC00 до U + DFFF.A high surrogate is a Unicode code point in the range U+D800 through U+DBFF and a low surrogate is a Unicode code point in the range U+DC00 through U+DFFF.

Последовательность несамостоятельных символов представляет собой сочетание базового символа и одного или нескольких Объединенных символов.A combining character sequence is a combination of a base character and one or more combining characters. Суррогатная пара представляет базовый символ или присоединяемый символ.A surrogate pair represents a base character or a combining character. Несамостоятельный символ — это либо пробел, либо пробел.A combining character is either spacing or nonspacing. Комбинированный символ занимает место по отдельности при подготовке к просмотру, а несамостоятельный символ — нет.A spacing combining character takes up a spacing position by itself when rendered, while a nonspacing combining character does not. Диакритические знаки — это пример несамостоятельных символов.Diacritics are an example of nonspacing combining characters.

Буква-модификатора представляет собой свободный символ, который, как и несамостоятельный символ, указывает на изменения предшествующей буквы.A modifier letter is a free-standing spacing character that, like a combining character, indicates modifications of a preceding letter.

Заключенная в кавычки знак — это несамостоятельный символ, который окружает все предыдущие символы до базового символа включительно.An enclosing mark is a nonspacing combining character that surrounds all previous characters up to and including a base character.

Символ форматирования — это символ, который обычно не отображается, но влияет на макет текста или на работу с текстовыми процессами.A format character is a character that is not normally rendered but that affects the layout of text or the operation of text processes.

Стандарт Unicode определяет несколько вариантов для некоторых знаков препинания.The Unicode Standard defines several variations to some punctuation marks. Например, дефис может быть одним из нескольких значений кода, представляющих дефис, например U + 002D (дефис-минус) или U + 00AD (мягкий дефис) или u + 2010 (дефис) или U + 2011 (неразрывный дефис).For example, a hyphen can be one of several code values that represent a hyphen, such as U+002D (hyphen-minus) or U+00AD (soft hyphen) or U+2010 (hyphen) or U+2011 (nonbreaking hyphen). Это справедливо и для тире, пробелов и кавычек.The same is true for dashes, space characters, and quotation marks.

Стандарт Unicode также назначает коды представлениям десятичных цифр, характерных для конкретного скрипта или языка, например U + 0030 (цифра 0) и U + 0660 (Арабский — индийская цифра 0).The Unicode Standard also assigns codes to representations of decimal digits that are specific to a given script or language, for example, U+0030 (digit zero) and U+0660 (Arabic-Indic digit zero).

Applies to

See also