UnicodeCategory UnicodeCategory UnicodeCategory UnicodeCategory Enum

Определение

Определяет категорию знака в формате Юникод.Defines the Unicode category of a character.

public enum class UnicodeCategory
[System.Runtime.InteropServices.ComVisible(true)]
[System.Serializable]
public enum UnicodeCategory
type UnicodeCategory = 
Public Enum UnicodeCategory
Наследование
UnicodeCategoryUnicodeCategoryUnicodeCategoryUnicodeCategory
Атрибуты

Поля

ClosePunctuation ClosePunctuation ClosePunctuation ClosePunctuation 21

Закрывающий символ для одного из парных пунктуационных знаков, таких как круглые, квадратные и фигурные скобки.Closing character of one of the paired punctuation marks, such as parentheses, square brackets, and braces. Принятое обозначение в Юникоде — "Pe" (punctuation, close).Signified by the Unicode designation "Pe" (punctuation, close). Значение равно 21.The value is 21.

ConnectorPunctuation ConnectorPunctuation ConnectorPunctuation ConnectorPunctuation 18

Знак пунктуации, являющийся соединителем двух знаков.Connector punctuation character that connects two characters. Принятое обозначение в Юникоде — "Pc" (punctuation, connector).Signified by the Unicode designation "Pc" (punctuation, connector). Значение равно 18.The value is 18.

Control Control Control Control 14

Управляющий символ кода со значением в Юникоде, равным U+007F либо находящемся в диапазоне от U+0000 до U+001F или от U+0080 до U+009F.Control code character, with a Unicode value of U+007F or in the range U+0000 through U+001F or U+0080 through U+009F. Принятое обозначение в Юникоде — "Cc" (other, control).Signified by the Unicode designation "Cc" (other, control). Значение равно 14.The value is 14.

CurrencySymbol CurrencySymbol CurrencySymbol CurrencySymbol 26

Символ денежной единицы.Currency symbol character. Принятое обозначение в Юникоде — "Sc" (symbol, currency).Signified by the Unicode designation "Sc" (symbol, currency). Значение равно 26.The value is 26.

DashPunctuation DashPunctuation DashPunctuation DashPunctuation 19

Знак тире или дефиса.Dash or hyphen character. Принятое обозначение в Юникоде — "Pd" (punctuation, dash).Signified by the Unicode designation "Pd" (punctuation, dash). Значение равно 19.The value is 19.

DecimalDigitNumber DecimalDigitNumber DecimalDigitNumber DecimalDigitNumber 8

Знак десятичной цифры в диапазоне от 0 до 9.Decimal digit character, that is, a character in the range 0 through 9. Принятое обозначение в Юникоде — "Nd" (number, decimal digit).Signified by the Unicode designation "Nd" (number, decimal digit). Значение равно 8.The value is 8.

EnclosingMark EnclosingMark EnclosingMark EnclosingMark 7

Вложенный символ — не занимающий место несамостоятельный символ, который окружает все предыдущие символы до базового символа включительно.Enclosing mark character, which is a nonspacing combining character that surrounds all previous characters up to and including a base character. Принятое обозначение в Юникоде — "Me" (mark, enclosing).Signified by the Unicode designation "Me" (mark, enclosing). Значение равно 7.The value is 7.

FinalQuotePunctuation FinalQuotePunctuation FinalQuotePunctuation FinalQuotePunctuation 23

Закрывающий или заключительный знак кавычки.Closing or final quotation mark character. Принятое обозначение в Юникоде — "Pf" (punctuation, final quote).Signified by the Unicode designation "Pf" (punctuation, final quote). Значение равно 23.The value is 23.

Format Format Format Format 15

Символ форматирования, который влияет на расположение текста или на операции по обработке текста, но обычно не отображается.Format character that affects the layout of text or the operation of text processes, but is not normally rendered. Принятое обозначение в Юникоде — "Cf" (other, format).Signified by the Unicode designation "Cf" (other, format). Значение равно 15.The value is 15.

InitialQuotePunctuation InitialQuotePunctuation InitialQuotePunctuation InitialQuotePunctuation 22

Открывающий или начальный знак кавычки.Opening or initial quotation mark character. Принятое обозначение в Юникоде — "Pi" (punctuation, initial quote).Signified by the Unicode designation "Pi" (punctuation, initial quote). Значение равно 22.The value is 22.

LetterNumber LetterNumber LetterNumber LetterNumber 9

Число, представленное буквой вместо десятичной цифры; например, обозначение римской цифры пять — "V".Number represented by a letter, instead of a decimal digit, for example, the Roman numeral for five, which is "V". Принятое обозначение в Юникоде — "Nl" (number, letter).The indicator is signified by the Unicode designation "Nl" (number, letter). Значение равно 9.The value is 9.

LineSeparator LineSeparator LineSeparator LineSeparator 12

Символ, используемый для разделения строк текста.Character that is used to separate lines of text. Принятое обозначение в Юникоде — "Zl" (separator, line).Signified by the Unicode designation "Zl" (separator, line). Значение равно 12.The value is 12.

LowercaseLetter LowercaseLetter LowercaseLetter LowercaseLetter 1

Буква нижнего регистра.Lowercase letter. Принятое обозначение в Юникоде — "Ll" (letter, lowercase).Signified by the Unicode designation "Ll" (letter, lowercase). Значение равно 1.The value is 1.

MathSymbol MathSymbol MathSymbol MathSymbol 25

Математические символы, например "+" или "=".Mathematical symbol character, such as "+" or "= ". Принятое обозначение в Юникоде — "Sm" (symbol, math).Signified by the Unicode designation "Sm" (symbol, math). Значение равно 25.The value is 25.

ModifierLetter ModifierLetter ModifierLetter ModifierLetter 3

Символ буквы модификатора, представляющий собой отдельно стоящий знак ненулевой ширины, указывающий на изменение предшествующей буквы.Modifier letter character, which is free-standing spacing character that indicates modifications of a preceding letter. Принятое обозначение в Юникоде — "Lm" (letter, modifier).Signified by the Unicode designation "Lm" (letter, modifier). Значение равно 3.The value is 3.

ModifierSymbol ModifierSymbol ModifierSymbol ModifierSymbol 27

Символ модификатора, который указывает на изменения окружающих его символов.Modifier symbol character, which indicates modifications of surrounding characters. Например, дробная черта указывает, что номер слева является числителем, а номер справа — знаменателем.For example, the fraction slash indicates that the number to the left is the numerator and the number to the right is the denominator. Индикатор отмечается специальным знаком Юникода "Sk" (symbol, modifier).The indicator is signified by the Unicode designation "Sk" (symbol, modifier). Значение равно 27.The value is 27.

NonSpacingMark NonSpacingMark NonSpacingMark NonSpacingMark 5

Несамостоятельный символ, указывающий на изменения базового символа.Nonspacing character that indicates modifications of a base character. Принятое обозначение в Юникоде — "Mn" (mark, nonspacing).Signified by the Unicode designation "Mn" (mark, nonspacing). Значение равно 5.The value is 5.

OpenPunctuation OpenPunctuation OpenPunctuation OpenPunctuation 20

Открывающий символ для одного из парных пунктуационных знаков, таких как круглые, квадратные и фигурные скобки.Opening character of one of the paired punctuation marks, such as parentheses, square brackets, and braces. Принятое обозначение в Юникоде — "Ps" (punctuation, open).Signified by the Unicode designation "Ps" (punctuation, open). Значение равно 20.The value is 20.

OtherLetter OtherLetter OtherLetter OtherLetter 4

Буква, не находящаяся в верхнем или нижнем регистре, регистре заголовка и не являющаяся буквой модификатора.Letter that is not an uppercase letter, a lowercase letter, a titlecase letter, or a modifier letter. Принятое обозначение в Юникоде — "Lo" (letter, other).Signified by the Unicode designation "Lo" (letter, other). Значение равно 4.The value is 4.

OtherNotAssigned OtherNotAssigned OtherNotAssigned OtherNotAssigned 29

Символ, не принадлежащий ни к одной из категорий Юникода.Character that is not assigned to any Unicode category. Принятое обозначение в Юникоде — "Cn" (other, not assigned).Signified by the Unicode designation "Cn" (other, not assigned). Значение равно 29.The value is 29.

OtherNumber OtherNumber OtherNumber OtherNumber 10

Число, не являющееся ни десятичной цифрой, ни буквенной цифрой, например дробь 1/2.Number that is neither a decimal digit nor a letter number, for example, the fraction 1/2. Принятое в Юникоде обозначение индикатора — "No" (number, other).The indicator is signified by the Unicode designation "No" (number, other). Значение равно 10.The value is 10.

OtherPunctuation OtherPunctuation OtherPunctuation OtherPunctuation 24

Знак пунктуации, который не является соединителем, тире, открывающим или закрывающим знаком пунктуации, начальной или заключительной кавычкой.Punctuation character that is not a connector, a dash, open punctuation, close punctuation, an initial quote, or a final quote. Принятое обозначение в Юникоде — "Po" (punctuation, other).Signified by the Unicode designation "Po" (punctuation, other). Значение равно 24.The value is 24.

OtherSymbol OtherSymbol OtherSymbol OtherSymbol 28

Символ, который не является математическим символом, символом денежной единицы или символом модификатора.Symbol character that is not a mathematical symbol, a currency symbol or a modifier symbol. Принятое обозначение в Юникоде — "So" (symbol, other).Signified by the Unicode designation "So" (symbol, other). Значение равно 28.The value is 28.

ParagraphSeparator ParagraphSeparator ParagraphSeparator ParagraphSeparator 13

Символ, используемый для разделения абзацев.Character used to separate paragraphs. Принятое обозначение в Юникоде — "Zp" (separator, paragraph).Signified by the Unicode designation "Zp" (separator, paragraph). Значение равно 13.The value is 13.

PrivateUse PrivateUse PrivateUse PrivateUse 17

Символ для личного использования, значение которого в Юникоде находится в диапазоне от U+E000 до U+F8FF.Private-use character, with a Unicode value in the range U+E000 through U+F8FF. Принятое обозначение в Юникоде — "Co" (other, private use).Signified by the Unicode designation "Co" (other, private use). Значение равно 17.The value is 17.

SpaceSeparator SpaceSeparator SpaceSeparator SpaceSeparator 11

Символ пробела, не имеющий глифа, но не являющимся символом управления или форматирования.Space character, which has no glyph but is not a control or format character. Принятое обозначение в Юникоде — "Zs" (separator, space).Signified by the Unicode designation "Zs" (separator, space). Значение равно 11.The value is 11.

SpacingCombiningMark SpacingCombiningMark SpacingCombiningMark SpacingCombiningMark 6

Знак ненулевой ширины, который указывает на изменения базового символа и влияет на ширину глифа для этого базового символа.Spacing character that indicates modifications of a base character and affects the width of the glyph for that base character. Принятое обозначение в Юникоде — "Mc" (mark, spacing combining).Signified by the Unicode designation "Mc" (mark, spacing combining). Значение равно 6.The value is 6.

Surrogate Surrogate Surrogate Surrogate 16

Старший или младший замещающий символ.High surrogate or a low surrogate character. Значения кодов символов-заместителей находятся в диапазоне от D800 до DFFF.Surrogate code values are in the range U+D800 through U+DFFF. Принятое обозначение в Юникоде — "Cs" (other, surrogate).Signified by the Unicode designation "Cs" (other, surrogate). Значение равно 16.The value is 16.

TitlecaseLetter TitlecaseLetter TitlecaseLetter TitlecaseLetter 2

Буква регистра заголовка.Titlecase letter. Принятое обозначение в Юникоде — "Lt" (letter, titlecase).Signified by the Unicode designation "Lt" (letter, titlecase). Значение равно 2.The value is 2.

UppercaseLetter UppercaseLetter UppercaseLetter UppercaseLetter 0

Буква верхнего регистра.Uppercase letter. Принятое обозначение в Юникоде — "Lu" (letter, uppercase).Signified by the Unicode designation "Lu" (letter, uppercase). Значение равно 0.The value is 0.

Примеры

В следующем примере отображаются символы и соответствующие кодовые точки для символов в категории Упперкаселеттер.The following example displays the characters and their corresponding code points for characters in the UppercaseLetter category. Можно изменить пример, чтобы отобразить буквы в любой другой категории, заменив упперкаселеттер на интересующую категорию в назначении category переменной.You can modify the example to display the letters in any other category by replacing UppercaseLetter with the category of interest to you in the assignment to the category variable. Обратите внимание, что выходные данные некоторых категорий могут быть обширными.Note that the output for some categories can be extensive.

using System;
using System.Globalization;

public class Example
{
   public static void Main()
   {
      int ctr = 0;
      UnicodeCategory category = UnicodeCategory.UppercaseLetter;
      
      for (ushort codePoint = 0; codePoint < ushort.MaxValue; codePoint++) {
         Char ch = Convert.ToChar(codePoint);

         if (CharUnicodeInfo.GetUnicodeCategory(ch) == category) {
            if (ctr % 5 == 0)
               Console.WriteLine();
            Console.Write("{0} (U+{1:X4})     ", ch, codePoint);
            ctr++;
         } 
      }
      Console.WriteLine();
      Console.WriteLine("\n{0} characters are in the {1:G} category", 
                        ctr, category);   
   }
}
Imports System.Globalization

Module Example
   Public Sub Main()
      Dim ctr As Integer = 0
      Dim category As UnicodeCategory = UnicodeCategory.UppercaseLetter
      
      For codePoint As UShort = 0 To UShort.MaxValue - 1
         Dim ch As Char = Convert.ToChar(codePoint)

         If CharUnicodeInfo.GetUnicodeCategory(ch) = category Then
            If ctr Mod 5 = 0 Then Console.WriteLine()
            Console.Write("{0} (U+{1:X4})     ", ch, codePoint)
            ctr += 1
         End If 
      Next
      Console.WriteLine()
      Console.WriteLine()
      Console.WriteLine("{0} characters are in the {1:G} category", 
                        ctr, category)   
   End Sub
End Module

Комментарии

Член UnicodeCategory перечисления возвращается Char.GetUnicodeCategory методами и CharUnicodeInfo.GetUnicodeCategory .A member of the UnicodeCategory enumeration is returned by the Char.GetUnicodeCategory and CharUnicodeInfo.GetUnicodeCategory methods. Перечисление также используется для поддержки Char методов, таких как IsUpper(Char). UnicodeCategoryThe UnicodeCategory enumeration is also used to support Char methods, such as IsUpper(Char). Такие методы определяют, является ли указанный символ членом определенной общей категории Юникода.Such methods determine whether a specified character is a member of a particular Unicode general category. Общая категория Юникода определяет общую классификацию символа, то есть обозначение в виде типа буквы, десятичной цифры, разделителя, математического символа, пунктуации и т. д.A Unicode general category defines the broad classification of a character, that is, designation as a type of letter, decimal digit, separator, mathematical symbol, punctuation, and so on.

Это перечисление основано на стандарте Юникода версии 5,0.This enumeration is based on The Unicode Standard, version 5.0. Дополнительные сведения см. в подразделах "Формат файлов UCD" и "Значения общих категорий" в разделе База данных символов Юникода.For more information, see the "UCD File Format" and "General Category Values" subtopics at the Unicode Character Database.

Стандарт Unicode определяет следующее:The Unicode Standard defines the following:

Суррогатная пара представляет собой закодированное символьное представление для одного абстрактного символа, состоящего из последовательности двух единиц кода, где первая единица пары является старшим символом-заместителем, а второй — младшим символом-заместителем.A surrogate pair is a coded character representation for a single abstract character that consists of a sequence of two code units, where the first unit of the pair is a high surrogate and the second is a low surrogate. Старший суррогат — это кодовая точка Юникода в диапазоне U + D800 до U + DBFF, а младший символ-заместитель — это кодовая точка Юникода в диапазоне от U + DC00 до U + DFFF.A high surrogate is a Unicode code point in the range U+D800 through U+DBFF and a low surrogate is a Unicode code point in the range U+DC00 through U+DFFF.

Последовательность несамостоятельных символов представляет собой сочетание базового символа и одного или нескольких Объединенных символов.A combining character sequence is a combination of a base character and one or more combining characters. Суррогатная пара представляет базовый символ или присоединяемый символ.A surrogate pair represents a base character or a combining character. Несамостоятельный символ — это либо пробел, либо пробел.A combining character is either spacing or nonspacing. Комбинированный символ занимает место по отдельности при подготовке к просмотру, а несамостоятельный символ — нет.A spacing combining character takes up a spacing position by itself when rendered, while a nonspacing combining character does not. Диакритические знаки — это пример несамостоятельных символов.Diacritics are an example of nonspacing combining characters.

Буква-модификатора представляет собой свободный символ, который, как и несамостоятельный символ, указывает на изменения предшествующей буквы.A modifier letter is a free-standing spacing character that, like a combining character, indicates modifications of a preceding letter.

Заключенная в кавычки знак — это несамостоятельный символ, который окружает все предыдущие символы до базового символа включительно.An enclosing mark is a nonspacing combining character that surrounds all previous characters up to and including a base character.

Символ форматирования — это символ, который обычно не отображается, но влияет на макет текста или на работу с текстовыми процессами.A format character is a character that is not normally rendered but that affects the layout of text or the operation of text processes.

Стандарт Unicode определяет несколько вариантов для некоторых знаков препинания.The Unicode Standard defines several variations to some punctuation marks. Например, дефис может быть одним из нескольких значений кода, представляющих дефис, например U + 002D (дефис-минус) или U + 00AD (мягкий дефис) или u + 2010 (дефис) или U + 2011 (неразрывный дефис).For example, a hyphen can be one of several code values that represent a hyphen, such as U+002D (hyphen-minus) or U+00AD (soft hyphen) or U+2010 (hyphen) or U+2011 (nonbreaking hyphen). Это справедливо и для тире, пробелов и кавычек.The same is true for dashes, space characters, and quotation marks.

Стандарт Unicode также назначает коды представлениям десятичных цифр, характерных для конкретного скрипта или языка, например U + 0030 (цифра 0) и U + 0660 (Арабский — индийская цифра 0).The Unicode Standard also assigns codes to representations of decimal digits that are specific to a given script or language, for example, U+0030 (digit zero) and U+0660 (Arabic-Indic digit zero).

Применяется к

Дополнительно