UnicodeCategory Enumeração

Definição

Define a categoria Unicode de um caractere.Defines the Unicode category of a character.

public enum class UnicodeCategory
[System.Runtime.InteropServices.ComVisible(true)]
[System.Serializable]
public enum UnicodeCategory
type UnicodeCategory = 
Public Enum UnicodeCategory
Herança
UnicodeCategory
Atributos

Campos

ClosePunctuation 21

Caractere de fechamento de uma das marcas de pontuação paralelas, como parênteses, colchetes e chaves.Closing character of one of the paired punctuation marks, such as parentheses, square brackets, and braces. Demonstrado pela designação de Unicode “Pe” (pontuação, fechamento).Signified by the Unicode designation "Pe" (punctuation, close). O valor é 21.The value is 21.

ConnectorPunctuation 18

Caractere de pontuação de conector que conecta dois caracteres.Connector punctuation character that connects two characters. Demonstrado pela designação de Unicode “Pc” (pontuação, conector).Signified by the Unicode designation "Pc" (punctuation, connector). O valor é 18.The value is 18.

Control 14

Caractere de código de controle, com um valor Unicode de U+007F ou no intervalo de U+0000 a U+001F ou de U+0080 a U+009F.Control code character, with a Unicode value of U+007F or in the range U+0000 through U+001F or U+0080 through U+009F. Demonstrado pela designação de Unicode “Cc” (outros, controle).Signified by the Unicode designation "Cc" (other, control). O valor é 14.The value is 14.

CurrencySymbol 26

Caractere de símbolo de moeda.Currency symbol character. Demonstrado pela designação de Unicode “Sc” (símbolo, moeda).Signified by the Unicode designation "Sc" (symbol, currency). O valor é 26.The value is 26.

DashPunctuation 19

Caractere de traço ou hífen.Dash or hyphen character. Demonstrado pela designação de Unicode “Pd” (pontuação, traço).Signified by the Unicode designation "Pd" (punctuation, dash). O valor é 19.The value is 19.

DecimalDigitNumber 8

Caractere de dígito decimal, ou seja, um caractere no intervalo de 0 a 9.Decimal digit character, that is, a character in the range 0 through 9. Demonstrado pela designação de Unicode “Nd” (número, dígito decimal).Signified by the Unicode designation "Nd" (number, decimal digit). O valor é 8.The value is 8.

EnclosingMark 7

Circunscrever um caractere de marca, que é um caractere de combinação sem espaçamento ao redor de todos os caracteres anteriores um caractere base, inclusive.Enclosing mark character, which is a nonspacing combining character that surrounds all previous characters up to and including a base character. Demonstrado pela designação de Unicode “Me” (marca, fechamento).Signified by the Unicode designation "Me" (mark, enclosing). O valor é 7.The value is 7.

FinalQuotePunctuation 23

Caractere de aspas de fechamento ou final.Closing or final quotation mark character. Demonstrado pela designação de Unicode “Pf” (pontuação, aspas finais).Signified by the Unicode designation "Pf" (punctuation, final quote). O valor é 23.The value is 23.

Format 15

Caractere de formato que afeta o layout do texto ou a operação de processos de texto, mas que não é renderizado normalmente.Format character that affects the layout of text or the operation of text processes, but is not normally rendered. Demonstrado pela designação de Unicode “Cf” (outros, formato).Signified by the Unicode designation "Cf" (other, format). O valor é 15.The value is 15.

InitialQuotePunctuation 22

Caractere de aspas de abertura ou inicial.Opening or initial quotation mark character. Demonstrado pela designação de Unicode “Pi” (pontuação, aspas iniciais).Signified by the Unicode designation "Pi" (punctuation, initial quote). O valor é 22.The value is 22.

LetterNumber 9

Número representado por uma letra, em vez de um dígito decimal, por exemplo, o numeral romano para cinco, que é “V”.Number represented by a letter, instead of a decimal digit, for example, the Roman numeral for five, which is "V". O indicador é demonstrado pela designação de Unicode “Nl” (número, letra).The indicator is signified by the Unicode designation "Nl" (number, letter). O valor é 9.The value is 9.

LineSeparator 12

Caractere usado para separar linhas de texto.Character that is used to separate lines of text. Demonstrado pela designação de Unicode “Zl” (separador, linha).Signified by the Unicode designation "Zl" (separator, line). O valor é 12.The value is 12.

LowercaseLetter 1

Letra minúscula.Lowercase letter. Demonstrado pela designação de Unicode “Ll” (letra, minúscula).Signified by the Unicode designation "Ll" (letter, lowercase). O valor é 1.The value is 1.

MathSymbol 25

Caractere de símbolo matemático, como “+” ou “=”.Mathematical symbol character, such as "+" or "= ". Demonstrado pela designação de Unicode “Sm” (símbolo, matemática).Signified by the Unicode designation "Sm" (symbol, math). O valor é 25.The value is 25.

ModifierLetter 3

Caractere de letra modificadora, que é um caractere de espaçamento independente que indica as modificações de uma letra anterior.Modifier letter character, which is free-standing spacing character that indicates modifications of a preceding letter. Demonstrado pela designação de Unicode “Lm” (letra, modificador).Signified by the Unicode designation "Lm" (letter, modifier). O valor é 3.The value is 3.

ModifierSymbol 27

Caractere de símbolo modificador, que indica as modificações de caracteres ao redor.Modifier symbol character, which indicates modifications of surrounding characters. Por exemplo, a barra de fração indica que o número à esquerda é o numerador e o número à direita, o denominador.For example, the fraction slash indicates that the number to the left is the numerator and the number to the right is the denominator. O indicador é demonstrado pela designação de Unicode “Sk” (símbolo, modificador).The indicator is signified by the Unicode designation "Sk" (symbol, modifier). O valor é 27.The value is 27.

NonSpacingMark 5

Caractere sem espaçamento que indica as modificações de um caractere base.Nonspacing character that indicates modifications of a base character. Demonstrado pela designação de Unicode “Mn” (marca, não espaçamento).Signified by the Unicode designation "Mn" (mark, nonspacing). O valor é 5.The value is 5.

OpenPunctuation 20

Caractere de abertura de uma das marcas de pontuação paralelas, como parênteses, colchetes e chaves.Opening character of one of the paired punctuation marks, such as parentheses, square brackets, and braces. Demonstrado pela designação de Unicode “Ps” (pontuação, abertura).Signified by the Unicode designation "Ps" (punctuation, open). O valor é 20.The value is 20.

OtherLetter 4

Letra que não é uma letra maiúscula, uma letra minúscula, uma letra de capitalização de título nem uma letra de modificador.Letter that is not an uppercase letter, a lowercase letter, a titlecase letter, or a modifier letter. Demonstrado pela designação de Unicode “Lo” (letra, outros).Signified by the Unicode designation "Lo" (letter, other). O valor é 4.The value is 4.

OtherNotAssigned 29

Caractere que não está atribuído a nenhuma categoria Unicode.Character that is not assigned to any Unicode category. Demonstrado pela designação de Unicode “Cn” (outros, não atribuído).Signified by the Unicode designation "Cn" (other, not assigned). O valor é 29.The value is 29.

OtherNumber 10

Número que não é um dígito decimal nem um número de letra, por exemplo, a fração 1/2.Number that is neither a decimal digit nor a letter number, for example, the fraction 1/2. O indicador é demonstrado pela designação de Unicode “No” (número, outros).The indicator is signified by the Unicode designation "No" (number, other). O valor é 10.The value is 10.

OtherPunctuation 24

Caractere de pontuação que não é um conector, um traço, pontuação de abertura, pontuação de fechamento, aspas iniciais nem aspas finais.Punctuation character that is not a connector, a dash, open punctuation, close punctuation, an initial quote, or a final quote. Demonstrado pela designação de Unicode “Po” (pontuação, outros).Signified by the Unicode designation "Po" (punctuation, other). O valor é 24.The value is 24.

OtherSymbol 28

Caractere de símbolo que não é um símbolo matemático, símbolo de moeda ou símbolo de modificador.Symbol character that is not a mathematical symbol, a currency symbol or a modifier symbol. Demonstrado pela designação de Unicode “So” (símbolo, outros).Signified by the Unicode designation "So" (symbol, other). O valor é 28.The value is 28.

ParagraphSeparator 13

Caractere usado para separar parágrafos.Character used to separate paragraphs. Demonstrado pela designação de Unicode “Zp” (separador, parágrafo).Signified by the Unicode designation "Zp" (separator, paragraph). O valor é 13.The value is 13.

PrivateUse 17

Caractere de uso particular, com um valor Unicode no intervalo de U+E000 a U+F8FF.Private-use character, with a Unicode value in the range U+E000 through U+F8FF. Demonstrado pela designação de Unicode “Co” (outros, uso particular).Signified by the Unicode designation "Co" (other, private use). O valor é 17.The value is 17.

SpaceSeparator 11

Caractere de espaço, que não tem glifo, mas que não é um caractere de controle nem de formato.Space character, which has no glyph but is not a control or format character. Demonstrado pela designação de Unicode "Zs" (separador, espaço).Signified by the Unicode designation "Zs" (separator, space). O valor é 11.The value is 11.

SpacingCombiningMark 6

Caractere de espaçamento que indica as modificações de um caractere base e afeta a largura do glifo desse caractere base.Spacing character that indicates modifications of a base character and affects the width of the glyph for that base character. Demonstrado pela designação de Unicode “Mc” (marca, combinação de espaçamento).Signified by the Unicode designation "Mc" (mark, spacing combining). O valor é 6.The value is 6.

Surrogate 16

Caractere alternativo alto ou baixo.High surrogate or a low surrogate character. Os valores de código alternativos estão no intervalo de U+D800 a U+DFFF.Surrogate code values are in the range U+D800 through U+DFFF. Demonstrado pela designação de Unicode “Cs” (outros, alternativo).Signified by the Unicode designation "Cs" (other, surrogate). O valor é 16.The value is 16.

TitlecaseLetter 2

Letra de capitalização de título.Titlecase letter. Demonstrado pela designação de Unicode “Lt” (letra, capitalização de título).Signified by the Unicode designation "Lt" (letter, titlecase). O valor é 2.The value is 2.

UppercaseLetter 0

Letra maiúscula.Uppercase letter. Demonstrado pela designação de Unicode “Lu” (letra, maiúscula).Signified by the Unicode designation "Lu" (letter, uppercase). O valor é 0.The value is 0.

Exemplos

O exemplo a seguir exibe os caracteres e seus pontos de código correspondentes para caracteres na categoria UppercaseLetter.The following example displays the characters and their corresponding code points for characters in the UppercaseLetter category. Você pode modificar o exemplo para exibir as letras em qualquer outra categoria, substituindo UppercaseLetter pela categoria de seu interesse na atribuição à category variável.You can modify the example to display the letters in any other category by replacing UppercaseLetter with the category of interest to you in the assignment to the category variable. Observe que a saída de algumas categorias pode ser extensa.Note that the output for some categories can be extensive.

using System;
using System.Globalization;

public class Example
{
   public static void Main()
   {
      int ctr = 0;
      UnicodeCategory category = UnicodeCategory.UppercaseLetter;
      
      for (ushort codePoint = 0; codePoint < ushort.MaxValue; codePoint++) {
         Char ch = Convert.ToChar(codePoint);

         if (CharUnicodeInfo.GetUnicodeCategory(ch) == category) {
            if (ctr % 5 == 0)
               Console.WriteLine();
            Console.Write("{0} (U+{1:X4})     ", ch, codePoint);
            ctr++;
         } 
      }
      Console.WriteLine();
      Console.WriteLine("\n{0} characters are in the {1:G} category", 
                        ctr, category);   
   }
}
Imports System.Globalization

Module Example
   Public Sub Main()
      Dim ctr As Integer = 0
      Dim category As UnicodeCategory = UnicodeCategory.UppercaseLetter
      
      For codePoint As UShort = 0 To UShort.MaxValue - 1
         Dim ch As Char = Convert.ToChar(codePoint)

         If CharUnicodeInfo.GetUnicodeCategory(ch) = category Then
            If ctr Mod 5 = 0 Then Console.WriteLine()
            Console.Write("{0} (U+{1:X4})     ", ch, codePoint)
            ctr += 1
         End If 
      Next
      Console.WriteLine()
      Console.WriteLine()
      Console.WriteLine("{0} characters are in the {1:G} category", 
                        ctr, category)   
   End Sub
End Module

Comentários

Um membro da UnicodeCategory enumeração é retornado Char.GetUnicodeCategory pelos métodos e CharUnicodeInfo.GetUnicodeCategory .A member of the UnicodeCategory enumeration is returned by the Char.GetUnicodeCategory and CharUnicodeInfo.GetUnicodeCategory methods. A UnicodeCategory Enumeração também é usada para oferecer Char suporte a métodos, IsUpper(Char)como.The UnicodeCategory enumeration is also used to support Char methods, such as IsUpper(Char). Esses métodos determinam se um caractere especificado é um membro de uma determinada categoria Unicode geral.Such methods determine whether a specified character is a member of a particular Unicode general category. Uma categoria Unicode geral define a classificação ampla de um caractere, ou seja, designação como um tipo de letra, dígito decimal, separador, símbolo matemático, pontuação e assim por diante.A Unicode general category defines the broad classification of a character, that is, designation as a type of letter, decimal digit, separator, mathematical symbol, punctuation, and so on.

Essa enumeração é baseada no padrão Unicode, versão 5,0.This enumeration is based on The Unicode Standard, version 5.0. Para obter mais informações, consulte os subtópicos "Formato de arquivo UCD" e "Valores de categoria geral" no Banco de dados de caractere Unicode.For more information, see the "UCD File Format" and "General Category Values" subtopics at the Unicode Character Database.

O padrão Unicode define o seguinte:The Unicode Standard defines the following:

Um par substituto é uma representação de caractere codificado para um único caractere abstrato que consiste em uma sequência de duas unidades de código, em que a primeira unidade do par é um substituto alto e o segundo é um substituto baixo.A surrogate pair is a coded character representation for a single abstract character that consists of a sequence of two code units, where the first unit of the pair is a high surrogate and the second is a low surrogate. Um substituto alto é um ponto de código Unicode no intervalo de U + D800 até U + DBFF e um substituto baixo é um ponto de código Unicode no intervalo de U + DC00 até U + DFFF.A high surrogate is a Unicode code point in the range U+D800 through U+DBFF and a low surrogate is a Unicode code point in the range U+DC00 through U+DFFF.

Uma sequência de caracteres de combinação é uma combinação de um caractere base e um ou mais caracteres combináveis.A combining character sequence is a combination of a base character and one or more combining characters. Um par substituto representa um caractere base ou um caractere de combinação.A surrogate pair represents a base character or a combining character. Um caractere de combinação é espaçamento ou não espaçamento.A combining character is either spacing or nonspacing. Um caractere de combinação de espaçamento ocupa uma posição de espaçamento por si só quando renderizado, enquanto um caractere de não espaçamento não tem espaço.A spacing combining character takes up a spacing position by itself when rendered, while a nonspacing combining character does not. Sinais diacríticos são um exemplo de caracteres que não têm espaçamento.Diacritics are an example of nonspacing combining characters.

Uma letra modificadora é um caractere de espaçamento livre que, como um caractere de combinação, indica modificações de uma letra anterior.A modifier letter is a free-standing spacing character that, like a combining character, indicates modifications of a preceding letter.

Uma marca de delimitação é um caractere de não espaçamento que envolve todos os caracteres anteriores até e incluindo um caractere base.An enclosing mark is a nonspacing combining character that surrounds all previous characters up to and including a base character.

Um caractere de formato é um caractere que normalmente não é processado, mas que afeta o layout do texto ou a operação de processos de texto.A format character is a character that is not normally rendered but that affects the layout of text or the operation of text processes.

O padrão Unicode define várias variações para algumas marcas de pontuação.The Unicode Standard defines several variations to some punctuation marks. Por exemplo, um hífen pode ser um dos vários valores de código que representam um hífen, como U + 002D (hífen-subtração) ou U + 00AD (hífen flexível) ou U + 2010 (hífen) ou U + 2011 (hífen não separável).For example, a hyphen can be one of several code values that represent a hyphen, such as U+002D (hyphen-minus) or U+00AD (soft hyphen) or U+2010 (hyphen) or U+2011 (nonbreaking hyphen). O mesmo é verdadeiro para traços, caracteres de espaço e aspas.The same is true for dashes, space characters, and quotation marks.

O padrão Unicode também atribui códigos a representações de dígitos decimais que são específicos de um determinado script ou idioma, por exemplo, U + 0030 (dígito zero) e U + 0660 (dígito indo-arábico zero).The Unicode Standard also assigns codes to representations of decimal digits that are specific to a given script or language, for example, U+0030 (digit zero) and U+0660 (Arabic-Indic digit zero).

Aplica-se a

Veja também