UnicodeCategory UnicodeCategory UnicodeCategory UnicodeCategory Enum

Definição

Define a categoria Unicode de um caractere.Defines the Unicode category of a character.

public enum class UnicodeCategory
[System.Runtime.InteropServices.ComVisible(true)]
[System.Serializable]
public enum UnicodeCategory
type UnicodeCategory = 
Public Enum UnicodeCategory
Herança
UnicodeCategoryUnicodeCategoryUnicodeCategoryUnicodeCategory
Atributos

Campos

ClosePunctuation ClosePunctuation ClosePunctuation ClosePunctuation 21

Caractere de fechamento de uma das marcas de pontuação paralelas, como parênteses, colchetes e chaves.Closing character of one of the paired punctuation marks, such as parentheses, square brackets, and braces. Demonstrado pela designação de Unicode “Pe” (pontuação, fechamento).Signified by the Unicode designation "Pe" (punctuation, close). O valor é 21.The value is 21.

ConnectorPunctuation ConnectorPunctuation ConnectorPunctuation ConnectorPunctuation 18

Caractere de pontuação de conector que conecta dois caracteres.Connector punctuation character that connects two characters. Demonstrado pela designação de Unicode “Pc” (pontuação, conector).Signified by the Unicode designation "Pc" (punctuation, connector). O valor é 18.The value is 18.

Control Control Control Control 14

Caractere de código de controle, com um valor Unicode de U+007F ou no intervalo de U+0000 a U+001F ou de U+0080 a U+009F.Control code character, with a Unicode value of U+007F or in the range U+0000 through U+001F or U+0080 through U+009F. Demonstrado pela designação de Unicode “Cc” (outros, controle).Signified by the Unicode designation "Cc" (other, control). O valor é 14.The value is 14.

CurrencySymbol CurrencySymbol CurrencySymbol CurrencySymbol 26

Caractere de símbolo de moeda.Currency symbol character. Demonstrado pela designação de Unicode “Sc” (símbolo, moeda).Signified by the Unicode designation "Sc" (symbol, currency). O valor é 26.The value is 26.

DashPunctuation DashPunctuation DashPunctuation DashPunctuation 19

Caractere de traço ou hífen.Dash or hyphen character. Demonstrado pela designação de Unicode “Pd” (pontuação, traço).Signified by the Unicode designation "Pd" (punctuation, dash). O valor é 19.The value is 19.

DecimalDigitNumber DecimalDigitNumber DecimalDigitNumber DecimalDigitNumber 8

Caractere de dígito decimal, ou seja, um caractere no intervalo de 0 a 9.Decimal digit character, that is, a character in the range 0 through 9. Demonstrado pela designação de Unicode “Nd” (número, dígito decimal).Signified by the Unicode designation "Nd" (number, decimal digit). O valor é 8.The value is 8.

EnclosingMark EnclosingMark EnclosingMark EnclosingMark 7

Circunscrever um caractere de marca, que é um caractere de combinação sem espaçamento ao redor de todos os caracteres anteriores um caractere base, inclusive.Enclosing mark character, which is a nonspacing combining character that surrounds all previous characters up to and including a base character. Demonstrado pela designação de Unicode “Me” (marca, fechamento).Signified by the Unicode designation "Me" (mark, enclosing). O valor é 7.The value is 7.

FinalQuotePunctuation FinalQuotePunctuation FinalQuotePunctuation FinalQuotePunctuation 23

Caractere de aspas de fechamento ou final.Closing or final quotation mark character. Demonstrado pela designação de Unicode “Pf” (pontuação, aspas finais).Signified by the Unicode designation "Pf" (punctuation, final quote). O valor é 23.The value is 23.

Format Format Format Format 15

Caractere de formato que afeta o layout do texto ou a operação de processos de texto, mas que não é renderizado normalmente.Format character that affects the layout of text or the operation of text processes, but is not normally rendered. Demonstrado pela designação de Unicode “Cf” (outros, formato).Signified by the Unicode designation "Cf" (other, format). O valor é 15.The value is 15.

InitialQuotePunctuation InitialQuotePunctuation InitialQuotePunctuation InitialQuotePunctuation 22

Caractere de aspas de abertura ou inicial.Opening or initial quotation mark character. Demonstrado pela designação de Unicode “Pi” (pontuação, aspas iniciais).Signified by the Unicode designation "Pi" (punctuation, initial quote). O valor é 22.The value is 22.

LetterNumber LetterNumber LetterNumber LetterNumber 9

Número representado por uma letra, em vez de um dígito decimal, por exemplo, o numeral romano para cinco, que é “V”.Number represented by a letter, instead of a decimal digit, for example, the Roman numeral for five, which is "V". O indicador é demonstrado pela designação de Unicode “Nl” (número, letra).The indicator is signified by the Unicode designation "Nl" (number, letter). O valor é 9.The value is 9.

LineSeparator LineSeparator LineSeparator LineSeparator 12

Caractere usado para separar linhas de texto.Character that is used to separate lines of text. Demonstrado pela designação de Unicode “Zl” (separador, linha).Signified by the Unicode designation "Zl" (separator, line). O valor é 12.The value is 12.

LowercaseLetter LowercaseLetter LowercaseLetter LowercaseLetter 1

Letra minúscula.Lowercase letter. Demonstrado pela designação de Unicode “Ll” (letra, minúscula).Signified by the Unicode designation "Ll" (letter, lowercase). O valor é 1.The value is 1.

MathSymbol MathSymbol MathSymbol MathSymbol 25

Caractere de símbolo matemático, como “+” ou “=”.Mathematical symbol character, such as "+" or "= ". Demonstrado pela designação de Unicode “Sm” (símbolo, matemática).Signified by the Unicode designation "Sm" (symbol, math). O valor é 25.The value is 25.

ModifierLetter ModifierLetter ModifierLetter ModifierLetter 3

Caractere de letra modificadora, que é um caractere de espaçamento independente que indica as modificações de uma letra anterior.Modifier letter character, which is free-standing spacing character that indicates modifications of a preceding letter. Demonstrado pela designação de Unicode “Lm” (letra, modificador).Signified by the Unicode designation "Lm" (letter, modifier). O valor é 3.The value is 3.

ModifierSymbol ModifierSymbol ModifierSymbol ModifierSymbol 27

Caractere de símbolo modificador, que indica as modificações de caracteres ao redor.Modifier symbol character, which indicates modifications of surrounding characters. Por exemplo, a barra de fração indica que o número à esquerda é o numerador e o número à direita, o denominador.For example, the fraction slash indicates that the number to the left is the numerator and the number to the right is the denominator. O indicador é demonstrado pela designação de Unicode “Sk” (símbolo, modificador).The indicator is signified by the Unicode designation "Sk" (symbol, modifier). O valor é 27.The value is 27.

NonSpacingMark NonSpacingMark NonSpacingMark NonSpacingMark 5

Caractere sem espaçamento que indica as modificações de um caractere base.Nonspacing character that indicates modifications of a base character. Demonstrado pela designação de Unicode “Mn” (marca, não espaçamento).Signified by the Unicode designation "Mn" (mark, nonspacing). O valor é 5.The value is 5.

OpenPunctuation OpenPunctuation OpenPunctuation OpenPunctuation 20

Caractere de abertura de uma das marcas de pontuação paralelas, como parênteses, colchetes e chaves.Opening character of one of the paired punctuation marks, such as parentheses, square brackets, and braces. Demonstrado pela designação de Unicode “Ps” (pontuação, abertura).Signified by the Unicode designation "Ps" (punctuation, open). O valor é 20.The value is 20.

OtherLetter OtherLetter OtherLetter OtherLetter 4

Letra que não é uma letra maiúscula, uma letra minúscula, uma letra de capitalização de título nem uma letra de modificador.Letter that is not an uppercase letter, a lowercase letter, a titlecase letter, or a modifier letter. Demonstrado pela designação de Unicode “Lo” (letra, outros).Signified by the Unicode designation "Lo" (letter, other). O valor é 4.The value is 4.

OtherNotAssigned OtherNotAssigned OtherNotAssigned OtherNotAssigned 29

Caractere que não está atribuído a nenhuma categoria Unicode.Character that is not assigned to any Unicode category. Demonstrado pela designação de Unicode “Cn” (outros, não atribuído).Signified by the Unicode designation "Cn" (other, not assigned). O valor é 29.The value is 29.

OtherNumber OtherNumber OtherNumber OtherNumber 10

Número que não é um dígito decimal nem um número de letra, por exemplo, a fração 1/2.Number that is neither a decimal digit nor a letter number, for example, the fraction 1/2. O indicador é demonstrado pela designação de Unicode “No” (número, outros).The indicator is signified by the Unicode designation "No" (number, other). O valor é 10.The value is 10.

OtherPunctuation OtherPunctuation OtherPunctuation OtherPunctuation 24

Caractere de pontuação que não é um conector, um traço, pontuação de abertura, pontuação de fechamento, aspas iniciais nem aspas finais.Punctuation character that is not a connector, a dash, open punctuation, close punctuation, an initial quote, or a final quote. Demonstrado pela designação de Unicode “Po” (pontuação, outros).Signified by the Unicode designation "Po" (punctuation, other). O valor é 24.The value is 24.

OtherSymbol OtherSymbol OtherSymbol OtherSymbol 28

Caractere de símbolo que não é um símbolo matemático, símbolo de moeda ou símbolo de modificador.Symbol character that is not a mathematical symbol, a currency symbol or a modifier symbol. Demonstrado pela designação de Unicode “So” (símbolo, outros).Signified by the Unicode designation "So" (symbol, other). O valor é 28.The value is 28.

ParagraphSeparator ParagraphSeparator ParagraphSeparator ParagraphSeparator 13

Caractere usado para separar parágrafos.Character used to separate paragraphs. Demonstrado pela designação de Unicode “Zp” (separador, parágrafo).Signified by the Unicode designation "Zp" (separator, paragraph). O valor é 13.The value is 13.

PrivateUse PrivateUse PrivateUse PrivateUse 17

Caractere de uso particular, com um valor Unicode no intervalo de U+E000 a U+F8FF.Private-use character, with a Unicode value in the range U+E000 through U+F8FF. Demonstrado pela designação de Unicode “Co” (outros, uso particular).Signified by the Unicode designation "Co" (other, private use). O valor é 17.The value is 17.

SpaceSeparator SpaceSeparator SpaceSeparator SpaceSeparator 11

Caractere de espaço, que não tem glifo, mas que não é um caractere de controle nem de formato.Space character, which has no glyph but is not a control or format character. Demonstrado pela designação de Unicode "Zs" (separador, espaço).Signified by the Unicode designation "Zs" (separator, space). O valor é 11.The value is 11.

SpacingCombiningMark SpacingCombiningMark SpacingCombiningMark SpacingCombiningMark 6

Caractere de espaçamento que indica as modificações de um caractere base e afeta a largura do glifo desse caractere base.Spacing character that indicates modifications of a base character and affects the width of the glyph for that base character. Demonstrado pela designação de Unicode “Mc” (marca, combinação de espaçamento).Signified by the Unicode designation "Mc" (mark, spacing combining). O valor é 6.The value is 6.

Surrogate Surrogate Surrogate Surrogate 16

Caractere alternativo alto ou baixo.High surrogate or a low surrogate character. Os valores de código alternativos estão no intervalo de U+D800 a U+DFFF.Surrogate code values are in the range U+D800 through U+DFFF. Demonstrado pela designação de Unicode “Cs” (outros, alternativo).Signified by the Unicode designation "Cs" (other, surrogate). O valor é 16.The value is 16.

TitlecaseLetter TitlecaseLetter TitlecaseLetter TitlecaseLetter 2

Letra de capitalização de título.Titlecase letter. Demonstrado pela designação de Unicode “Lt” (letra, capitalização de título).Signified by the Unicode designation "Lt" (letter, titlecase). O valor é 2.The value is 2.

UppercaseLetter UppercaseLetter UppercaseLetter UppercaseLetter 0

Letra maiúscula.Uppercase letter. Demonstrado pela designação de Unicode “Lu” (letra, maiúscula).Signified by the Unicode designation "Lu" (letter, uppercase). O valor é 0.The value is 0.

Exemplos

O exemplo a seguir exibe os caracteres e seus pontos de código correspondente para os caracteres na categoria UppercaseLetter.The following example displays the characters and their corresponding code points for characters in the UppercaseLetter category. Você pode modificar o exemplo para exibir as letras em qualquer outra categoria, substituindo UppercaseLetter com a categoria do seu interesse na atribuição para o category variável.You can modify the example to display the letters in any other category by replacing UppercaseLetter with the category of interest to you in the assignment to the category variable. Observe que a saída para algumas categorias pode ser abrangente.Note that the output for some categories can be extensive.

using System;
using System.Globalization;

public class Example
{
   public static void Main()
   {
      int ctr = 0;
      UnicodeCategory category = UnicodeCategory.UppercaseLetter;
      
      for (ushort codePoint = 0; codePoint < ushort.MaxValue; codePoint++) {
         Char ch = Convert.ToChar(codePoint);

         if (CharUnicodeInfo.GetUnicodeCategory(ch) == category) {
            if (ctr % 5 == 0)
               Console.WriteLine();
            Console.Write("{0} (U+{1:X4})     ", ch, codePoint);
            ctr++;
         } 
      }
      Console.WriteLine();
      Console.WriteLine("\n{0} characters are in the {1:G} category", 
                        ctr, category);   
   }
}
Imports System.Globalization

Module Example
   Public Sub Main()
      Dim ctr As Integer = 0
      Dim category As UnicodeCategory = UnicodeCategory.UppercaseLetter
      
      For codePoint As UShort = 0 To UShort.MaxValue - 1
         Dim ch As Char = Convert.ToChar(codePoint)

         If CharUnicodeInfo.GetUnicodeCategory(ch) = category Then
            If ctr Mod 5 = 0 Then Console.WriteLine()
            Console.Write("{0} (U+{1:X4})     ", ch, codePoint)
            ctr += 1
         End If 
      Next
      Console.WriteLine()
      Console.WriteLine()
      Console.WriteLine("{0} characters are in the {1:G} category", 
                        ctr, category)   
   End Sub
End Module

Comentários

Um membro do UnicodeCategory enumeração é retornada pelo Char.GetUnicodeCategory e CharUnicodeInfo.GetUnicodeCategory métodos.A member of the UnicodeCategory enumeration is returned by the Char.GetUnicodeCategory and CharUnicodeInfo.GetUnicodeCategory methods. O UnicodeCategory enumeração também é usada para suportar Char métodos, tais como IsUpper(Char).The UnicodeCategory enumeration is also used to support Char methods, such as IsUpper(Char). Esses métodos determinam se um caractere especificado é um membro de uma determinada categoria geral de Unicode.Such methods determine whether a specified character is a member of a particular Unicode general category. Uma categoria Unicode geral define a abrangente classificação de um caractere, ou seja, designação como um tipo de letra, dígito decimal, separador, símbolo matemático, pontuação e assim por diante.A Unicode general category defines the broad classification of a character, that is, designation as a type of letter, decimal digit, separator, mathematical symbol, punctuation, and so on.

Esta enumeração baseia-se no padrão Unicode, versão 5.0.This enumeration is based on The Unicode Standard, version 5.0. Para obter mais informações, consulte os subtópicos "Formato de arquivo UCD" e "Valores de categoria geral" no Banco de dados de caractere Unicode.For more information, see the "UCD File Format" and "General Category Values" subtopics at the Unicode Character Database.

O padrão Unicode define o seguinte:The Unicode Standard defines the following:

Um par substituto é uma representação de caracteres codificado para um único caractere abstrato que consiste em uma sequência de duas unidades de código, em que a primeira unidade do par é um substituto alto e o segundo é um substituto baixo.A surrogate pair is a coded character representation for a single abstract character that consists of a sequence of two code units, where the first unit of the pair is a high surrogate and the second is a low surrogate. Um substituto alto é um ponto de código Unicode no intervalo de U+D800 a U + DBFF e um substituto baixo é um ponto de código Unicode no intervalo U+DC00 a U + DFFF.A high surrogate is a Unicode code point in the range U+D800 through U+DBFF and a low surrogate is a Unicode code point in the range U+DC00 through U+DFFF.

Uma combinação de sequência de caracteres é uma combinação de um caractere base e um ou mais caracteres de combinação.A combining character sequence is a combination of a base character and one or more combining characters. Um par substituto representa um caractere base ou um caractere de combinação.A surrogate pair represents a base character or a combining character. Um caractere de combinação é o espaçamento ou sem espaçamento.A combining character is either spacing or nonspacing. Um caractere de combinação de espaçamento ocupa uma posição de espaçamento por si só quando renderizados, enquanto um sem espaçamento combinando caractere não.A spacing combining character takes up a spacing position by itself when rendered, while a nonspacing combining character does not. Sinais diacríticos são um exemplo de sem espaçamento caracteres sem espaçamento.Diacritics are an example of nonspacing combining characters.

Uma letra de modificador é um caractere de espaçamento independente que, como um caractere de combinação, indica as modificações de uma letra anterior.A modifier letter is a free-standing spacing character that, like a combining character, indicates modifications of a preceding letter.

Uma marca de fechamento é um sem espaçamento a combinação de caracteres ao redor de todos os caracteres anteriores até e incluindo um caractere base.An enclosing mark is a nonspacing combining character that surrounds all previous characters up to and including a base character.

Um caractere de formato é um caractere que normalmente não é processado, mas que afeta o layout do texto ou a operação de processos de texto.A format character is a character that is not normally rendered but that affects the layout of text or the operation of text processes.

O padrão Unicode define diversas variações para alguns sinais de pontuação.The Unicode Standard defines several variations to some punctuation marks. Por exemplo, um hífen pode ser um dos vários valores de código que representam um hífen, como a U + 002D (hífen-menos) ou U + 00AD (hífen) ou U + 2010 (hífen) ou U + 2011 (hífen imediatas ou não).For example, a hyphen can be one of several code values that represent a hyphen, such as U+002D (hyphen-minus) or U+00AD (soft hyphen) or U+2010 (hyphen) or U+2011 (nonbreaking hyphen). O mesmo é verdadeiro para traços, os caracteres de espaço e as aspas.The same is true for dashes, space characters, and quotation marks.

O padrão Unicode atribui também códigos às representações dos dígitos decimais que são específicas a um determinado script ou idioma, por exemplo, u+0030 (dígito zero) e U + 0660 (Dígito indo-arábico zero).The Unicode Standard also assigns codes to representations of decimal digits that are specific to a given script or language, for example, U+0030 (digit zero) and U+0660 (Arabic-Indic digit zero).

Aplica-se a

Veja também