UnicodeCategory UnicodeCategory UnicodeCategory UnicodeCategory Enum

Définition

Définit la catégorie Unicode d'un caractère.Defines the Unicode category of a character.

public enum class UnicodeCategory
[System.Runtime.InteropServices.ComVisible(true)]
[System.Serializable]
public enum UnicodeCategory
type UnicodeCategory = 
Public Enum UnicodeCategory
Héritage
UnicodeCategoryUnicodeCategoryUnicodeCategoryUnicodeCategory
Attributs

Champs

ClosePunctuation ClosePunctuation ClosePunctuation ClosePunctuation 21

Caractère fermant de l'un des signes de ponctuation allant de pair, tels que les parenthèses, les crochets et les accolades.Closing character of one of the paired punctuation marks, such as parentheses, square brackets, and braces. Signifié par la désignation Unicode « Pe » (punctuation, close).Signified by the Unicode designation "Pe" (punctuation, close). La valeur est 21.The value is 21.

ConnectorPunctuation ConnectorPunctuation ConnectorPunctuation ConnectorPunctuation 18

Caractère de ponctuation de connecteur qui connecte deux caractères.Connector punctuation character that connects two characters. Signifié par la désignation Unicode « Pc » (punctuation, connector).Signified by the Unicode designation "Pc" (punctuation, connector). La valeur est 18.The value is 18.

Control Control Control Control 14

Caractère de code de contrôle avec une valeur Unicode de U+007F ou comprise dans la plage de U+0000 à U+001F ou de U+0080 à U+009F.Control code character, with a Unicode value of U+007F or in the range U+0000 through U+001F or U+0080 through U+009F. Signifié par la désignation Unicode « Cc » (other, control).Signified by the Unicode designation "Cc" (other, control). La valeur est 14.The value is 14.

CurrencySymbol CurrencySymbol CurrencySymbol CurrencySymbol 26

Caractère de symbole monétaire.Currency symbol character. Signifié par la désignation Unicode « Sc » (symbol, currency).Signified by the Unicode designation "Sc" (symbol, currency). La valeur est 26.The value is 26.

DashPunctuation DashPunctuation DashPunctuation DashPunctuation 19

Tiret ou trait d'union.Dash or hyphen character. Signifié par la désignation Unicode « Pd » (punctuation, dash).Signified by the Unicode designation "Pd" (punctuation, dash). La valeur est 19.The value is 19.

DecimalDigitNumber DecimalDigitNumber DecimalDigitNumber DecimalDigitNumber 8

Caractère numérique décimal, autrement dit chiffre compris entre 0 et 9.Decimal digit character, that is, a character in the range 0 through 9. Signifié par la désignation Unicode « Nd » (number, decimal digit).Signified by the Unicode designation "Nd" (number, decimal digit). La valeur est 8.The value is 8.

EnclosingMark EnclosingMark EnclosingMark EnclosingMark 7

Caractère englobant qui est un caractère d'association sans espacement qui entoure tous les caractères précédents jusqu'à un caractère de base (inclus).Enclosing mark character, which is a nonspacing combining character that surrounds all previous characters up to and including a base character. Signifié par la désignation Unicode « Me » (mark, enclosing).Signified by the Unicode designation "Me" (mark, enclosing). La valeur est 7.The value is 7.

FinalQuotePunctuation FinalQuotePunctuation FinalQuotePunctuation FinalQuotePunctuation 23

Guillemet fermant ou final.Closing or final quotation mark character. Signifié par la désignation Unicode « Pf » (punctuation, final quote).Signified by the Unicode designation "Pf" (punctuation, final quote). La valeur est 23.The value is 23.

Format Format Format Format 15

Caractère de mise en forme qui affecte la présentation du texte ou l'opération des processus de texte mais qui n'est normalement pas rendu.Format character that affects the layout of text or the operation of text processes, but is not normally rendered. Signifié par la désignation Unicode « Cf » (other, format).Signified by the Unicode designation "Cf" (other, format). La valeur est 15.The value is 15.

InitialQuotePunctuation InitialQuotePunctuation InitialQuotePunctuation InitialQuotePunctuation 22

Guillemet ouvrant ou initial.Opening or initial quotation mark character. Signifié par la désignation Unicode « Pi » (punctuation, initial quote).Signified by the Unicode designation "Pi" (punctuation, initial quote). La valeur est 22.The value is 22.

LetterNumber LetterNumber LetterNumber LetterNumber 9

Nombre représenté par une lettre au lieu d'un chiffre décimal, par exemple, le chiffre romain « V » correspondant au chiffre cinq.Number represented by a letter, instead of a decimal digit, for example, the Roman numeral for five, which is "V". L'indicateur est signifié par la désignation Unicode « Nl » (number, letter).The indicator is signified by the Unicode designation "Nl" (number, letter). La valeur est 9.The value is 9.

LineSeparator LineSeparator LineSeparator LineSeparator 12

Caractère utilisé pour séparer les lignes de texte.Character that is used to separate lines of text. Signifié par la désignation Unicode « Zl » (separator, line).Signified by the Unicode designation "Zl" (separator, line). La valeur est 12.The value is 12.

LowercaseLetter LowercaseLetter LowercaseLetter LowercaseLetter 1

Lettre minuscule.Lowercase letter. Signifié par la désignation Unicode « Ll » (letter, lowercase).Signified by the Unicode designation "Ll" (letter, lowercase). La valeur est 1.The value is 1.

MathSymbol MathSymbol MathSymbol MathSymbol 25

Caractère symbolique mathématique, tel que « + » ou « = ».Mathematical symbol character, such as "+" or "= ". Signifié par la désignation Unicode « Sm » (symbol, math).Signified by the Unicode designation "Sm" (symbol, math). La valeur est 25.The value is 25.

ModifierLetter ModifierLetter ModifierLetter ModifierLetter 3

Lettre de modificateur, c'est-à-dire caractère d'espacement isolé qui indique des modifications apportées à une lettre précédente.Modifier letter character, which is free-standing spacing character that indicates modifications of a preceding letter. Signifié par la désignation Unicode « Lm » (letter, modifier).Signified by the Unicode designation "Lm" (letter, modifier). La valeur est 3.The value is 3.

ModifierSymbol ModifierSymbol ModifierSymbol ModifierSymbol 27

Symbole de modificateur qui indique des modifications apportées à des caractères voisins.Modifier symbol character, which indicates modifications of surrounding characters. Par exemple, la barre oblique de fraction indique que le nombre à gauche est le numérateur et que le nombre à droite est le dénominateur.For example, the fraction slash indicates that the number to the left is the numerator and the number to the right is the denominator. L'indicateur est signifié par la désignation Unicode« Sk » (symbol, modifier).The indicator is signified by the Unicode designation "Sk" (symbol, modifier). La valeur est 27.The value is 27.

NonSpacingMark NonSpacingMark NonSpacingMark NonSpacingMark 5

Caractère de non-espacement qui indique des modifications apportées à un caractère de base.Nonspacing character that indicates modifications of a base character. Signifié par la désignation Unicode « Mn » (mark, nonspacing).Signified by the Unicode designation "Mn" (mark, nonspacing). La valeur est 5.The value is 5.

OpenPunctuation OpenPunctuation OpenPunctuation OpenPunctuation 20

Caractère ouvrant de l'un des signes de ponctuation allant de pair, tels que les parenthèses, les crochets et les accolades.Opening character of one of the paired punctuation marks, such as parentheses, square brackets, and braces. Signifié par la désignation Unicode « Ps » (punctuation, open).Signified by the Unicode designation "Ps" (punctuation, open). La valeur est 20.The value is 20.

OtherLetter OtherLetter OtherLetter OtherLetter 4

Lettre qui n'est pas une lettre majuscule, une lettre minuscule, une lettre initiale majuscule ni une lettre de modificateur.Letter that is not an uppercase letter, a lowercase letter, a titlecase letter, or a modifier letter. Signifié par la désignation Unicode « Lo » (letter, other).Signified by the Unicode designation "Lo" (letter, other). La valeur est 4.The value is 4.

OtherNotAssigned OtherNotAssigned OtherNotAssigned OtherNotAssigned 29

Caractère qui n'est pas assigné à une catégorie Unicode.Character that is not assigned to any Unicode category. Signifié par la désignation Unicode « Cn » (other, not assigned).Signified by the Unicode designation "Cn" (other, not assigned). La valeur est 29.The value is 29.

OtherNumber OtherNumber OtherNumber OtherNumber 10

Nombre qui n'est ni un chiffre décimal ni un nombre sous forme de lettre, par exemple, la fraction 1/2.Number that is neither a decimal digit nor a letter number, for example, the fraction 1/2. L'indicateur est signifié par la désignation Unicode « No » (number, other).The indicator is signified by the Unicode designation "No" (number, other). La valeur est 10.The value is 10.

OtherPunctuation OtherPunctuation OtherPunctuation OtherPunctuation 24

Caractère de ponctuation qui n'est ni un connecteur, ni un tiret, ni une ponctuation ouvrante ou fermante, ni des guillemets initiaux ou finaux.Punctuation character that is not a connector, a dash, open punctuation, close punctuation, an initial quote, or a final quote. Signifié par la désignation Unicode « Po » (punctuation, other).Signified by the Unicode designation "Po" (punctuation, other). La valeur est 24.The value is 24.

OtherSymbol OtherSymbol OtherSymbol OtherSymbol 28

Symbole qui n'est pas un symbole mathématique, un symbole monétaire ni un symbole de modificateur.Symbol character that is not a mathematical symbol, a currency symbol or a modifier symbol. Signifié par la désignation Unicode « So » (symbol, other).Signified by the Unicode designation "So" (symbol, other). La valeur est 28.The value is 28.

ParagraphSeparator ParagraphSeparator ParagraphSeparator ParagraphSeparator 13

Caractère utilisé pour séparer les paragraphes.Character used to separate paragraphs. Signifié par la désignation Unicode « Zp » (separator, paragraph).Signified by the Unicode designation "Zp" (separator, paragraph). La valeur est 13.The value is 13.

PrivateUse PrivateUse PrivateUse PrivateUse 17

Caractère d'utilisation privée, avec une valeur Unicode comprise dans la plage de U+E000 à U+F8FF.Private-use character, with a Unicode value in the range U+E000 through U+F8FF. Signifié par la désignation Unicode « Co » (other, private use).Signified by the Unicode designation "Co" (other, private use). La valeur est 17.The value is 17.

SpaceSeparator SpaceSeparator SpaceSeparator SpaceSeparator 11

Caractère d'espace qui n'a pas de glyphe mais n'est pas un caractère de contrôle ou de mise en forme.Space character, which has no glyph but is not a control or format character. Signifié par la désignation Unicode « Zs » (separator, space).Signified by the Unicode designation "Zs" (separator, space). La valeur est 11.The value is 11.

SpacingCombiningMark SpacingCombiningMark SpacingCombiningMark SpacingCombiningMark 6

Caractère d'espacement qui indique des modifications apportées à un caractère de base et qui affecte la largeur du glyphe de ce caractère de base.Spacing character that indicates modifications of a base character and affects the width of the glyph for that base character. Signifié par la désignation Unicode « Mc » (mark, spacing combining).Signified by the Unicode designation "Mc" (mark, spacing combining). La valeur est 6.The value is 6.

Surrogate Surrogate Surrogate Surrogate 16

Caractère à substitut étendu ou faible.High surrogate or a low surrogate character. Les valeurs de code des substituts se trouvent dans la plage U+D800 à U+DFFF.Surrogate code values are in the range U+D800 through U+DFFF. Signifié par la désignation Unicode « Cs » (other, surrogate).Signified by the Unicode designation "Cs" (other, surrogate). La valeur est 16.The value is 16.

TitlecaseLetter TitlecaseLetter TitlecaseLetter TitlecaseLetter 2

Lettre initiale majuscule.Titlecase letter. Signifié par la désignation Unicode « Lt » (letter, titlecase).Signified by the Unicode designation "Lt" (letter, titlecase). La valeur est 2.The value is 2.

UppercaseLetter UppercaseLetter UppercaseLetter UppercaseLetter 0

Lettre majuscule.Uppercase letter. Signifié par la désignation Unicode « Lu » (letter, uppercase).Signified by the Unicode designation "Lu" (letter, uppercase). La valeur est 0.The value is 0.

Exemples

L’exemple suivant affiche les caractères et leurs points de code correspondants pour les caractères de la catégorie UppercaseLetter.The following example displays the characters and their corresponding code points for characters in the UppercaseLetter category. Vous pouvez modifier l’exemple pour afficher les lettres de toute autre catégorie en remplaçant UppercaseLetter par la catégorie qui vous intéresse dans l’assignation à la category variable.You can modify the example to display the letters in any other category by replacing UppercaseLetter with the category of interest to you in the assignment to the category variable. Notez que la sortie de certaines catégories peut être étendue.Note that the output for some categories can be extensive.

using System;
using System.Globalization;

public class Example
{
   public static void Main()
   {
      int ctr = 0;
      UnicodeCategory category = UnicodeCategory.UppercaseLetter;
      
      for (ushort codePoint = 0; codePoint < ushort.MaxValue; codePoint++) {
         Char ch = Convert.ToChar(codePoint);

         if (CharUnicodeInfo.GetUnicodeCategory(ch) == category) {
            if (ctr % 5 == 0)
               Console.WriteLine();
            Console.Write("{0} (U+{1:X4})     ", ch, codePoint);
            ctr++;
         } 
      }
      Console.WriteLine();
      Console.WriteLine("\n{0} characters are in the {1:G} category", 
                        ctr, category);   
   }
}
Imports System.Globalization

Module Example
   Public Sub Main()
      Dim ctr As Integer = 0
      Dim category As UnicodeCategory = UnicodeCategory.UppercaseLetter
      
      For codePoint As UShort = 0 To UShort.MaxValue - 1
         Dim ch As Char = Convert.ToChar(codePoint)

         If CharUnicodeInfo.GetUnicodeCategory(ch) = category Then
            If ctr Mod 5 = 0 Then Console.WriteLine()
            Console.Write("{0} (U+{1:X4})     ", ch, codePoint)
            ctr += 1
         End If 
      Next
      Console.WriteLine()
      Console.WriteLine()
      Console.WriteLine("{0} characters are in the {1:G} category", 
                        ctr, category)   
   End Sub
End Module

Remarques

Un membre de l' UnicodeCategory énumération est retourné par Char.GetUnicodeCategory les CharUnicodeInfo.GetUnicodeCategory méthodes et.A member of the UnicodeCategory enumeration is returned by the Char.GetUnicodeCategory and CharUnicodeInfo.GetUnicodeCategory methods. L' UnicodeCategory énumération est également utilisée pour Char prendre en charge des IsUpper(Char)méthodes, telles que.The UnicodeCategory enumeration is also used to support Char methods, such as IsUpper(Char). Ces méthodes déterminent si un caractère spécifié est membre d’une catégorie générale Unicode particulière.Such methods determine whether a specified character is a member of a particular Unicode general category. Une catégorie générale Unicode définit la classification générale d’un caractère, autrement dit, la désignation comme un type de lettre, un chiffre décimal, un séparateur, un symbole mathématique, une ponctuation, etc.A Unicode general category defines the broad classification of a character, that is, designation as a type of letter, decimal digit, separator, mathematical symbol, punctuation, and so on.

Cette énumération est basée sur la norme Unicode, version 5,0.This enumeration is based on The Unicode Standard, version 5.0. Pour plus d’informations, consultez les sous-rubriques « Format de fichier UCD » et « Valeurs des catégories générales » dans la Base de données de caractères Unicode.For more information, see the "UCD File Format" and "General Category Values" subtopics at the Unicode Character Database.

La norme Unicode définit les éléments suivants:The Unicode Standard defines the following:

Une paire de substitution est une représentation de caractères codés pour un caractère abstrait unique qui se compose d’une séquence de deux unités de code, où la première unité de la paire est un substitut étendu et la seconde est un caractère de substitution faible.A surrogate pair is a coded character representation for a single abstract character that consists of a sequence of two code units, where the first unit of the pair is a high surrogate and the second is a low surrogate. Un substitut étendu est un point de code Unicode dans la plage U + D800 à U + DBFF et un substitut faible est un point de code Unicode dans la plage U + DC00 et à U + DFFF.A high surrogate is a Unicode code point in the range U+D800 through U+DBFF and a low surrogate is a Unicode code point in the range U+DC00 through U+DFFF.

Une séquence de caractères d’association est une combinaison d’un caractère de base et d’un ou de plusieurs caractères d’association.A combining character sequence is a combination of a base character and one or more combining characters. Une paire de substitution représente un caractère de base ou un caractère d’association.A surrogate pair represents a base character or a combining character. Un caractère d’association est soit un espacement, soit un non-espacement.A combining character is either spacing or nonspacing. Un caractère d’association d’espacement occupe une position d’espace en lui-même lorsqu’il est rendu, contrairement à un caractère d’association sans espacement.A spacing combining character takes up a spacing position by itself when rendered, while a nonspacing combining character does not. Les signes diacritiques sont un exemple de caractères d’association sans espace.Diacritics are an example of nonspacing combining characters.

Une lettre de modificateur est un caractère d’espacement libre qui, comme un caractère d’association, indique les modifications apportées à une lettre précédente.A modifier letter is a free-standing spacing character that, like a combining character, indicates modifications of a preceding letter.

Une marque englobante est un caractère d’association sans espacement qui entoure tous les caractères précédents jusqu’à et y compris un caractère de base.An enclosing mark is a nonspacing combining character that surrounds all previous characters up to and including a base character.

Un caractère de format est un caractère qui n’est normalement pas rendu, mais qui affecte la disposition du texte ou le fonctionnement des processus de texte.A format character is a character that is not normally rendered but that affects the layout of text or the operation of text processes.

La norme Unicode définit plusieurs variations pour certains signes de ponctuation.The Unicode Standard defines several variations to some punctuation marks. Par exemple, un trait d’Union peut être l’une des nombreuses valeurs de code qui représentent un trait d’Union, par exemple U + 002D (trait d’Union-moins) ou U + 00AD (trait d’union conditionnel) ou U + 2010 (trait d’Union) ou U + 2011 (trait d’Union insécable).For example, a hyphen can be one of several code values that represent a hyphen, such as U+002D (hyphen-minus) or U+00AD (soft hyphen) or U+2010 (hyphen) or U+2011 (nonbreaking hyphen). Il en va de même pour les tirets, les espaces et les guillemets.The same is true for dashes, space characters, and quotation marks.

La norme Unicode assigne également des codes aux représentations de chiffres décimaux qui sont spécifiques à un script ou à un langage donné, par exemple U + 0030 (digit zéro) et U + 0660 (chiffre zéro arabe-Hindi).The Unicode Standard also assigns codes to representations of decimal digits that are specific to a given script or language, for example, U+0030 (digit zero) and U+0660 (Arabic-Indic digit zero).

S’applique à

Voir aussi