UnicodeCategory Výčet

Definice

Definuje kategorii Unicode znaku.Defines the Unicode category of a character.

public enum class UnicodeCategory
public enum UnicodeCategory
[System.Serializable]
public enum UnicodeCategory
[System.Serializable]
[System.Runtime.InteropServices.ComVisible(true)]
public enum UnicodeCategory
type UnicodeCategory = 
[<System.Serializable>]
type UnicodeCategory = 
[<System.Serializable>]
[<System.Runtime.InteropServices.ComVisible(true)>]
type UnicodeCategory = 
Public Enum UnicodeCategory
Dědičnost
UnicodeCategory
Atributy

Pole

ClosePunctuation 21

Uzavírací znak jednoho z spárovaných interpunkčních znamének, jako jsou závorky, hranaté závorky a složené závorky.Closing character of one of the paired punctuation marks, such as parentheses, square brackets, and braces. Označuje se označením Unicode PE (interpunkční znaménko, uzavření).Signified by the Unicode designation "Pe" (punctuation, close). Hodnota je 21.The value is 21.

ConnectorPunctuation 18

Znak interpunkce konektoru, který spojuje dva znaky.Connector punctuation character that connects two characters. Označuje se označením Unicode "PC" (interpunkční znaménko, konektor).Signified by the Unicode designation "Pc" (punctuation, connector). Hodnota je 18.The value is 18.

Control 14

Řídicí znak kódu s hodnotou Unicode U + 007F nebo v rozsahu U + 0000 až U + 001F nebo U + 0080 až U + 009F.Control code character, with a Unicode value of U+007F or in the range U+0000 through U+001F or U+0080 through U+009F. Označuje se označením Unicode "CC" (jiný ovládací prvek).Signified by the Unicode designation "Cc" (other, control). Hodnota je 14.The value is 14.

CurrencySymbol 26

Znak symbolu měny.Currency symbol character. Označuje se označením Unicode SC (symbol, měna).Signified by the Unicode designation "Sc" (symbol, currency). Hodnota je 26.The value is 26.

DashPunctuation 19

Pomlčka nebo znak pomlčky.Dash or hyphen character. Označuje se označením Unicode "PD" (interpunkční znaménko, pomlčka).Signified by the Unicode designation "Pd" (punctuation, dash). Hodnota je 19.The value is 19.

DecimalDigitNumber 8

Znak desítkové číslice, tj. znak v rozsahu 0 až 9.Decimal digit character, that is, a character in the range 0 through 9. Označuje se označením Unicode "ND" (číslo, desítková číslice).Signified by the Unicode designation "Nd" (number, decimal digit). Hodnota je 8.The value is 8.

EnclosingMark 7

Uzavírací znak značky, což je kombinovaný znak bez mezer, který obklopuje všechny předchozí znaky až do a včetně základního znaku.Enclosing mark character, which is a nonspacing combining character that surrounds all previous characters up to and including a base character. Označuje se označením "já" já (značka, ohraničující).Signified by the Unicode designation "Me" (mark, enclosing). Hodnota je 7.The value is 7.

FinalQuotePunctuation 23

Znak pravé nebo koncové uvozovky.Closing or final quotation mark character. Označení kódem Unicode "PF" (interpunkční znaménko, konečné uvozovky).Signified by the Unicode designation "Pf" (punctuation, final quote). Hodnota je 23.The value is 23.

Format 15

Znak formátu, který ovlivňuje rozložení textu nebo operace textových procesů, ale obvykle se nevykresluje.Format character that affects the layout of text or the operation of text processes, but is not normally rendered. Označení kódem Unicode "CF" (jiné, formát).Signified by the Unicode designation "Cf" (other, format). Hodnota je 15.The value is 15.

InitialQuotePunctuation 22

Znak otevření nebo počáteční uvozovky.Opening or initial quotation mark character. Označuje se označením Unicode "PI" (interpunkční znaménko, počáteční uvozovka).Signified by the Unicode designation "Pi" (punctuation, initial quote). Hodnota je 22.The value is 22.

LetterNumber 9

Číslo reprezentované písmenem, nikoli desítkovou číslicí, například římské číslice pět, což je "V".Number represented by a letter, instead of a decimal digit, for example, the Roman numeral for five, which is "V". Indikátor je označen označením Unicode "nl" (číslo, písmeno).The indicator is signified by the Unicode designation "Nl" (number, letter). Hodnota je 9.The value is 9.

LineSeparator 12

Znak, který se používá k oddělení řádků textu.Character that is used to separate lines of text. Podle označení Unicode "zl" (oddělovač, řádek).Signified by the Unicode designation "Zl" (separator, line). Hodnota je 12.The value is 12.

LowercaseLetter 1

Malé písmenoLowercase letter. Označuje se označením "LL" v kódování Unicode (Letter, malými písmeny).Signified by the Unicode designation "Ll" (letter, lowercase). Hodnota je 1.The value is 1.

MathSymbol 25

Symbol matematického symbolu, například "+" nebo "=".Mathematical symbol character, such as "+" or "= ". Označuje se označením Unicode "SM" (symbol, Math).Signified by the Unicode designation "Sm" (symbol, math). Hodnota je 25.The value is 25.

ModifierLetter 3

Znak modifikátoru znaku, který je volnou mezerou, která označuje úpravy předchozího písmene.Modifier letter character, which is free-standing spacing character that indicates modifications of a preceding letter. Označuje se označením Unicode "LM" (Letter, modifikátor).Signified by the Unicode designation "Lm" (letter, modifier). Hodnota je 3.The value is 3.

ModifierSymbol 27

Znak modifikátoru symbolu, který označuje úpravy okolních znaků.Modifier symbol character, which indicates modifications of surrounding characters. Například lomítko zlomku označuje, že číslo nalevo je čitatel a číslo napravo je jmenovatel.For example, the fraction slash indicates that the number to the left is the numerator and the number to the right is the denominator. Indikátor je označen označením Unicode "SK" (symbol, modifikátor).The indicator is signified by the Unicode designation "Sk" (symbol, modifier). Hodnota je 27.The value is 27.

NonSpacingMark 5

Neodstupový znak, který označuje úpravy základního znaku.Nonspacing character that indicates modifications of a base character. Označuje se označením Unicode "MN" (značka, neodstup).Signified by the Unicode designation "Mn" (mark, nonspacing). Hodnota je 5.The value is 5.

OpenPunctuation 20

Otevírací znak jednoho z spárovaných interpunkčních znamének, jako jsou závorky, hranaté závorky a složené závorky.Opening character of one of the paired punctuation marks, such as parentheses, square brackets, and braces. Označuje se označením Unicode "PS" (interpunkční znaménko, otevřeno).Signified by the Unicode designation "Ps" (punctuation, open). Hodnota je 20.The value is 20.

OtherLetter 4

Písmeno, které není velkým písmenem, malým písmenem, Velká počáteční písmena písmenem nebo znakem modifikátoru.Letter that is not an uppercase letter, a lowercase letter, a titlecase letter, or a modifier letter. Označuje se označením "lo" v kódování Unicode (Letter, jiný).Signified by the Unicode designation "Lo" (letter, other). Hodnota je 4.The value is 4.

OtherNotAssigned 29

Znak, který není přiřazen k žádné kategorii sady Unicode.Character that is not assigned to any Unicode category. Označeno označením Unicode "CN" (jiné, není přiřazeno).Signified by the Unicode designation "Cn" (other, not assigned). Hodnota je 29.The value is 29.

OtherNumber 10

Číslo, které není desítkovou číslicí ani číslo písmen, například zlomek 1/2.Number that is neither a decimal digit nor a letter number, for example, the fraction 1/2. Indikátor je označen označením Unicode "ne" (číslo, jiné).The indicator is signified by the Unicode designation "No" (number, other). Hodnota je 10.The value is 10.

OtherPunctuation 24

Znak interpunkce, který není konektorem, pomlčkou, otevřeným interpunkčním znaménkem, zavřením interpunkce, počáteční uvozovky nebo poslední uvozovky.Punctuation character that is not a connector, a dash, open punctuation, close punctuation, an initial quote, or a final quote. Podle označení Unicode "po" (interpunkční znaménko, jiné).Signified by the Unicode designation "Po" (punctuation, other). Hodnota je 24.The value is 24.

OtherSymbol 28

Znak symbolu, který není matematický symbol, symbol měny nebo symbol modifikátoru.Symbol character that is not a mathematical symbol, a currency symbol or a modifier symbol. Označeno označením Unicode "So" (symbol, jiný).Signified by the Unicode designation "So" (symbol, other). Hodnota je 28.The value is 28.

ParagraphSeparator 13

Znak použitý k oddělení odstavcůCharacter used to separate paragraphs. Podle označení Unicode "zp" (oddělovač, odstavec).Signified by the Unicode designation "Zp" (separator, paragraph). Hodnota je 13.The value is 13.

PrivateUse 17

Znak U privátního použití s hodnotou Unicode v rozsahu U + E000 až U + F8FF.Private-use character, with a Unicode value in the range U+E000 through U+F8FF. Podle označení Unicode "co" (jiné, soukromé použití).Signified by the Unicode designation "Co" (other, private use). Hodnota je 17.The value is 17.

SpaceSeparator 11

Znak mezery, který nemá žádný glyf, ale není to znak ovládacího prvku nebo formátu.Space character, which has no glyph but is not a control or format character. Označuje se označením Unicode "ZS" (oddělovač, mezera).Signified by the Unicode designation "Zs" (separator, space). Hodnota je 11.The value is 11.

SpacingCombiningMark 6

Znak mezery, který označuje úpravy základního znaku a ovlivňuje šířku glyfu pro tento základní znak.Spacing character that indicates modifications of a base character and affects the width of the glyph for that base character. Označuje se označením Unicode MC (značka, kombinování mezer).Signified by the Unicode designation "Mc" (mark, spacing combining). Hodnota je 6.The value is 6.

Surrogate 16

Vysoká náhrada nebo nízká náhradní znak.High surrogate or a low surrogate character. Hodnoty náhradního kódu jsou v rozsahu U + D800 až U + DFFF.Surrogate code values are in the range U+D800 through U+DFFF. Označuje se označením Unicode cs (jiný, náhradní).Signified by the Unicode designation "Cs" (other, surrogate). Hodnota je 16.The value is 16.

TitlecaseLetter 2

Velká počáteční písmena písmenoTitlecase letter. Označení kódem Unicode "lt" (Letter, Velká počáteční písmena).Signified by the Unicode designation "Lt" (letter, titlecase). Hodnota je 2.The value is 2.

UppercaseLetter 0

Velké písmenoUppercase letter. Označuje se označením Unicode "Lu" (Letter, Velká písmena).Signified by the Unicode designation "Lu" (letter, uppercase). Hodnota je 0.The value is 0.

Příklady

Následující příklad zobrazí znaky a jejich odpovídající body kódu pro znaky v kategorii UppercaseLetter.The following example displays the characters and their corresponding code points for characters in the UppercaseLetter category. Můžete upravit příklad tak, aby zobrazoval písmena v jakékoli jiné kategorii tak, že nahradíte UppercaseLetterou kategorií zájmu v přiřazení k category proměnné.You can modify the example to display the letters in any other category by replacing UppercaseLetter with the category of interest to you in the assignment to the category variable. Všimněte si, že výstup pro některé kategorie může být rozsáhlý.Note that the output for some categories can be extensive.

using System;
using System.Globalization;

public class Example
{
  public static void Main()
  {
   int ctr = 0;
   UnicodeCategory category = UnicodeCategory.UppercaseLetter;

   for (ushort codePoint = 0; codePoint < ushort.MaxValue; codePoint++) {
     Char ch = Convert.ToChar(codePoint);

     if (CharUnicodeInfo.GetUnicodeCategory(ch) == category) {
      if (ctr % 5 == 0)
        Console.WriteLine();
      Console.Write("{0} (U+{1:X4})   ", ch, codePoint);
      ctr++;
     }
   }
   Console.WriteLine();
   Console.WriteLine("\n{0} characters are in the {1:G} category",
            ctr, category);
  }
}
Imports System.Globalization

Module Example
  Public Sub Main()
   Dim ctr As Integer = 0
   Dim category As UnicodeCategory = UnicodeCategory.UppercaseLetter
   
   For codePoint As UShort = 0 To UShort.MaxValue - 1
     Dim ch As Char = Convert.ToChar(codePoint)

     If CharUnicodeInfo.GetUnicodeCategory(ch) = category Then
      If ctr Mod 5 = 0 Then Console.WriteLine()
      Console.Write("{0} (U+{1:X4})   ", ch, codePoint)
      ctr += 1
     End If 
   Next
   Console.WriteLine()
   Console.WriteLine()
   Console.WriteLine("{0} characters are in the {1:G} category", 
            ctr, category)  
  End Sub
End Module

Poznámky

Člen UnicodeCategory výčtu je vrácen Char.GetUnicodeCategory CharUnicodeInfo.GetUnicodeCategory metodami a.A member of the UnicodeCategory enumeration is returned by the Char.GetUnicodeCategory and CharUnicodeInfo.GetUnicodeCategory methods. UnicodeCategoryVýčet se používá také k podpoře Char metod, jako je například IsUpper(Char) .The UnicodeCategory enumeration is also used to support Char methods, such as IsUpper(Char). Tyto metody určují, zda je zadaný znak členem určité obecné kategorie sady Unicode.Such methods determine whether a specified character is a member of a particular Unicode general category. Obecná kategorie Unicode definuje širokou klasifikaci znaku, to znamená označení jako typ písmena, desítkové číslo, oddělovač, matematický symbol, interpunkční znaménko a tak dále.A Unicode general category defines the broad classification of a character, that is, designation as a type of letter, decimal digit, separator, mathematical symbol, punctuation, and so on.

Tento výčet je založen na standardu Unicode verze 5,0.This enumeration is based on The Unicode Standard, version 5.0. Další informace najdete v tématu "formát souboru UCD" a "Obecné hodnoty kategorií" v databázi znaků Unicode.For more information, see the "UCD File Format" and "General Category Values" subtopics at the Unicode Character Database.

Standard Unicode definuje následující:The Unicode Standard defines the following:

Náhradní pár je kódovaný znak reprezentace jednoho abstraktního znaku, který se skládá z sekvence dvou kódových jednotek, kde první jednotka dvojice je vysoká náhrada a druhá je nízká náhrada.A surrogate pair is a coded character representation for a single abstract character that consists of a sequence of two code units, where the first unit of the pair is a high surrogate and the second is a low surrogate. Vysoká náhrada je bod kódu Unicode v rozsahu U + D800 až U + DBFF a Nízká náhrada je bod kódu Unicode v rozsahu U + DC00 až U + DFFF.A high surrogate is a Unicode code point in the range U+D800 through U+DBFF and a low surrogate is a Unicode code point in the range U+DC00 through U+DFFF.

Posloupnost znaků kombinování je kombinací základního znaku a jednoho nebo více kombinací znaků.A combining character sequence is a combination of a base character and one or more combining characters. Náhradní pár představuje základní znak nebo znak diakritického znaménka.A surrogate pair represents a base character or a combining character. Znak diakritického znaménka je mezera nebo nemezera.A combining character is either spacing or nonspacing. Znak pro kombinování mezer při vykreslení při vykreslování zabírá mezeru za sebou, zatímco kombinovaný znak bez mezer.A spacing combining character takes up a spacing position by itself when rendered, while a nonspacing combining character does not. Diakritická znaménka představují příklad neodstupu kombinovaných znaků.Diacritics are an example of nonspacing combining characters.

Znak modifikátoru je volné řádkování, jako je například znak kombinování, označuje úpravy předchozího písmene.A modifier letter is a free-standing spacing character that, like a combining character, indicates modifications of a preceding letter.

Ohraničující značka je kombinovaný znak bez mezer, který obklopuje všechny předchozí znaky až do a včetně základního znaku.An enclosing mark is a nonspacing combining character that surrounds all previous characters up to and including a base character.

Znak formátu je znak, který není normálně vykreslen, ale ovlivňuje rozložení textu nebo operace textových procesů.A format character is a character that is not normally rendered but that affects the layout of text or the operation of text processes.

Standard Unicode definuje několik variant pro některé interpunkční znaménka.The Unicode Standard defines several variations to some punctuation marks. Například pomlčka může být jedna z několika hodnot kódu, které reprezentují spojovník, například U + 002D (spojovníky minus) nebo U + 00AD (měkký spojovník) nebo U + 2010 (spojovník) nebo u + 2011 (nerozdělit spojovník).For example, a hyphen can be one of several code values that represent a hyphen, such as U+002D (hyphen-minus) or U+00AD (soft hyphen) or U+2010 (hyphen) or U+2011 (nonbreaking hyphen). Totéž platí pro pomlčky, mezery a uvozovky.The same is true for dashes, space characters, and quotation marks.

Standard Unicode také přiřazuje kódy pro reprezentace desítkových číslic, které jsou specifické pro daný skript nebo jazyk, například U + 0030 (číslice nula) a U + 0660 (Korejská číslice nula).The Unicode Standard also assigns codes to representations of decimal digits that are specific to a given script or language, for example, U+0030 (digit zero) and U+0660 (Arabic-Indic digit zero).

Platí pro

Viz také