UnicodeCategory 열거형

정의

문자의 유니코드 범주를 정의합니다.

public enum class UnicodeCategory
public enum UnicodeCategory
[System.Serializable]
public enum UnicodeCategory
[System.Serializable]
[System.Runtime.InteropServices.ComVisible(true)]
public enum UnicodeCategory
type UnicodeCategory = 
[<System.Serializable>]
type UnicodeCategory = 
[<System.Serializable>]
[<System.Runtime.InteropServices.ComVisible(true)>]
type UnicodeCategory = 
Public Enum UnicodeCategory
상속
UnicodeCategory
특성

필드

ClosePunctuation 21

소괄호, 대괄호, 중괄호 등 쌍을 이루는 문장 부호 중 닫는 문자입니다. 유니코드 지정 "Pe"(punctuation, close)로 지정됩니다. 값은 21입니다.

ConnectorPunctuation 18

두 문자를 연결하는 연결 문장 부호 문자입니다. 유니코드 지정 "Pc"(punctuation, connector)로 지정됩니다. 값은 18입니다.

Control 14

유니코드 값이 U+007F이거나 U+0000부터 U+001F까지 또는 U+0080부터 U+009F까지의 범위에 있는 컨트롤 코드 문자입니다. 유니코드 지정 "Cc"(other, control)로 지정됩니다. 값은 14입니다.

CurrencySymbol 26

통화 기호 문자입니다. 유니코드 지정 "Sc"(symbol, currency)로 지정됩니다. 값은 26입니다.

DashPunctuation 19

대시 또는 하이픈 문자입니다. 유니코드 지정 "Pd"(punctuation, dash)로 지정됩니다. 값은 19입니다.

DecimalDigitNumber 8

10진수 문자, 즉 0~9 범위의 정수를 나타내는 문자입니다. 유니코드 지정 "Nd"(number, decimal digit)로 지정됩니다. 값은 8입니다.

EnclosingMark 7

묶기 표시 문자, 즉 기본 문자를 포함한 모든 이전 문자를 둘러싸는 간격이 없는 조합 문자입니다. 유니코드 지정 "Me"(mark, enclosing)로 지정됩니다. 값은 7입니다.

FinalQuotePunctuation 23

닫는 문자 또는 마지막 문장 부호(") 문자입니다. 유니코드 지정 "Pf"(punctuation, final quote)로 지정됩니다. 값은 23입니다.

Format 15

대개 렌더링되지 않고 텍스트 레이아웃이나 텍스트 처리 작업에 영향을 주는 서식 문자입니다. 유니코드 지정 "Cf"(other, format)로 지정됩니다. 값은 15입니다.

InitialQuotePunctuation 22

여는 문자 또는 시작 문장 부호 문자입니다. 유니코드 지정 "Pi"(punctuation, initial quote)로 지정됩니다. 값은 22입니다.

LetterNumber 9

5에 해당하는 로마자 "V"와 같이 10진수 대신 문자로 나타내는 숫자입니다. 유니코드 지정 "Nl"(number, letter)로 지정됩니다. 값은 9입니다.

LineSeparator 12

텍스트 행을 구분하는 데 사용되는 문자입니다. 유니코드 지정 "Zl"(separator, line)으로 지정됩니다. 값은 12입니다.

LowercaseLetter 1

소문자입니다. 유니코드 지정 "Ll"(letter, lowercase)로 지정됩니다. 값은 1입니다.

MathSymbol 25

"+" 또는 "=" 같은 수학 기호 문자입니다. 유니코드 지정 "Sm"(symbol, math)으로 지정됩니다. 값은 25입니다.

ModifierLetter 3

이전 문자를 제한하는, 간격이 자유로운 문자인 한정자 문자입니다. 유니코드 지정 "Lm"(letter, modifier)으로 지정됩니다. 값이 3입니다.

ModifierSymbol 27

주위 문자를 제한하는 한정자 기호 문자입니다. 예를 들어 분수 기호는 이 기호의 왼쪽 숫자가 분자이고, 오른쪽 숫자가 분모임을 나타냅니다. 유니코드 지정 "Sk"(symbol, modifier)로 지정됩니다. 값은 27입니다.

NonSpacingMark 5

기본 문자를 제한하는 간격이 없는 문자입니다. 유니코드 지정 "Mn"(mark, nonspacing)으로 지정됩니다. 값은 5입니다.

OpenPunctuation 20

괄호, 대괄호 및 중괄호처럼 쌍을 이루는 문장 부호의 여는 문자입니다. 유니코드 지정 "Ps"(punctuation, open)로 지정됩니다. 값은 20입니다.

OtherLetter 4

대문자, 소문자, 단어의 첫 글자를 대문자로 하는 문자 또는 한정자 문자가 아닌 문자입니다. 유니코드 지정 "Lo"(letter, other)로 지정됩니다. 값은 4입니다.

OtherNotAssigned 29

어떠한 유니코드 범주에도 할당되지 않은 문자입니다. 유니코드 지정 "Cn"(other, not assigned)으로 지정됩니다. 값은 29입니다.

OtherNumber 10

10진수나 문자 숫자가 아닌 숫자(예: 분수 1/2)입니다. 유니코드 지정 "No"(number, other)로 지정됩니다. 값은 10입니다.

OtherPunctuation 24

연결 문장 부호, 대시, 여는 문장 부호, 닫는 문장 부호, 처음 따옴표 또는 마지막 따옴표가 아닌 문장 부호 문자입니다. 유니코드 지정 "Po"(punctuation, other)로 지정됩니다. 값은 24입니다.

OtherSymbol 28

수학 기호, 통화 기호 또는 한정자 기호가 아닌 기호 문자입니다. 유니코드 지정 "So"(symbol, other)로 지정됩니다. 값은 28입니다.

ParagraphSeparator 13

단락을 구분하는 데 사용되는 문자입니다. 유니코드 지정 "Zp"(separator, paragraph)로 지정됩니다. 값은 13입니다.

PrivateUse 17

유니코드 값이 U+E000부터 U+F8FF까지의 범위에 있는 프라이빗 문자입니다. 유니코드 지정 "Co"(other, private use)로 지정됩니다. 값은 17입니다.

SpaceSeparator 11

문자 모양은 없지만 제어 문자나 서식 문자가 아닌 공백 문자입니다. 유니코드 지정 "Zs"(separator, space)로 지정됩니다. 값은 11입니다.

SpacingCombiningMark 6

기본 문자를 제한하고 이 기본 문자의 문자 모양 너비에 영향을 주는 간격이 있는 문자입니다. 유니코드 지정 "Mc"(mark, spacing combining)로 지정됩니다. 값은 6입니다.

Surrogate 16

high surrogate 또는 low surrogate 문자입니다. 서로게이트 코드 값은 U+D800부터 U+DFFF까지의 범위에 있습니다. 유니코드 지정 "Cs"(other, surrogate)로 지정됩니다. 값은 16입니다.

TitlecaseLetter 2

제목 스타일 문자입니다. 유니코드 지정 "Lt"(letter, titlecase)로 지정됩니다. 값은 2입니다.

UppercaseLetter 0

대문자입니다. 유니코드 지정 "Lu"(letter, uppercase)로 지정됩니다. 값은 0입니다.

예제

다음 예제에서는 UppercaseLetter 범주의 문자에 대한 문자 및 해당 코드 포인트를 표시합니다. UppercaseLetter를 변수에 대한 할당에서 관심 있는 범주로 바꿔 다른 범주에 문자를 표시하도록 예제를 수정할 category 수 있습니다. 일부 범주의 출력은 광범위할 수 있습니다.

using System;
using System.Globalization;

public class Example
{
   public static void Main()
   {
      int ctr = 0;
      UnicodeCategory category = UnicodeCategory.UppercaseLetter;

      for (ushort codePoint = 0; codePoint < ushort.MaxValue; codePoint++) {
         Char ch = (char)codePoint;

         if (CharUnicodeInfo.GetUnicodeCategory(ch) == category) {
            if (ctr % 5 == 0)
               Console.WriteLine();
            Console.Write("{0} (U+{1:X4})     ", ch, codePoint);
            ctr++;
         }
      }
      Console.WriteLine();
      Console.WriteLine("\n{0} characters are in the {1:G} category",
                        ctr, category);
   }
}
Imports System.Globalization

Module Example
   Public Sub Main()
      Dim ctr As Integer = 0
      Dim category As UnicodeCategory = UnicodeCategory.UppercaseLetter
      
      For codePoint As UShort = 0 To UShort.MaxValue - 1
         Dim ch As Char = Convert.ToChar(codePoint)

         If CharUnicodeInfo.GetUnicodeCategory(ch) = category Then
            If ctr Mod 5 = 0 Then Console.WriteLine()
            Console.Write("{0} (U+{1:X4})     ", ch, codePoint)
            ctr += 1
         End If 
      Next
      Console.WriteLine()
      Console.WriteLine()
      Console.WriteLine("{0} characters are in the {1:G} category", 
                        ctr, category)   
   End Sub
End Module

설명

열거형의 UnicodeCategory 멤버는 및 CharUnicodeInfo.GetUnicodeCategory 메서드에 Char.GetUnicodeCategory 의해 반환됩니다. UnicodeCategory 열거형은 와 같은 IsUpper(Char)메서드를 지원하는 Char 데도 사용됩니다. 이러한 메서드는 지정된 문자가 특정 유니코드 일반 범주의 멤버인지 여부를 결정합니다. 유니코드 일반 범주는 문자 형식, 소수 자릿수, 구분 기호, 수학 기호, 문장 부호 등으로 지정하는 문자의 광범위한 분류를 정의합니다.

이 열거형은 유니코드 표준 버전 5.0을 기반으로 합니다. 자세한 내용은 유니코드 문자 데이터베이스의 하위 항목인 "UCD 파일 형식"과 "일반 범주 값"을 참조하세요.

유니코드 표준은 다음을 정의합니다.

서로게이트 쌍은 두 코드 단위의 시퀀스로 구성된 단일 추상 문자에 대한 코딩된 문자 표현입니다. 여기서 쌍의 첫 번째 단위는 높은 서로게이트이고 두 번째는 낮은 서로게이트입니다. 상위 서로게이트는 U+D800~U+DBFF 범위의 유니코드 코드 포인트이고 하위 서로게이트는 U+DC00~U+DFFF 범위의 유니코드 코드 포인트입니다.

결합 문자 시퀀스는 기본 문자와 하나 이상의 결합 문자 조합입니다. 서로게이트 쌍은 기본 문자 또는 결합 문자를 나타냅니다. 결합 문자는 간격 또는 비스페이스입니다. 공백 결합 문자는 렌더링될 때 자체 간격 위치를 차지하지만 간격이 없는 결합 문자는 그렇지 않습니다. 분음 부호는 공백이 없는 문자 결합의 예입니다.

한정자 문자는 결합 문자와 같이 이전 문자의 수정을 나타내는 자유 간격 문자입니다.

바깥쪽 표시는 기본 문자를 포함하여 모든 이전 문자를 둘러싸는 간격이 없는 결합 문자입니다.

서식 문자는 일반적으로 렌더링되지 않지만 텍스트 레이아웃 또는 텍스트 프로세스 작업에 영향을 주는 문자입니다.

유니코드 표준은 일부 문장 부호에 대한 몇 가지 변형을 정의합니다. 예를 들어 하이픈은 U+002D(하이픈-빼기) 또는 U+00AD(소프트 하이픈) 또는 U+2010(하이픈) 또는 U+2011(언브레이킹 하이픈)과 같이 하이픈을 나타내는 여러 코드 값 중 하나일 수 있습니다. 대시, 공백 문자 및 따옴표도 마찬가지입니다.

또한 유니코드 표준은 지정된 스크립트 또는 언어와 관련된 10진수 표현(예: U+0030(숫자 0) 및 U+0660(아랍어-Indic 숫자 0)에 코드를 할당합니다.

적용 대상

추가 정보