正規表現での文字クラスCharacter Classes in Regular Expressions

文字クラスは、いずれかが入力文字列に含まれると一致と見なされる文字のセットを定義します。A character class defines a set of characters, any one of which can occur in an input string for a match to succeed. .NET の正規表現言語では、次の文字クラスがサポートされます。The regular expression language in .NET supports the following character classes:

  • 文字グループの肯定。Positive character groups. 入力文字列内の文字が指定した文字のセットのいずれかと一致する必要があります。A character in the input string must match one of a specified set of characters. 詳細については、「文字グループの肯定」を参照してください。For more information, see Positive Character Group.

  • 文字グループの否定。Negative character groups. 入力文字列内の文字が指定した文字のセットのいずれかと一致しない必要があります。A character in the input string must not match one of a specified set of characters. 詳細については、「文字グループの否定」を参照してください。For more information, see Negative Character Group.

  • 任意の文字。Any character. 正規表現の . (ドットまたはピリオド) 文字は、\n を除く任意の文字と一致するワイルドカード文字です。The . (dot or period) character in a regular expression is a wildcard character that matches any character except \n. 詳細については、「任意の文字」を参照してください。For more information, see Any Character.

  • Unicode 一般カテゴリまたは名前付きブロック。A general Unicode category or named block. 入力文字列内の文字が一致と見なされるには、その文字が特定の Unicode カテゴリのメンバーであるか、または Unicode 文字の連続した範囲内に含まれる必要があります。A character in the input string must be a member of a particular Unicode category or must fall within a contiguous range of Unicode characters for a match to succeed. 詳細については、「Unicode カテゴリまたは Unicode ブロック」を参照してください。For more information, see Unicode Category or Unicode Block.

  • Unicode 一般カテゴリまたは名前付きブロックの否定。A negative general Unicode category or named block. 入力文字列内の文字が一致と見なされるには、その文字が特定の Unicode カテゴリのメンバーでないか、または Unicode 文字の連続した範囲内に含まれない必要があります。A character in the input string must not be a member of a particular Unicode category or must not fall within a contiguous range of Unicode characters for a match to succeed. 詳細については、「Unicode カテゴリまたは Unicode ブロックの否定」を参照してください。For more information, see Negative Unicode Category or Unicode Block.

  • 単語に使用される文字。A word character. 入力文字列内の文字が、単語内の文字に適した Unicode カテゴリのいずれかに属することができます。A character in the input string can belong to any of the Unicode categories that are appropriate for characters in words. 詳細については、「単語に使用される文字」を参照してください。For more information, see Word Character.

  • 単語に使用されない文字。A non-word character. 入力文字列内の文字が、単語に使用される文字ではない Unicode カテゴリのいずれかに属することができます。A character in the input string can belong to any Unicode category that is not a word character. 詳細については、「単語に使用されない文字」を参照してください。For more information, see Non-Word Character.

  • 空白文字。A white-space character. 入力文字列内の文字が、Unicode 区切り記号および各種制御文字のいずれかです。A character in the input string can be any Unicode separator character, as well as any one of a number of control characters. 詳細については、「空白文字」を参照してください。For more information, see White-Space Character.

  • 空白以外の文字。A non-white-space character. 入力文字列内の文字が、空白文字以外の文字のいずれかです。A character in the input string can be any character that is not a white-space character. 詳細については、「空白以外の文字」を参照してください。For more information, see Non-White-Space Character.

  • 10 進数。A decimal digit. 入力文字列内の文字が、Unicode 10 進数に分類される各種文字のいずれかです。A character in the input string can be any of a number of characters classified as Unicode decimal digits. 詳細については、「10 進数字」を参照してください。For more information, see Decimal Digit Character.

  • 10 進数字以外の文字。A non-decimal digit. 入力文字列内の文字が、Unicode 10 進数以外の文字のいずれかです。A character in the input string can be anything other than a Unicode decimal digit. 詳細については、「10 進数字」を参照してください。For more information, see Decimal Digit Character.

.NET は、文字クラスの減算式をサポートしています。これにより、ある文字クラスから別の文字クラスを除外した結果を文字のセットとして定義できます。.NET supports character class subtraction expressions, which enables you to define a set of characters as the result of excluding one character class from another character class. 詳細については、「文字クラス減算」を参照してください。For more information, see Character Class Subtraction.

注意

カテゴリ別の文字に一致する文字クラス (単語文字に一致する \w、Unicode カテゴリに一致する \p{} など) は、CharUnicodeInfo クラスを使用して文字カテゴリに関する情報を提供します。Character classes that match characters by category, such as \w to match word characters or \p{} to match a Unicode category, rely on the CharUnicodeInfo class to provide information about character categories. .NET Framework 4.6.2.NET Framework 4.6.2 以降の文字カテゴリは、Unicode 標準バージョン 8.0.0 に基づいています。Starting with the .NET Framework 4.6.2.NET Framework 4.6.2, character categories are based on The Unicode Standard, Version 8.0.0. .NET Framework 4.NET Framework 4 から .NET Framework 4.6.1.NET Framework 4.6.1 の文字カテゴリは、Unicode 標準バージョン 6.3.0 に基づいています。In the .NET Framework 4.NET Framework 4 through the .NET Framework 4.6.1.NET Framework 4.6.1, they are based on The Unicode Standard, Version 6.3.0.

文字グループの肯定: [ ]Positive Character Group: [ ]

文字グループの肯定では、いずれかが入力文字列に含まれると一致と見なされる文字の一覧を指定します。A positive character group specifies a list of characters, any one of which may appear in an input string for a match to occur. この文字の一覧は、個別に指定されることも範囲として指定されることも、その両方であることもあります。This list of characters may be specified individually, as a range, or both.

個別の文字の一覧を指定する構文は次のとおりです。The syntax for specifying a list of individual characters is as follows:

[character_group][character_group]

ここで、character_group は、入力文字列に含まれるなら一致と見なされる個別の文字の一覧です。where character_group is a list of the individual characters that can appear in the input string for a match to succeed. character_group は、リテラル文字、エスケープ文字、または文字クラスを 1 つ以上組み合わせて構成されます。character_group can consist of any combination of one or more literal characters, escape characters, or character classes.

文字の範囲を指定する構文は次のとおりです。The syntax for specifying a range of characters is as follows:

[firstCharacter-lastCharacter]  

ここで、firstCharacter は範囲の最初の文字で、lastCharacter は範囲の最後の文字です。where firstCharacter is the character that begins the range and lastCharacter is the character that ends the range. 文字範囲は連続する一連の文字で、範囲の最初の文字、ハイフン (-)、および範囲の最後の文字を指定することで定義されます。A character range is a contiguous series of characters defined by specifying the first character in the series, a hyphen (-), and then the last character in the series. 2 つの文字の Unicode コード ポイントが隣接している場合、それらの文字は連続しています。Two characters are contiguous if they have adjacent Unicode code points.

文字クラスの肯定を含む一般的な正規表現パターンをいくつか次の表に示します。Some common regular expression patterns that contain positive character classes are listed in the following table.

パターンPattern 説明Description
[aeiou] すべての母音と一致します。Match all vowels.
[\p{P}\d] すべての句読点および 10 進数字と一致します。Match all punctuation and decimal digit characters.
[\s\p{P}] すべての空白および句読点と一致します。Match all white space and punctuation.

次の例では、"a" および "e" という文字を含む文字グループの肯定を定義し、入力文字列内で "grey" または "gray" という語の後に別の語が続くと一致と見なされるようにします。The following example defines a positive character group that contains the characters "a" and "e" so that the input string must contain the words "grey" or "gray" followed by another word for a match to occur.

using System;
using System.Text.RegularExpressions;

public class Example
{
   public static void Main()
   {
      string pattern = @"gr[ae]y\s\S+?[\s\p{P}]";
      string input = "The gray wolf jumped over the grey wall.";
      MatchCollection matches = Regex.Matches(input, pattern);
      foreach (Match match in matches)
         Console.WriteLine($"'{match.Value}'");
   }
}
// The example displays the following output:
//       'gray wolf '
//       'grey wall.'
Imports System.Text.RegularExpressions

Module Example
   Public Sub Main()
      Dim pattern As String = "gr[ae]y\s\S+?[\s\p{P}]"
      Dim input As String = "The gray wolf jumped over the grey wall."
      Dim matches As MatchCollection = Regex.Matches(input, pattern)
      For Each match As Match In matches
         Console.WriteLine($"'{match.Value}'")
      Next
   End Sub
End Module
' The example displays the following output:
'       'gray wolf '
'       'grey wall.'

正規表現パターン gr[ae]y\s\S+?[\s|\p{P}] は、次のように定義されます。The regular expression gr[ae]y\s\S+?[\s|\p{P}] is defined as follows:

パターンPattern 説明Description
gr リテラル文字 "gr" と一致します。Match the literal characters "gr".
[ae] "a" または "e" と一致します。Match either an "a" or an "e".
y\s リテラル文字 "y" の後に空白文字が続く語と一致します。Match the literal character "y" followed by a white-space character.
\S+? 1 つ以上 (ただし、できるだけ少ない数) の空白以外の文字と一致します。Match one or more non-white-space characters, but as few as possible.
[\s\p{P}] 空白文字または句読点と一致します。Match either a white-space character or a punctuation mark.

次の例は、大文字で始まる語と一致します。The following example matches words that begin with any capital letter. 部分式 [A-Z] を使用して、A から Z の範囲の大文字を表します。It uses the subexpression [A-Z] to represent the range of capital letters from A to Z.

using System;
using System.Text.RegularExpressions;

public class Example
{
   public static void Main()
   {
      string pattern = @"\b[A-Z]\w*\b";
      string input = "A city Albany Zulu maritime Marseilles";
      foreach (Match match in Regex.Matches(input, pattern))
         Console.WriteLine(match.Value);
   }
}
// The example displays the following output:
//       A
//       Albany
//       Zulu
//       Marseilles
Imports System.Text.RegularExpressions

Module Example
   Public Sub Main()
      Dim pattern As String = "\b[A-Z]\w*\b"
      Dim input As String = "A city Albany Zulu maritime Marseilles"
      For Each match As Match In Regex.Matches(input, pattern)
         Console.WriteLine(match.Value)
      Next
   End Sub
End Module

正規表現 \b[A-Z]\w*\b は、次の表に示すように定義されています。The regular expression \b[A-Z]\w*\b is defined as shown in the following table.

パターンPattern 説明Description
\b ワード境界から開始します。Start at a word boundary.
[A-Z] A から Z の任意の大文字と一致します。Match any uppercase character from A to Z.
\w* 0 個以上の単語に使用される文字に一致します。Match zero or more word characters.
\b ワード境界に一致します。Match a word boundary.

ページのトップへBack to Top

文字グループの否定: [^]Negative Character Group: [^]

文字グループの否定では、入力文字列に含まれなければ一致と見なされる文字の一覧を指定します。A negative character group specifies a list of characters that must not appear in an input string for a match to occur. この文字の一覧は、個別に指定されることも範囲として指定されることも、その両方であることもあります。The list of characters may be specified individually, as a range, or both.

個別の文字の一覧を指定する構文は次のとおりです。The syntax for specifying a list of individual characters is as follows:

[^character_group][^character_group]

ここで、character_group は、入力文字列に含まれない場合に一致と見なされる個別の文字の一覧です。where character_group is a list of the individual characters that cannot appear in the input string for a match to succeed. character_group は、リテラル文字、エスケープ文字、または文字クラスを 1 つ以上組み合わせて構成されます。character_group can consist of any combination of one or more literal characters, escape characters, or character classes.

文字の範囲を指定する構文は次のとおりです。The syntax for specifying a range of characters is as follows:

[^firstCharacter-lastCharacter][^firstCharacter-lastCharacter]

ここで、firstCharacter は範囲の最初の文字で、lastCharacter は範囲の最後の文字です。where firstCharacter is the character that begins the range, and lastCharacter is the character that ends the range. 文字範囲は連続する一連の文字で、範囲の最初の文字、ハイフン (-)、および範囲の最後の文字を指定することで定義されます。A character range is a contiguous series of characters defined by specifying the first character in the series, a hyphen (-), and then the last character in the series. 2 つの文字の Unicode コード ポイントが隣接している場合、それらの文字は連続しています。Two characters are contiguous if they have adjacent Unicode code points.

複数の文字範囲を連結することもできます。Two or more character ranges can be concatenated. たとえば、"0" ~ "9" の範囲の 10 進数、"a" ~ "f" の範囲の小文字、および "A" ~ "F" の範囲の大文字を指定するには、[0-9a-fA-F] を使用します。For example, to specify the range of decimal digits from "0" through "9", the range of lowercase letters from "a" through "f", and the range of uppercase letters from "A" through "F", use [0-9a-fA-F].

文字グループの否定における先頭のキャレット文字 (^) は、文字グループが文字グループの肯定ではなく文字グループの否定であることを示し、省略できません。The leading carat character (^) in a negative character group is mandatory and indicates the character group is a negative character group instead of a positive character group.

重要

大規模な正規表現パターンにおける文字グループの否定は、ゼロ幅アサーションではありません。A negative character group in a larger regular expression pattern is not a zero-width assertion. つまり、正規表現エンジンは、文字グループの否定を評価した後に、入力文字列内で 1 文字進みます。That is, after evaluating the negative character group, the regular expression engine advances one character in the input string.

文字グループの否定を含む一般的な正規表現パターンをいくつか次の表に示します。Some common regular expression patterns that contain negative character groups are listed in the following table.

パターンPattern 説明Description
[^aeiou] 母音を除くすべての文字と一致します。Match all characters except vowels.
[^\p{P}\d] 句読点および 10 進数字を除くすべての文字と一致します。Match all characters except punctuation and decimal digit characters.

次の例は、"th" という文字で始まってその後に "o" が続かない語と一致します。The following example matches any word that begins with the characters "th" and is not followed by an "o".

using System;
using System.Text.RegularExpressions;

public class Example
{
   public static void Main()
   {
      string pattern = @"\bth[^o]\w+\b";
      string input = "thought thing though them through thus thorough this";
      foreach (Match match in Regex.Matches(input, pattern))
         Console.WriteLine(match.Value);
   }
}
// The example displays the following output:
//       thing
//       them
//       through
//       thus
//       this
Imports System.Text.RegularExpressions

Module Example
   Public Sub Main()
      Dim pattern As String = "\bth[^o]\w+\b"
      Dim input As String = "thought thing though them through thus " + _
                            "thorough this"
      For Each match As Match In Regex.Matches(input, pattern)
         Console.WriteLine(match.Value)
      Next
   End Sub
End Module
' The example displays the following output:
'       thing
'       them
'       through
'       thus
'       this

正規表現 \bth[^o]\w+\b は、次の表に示すように定義されています。The regular expression \bth[^o]\w+\b is defined as shown in the following table.

パターンPattern 説明Description
\b ワード境界から開始します。Start at a word boundary.
th リテラル文字 "th" と一致します。Match the literal characters "th".
[^o] "o" 以外の任意の文字と一致します。Match any character that is not an "o".
\w+ 1 つ以上の単語文字に一致します。Match one or more word characters.
\b ワード境界で終了します。End at a word boundary.

ページのトップへBack to Top

任意の文字: .Any Character: .

ピリオド文字 (.) は、\n (改行文字、\u000A) を除く任意の文字と一致しますが、次の 2 つの制限があります。The period character (.) matches any character except \n (the newline character, \u000A), with the following two qualifications:

  • 正規表現パターンが RegexOptions.Singleline オプションで修飾されている場合、または . 文字クラスを含むパターンの一部が s オプションで修飾されている場合は、. は任意の文字と一致します。If a regular expression pattern is modified by the RegexOptions.Singleline option, or if the portion of the pattern that contains the . character class is modified by the s option, . matches any character. 詳細については、「 正規表現のオプション」を参照してください。For more information, see Regular Expression Options.

    . 文字クラスの既定の動作と RegexOptions.Singleline オプションが指定されている場合の動作の違いの例を次に示します。The following example illustrates the different behavior of the . character class by default and with the RegexOptions.Singleline option. 正規表現 ^.+ は文字列の先頭から開始し、すべての文字と一致します。The regular expression ^.+ starts at the beginning of the string and matches every character. 既定では、照合は 1 行目の末尾で終了します。正規表現パターンは復帰文字 \r (\u000D) と一致しますが、\n とは一致しません。By default, the match ends at the end of the first line; the regular expression pattern matches the carriage return character, \r or \u000D, but it does not match \n. RegexOptions.Singleline オプションは入力文字列全体を単一行として解釈するので、\n を含む入力文字列内のすべての文字と一致します。Because the RegexOptions.Singleline option interprets the entire input string as a single line, it matches every character in the input string, including \n.

    using System;
    using System.Text.RegularExpressions;
    
    public class Example
    {
       public static void Main()
       {
          string pattern = "^.+";
          string input = "This is one line and" + Environment.NewLine + "this is the second.";
          foreach (Match match in Regex.Matches(input, pattern))
             Console.WriteLine(Regex.Escape(match.Value));
    
          Console.WriteLine();
          foreach (Match match in Regex.Matches(input, pattern, RegexOptions.Singleline))
             Console.WriteLine(Regex.Escape(match.Value));
       }
    }
    // The example displays the following output:
    //       This\ is\ one\ line\ and\r
    //       
    //       This\ is\ one\ line\ and\r\nthis\ is\ the\ second\.
    
    Imports System.Text.RegularExpressions
    
    Module Example
       Public Sub Main()
          Dim pattern As String = "^.+"
          Dim input As String = "This is one line and" + vbCrLf + "this is the second."
          For Each match As Match In Regex.Matches(input, pattern)
             Console.WriteLine(Regex.Escape(match.Value))
          Next
          Console.WriteLine()
          For Each match As Match In Regex.Matches(input, pattern, RegexOptions.SingleLine)
             Console.WriteLine(Regex.Escape(match.Value))
          Next
       End Sub
    End Module
    ' The example displays the following output:
    '       This\ is\ one\ line\ and\r
    '       
    '       This\ is\ one\ line\ and\r\nthis\ is\ the\ second\.
    

注意

. 文字クラスは \n を除く任意の文字と一致するので、このクラスも \r (復帰文字、\u000D) と一致します。Because it matches any character except \n, the . character class also matches \r (the carriage return character, \u000D).

  • 文字グループの肯定または文字グループの否定に含まれているピリオドは、文字クラスではなくリテラルのピリオド文字として扱われます。In a positive or negative character group, a period is treated as a literal period character, and not as a character class. 詳細については、このトピックで前述した「文字グループの肯定」および「文字グループの否定」を参照してください。For more information, see Positive Character Group and Negative Character Group earlier in this topic. ピリオド文字 (.) を文字クラスとしても文字グループの肯定のメンバーとしても含む正規表現を定義する例を次に示します。The following example provides an illustration by defining a regular expression that includes the period character (.) both as a character class and as a member of a positive character group. 正規表現 \b.*[.?!;:](\s|\z) はワード境界から開始し、ピリオドを含む 5 つの句読点のいずれかが検出されるまで任意の文字と一致し、空白文字または文字列の末尾と一致します。The regular expression \b.*[.?!;:](\s|\z) begins at a word boundary, matches any character until it encounters one of five punctuation marks, including a period, and then matches either a white-space character or the end of the string.

    using System;
    using System.Text.RegularExpressions;
    
    public class Example
    {
       public static void Main()
       {
          string pattern = @"\b.*[.?!;:](\s|\z)";
          string input = "this. what: is? go, thing.";
          foreach (Match match in Regex.Matches(input, pattern))
             Console.WriteLine(match.Value);
       }
    }
    // The example displays the following output:
    //       this. what: is? go, thing.
    
    Imports System.Text.RegularExpressions
    
    Module Example
       Public Sub Main()
          Dim pattern As STring = "\b.*[.?!;:](\s|\z)"
          Dim input As String = "this. what: is? go, thing."
          For Each match As Match In Regex.Matches(input, pattern)
             Console.WriteLine(match.Value)
          Next   
       End Sub
    End Module
    ' The example displays the following output:
    '       this. what: is? go, thing.
    

注意

. 言語要素は任意の文字と一致するので、正規表現パターンが任意の文字と複数回一致する場合に最短一致の量指定子と共によく使用されます。Because it matches any character, the . language element is often used with a lazy quantifier if a regular expression pattern attempts to match any character multiple times. 詳細については、「 量指定子」を参照してください。For more information, see Quantifiers.

ページのトップへBack to Top

Unicode カテゴリまたは Unicode ブロック: \p{}Unicode Category or Unicode Block: \p{}

Unicode 規格では、各文字に一般カテゴリが割り当てられています。The Unicode standard assigns each character a general category. たとえば、特定の文字は、英大文字 (Lu カテゴリで表されます)、10 進数 (Nd カテゴリ)、数学記号 (Sm カテゴリ)、または段落区切り記号 (Zl カテゴリ) に分類できます。For example, a particular character can be an uppercase letter (represented by the Lu category), a decimal digit (the Nd category), a math symbol (the Sm category), or a paragraph separator (the Zl category). また、Unicode 規格の特定の文字セットは、特定の範囲またはブロックの連続したコード ポイントに対応します。Specific character sets in the Unicode standard also occupy a specific range or block of consecutive code points. たとえば、基本的なラテン語文字セットは \u0000 ~ \u007F で、アラビア語文字セットは \u0600 ~ \u06FF です。For example, the basic Latin character set is found from \u0000 through \u007F, while the Arabic character set is found from \u0600 through \u06FF.

正規表現の構成要素The regular expression construct

\p{ name }\p{ name }

Unicode 一般カテゴリまたは名前付きブロックに属する任意の文字と一致します。ここで、name はカテゴリの省略形または名前付きブロックの名前です。matches any character that belongs to a Unicode general category or named block, where name is the category abbreviation or named block name. カテゴリの省略形の一覧については、このトピックで後述する「サポートされている Unicode 一般カテゴリ」を参照してください。For a list of category abbreviations, see the Supported Unicode General Categories section later in this topic. 名前付きブロックの一覧については、このトピックで後述する「サポートされている名前付きブロック」を参照してください。For a list of named blocks, see the Supported Named Blocks section later in this topic.

\p{name} 構成要素を使用して Unicode 一般カテゴリ (この場合は Pd (Punctuation, Dash: 句読点、ダッシュ) カテゴリ) と名前付きブロック (IsGreek 名前付きブロックおよび IsBasicLatin 名前付きブロック) の両方を照合する例を次に示します。The following example uses the \p{name} construct to match both a Unicode general category (in this case, the Pd, or Punctuation, Dash category) and a named block (the IsGreek and IsBasicLatin named blocks).

using System;
using System.Text.RegularExpressions;

public class Example
{
   public static void Main()
   {
      string pattern = @"\b(\p{IsGreek}+(\s)?)+\p{Pd}\s(\p{IsBasicLatin}+(\s)?)+";
      string input = "Κατα Μαθθαίον - The Gospel of Matthew";

      Console.WriteLine(Regex.IsMatch(input, pattern));        // Displays True.
   }
}
Imports System.Text.RegularExpressions

Module Example
   Public Sub Main()
      Dim pattern As String = "\b(\p{IsGreek}+(\s)?)+\p{Pd}\s(\p{IsBasicLatin}+(\s)?)+"
      Dim input As String = "Κατα Μαθθαίον - The Gospel of Matthew"

      Console.WriteLine(Regex.IsMatch(input, pattern))         ' Displays True.
   End Sub
End Module

正規表現 \b(\p{IsGreek}+(\s)?)+\p{Pd}\s(\p{IsBasicLatin}+(\s)?)+ は、次の表に示すように定義されています。The regular expression \b(\p{IsGreek}+(\s)?)+\p{Pd}\s(\p{IsBasicLatin}+(\s)?)+ is defined as shown in the following table.

パターンPattern 説明Description
\b ワード境界から開始します。Start at a word boundary.
\p{IsGreek}+ 1 つ以上のギリシャ文字と一致します。Match one or more Greek characters.
(\s)? 0 個または 1 個の空白文字と一致します。Match zero or one white-space character.
(\p{IsGreek}+(\s)?)+ 1 つ以上のギリシャ文字の後に 0 個または 1 個の空白文字が 1 回以上続くパターンに一致します。Match the pattern of one or more Greek characters followed by zero or one white-space characters one or more times.
\p{Pd} Punctuation, Dash (句読点、ダッシュ) 文字と一致します。Match a Punctuation, Dash character.
\s 空白文字と一致します。Match a white-space character.
\p{IsBasicLatin}+ 1 つ以上の基本的なラテン文字と一致します。Match one or more basic Latin characters.
(\s)? 0 個または 1 個の空白文字と一致します。Match zero or one white-space character.
(\p{IsBasicLatin}+(\s)?)+ 1 つ以上の基本的なラテン文字の後に 0 個または 1 個の空白文字が 1 回以上続くパターンに一致します。Match the pattern of one or more basic Latin characters followed by zero or one white-space characters one or more times.

ページのトップへBack to Top

Unicode カテゴリまたは Unicode ブロックの否定: \P{}Negative Unicode Category or Unicode Block: \P{}

Unicode 規格では、各文字に一般カテゴリが割り当てられています。The Unicode standard assigns each character a general category. たとえば、特定の文字は、英大文字 (Lu カテゴリで表されます)、10 進数 (Nd カテゴリ)、数学記号 (Sm カテゴリ)、または段落区切り記号 (Zl カテゴリ) に分類できます。For example, a particular character can be an uppercase letter (represented by the Lu category), a decimal digit (the Nd category), a math symbol (the Sm category), or a paragraph separator (the Zl category). また、Unicode 規格の特定の文字セットは、特定の範囲またはブロックの連続したコード ポイントに対応します。Specific character sets in the Unicode standard also occupy a specific range or block of consecutive code points. たとえば、基本的なラテン語文字セットは \u0000 ~ \u007F で、アラビア語文字セットは \u0600 ~ \u06FF です。For example, the basic Latin character set is found from \u0000 through \u007F, while the Arabic character set is found from \u0600 through \u06FF.

正規表現の構成要素The regular expression construct

\P{ name }\P{ name }

Unicode 一般カテゴリにも名前付きブロックにも属さない任意の文字と一致します。ここで、name はカテゴリの省略形または名前付きブロックの名前です。matches any character that does not belong to a Unicode general category or named block, where name is the category abbreviation or named block name. カテゴリの省略形の一覧については、このトピックで後述する「サポートされている Unicode 一般カテゴリ」を参照してください。For a list of category abbreviations, see the Supported Unicode General Categories section later in this topic. 名前付きブロックの一覧については、このトピックで後述する「サポートされている名前付きブロック」を参照してください。For a list of named blocks, see the Supported Named Blocks section later in this topic.

\P{name} 構成要素を使用して通貨記号 (この場合は Sc (Symbol, Currency: 記号、通貨) カテゴリ) を数値文字列から削除する例を次に示します。The following example uses the \P{name} construct to remove any currency symbols (in this case, the Sc, or Symbol, Currency category) from numeric strings.

using System;
using System.Text.RegularExpressions;

public class Example
{
   public static void Main()
   {
      string pattern = @"(\P{Sc})+";
      
      string[] values = { "$164,091.78", "£1,073,142.68", "73¢", "€120" };
      foreach (string value in values)
         Console.WriteLine(Regex.Match(value, pattern).Value);
   }
}
// The example displays the following output:
//       164,091.78
//       1,073,142.68
//       73
//       120
Imports System.Text.RegularExpressions

Module Example
   Public Sub Main()
      Dim pattern As String = "(\P{Sc})+"
      
      Dim values() As String = { "$164,091.78", "£1,073,142.68", "73¢", "€120"}
      For Each value As String In values
         Console.WriteLine(Regex.Match(value, pattern).Value)
      Next
   End Sub
End Module
' The example displays the following output:
'       164,091.78
'       1,073,142.68
'       73
'       120

正規表現パターン (\P{Sc})+ は、通貨記号以外の 1 つ以上の文字と一致し、実質的に結果文字列から通貨記号を削除します。The regular expression pattern (\P{Sc})+ matches one or more characters that are not currency symbols; it effectively strips any currency symbol from the result string.

ページのトップへBack to Top

単語に使用される文字: \wWord Character: \w

\w は、単語に使用される任意の文字と一致します。\w matches any word character. 単語に使用される文字は、次の表に示す Unicode カテゴリのメンバーです。A word character is a member of any of the Unicode categories listed in the following table.

カテゴリCategory 説明Description
LlLl Letter, Lowercase (字、小文字)Letter, Lowercase
LuLu Letter, Uppercase (字、大文字)Letter, Uppercase
LtLt Letter, Titlecase (字、タイトル文字)Letter, Titlecase
LoLo Letter, Other (字、その他)Letter, Other
LmLm Letter, Modifier (字、修飾)Letter, Modifier
MnMn Mark, Nonspacing (結合文字、幅なし)Mark, Nonspacing
NdNd Number, Decimal Digit (数、10 進数字)Number, Decimal Digit
PcPc Punctuation, Connector (句読点、接続)。Punctuation, Connector. このカテゴリには 10 文字が含まれ、そのうち最もよく使用される文字は LOWLINE 文字 ()、u+005F です。This category includes ten characters, the most commonly used of which is the LOWLINE character (), u+005F.

ECMAScript 準拠の動作が指定された場合、\w[a-zA-Z_0-9] と同じになります。If ECMAScript-compliant behavior is specified, \w is equivalent to [a-zA-Z_0-9]. ECMAScript 正規表現の詳細については、「正規表現のオプション」の「ECMAScript 一致の動作」のセクションを参照してください。For information on ECMAScript regular expressions, see the "ECMAScript Matching Behavior" section in Regular Expression Options.

注意

\w 言語要素は単語に使用される任意の文字と一致するので、正規表現パターンが単語に使用される任意の文字の後に特定の単語に使用される文字が続く語と複数回一致する場合に最短一致の量指定子と共によく使用されます。Because it matches any word character, the \w language element is often used with a lazy quantifier if a regular expression pattern attempts to match any word character multiple times, followed by a specific word character. 詳細については、「 量指定子」を参照してください。For more information, see Quantifiers.

\w 言語要素を使用して単語内の重複する文字を照合する例を次に示します。The following example uses the \w language element to match duplicate characters in a word. この例では、次のように解釈できる正規表現パターン (\w)\1 を定義しています。The example defines a regular expression pattern, (\w)\1, which can be interpreted as follows.

要素Element 説明Description
(\w)(\w) 単語に使用される文字と一致します。Match a word character. これが最初のキャプチャ グループです。This is the first capturing group.
\1\1 最初のキャプチャの値と一致します。Match the value of the first capture.
using System;
using System.Text.RegularExpressions;

public class Example
{
   public static void Main()
   {
      string pattern = @"(\w)\1";
      string[] words = { "trellis", "seer", "latter", "summer", 
                         "hoarse", "lesser", "aardvark", "stunned" };
      foreach (string word in words)
      {
         Match match = Regex.Match(word, pattern);
         if (match.Success)
            Console.WriteLine("'{0}' found in '{1}' at position {2}.", 
                              match.Value, word, match.Index);
         else
            Console.WriteLine("No double characters in '{0}'.", word);
      }                                                  
   }
}
// The example displays the following output:
//       'll' found in 'trellis' at position 3.
//       'ee' found in 'seer' at position 1.
//       'tt' found in 'latter' at position 2.
//       'mm' found in 'summer' at position 2.
//       No double characters in 'hoarse'.
//       'ss' found in 'lesser' at position 2.
//       'aa' found in 'aardvark' at position 0.
//       'nn' found in 'stunned' at position 3.
Imports System.Text.RegularExpressions

Module Example
   Public Sub Main()
      Dim pattern As String = "(\w)\1"
      Dim words() As String = { "trellis", "seer", "latter", "summer", _
                                "hoarse", "lesser", "aardvark", "stunned" }
      For Each word As String In words
         Dim match As Match = Regex.Match(word, pattern)
         If match.Success Then
            Console.WriteLine("'{0}' found in '{1}' at position {2}.", _
                              match.Value, word, match.Index)
         Else
            Console.WriteLine("No double characters in '{0}'.", word)
         End If
      Next                                                  
   End Sub
End Module
' The example displays the following output:
'       'll' found in 'trellis' at position 3.
'       'ee' found in 'seer' at position 1.
'       'tt' found in 'latter' at position 2.
'       'mm' found in 'summer' at position 2.
'       No double characters in 'hoarse'.
'       'ss' found in 'lesser' at position 2.
'       'aa' found in 'aardvark' at position 0.
'       'nn' found in 'stunned' at position 3.

ページのトップへBack to Top

単語に使用されない文字: \WNon-Word Character: \W

\W は、単語に使用される文字以外の任意の文字と一致します。\W matches any non-word character. \W 言語要素は、次の文字クラスと同じ結果をもたらします。The \W language element is equivalent to the following character class:

[^\p{Ll}\p{Lu}\p{Lt}\p{Lo}\p{Nd}\p{Pc}\p{Lm}]  

つまり、次の表に示す Unicode カテゴリの文字を除く任意の文字と一致します。In other words, it matches any character except for those in the Unicode categories listed in the following table.

カテゴリCategory 説明Description
LlLl Letter, Lowercase (字、小文字)Letter, Lowercase
LuLu Letter, Uppercase (字、大文字)Letter, Uppercase
LtLt Letter, Titlecase (字、タイトル文字)Letter, Titlecase
LoLo Letter, Other (字、その他)Letter, Other
LmLm Letter, Modifier (字、修飾)Letter, Modifier
MnMn Mark, Nonspacing (結合文字、幅なし)Mark, Nonspacing
NdNd Number, Decimal Digit (数、10 進数字)Number, Decimal Digit
PcPc Punctuation, Connector (句読点、接続)。Punctuation, Connector. このカテゴリには 10 文字が含まれ、そのうち最もよく使用される文字は LOWLINE 文字 ()、u+005F です。This category includes ten characters, the most commonly used of which is the LOWLINE character (), u+005F.

ECMAScript 準拠の動作が指定された場合、\W[^a-zA-Z_0-9] と同じになります。If ECMAScript-compliant behavior is specified, \W is equivalent to [^a-zA-Z_0-9]. ECMAScript 正規表現の詳細については、「正規表現のオプション」の「ECMAScript 一致の動作」のセクションを参照してください。For information on ECMAScript regular expressions, see the "ECMAScript Matching Behavior" section in Regular Expression Options.

注意

\W 言語要素は単語に使用されない任意の文字と一致するので、正規表現パターンが単語に使用されない任意の文字の後に特定の単語に使用されない文字が続く語と複数回一致する場合に最短一致の量指定子と共によく使用されます。Because it matches any non-word character, the \W language element is often used with a lazy quantifier if a regular expression pattern attempts to match any non-word character multiple times followed by a specific non-word character. 詳細については、「正規表現での量指定子」を参照してください。For more information, see Quantifiers.

\W 文字クラスの例を次に示します。The following example illustrates the \W character class. この例では、単語の後に 1 つまたは 2 つの単語に使用されない文字 (空白や句読点など) が続く場合に一致する正規表現パターン \b(\w+)(\W){1,2} を定義しています。It defines a regular expression pattern, \b(\w+)(\W){1,2}, that matches a word followed by one or two non-word characters, such as white space or punctuation. この正規表現の解釈を次の表に示します。The regular expression is interpreted as shown in the following table.

要素Element 説明Description
\b\b ワード境界から照合を開始します。Begin the match at a word boundary.
(\w+)(\w+) 1 つ以上の単語文字に一致します。Match one or more word characters. これが最初のキャプチャ グループです。This is the first capturing group.
(\W){1,2}(\W){1,2} 単語に使用されない文字と 1 回または 2 回一致します。Match a non-word character either one or two times. これが 2 番目のキャプチャ グループです。This is the second capturing group.
using System;
using System.Text.RegularExpressions;

public class Example
{
   public static void Main()
   {
      string pattern = @"\b(\w+)(\W){1,2}";
      string input = "The old, grey mare slowly walked across the narrow, green pasture.";
      foreach (Match match in Regex.Matches(input, pattern))
      {
         Console.WriteLine(match.Value);
         Console.Write("   Non-word character(s):");
         CaptureCollection captures = match.Groups[2].Captures;
         for (int ctr = 0; ctr < captures.Count; ctr++)
             Console.Write(@"'{0}' (\u{1}){2}", captures[ctr].Value, 
                           Convert.ToUInt16(captures[ctr].Value[0]).ToString("X4"), 
                           ctr < captures.Count - 1 ? ", " : "");
         Console.WriteLine();
      }   
   }
}
// The example displays the following output:
//       The
//          Non-word character(s):' ' (\u0020)
//       old,
//          Non-word character(s):',' (\u002C), ' ' (\u0020)
//       grey
//          Non-word character(s):' ' (\u0020)
//       mare
//          Non-word character(s):' ' (\u0020)
//       slowly
//          Non-word character(s):' ' (\u0020)
//       walked
//          Non-word character(s):' ' (\u0020)
//       across
//          Non-word character(s):' ' (\u0020)
//       the
//          Non-word character(s):' ' (\u0020)
//       narrow,
//          Non-word character(s):',' (\u002C), ' ' (\u0020)
//       green
//          Non-word character(s):' ' (\u0020)
//       pasture.
//          Non-word character(s):'.' (\u002E)
Imports System.Text.RegularExpressions

Module Example
   Public Sub Main()
      Dim pattern As String = "\b(\w+)(\W){1,2}"
      Dim input As String = "The old, grey mare slowly walked across the narrow, green pasture."
      For Each match As Match In Regex.Matches(input, pattern)
         Console.WriteLine(match.Value)
         Console.Write("   Non-word character(s):")
         Dim captures As CaptureCollection = match.Groups(2).Captures
         For ctr As Integer = 0 To captures.Count - 1
             Console.Write("'{0}' (\u{1}){2}", captures(ctr).Value, _
                           Convert.ToUInt16(captures(ctr).Value.Chars(0)).ToString("X4"), _
                           If(ctr < captures.Count - 1, ", ", ""))
         Next
         Console.WriteLine()
      Next
   End Sub
End Module
' The example displays the following output:
'       The
'          Non-word character(s):' ' (\u0020)
'       old,
'          Non-word character(s):',' (\u002C), ' ' (\u0020)
'       grey
'          Non-word character(s):' ' (\u0020)
'       mare
'          Non-word character(s):' ' (\u0020)
'       slowly
'          Non-word character(s):' ' (\u0020)
'       walked
'          Non-word character(s):' ' (\u0020)
'       across
'          Non-word character(s):' ' (\u0020)
'       the
'          Non-word character(s):' ' (\u0020)
'       narrow,
'          Non-word character(s):',' (\u002C), ' ' (\u0020)
'       green
'          Non-word character(s):' ' (\u0020)
'       pasture.
'          Non-word character(s):'.' (\u002E)

2 番目のキャプチャ グループの Group オブジェクトには、キャプチャされた単語に使用されない文字が 1 つだけ含まれるので、この例では、CaptureCollection プロパティによって返される Group.Captures オブジェクトから、キャプチャされたすべての単語に使用されない文字を取得します。Because the Group object for the second capturing group contains only a single captured non-word character, the example retrieves all captured non-word characters from the CaptureCollection object that is returned by the Group.Captures property.

ページのトップへBack to Top

空白文字: \sWhite-Space Character: \s

\s は、空白文字と一致します。\s matches any white-space character. 次の表に示すエスケープ シーケンスおよび Unicode カテゴリと同じ結果をもたらします。It is equivalent to the escape sequences and Unicode categories listed in the following table.

カテゴリCategory 説明Description
\f フォーム フィード文字 (\u000C)。The form feed character, \u000C.
\n 改行文字 (\u000A)。The newline character, \u000A.
\r 復帰文字 (\u000D)。The carriage return character, \u000D.
\t タブ文字 (\u0009)。The tab character, \u0009.
\v 垂直タブ文字 (\u000B)。The vertical tab character, \u000B.
\x85 省略記号または NEXT LINE (NEL) 文字 (…) (\u0085)。The ellipsis or NEXT LINE (NEL) character (…), \u0085.
\p{Z} 任意の区切り記号と一致します。Matches any separator character.

ECMAScript 準拠の動作が指定された場合、\s[ \f\n\r\t\v] と同じになります。If ECMAScript-compliant behavior is specified, \s is equivalent to [ \f\n\r\t\v]. ECMAScript 正規表現の詳細については、「正規表現のオプション」の「ECMAScript 一致の動作」のセクションを参照してください。For information on ECMAScript regular expressions, see the "ECMAScript Matching Behavior" section in Regular Expression Options.

\s 文字クラスの例を次に示します。The following example illustrates the \s character class. この例では、"s" または "es" で終わる単語の後に空白文字または入力文字列の末尾が続く場合に一致する正規表現パターン \b\w+(e)?s(\s|$) を定義しています。It defines a regular expression pattern, \b\w+(e)?s(\s|$), that matches a word ending in either "s" or "es" followed by either a white-space character or the end of the input string. この正規表現の解釈を次の表に示します。The regular expression is interpreted as shown in the following table.

要素Element 説明Description
\b\b ワード境界から照合を開始します。Begin the match at a word boundary.
\w+\w+ 1 つ以上の単語文字に一致します。Match one or more word characters.
(e)?(e)? "e" と 0 回または 1 回一致します。Match an "e" either zero or one time.
ss "s" と一致します。Match an "s".
(\s|$)(\s|$) 空白文字または入力文字列の末尾と一致します。Match either a white-space character or the end of the input string.
using System;
using System.Text.RegularExpressions;

public class Example
{
   public static void Main()
   {
      string pattern = @"\b\w+(e)?s(\s|$)";
      string input = "matches stores stops leave leaves";
      foreach (Match match in Regex.Matches(input, pattern))
         Console.WriteLine(match.Value);
   }
}
// The example displays the following output:
//       matches
//       stores
//       stops
//       leaves
Imports System.Text.RegularExpressions

Module Example
   Public Sub Main()
      Dim pattern As String = "\b\w+(e)?s(\s|$)"
      Dim input As String = "matches stores stops leave leaves"
      For Each match As Match In Regex.Matches(input, pattern)
         Console.WriteLine(match.Value)      
      Next
   End Sub
End Module
' The example displays the following output:
'       matches
'       stores
'       stops
'       leaves

ページのトップへBack to Top

空白以外の文字: \SNon-White-Space Character: \S

\S は、空白文字以外の任意の文字と一致します。\S matches any non-white-space character. [^\f\n\r\t\v\x85\p{Z}] 正規表現パターン、または空白文字と一致する \s に相当する正規表現パターンの逆と同じ結果をもたらします。It is equivalent to the [^\f\n\r\t\v\x85\p{Z}] regular expression pattern, or the opposite of the regular expression pattern that is equivalent to \s, which matches white-space characters. 詳細については、「空白文字: \s」を参照してください。For more information, see White-Space Character: \s.

ECMAScript 準拠の動作が指定された場合、\S[^ \f\n\r\t\v] と同じになります。If ECMAScript-compliant behavior is specified, \S is equivalent to [^ \f\n\r\t\v]. ECMAScript 正規表現の詳細については、「正規表現のオプション」の「ECMAScript 一致の動作」のセクションを参照してください。For information on ECMAScript regular expressions, see the "ECMAScript Matching Behavior" section in Regular Expression Options.

\S 言語要素の例を次に示します。The following example illustrates the \S language element. 正規表現パターン \b(\S+)\s? は、空白文字で区切られた文字列と一致します。The regular expression pattern \b(\S+)\s? matches strings that are delimited by white-space characters. 一致部分の GroupCollection オブジェクトの 2 番目の要素に一致する文字列が含まれます。The second element in the match's GroupCollection object contains the matched string. この正規表現の解釈を次の表に示します。The regular expression can be interpreted as shown in the following table.

要素Element 説明Description
\b ワード境界から照合を開始します。Begin the match at a word boundary.
(\S+) 1 つ以上の空白以外の文字と一致します。Match one or more non-white-space characters. これが最初のキャプチャ グループです。This is the first capturing group.
\s? 0 個または 1 個の空白文字と一致します。Match zero or one white-space character.
using System;
using System.Text.RegularExpressions;

public class Example
{
   public static void Main()
   {
      string pattern = @"\b(\S+)\s?";
      string input = "This is the first sentence of the first paragraph. " + 
                            "This is the second sentence.\n" + 
                            "This is the only sentence of the second paragraph.";
      foreach (Match match in Regex.Matches(input, pattern))
         Console.WriteLine(match.Groups[1]);
   }
}
// The example displays the following output:
//    This
//    is
//    the
//    first
//    sentence
//    of
//    the
//    first
//    paragraph.
//    This
//    is
//    the
//    second
//    sentence.
//    This
//    is
//    the
//    only
//    sentence
//    of
//    the
//    second
//    paragraph.
Imports System.Text.RegularExpressions

Module Example
   Public Sub Main()
      Dim pattern As String = "\b(\S+)\s?"
      Dim input As String = "This is the first sentence of the first paragraph. " + _
                            "This is the second sentence." + vbCrLf + _
                            "This is the only sentence of the second paragraph."
      For Each match As Match In Regex.Matches(input, pattern)
         Console.WriteLine(match.Groups(1))
      Next
   End Sub
End Module
' The example displays the following output:
'    This
'    is
'    the
'    first
'    sentence
'    of
'    the
'    first
'    paragraph.
'    This
'    is
'    the
'    second
'    sentence.
'    This
'    is
'    the
'    only
'    sentence
'    of
'    the
'    second
'    paragraph.

ページのトップへBack to Top

10 進数字: \dDecimal Digit Character: \d

\d は、10 進数字と一致します。\d matches any decimal digit. 標準の 10 進数 0 ~ 9 およびその他の各種文字セットの 10 進数を含む \p{Nd} 正規表現パターンと同じ結果をもたらします。It is equivalent to the \p{Nd} regular expression pattern, which includes the standard decimal digits 0-9 as well as the decimal digits of a number of other character sets.

ECMAScript 準拠の動作が指定された場合、\d[0-9] と同じになります。If ECMAScript-compliant behavior is specified, \d is equivalent to [0-9]. ECMAScript 正規表現の詳細については、「正規表現のオプション」の「ECMAScript 一致の動作」のセクションを参照してください。For information on ECMAScript regular expressions, see the "ECMAScript Matching Behavior" section in Regular Expression Options.

\d 言語要素の例を次に示します。The following example illustrates the \d language element. この例では、入力文字列が米国およびカナダの有効な電話番号を表すかどうかをテストします。It tests whether an input string represents a valid telephone number in the United States and Canada. 正規表現パターン ^(\(?\d{3}\)?[\s-])?\d{3}-\d{4}$ は、次の表に示すように定義されています。The regular expression pattern ^(\(?\d{3}\)?[\s-])?\d{3}-\d{4}$ is defined as shown in the following table.

要素Element 説明Description
^ 入力文字列の先頭から照合を開始します。Begin the match at the beginning of the input string.
\(? 0 個または 1 個のリテラル "(" 文字と一致します。Match zero or one literal "(" character.
\d{3} 3 個の 10 進数と一致します。Match three decimal digits.
\)? 0 個または 1 個のリテラル ")" 文字と一致します。Match zero or one literal ")" character.
[\s-] ハイフンまたは空白文字と一致します。Match a hyphen or a white-space character.
(\(?\d{3}\)?[\s-])? 省略可能な左かっこの後に 3 個の 10 進数が続く部分、省略可能な右かっこ、および空白文字またはハイフンと 0 回または 1 回一致します。Match an optional opening parenthesis followed by three decimal digits, an optional closing parenthesis, and either a white-space character or a hyphen zero or one time. これが最初のキャプチャ グループです。This is the first capturing group.
\d{3}-\d{4} 3 個の 10 進数の後にハイフンおよび 4 個以上の 10 進数が続く場合に一致します。Match three decimal digits followed by a hyphen and four more decimal digits.
$ 入力文字列の末尾と一致します。Match the end of the input string.
using System;
using System.Text.RegularExpressions;

public class Example
{
   public static void Main()
   {
      string pattern = @"^(\(?\d{3}\)?[\s-])?\d{3}-\d{4}$";
      string[] inputs = { "111 111-1111", "222-2222", "222 333-444", 
                          "(212) 111-1111", "111-AB1-1111", 
                          "212-111-1111", "01 999-9999" };
      
      foreach (string input in inputs)
      {
         if (Regex.IsMatch(input, pattern)) 
            Console.WriteLine(input + ": matched");
         else
            Console.WriteLine(input + ": match failed");
      }
   }
}
// The example displays the following output:
//       111 111-1111: matched
//       222-2222: matched
//       222 333-444: match failed
//       (212) 111-1111: matched
//       111-AB1-1111: match failed
//       212-111-1111: matched
//       01 999-9999: match failed
Imports System.Text.RegularExpressions

Module Example
   Public Sub Main()
      Dim pattern As String = "^(\(?\d{3}\)?[\s-])?\d{3}-\d{4}$"
      Dim inputs() As String = { "111 111-1111", "222-2222", "222 333-444", _
                                 "(212) 111-1111", "111-AB1-1111", _
                                 "212-111-1111", "01 999-9999" }
      
      For Each input As String In inputs
         If Regex.IsMatch(input, pattern) Then 
            Console.WriteLine(input + ": matched")
         Else
            Console.WriteLine(input + ": match failed")
         End If   
      Next
   End Sub
End Module
' The example displays the following output:
'       111 111-1111: matched
'       222-2222: matched
'       222 333-444: match failed
'       (212) 111-1111: matched
'       111-AB1-1111: match failed
'       212-111-1111: matched
'       01 999-9999: match failed

ページのトップへBack to Top

数字以外の文字: \DNon-Digit Character: \D

\D は、数字以外の文字と一致します。\D matches any non-digit character. \P{Nd} 正規表現パターンと同じ結果をもたらします。It is equivalent to the \P{Nd} regular expression pattern.

ECMAScript 準拠の動作が指定された場合、\D[^0-9] と同じになります。If ECMAScript-compliant behavior is specified, \D is equivalent to [^0-9]. ECMAScript 正規表現の詳細については、「正規表現のオプション」の「ECMAScript 一致の動作」のセクションを参照してください。For information on ECMAScript regular expressions, see the "ECMAScript Matching Behavior" section in Regular Expression Options.

\D 言語要素の例を次に示します。The following example illustrates the \D language element. 部品番号などの文字列が 10 進数および 10 進数以外の文字を適切に組み合わせて構成されているかどうかをテストします。It tests whether a string such as a part number consists of the appropriate combination of decimal and non-decimal characters. 正規表現パターン ^\D\d{1,5}\D*$ は、次の表に示すように定義されています。The regular expression pattern ^\D\d{1,5}\D*$ is defined as shown in the following table.

要素Element 説明Description
^ 入力文字列の先頭から照合を開始します。Begin the match at the beginning of the input string.
\D 数字以外の文字と一致します。Match a non-digit character.
\d{1,5} 1 ~ 5 個の 10 進数と一致します。Match from one to five decimal digits.
\D* 0 個または 1 個以上の 10 進数以外の文字と一致します。Match zero, one, or more non-decimal characters.
$ 入力文字列の末尾と一致します。Match the end of the input string.
using System;
using System.Text.RegularExpressions;

public class Example
{
   public static void Main()
   {
      string pattern = @"^\D\d{1,5}\D*$"; 
      string[] inputs = { "A1039C", "AA0001", "C18A", "Y938518" }; 
      
      foreach (string input in inputs)
      {
         if (Regex.IsMatch(input, pattern))
            Console.WriteLine(input + ": matched");
         else
            Console.WriteLine(input + ": match failed");
      }
   }
}
// The example displays the following output:
//       A1039C: matched
//       AA0001: match failed
//       C18A: matched
//       Y938518: match failed
Imports System.Text.RegularExpressions

Module Example
   Public Sub Main()
      Dim pattern As String = "^\D\d{1,5}\D*$" 
      Dim inputs() As String = { "A1039C", "AA0001", "C18A", "Y938518" } 
      
      For Each input As String In inputs
         If Regex.IsMatch(input, pattern) Then
            Console.WriteLine(input + ": matched")
         Else
            Console.WriteLine(input + ": match failed")
         End If   
      Next
   End Sub
End Module
' The example displays the following output:

ページのトップへBack to Top

サポートされている Unicode 一般カテゴリSupported Unicode General Categories

Unicode は、次の表に示されている一般カテゴリを定義しています。Unicode defines the general categories listed in the following table. 詳細については、「Unicode Character Database (Unicode 文字データベース)」内の「UCD File Format (UCD ファイル形式)」および「General Category Values (一般カテゴリの値)」を参照してください。For more information, see the "UCD File Format" and "General Category Values" subtopics at the Unicode Character Database.

カテゴリCategory 説明Description
Lu Letter, Uppercase (字、大文字)Letter, Uppercase
Ll Letter, Lowercase (字、小文字)Letter, Lowercase
Lt Letter, Titlecase (字、タイトル文字)Letter, Titlecase
Lm Letter, Modifier (字、修飾)Letter, Modifier
Lo Letter, Other (字、その他)Letter, Other
L すべてのアルファベット文字。All letter characters. これには、LuLlLtLm、および Lo の各文字が含まれます。This includes the Lu, Ll, Lt, Lm, and Lo characters.
Mn Mark, Nonspacing (結合文字、幅なし)Mark, Nonspacing
Mc Mark, Spacing Combining (結合文字、幅あり)Mark, Spacing Combining
Me Mark, Enclosing (結合文字、囲み)Mark, Enclosing
M すべての分音記号。All diacritic marks. これには、MnMc、および Me の各カテゴリが含まれます。This includes the Mn, Mc, and Me categories.
Nd Number, Decimal Digit (数、10 進数字)Number, Decimal Digit
Nl Number, Letter (数、字)Number, Letter
No Number, Other (数、その他)Number, Other
N すべての数。All numbers. これには、NdNl、および No の各カテゴリが含まれます。This includes the Nd, Nl, and No categories.
Pc Punctuation, Connector (句読点、接続)Punctuation, Connector
Pd Punctuation, Dash (句読点、ダッシュ)Punctuation, Dash
Ps Punctuation, Open (句読点、開き)Punctuation, Open
Pe Punctuation, Close (句読点、閉じ)Punctuation, Close
Pi Punctuation, Initial quote (句読点、開始引用符。使用状況に応じて Ps または Pe のように動作)Punctuation, Initial quote (may behave like Ps or Pe depending on usage)
Pf Punctuation, Final quote (句読点、終了引用符。使用状況に応じて Ps または Pe のように動作)Punctuation, Final quote (may behave like Ps or Pe depending on usage)
Po Punctuation, Other (句読点、その他)Punctuation, Other
P すべての句読点。All punctuation characters. これには、PcPdPsPePiPf、および Po の各カテゴリが含まれます。This includes the Pc, Pd, Ps, Pe, Pi, Pf, and Po categories.
Sm Symbol, Math (記号、数学)Symbol, Math
Sc Symbol, Currency (記号、通貨)Symbol, Currency
Sk Symbol, Modifier (記号、修飾)Symbol, Modifier
So Symbol, Other (記号、その他)Symbol, Other
S すべての記号。All symbols. これには、SmScSk、および So の各カテゴリが含まれます。This includes the Sm, Sc, Sk, and So categories.
Zs Separator, Space (区切り、空白)Separator, Space
Zl Separator, Line (区切り、行)Separator, Line
Zp Separator, Paragraph (区切り、段落)Separator, Paragraph
Z すべての区切り記号。All separator characters. これには、ZsZl、および Zp の各カテゴリが含まれます。This includes the Zs, Zl, and Zp categories.
Cc Other, Control (区切り、制御)Other, Control
Cf Other, Format (その他、書式)Other, Format
Cs Other, Surrogate (その他、サロゲート)Other, Surrogate
Co Other, Private Use (その他、プライベート用途)Other, Private Use
Cn Other, Not Assigned (その他、未割り当て。このプロパティを持つ文字はありません)Other, Not Assigned (no characters have this property)
C すべての制御文字。All control characters. これには、CcCfCsCo、および Cn の各カテゴリが含まれます。This includes the Cc, Cf, Cs, Co, and Cn categories.

特定の文字の Unicode カテゴリを確認するには、その文字を GetUnicodeCategory メソッドに渡します。You can determine the Unicode category of any particular character by passing that character to the GetUnicodeCategory method. GetUnicodeCategory メソッドを使用して、選択したラテン文字を含む配列の各要素のカテゴリを確認する例を次に示します。The following example uses the GetUnicodeCategory method to determine the category of each element in an array that contains selected Latin characters.

using System;
using System.Text.RegularExpressions;

public class Example
{
   public static void Main()
   {
      char[] chars = { 'a', 'X', '8', ',', ' ', '\u0009', '!' };
      
      foreach (char ch in chars)
         Console.WriteLine("'{0}': {1}", Regex.Escape(ch.ToString()), 
                           Char.GetUnicodeCategory(ch));
   }
}
// The example displays the following output:
//       'a': LowercaseLetter
//       'X': UppercaseLetter
//       '8': DecimalDigitNumber
//       ',': OtherPunctuation
//       '\ ': SpaceSeparator
//       '\t': Control
//       '!': OtherPunctuation
Imports System.Text.RegularExpressions

Module Example
   Public Sub Main()
      Dim chars() As Char = { "a"c, "X"c, "8"c, ","c, " "c, ChrW(9), "!"c }
      
      For Each ch As Char In chars
         Console.WriteLine("'{0}': {1}", Regex.Escape(ch.ToString()), _
                           Char.GetUnicodeCategory(ch))
      Next         
   End Sub
End Module
' The example displays the following output:
'       'a': LowercaseLetter
'       'X': UppercaseLetter
'       '8': DecimalDigitNumber
'       ',': OtherPunctuation
'       '\ ': SpaceSeparator
'       '\t': Control
'       '!': OtherPunctuation

ページのトップへBack to Top

サポートされている名前付きブロックSupported Named Blocks

.NET には、次の表に示す名前付きブロックが用意されています。.NET provides the named blocks listed in the following table. サポートされている一連の名前付きブロックは、Unicode 4.0 および Perl 5.6 に基づいています。The set of supported named blocks is based on Unicode 4.0 and Perl 5.6.

コード ポイント範囲Code point range ブロック名Block name
0000 ~ 007F0000 - 007F IsBasicLatin
0080 ~ 00FF0080 - 00FF IsLatin-1Supplement
0100 ~ 017F0100 - 017F IsLatinExtended-A
0180 ~ 024F0180 - 024F IsLatinExtended-B
0250 ~ 02AF0250 - 02AF IsIPAExtensions
02B0 ~ 02FF02B0 - 02FF IsSpacingModifierLetters
0300 ~ 036F0300 - 036F IsCombiningDiacriticalMarks
0370 ~ 03FF0370 - 03FF IsGreek

- または --or-

IsGreekandCoptic
0400 ~ 04FF0400 - 04FF IsCyrillic
0500 ~ 052F0500 - 052F IsCyrillicSupplement
0530 ~ 058F0530 - 058F IsArmenian
0590 ~ 05FF0590 - 05FF IsHebrew
0600 ~ 06FF0600 - 06FF IsArabic
0700 ~ 074F0700 - 074F IsSyriac
0780 ~ 07BF0780 - 07BF IsThaana
0900 ~ 097F0900 - 097F IsDevanagari
0980 ~ 09FF0980 - 09FF IsBengali
0A00 ~ 0A7F0A00 - 0A7F IsGurmukhi
0A80 ~ 0AFF0A80 - 0AFF IsGujarati
0B00 ~ 0B7F0B00 - 0B7F IsOriya
0B80 ~ 0BFF0B80 - 0BFF IsTamil
0C00 ~ 0C7F0C00 - 0C7F IsTelugu
0C80 ~ 0CFF0C80 - 0CFF IsKannada
0D00 ~ 0D7F0D00 - 0D7F IsMalayalam
0D80 ~ 0DFF0D80 - 0DFF IsSinhala
0E00 ~ 0E7F0E00 - 0E7F IsThai
0E80 ~ 0EFF0E80 - 0EFF IsLao
0F00 ~ 0FFF0F00 - 0FFF IsTibetan
1000 ~ 109F1000 - 109F IsMyanmar
10A0 ~ 10FF10A0 - 10FF IsGeorgian
1100 ~ 11FF1100 - 11FF IsHangulJamo
1200 ~ 137F1200 - 137F IsEthiopic
13A0 ~ 13FF13A0 - 13FF IsCherokee
1400 ~ 167F1400 - 167F IsUnifiedCanadianAboriginalSyllabics
1680 ~ 169F1680 - 169F IsOgham
16A0 ~ 16FF16A0 - 16FF IsRunic
1700 ~ 171F1700 - 171F IsTagalog
1720 ~ 173F1720 - 173F IsHanunoo
1740 ~ 175F1740 - 175F IsBuhid
1760 ~ 177F1760 - 177F IsTagbanwa
1780 ~ 17FF1780 - 17FF IsKhmer
1800 ~ 18AF1800 - 18AF IsMongolian
1900 ~ 194F1900 - 194F IsLimbu
1950 ~ 197F1950 - 197F IsTaiLe
19E0 ~ 19FF19E0 - 19FF IsKhmerSymbols
1D00 ~ 1D7F1D00 - 1D7F IsPhoneticExtensions
1E00 ~ 1EFF1E00 - 1EFF IsLatinExtendedAdditional
1F00 ~ 1FFF1F00 - 1FFF IsGreekExtended
2000 ~ 206F2000 - 206F IsGeneralPunctuation
2070 ~ 209F2070 - 209F IsSuperscriptsandSubscripts
20A0 ~ 20CF20A0 - 20CF IsCurrencySymbols
20D0 ~ 20FF20D0 - 20FF IsCombiningDiacriticalMarksforSymbols

- または --or-

IsCombiningMarksforSymbols
2100 ~ 214F2100 - 214F IsLetterlikeSymbols
2150 ~ 218F2150 - 218F IsNumberForms
2190 ~ 21FF2190 - 21FF IsArrows
2200 ~ 22FF2200 - 22FF IsMathematicalOperators
2300 ~ 23FF2300 - 23FF IsMiscellaneousTechnical
2400 ~ 243F2400 - 243F IsControlPictures
2440 ~ 245F2440 - 245F IsOpticalCharacterRecognition
2460 ~ 24FF2460 - 24FF IsEnclosedAlphanumerics
2500 ~ 257F2500 - 257F IsBoxDrawing
2580 ~ 259F2580 - 259F IsBlockElements
25A0 ~ 25FF25A0 - 25FF IsGeometricShapes
2600 ~ 26FF2600 - 26FF IsMiscellaneousSymbols
2700 ~ 27BF2700 - 27BF IsDingbats
27C0 ~ 27EF27C0 - 27EF IsMiscellaneousMathematicalSymbols-A
27F0 ~ 27FF27F0 - 27FF IsSupplementalArrows-A
2800 ~ 28FF2800 - 28FF IsBraillePatterns
2900 ~ 297F2900 - 297F IsSupplementalArrows-B
2980 ~ 29FF2980 - 29FF IsMiscellaneousMathematicalSymbols-B
2A00 ~ 2AFF2A00 - 2AFF IsSupplementalMathematicalOperators
2B00 ~ 2BFF2B00 - 2BFF IsMiscellaneousSymbolsandArrows
2E80 ~ 2EFF2E80 - 2EFF IsCJKRadicalsSupplement
2F00 ~ 2FDF2F00 - 2FDF IsKangxiRadicals
2FF0 ~ 2FFF2FF0 - 2FFF IsIdeographicDescriptionCharacters
3000 ~ 303F3000 - 303F IsCJKSymbolsandPunctuation
3040 ~ 309F3040 - 309F IsHiragana
30A0 ~ 30FF30A0 - 30FF IsKatakana
3100 ~ 312F3100 - 312F IsBopomofo
3130 ~ 318F3130 - 318F IsHangulCompatibilityJamo
3190 ~ 319F3190 - 319F IsKanbun
31A0 ~ 31BF31A0 - 31BF IsBopomofoExtended
31F0 ~ 31FF31F0 - 31FF IsKatakanaPhoneticExtensions
3200 ~ 32FF3200 - 32FF IsEnclosedCJKLettersandMonths
3300 ~ 33FF3300 - 33FF IsCJKCompatibility
3400 ~ 4DBF3400 - 4DBF IsCJKUnifiedIdeographsExtensionA
4DC0 ~ 4DFF4DC0 - 4DFF IsYijingHexagramSymbols
4E00 ~ 9FFF4E00 - 9FFF IsCJKUnifiedIdeographs
A000 ~ A48FA000 - A48F IsYiSyllables
A490 ~ A4CFA490 - A4CF IsYiRadicals
AC00 ~ D7AFAC00 - D7AF IsHangulSyllables
D800 ~ DB7FD800 - DB7F IsHighSurrogates
DB80 ~ DBFFDB80 - DBFF IsHighPrivateUseSurrogates
DC00 ~ DFFFDC00 - DFFF IsLowSurrogates
E000 ~ F8FFE000 - F8FF IsPrivateUse または IsPrivateUseAreaIsPrivateUse or IsPrivateUseArea
F900 ~ FAFFF900 - FAFF IsCJKCompatibilityIdeographs
FB00 ~ FB4FFB00 - FB4F IsAlphabeticPresentationForms
FB50 ~ FDFFFB50 - FDFF IsArabicPresentationForms-A
FE00 ~ FE0FFE00 - FE0F IsVariationSelectors
FE20 ~ FE2FFE20 - FE2F IsCombiningHalfMarks
FE30 ~ FE4FFE30 - FE4F IsCJKCompatibilityForms
FE50 ~ FE6FFE50 - FE6F IsSmallFormVariants
FE70 ~ FEFFFE70 - FEFF IsArabicPresentationForms-B
FF00 ~ FFEFFF00 - FFEF IsHalfwidthandFullwidthForms
FFF0 ~ FFFFFFF0 - FFFF IsSpecials

ページのトップへBack to Top

文字クラスの減算: [base_group - [excluded_group]]Character Class Subtraction: [base_group - [excluded_group]]

文字クラスは、文字のセットを定義します。A character class defines a set of characters. 文字クラス減算によって、ある文字クラスから別の文字クラスの文字を除外した文字セットが生成されます。Character class subtraction yields a set of characters that is the result of excluding the characters in one character class from another character class.

文字クラス減算式の形式は次のとおりです。A character class subtraction expression has the following form:

[ base_group -[ excluded_group ]][ base_group -[ excluded_group ]]

角かっこ ([]) とハイフン (-) は省略できません。The square brackets ([]) and hyphen (-) are mandatory. base_group は、文字グループの肯定または文字グループの否定です。The base_group is a positive character group or a negative character group. excluded_group は、別の文字グループの肯定または文字グループの否定、あるいは別の文字クラス減算式です (つまり文字クラス減算式は入れ子にすることができます)。The excluded_group component is another positive or negative character group, or another character class subtraction expression (that is, you can nest character class subtraction expressions).

たとえば、"a" ~ "z" の文字範囲で構成される基本グループがあるとします。For example, suppose you have a base group that consists of the character range from "a" through "z". "m" を除外した基本グループで構成される文字のセットを定義するには、[a-z-[m]] を使用します。To define the set of characters that consists of the base group except for the character "m", use [a-z-[m]]. "d"、"j" および "p" の文字を除外した基本グループで構成される文字のセットを定義するには、[a-z-[djp]] を使用します。To define the set of characters that consists of the base group except for the set of characters "d", "j", and "p", use [a-z-[djp]]. "m" ~ "p" の文字範囲を除外した基本グループで構成される文字のセットを定義するには、[a-z-[m-p]] を使用します。To define the set of characters that consists of the base group except for the character range from "m" through "p", use [a-z-[m-p]].

入れ子になった文字クラス減算式 [a-z-[d-w-[m-o]]] について考えてみます。Consider the nested character class subtraction expression, [a-z-[d-w-[m-o]]]. この式は、最も内部の文字範囲から順に外側へと評価されます。The expression is evaluated from the innermost character range outward. まず、"m" ~ "o" の文字範囲が "d" ~ "w" の文字範囲から減算されて、"d" ~ "l" および "p" ~ "w" の文字セットが生成されます。First, the character range from "m" through "o" is subtracted from the character range "d" through "w", which yields the set of characters from "d" through "l" and "p" through "w". さらにこのセットが "a" ~ "z" の文字範囲から減算されて、[abcmnoxyz] という文字セットが生成されます。That set is then subtracted from the character range from "a" through "z", which yields the set of characters [abcmnoxyz].

文字クラス減算では、任意の文字クラスを使用できます。You can use any character class with character class subtraction. \u0000 ~ \uFFFF の Unicode 文字から空白文字 (\s)、句読点一般カテゴリの文字 (\p{P})、IsGreek 名前付きブロック内の文字 (\p{IsGreek})、および Unicode NEXT LINE 制御文字 (\x85) を除いた文字のセットを定義するには、[\u0000-\uFFFF-[\s\p{P}\p{IsGreek}\x85]] を使用します。To define the set of characters that consists of all Unicode characters from \u0000 through \uFFFF except white-space characters (\s), the characters in the punctuation general category (\p{P}), the characters in the IsGreek named block (\p{IsGreek}), and the Unicode NEXT LINE control character (\x85), use [\u0000-\uFFFF-[\s\p{P}\p{IsGreek}\x85]].

有効な結果を生成する文字クラス減算式の文字クラスを選択します。Choose character classes for a character class subtraction expression that will yield useful results. どの文字にも一致しない空の文字セットを生成する式、または元の基本グループと同じになる式は避けてください。Avoid an expression that yields an empty set of characters, which cannot match anything, or an expression that is equivalent to the original base group. たとえば、[\p{IsBasicLatin}-[\x00-\x7F]] という式は、IsBasicLatin 一般カテゴリから IsBasicLatin 文字範囲のすべての文字を減算して空のセットを生成します。For example, the empty set is the result of the expression [\p{IsBasicLatin}-[\x00-\x7F]], which subtracts all characters in the IsBasicLatin character range from the IsBasicLatin general category. 同様に、[a-z-[0-9]] という式は元の基本グループと同じセットを生成します。Similarly, the original base group is the result of the expression [a-z-[0-9]]. これは、"a" ~ "z" の文字範囲である基本グループに、"0" ~ "9" という 10 進数字の文字範囲から成る除外対象グループ内の文字が含まれないためです。This is because the base group, which is the character range of letters from "a" through "z", does not contain any characters in the excluded group, which is the character range of decimal digits from "0" through "9".

入力文字列内の 0 および奇数と一致する正規表現 ^[0-9-[2468]]+$ を定義する例を次に示します。The following example defines a regular expression, ^[0-9-[2468]]+$, that matches zero and odd digits in an input string. この正規表現の解釈を次の表に示します。The regular expression is interpreted as shown in the following table.

要素Element 説明Description
^ 入力文字列の先頭から照合を開始します。Begin the match at the start of the input string.
[0-9-[2468]]+ 2、4、6、および 8 を除く 0 ~ 9 の文字の 1 回以上の出現と一致します。Match one or more occurrences of any character from 0 to 9 except for 2, 4, 6, and 8. つまり、0 または奇数の 1 回以上の出現と一致します。In other words, match one or more occurrences of zero or an odd digit.
$ 入力文字列の末尾で照合を終了します。End the match at the end of the input string.
using System;
using System.Text.RegularExpressions;

public class Example
{
   public static void Main()
   {
      string[] inputs = { "123", "13579753", "3557798", "335599901" };
      string pattern = @"^[0-9-[2468]]+$";
      
      foreach (string input in inputs)
      {
         Match match = Regex.Match(input, pattern);
         if (match.Success) 
            Console.WriteLine(match.Value);
      }      
   }
}
// The example displays the following output:
//       13579753
//       335599901
Imports System.Text.RegularExpressions

Module Example
   Public Sub Main()
      Dim inputs() As String = { "123", "13579753", "3557798", "335599901" }
      Dim pattern As String = "^[0-9-[2468]]+$"
      
      For Each input As String In inputs
         Dim match As Match = Regex.Match(input, pattern)
         If match.Success Then Console.WriteLine(match.Value)
      Next
   End Sub
End Module
' The example displays the following output:
'       13579753
'       335599901

関連項目See also