Анализ HTML XML-веб-службами, созданными с помощью ASP.NET

Этот раздел посвящен технологии прежних версий. Веб-службы XML и клиенты веб-служб XML должны создаваться с использованием Windows Communication Foundation.

В Интернете в настоящее время предоставляется огромное количество информации. К сожалению, большинство этих данных легко интерпретируется только глазами человека при просмотре из обозревателя. Веб-службы, созданные с помощью ASP.NET, помогают улучшить интерпретацию данных, предоставляя решение по выполнению анализа HTML, позволяющее разработчикам анализировать содержимое удаленной HTML-страницы и программно представлять получаемые данные. При условии получения разрешения от издателя контента веб-сайта и предположении о неизменности структуры этого контента можно выполнить анализ HTML для представления веб-служб, которые могут использоваться клиентами. Дополнительные сведения об анализе HTML см. в разделе Как создать веб-службы, анализирующие содержимое страницы.

При создании веб-службы, анализирующей содержимое страницы, используется модель, отличная от модели, применяемой при создании обычной веб-службы. Веб-служба, анализирующая HTML-страницу, реализуется путем создания описания службы, представляющего собой документ XML, написанный на языке описания веб-служб (WSDL). В описании службы добавляются элементы XML для указания входных параметров и данных, которые требуется вернуть с анализируемой HTML-страницы.

Если анализируемая HTML-страница допускает параметры, влияющие на содержимое возвращаемой HTML-страницы, входные параметры могут быть переданы на веб-сервер.

Указание данных, возвращаемых с анализируемой HTML-страницы, составляет основную часть реализации, так как определяет инструкции для анализа содержимого HTML. Чтобы добавить элементы XML и, таким образом, создать веб-службу, анализирующую HTML-страницу, разработчик должен понимать структуру документа XML, написанного на языке WSDL. Подробные сведения о языке WSDL см. в спецификации WSDL на веб-сайте W3C (http://www.w3.org/TR/wsdl).

Данные, которые должны возвращаться с анализируемой HTML-страницы, представляются в описании службы с помощью ряда элементов XML, содержащих регулярные выражения для анализа конкретных блоков данных с указанием имени каждого блока. Фактическое регулярное выражение платформы .NET Framework указывается в элементе XML match. Регулярные выражения обеспечивают исчерпывающую нотацию для сопоставления с шаблонами, позволяющую быстро анализировать большие объемы текста для поиска конкретных комбинаций символов. Подробные сведения о синтаксисе регулярных выражений платформы .NET Framework см. в разделе .NET Framework Regular Expressions.

Элемент <match>

Ниже перечислены атрибуты, с помощью которых может быть задан элемент match.

Атрибут Описание

name

Имя класса или свойства, представляющее возвращаемый блок данных. Если элемент XML match имеет дочерние элементы match, прокси-класс, созданный с помощью средства Wsdl.exe, связывает атрибут имени с классом. Дочерние элементы match сопоставляются со свойствами этого класса.

Pattern

Шаблон регулярного выражения, который должен использоваться для получения блока данных. Подробные сведения о синтаксисе регулярных выражений платформы .NET Framework см. в разделе .NET Framework Regular Expressions.

ignoreCase

Определяет, должен ли в регулярном выражении учитываться регистр. По умолчанию регистр учитывается.

Repeats

Определяет количество значений, которые должны быть возвращены из регулярного выражения, если на HTML-странице имеется несколько совпадений с этим выражением. Значение 1 соответствует возврату только первого совпадения. При значении -1 возвращаются все совпадения. Значение -1 эквивалентно символу '*' в регулярном выражении. Значение по умолчанию — -1.

Group

Задает группирование связанных совпадений.

Capture

Задает индекс совпадения в группе.

type

Прокси-классы, созданные с помощью средства Wsdl.exe, используют атрибут type в качестве имени возвращаемого класса для элемента match, содержащего дочерние элементы match. По умолчанию прокси-класс, созданный с помощью средства Wsdl.exe, задает имя возвращаемого класса для имени, указанного в атрибуте name.

См. также

Задачи

Как создать веб-службы, анализирующие содержимое страницы

Справочник

MatchAttribute Class
Инструмент языка описания веб-служб (Wsdl.exe)

Другие ресурсы

.NET Framework Regular Expressions
XML-веб-службы с использованием ASP.NET