Analizar HTML con servicios web XML de ASP.NET

Este tema es específico de una tecnología heredada. Ahora, los servicios Web XML y los clientes de servicios Web XML deben crearse con Windows Communication Foundation.

Actualmente, se expone una inmensa cantidad de información en web. Desgraciadamente, la mayoría de estos datos solo los interpretan con facilidad los ojos humanos que lo leen de un explorador. Los servicios Web creados con la ayuda de ASP.NET mejoran esta situación proporcionando una solución de análisis de HTML que permite los programadores analizar el contenido de una página HTML remota y exponer los datos resultantes mediante programación. Una vez obtenido el permiso del publicador del contenido del sitio web, y suponiendo que no cambie el diseño del contenido, se puede usar el análisis de HTML para exponer servicios Web que los clientes pueden aprovechar. Para obtener más información sobre el análisis de HTML, consulte Cómo: Crear servicios web que analicen el contenido de una página web.

Al generar un servicio Web que analiza el contenido de una página web, se usa un modelo diferente de generar un servicio Web típico. Un servicio Web que analiza una página HTML se implementa a través de la creación de una descripción de servicio, que es un documento XML en el lenguaje de descripción de servicios Web (WSDL). Dentro de la descripción de servicio, los elementos XML se agregan para especificar los parámetros de entrada y los datos que se van a devolver de la página HTML analizada.

Los parámetros de entrada se pueden pasar al servidor web si la página HTML que se está analizando acepta parámetros que afecten al contenido de la página HTML devuelta.

Al especificar los datos devueltos de la página HTML analizada es donde se realiza la mayoría de la implementación, ya que es donde se especifican las instrucciones para analizar el contenido de HTML. Para agregar estos elementos XML y generar un servicio Web que analice una página HTML, un programador debe conocer el diseño de un documento XML escrito en WSDL. Para obtener detalles acerca de WSDL, consulte la especificación WSDL en el sitio web de W3C (http://www.w3.org/TR/wsdl).

Los datos que se devuelven de una página HTML analizada se expresan en la descripción de servicio con una serie de elementos XML que contienen las expresiones regulares para analizar partes concretas de datos a la vez que proporcionan un nombre para cada parte de datos. La expresión regular de .NET Framework real aparece en un elemento XML match. Las expresiones regulares proporcionan una notación de coincidencia de modelos extensa que permite analizar rápidamente grandes cantidades de texto para buscar modelos de caracteres concretos. Para obtener detalles relativos a la sintaxis de expresiones regulares de .NET Framework, consulte .NET Framework Regular Expressions.

El elemento <match>

El elemento match se puede especificar con los atributos siguientes:

Atributo Descripción

name

La clase o el nombre de propiedad que representa la parte de datos devuelta. Una clase de proxy generada por la herramienta Wsdl.exe asocia el atributo de nombre a una clase, si el elemento XML match tiene los elementos match secundarios. Los elementos match secundarios están asignados a las propiedades de la clase.

Pattern

El modelo de expresión regular que se va a usar para obtener la parte de datos. Para obtener detalles relativos a la sintaxis de expresiones regulares de .NET Framework, consulte .NET Framework Regular Expressions.

ignoreCase

Especifica si la expresión regular se debería ejecutar sin distinción entre mayúsculas y minúsculas. El valor predeterminado distingue entre mayúsculas y minúsculas.

Repeats

Especifica el número de valores que se deberían devolver de la expresión regular, en caso de que ésta tenga varias coincidencias en la página HTML. Un valor de 1 devuelve únicamente la primera coincidencia. Un valor de -1 devuelve todas las coincidencias. Un valor de -1 equivale al carácter * en una expresión regular. El valor predeterminado es -1.

Group

Especifica una agrupación de coincidencias relacionadas.

Capture

Especifica el índice de una coincidencia en una agrupación.

type

Las clases de proxy generadas con Wsdl.exe usan el atributo de type como el nombre de la clase devuelta para match que contiene los elementos match secundarios. De forma predeterminada, una clase de proxy generada Wsdl.exe establece el nombre de la clase devuelta al nombre especificado en el atributo name.

Vea también

Tareas

Cómo: Crear servicios web que analicen el contenido de una página web

Referencia

MatchAttribute Class
Herramienta Lenguaje de descripción de servicios web (Wsdl.exe)

Otros recursos

.NET Framework Regular Expressions
Servicios web XML con ASP.NET