Análisis de registros de sitios web mediante Azure Data Lake Analytics

Aprenda a analizar registros de sitios web mediante Análisis de Data Lake, especialmente en lo que se refiere a averiguar qué sitios de referencia presentaban errores cuando intentaron visitar el sitio web.

Importante

Azure Data Lake Analytics retiró el 29 de febrero de 2024. Más información sobre este anuncio.

Para el análisis de datos, su organización puede usar Azure Synapse Analytics o Microsoft Fabric.

Requisitos previos

Conexión con Azure

Para poder crear y probar cualquier script U-SQL, primero debe conectarse a Azure.

Para conectarse a Data Lake Analytics

  1. Abra Visual Studio.
  2. Seleccione Opciones y configuración de Data Lake>.
  3. Seleccione Iniciar sesión o Cambiar usuario si alguien ha iniciado sesión y siga las instrucciones.
  4. Seleccione Aceptar para cerrar el cuadro de diálogo Opciones y configuración.

Para examinar las cuentas de Data Lake Analytics

  1. En Visual Studio, presione CTRL+ALT+S para abrir el Explorador de servidores.
  2. En el Explorador de servidores, expanda Azure y después Data Lake Analytics. Verá una lista de las cuentas de Análisis de Data Lake, si las hay. No puede crear Data Lake Analytics cuentas desde Studio. Para crear una cuenta, consulte Introducción a Azure Data Lake Analytics mediante Azure Portal o Introducción a Azure Data Lake Analytics mediante Azure PowerShell.

Desarrollo de aplicaciones U-SQL

Una aplicación U-SQL es principalmente un script U-SQL. Para obtener más información acerca de U-SQL, consulte Introducción a U-SQL.

Puede agregar operadores de suma definidos por el usuario a la aplicación. Para obtener más información, consulte Desarrollo de operadores U-SQL definidos por el usuario para trabajos de Análisis de Data Lake.

Para crear y enviar un trabajo de Data Lake Analytics

  1. Seleccione el proyecto Nuevo > archivo>.

  2. Seleccione el tipo de proyecto U-SQL.

    nuevo proyecto de Visual Studio U-SQL

  3. Seleccione Aceptar. Visual Studio crea una solución con un archivo Script.usql.

  4. Incluya el siguiente script en el archivo Script.usql:

    // Create a database for easy reuse, so you don't need to read from a file very time.
    CREATE DATABASE IF NOT EXISTS SampleDBTutorials;
    
    // Create a Table valued function. TVF ensures that your jobs fetch data from he weblog file with the correct schema.
    DROP FUNCTION IF EXISTS SampleDBTutorials.dbo.WeblogsView;
    CREATE FUNCTION SampleDBTutorials.dbo.WeblogsView()
    RETURNS @result TABLE
    (
        s_date DateTime,
        s_time string,
        s_sitename string,
        cs_method string,
        cs_uristem string,
        cs_uriquery string,
        s_port int,
        cs_username string,
        c_ip string,
        cs_useragent string,
        cs_cookie string,
        cs_referer string,
        cs_host string,
        sc_status int,
        sc_substatus int,
        sc_win32status int,
        sc_bytes int,
        cs_bytes int,
        s_timetaken int
    )
    AS
    BEGIN
    
        @result = EXTRACT
            s_date DateTime,
            s_time string,
            s_sitename string,
            cs_method string,
            cs_uristem string,
            cs_uriquery string,
            s_port int,
            cs_username string,
            c_ip string,
            cs_useragent string,
            cs_cookie string,
            cs_referer string,
            cs_host string,
            sc_status int,
            sc_substatus int,
            sc_win32status int,
            sc_bytes int,
            cs_bytes int,
            s_timetaken int
        FROM @"/Samples/Data/WebLog.log"
        USING Extractors.Text(delimiter:' ');
        RETURN;
    END;
    
    // Create a table for storing referrers and status
    DROP TABLE IF EXISTS SampleDBTutorials.dbo.ReferrersPerDay;
    @weblog = SampleDBTutorials.dbo.WeblogsView();
    CREATE TABLE SampleDBTutorials.dbo.ReferrersPerDay
    (
        INDEX idx1
        CLUSTERED(Year ASC)
        DISTRIBUTED BY HASH(Year)
    ) AS
    
    SELECT s_date.Year AS Year,
        s_date.Month AS Month,
        s_date.Day AS Day,
        cs_referer,
        sc_status,
        COUNT(DISTINCT c_ip) AS cnt
    FROM @weblog
    GROUP BY s_date,
            cs_referer,
            sc_status;
    

    Para comprender U-SQL, consulte Introducción al lenguaje U-SQL de Análisis de Data Lake.

  5. Agregue un nuevo script de U-SQL al proyecto y escriba lo siguiente:

    // Query the referrers that ran into errors
    @content =
        SELECT *
        FROM SampleDBTutorials.dbo.ReferrersPerDay
        WHERE sc_status >=400 AND sc_status < 500;
    
    OUTPUT @content
    TO @"/Samples/Outputs/UnsuccessfulResponses.log"
    USING Outputters.Tsv();
    
  6. Vuelva al primer script de U-SQL y junto al botón Enviar , especifique la cuenta de Análisis.

  7. En Explorador de soluciones, haga clic con el botón derecho en Script.usql y, a continuación, seleccione Compilar script. Compruebe el resultado en el panel de resultados.

  8. En Explorador de soluciones, haga clic con el botón derecho en Script.usql y, a continuación, seleccione Enviar script.

  9. Compruebe que la cuenta de Analytics es la que quiere ejecutar el trabajo y, a continuación, seleccione Enviar. Los resultados del envío y el vínculo del trabajo están disponibles en la ventana de resultados de Data Lake Tools for Visual Studio cuando se completa el envío.

  10. Espere a que el trabajo se complete correctamente. Si se produjo un error en el trabajo, es más probable que falte el archivo de origen. Consulte la sección Requisitos previos de este tutorial. Para más información de solución de problemas, consulte Supervisión y solución de problemas de trabajos de Azure Data Lake Analytics.

    Una vez completado el trabajo, verá la siguiente pantalla:

    análisis de data lake analizar registros web registros de sitios web

  11. Ahora repita los pasos del 7 al 10 para Script1.usql.

Para ver la salida del trabajo

  1. En el Explorador de servidores, expanda Azure, expanda Data Lake Analytics, expanda la cuenta de Data Lake Analytics, expanda Cuentas de almacenamiento, haga clic con el botón derecho en la cuenta de Data Lake Storage predeterminada y seleccione Explorador.
  2. Haga doble clic en Ejemplos para abrir la carpeta y después haga doble clic en Salidas.
  3. Haga doble clic en UnsuccessfulResponses.log.
  4. También puede hacer doble clic en el archivo de salida en la vista de gráfico del trabajo para ir directamente a la salida.

Pasos siguientes

Para empezar a trabajar con Análisis de Data Lake usando diferentes herramientas, consulte: