Importare i dati in Azure Machine Learning Studio da diverse origini dati online con il modulo Import Data

Questo articolo illustra il supporto per l'importazione di dati online da varie origini e le informazioni necessarie per spostare i dati da queste origini a un esperimento di Azure Machine Learning.

Nota

Questo articolo fornisce informazioni generali sul modulo Import Data. Per altre informazioni sui tipi di dati a cui è possibile accedere, i formati, i parametri e le risposte alle domande comuni, vedere l'argomento di riferimento del modulo per il modulo Import Data.

Introduzione

Il modulo Import Data permette di accedere ai dati provenienti da una delle origini dati online disponibili durante l'esecuzione degli esperimenti in Azure Machine Learning Studio:

  • URL Web tramite HTTP
  • Hadoop tramite HiveQL
  • Archivio BLOB di Azure
  • Tabella di Azure
  • Database SQL di Azure o SQL Server in una macchina virtuale di Azure
  • Database SQL Server locale
  • Provider di feed di dati, attualmente OData
  • Azure CosmosDB (in precedenza denominato DocumentDB)

Per accedere alle origini dati online nell'esperimento di Studio, aggiungere il modulo Import Data, selezionare l'origine dati e quindi specificare i parametri necessari per accedere ai dati. Le origini dati online supportate vengono illustrate nella tabella seguente. Questa tabella riepiloga anche i formati di file supportati e i parametri usati per accedere ai dati.

Dal momento che si accede a questi dati di training durante l'esecuzione dell'esperimento, i dati sono disponibili solo durante l'esperimento. I dati archiviati in un modulo del set di dati sono invece disponibili per ogni esperimento nell'area di lavoro.

Importante

Attualmente i moduli Import Data ed Export Data possono leggere e scrivere dati solo da un'istanza di Archiviazione di Azure creata con il modello di distribuzione classica. In altre parole, il nuovo tipo di account di archiviazione BLOB di Azure che offre un livello di accesso di archiviazione a caldo o un livello di accesso di archiviazione a freddo non è ancora supportato.

In genere gli account di archiviazione di Azure creati prima che fosse disponibile questa opzione non dovrebbero essere influenzati. Per creare un nuovo account, selezionare Classica come modello di distribuzione o usare Resource Manager e selezionare Utilizzo generico anziché Archivio BLOB come Tipologia account.

Per altre informazioni, vedere Archivio BLOB di Azure: livelli di archiviazione ad accesso frequente e sporadico.

Origini dati online supportate

Il modulo Import data di Azure Machine Learning supporta le origini dati seguenti:

origine dati Descrizione Parametri
URL Web tramite HTTP Legge i dati nei formati CSV (Comma-Separated Values), TSV (Tab-Separated Values), ARFF (Attribute-Relation File Format) e SVM-light (Support Vector Machines), da qualsiasi URL Web che usa HTTP. URL: specifica il nome completo del file, inclusi l'URL del sito e il nome file, con qualsiasi estensione.

Formato dati: specifica uno dei formati di dati supportati, ovvero CSV, TSV, ARFF o SVM-light. Se i dati includono una riga di intestazione, la riga verrà usata per assegnare i nomi di colonna.
Hadoop/HDFS Legge i dati dall'archivio distribuito in Hadoop. Specificare i dati desiderati usando HiveQL, un linguaggio di query analogo a SQL. HiveQL può essere usato anche per aggregare i dati e applicare filtri ai dati prima di aggiungere i dati a Machine Learning Studio. Hive database query (Query di database Hive): specifica la query Hive usata per generare i dati.

HCatalog server URI (URI del server HCatalog): specifica il nome del cluster usando il formato <nome del cluster>.azurehdinsight.net.

Hadoop user account name (Nome dell'account utente Hadoop): specifica il nome dell'account utente Hadoop usato per il provisioning del cluster.

Hadoop user account password (Password dell'account utente Hadoop): specifica le credenziali usate durante il provisioning del cluster. Per altre informazioni, vedere Creare cluster Hadoop basati su Windows in HDInsight.

Location of output data (Posizione dei dati di output): specifica se i dati vengono archiviati in Hadoop Distributed File System (HDFS) o in Azure.
    Se si archiviano i dati di output in HDFS, specificare l'URI del server HDFS. Assicurarsi di usare il nome del cluster HDInsight senza il prefisso HTTPS://.

    Se si archiviano i dati di output in Azure, sarà necessario specificare il nome dell'account di archiviazione di Azure, la chiave di accesso alle risorse di archiviazione e il nome del contenitore di archiviazione.
Database SQL Legge i dati archiviati in un database SQL di Azure o in un database SQL Server in esecuzione in una macchina virtuale di Azure. Nome server di database: specifica il nome del server in cui il database è in esecuzione.
    Se si usa il database SQL di Azure, immettere il nome del server generato. In genere ha il formato seguente: <identificatore_generato>.database.windows.net.

    Nel caso di un'istanza di SQL Server ospitata in una macchina virtuale di Azure immettere tcp:<Nome DNS macchina virtuale>, 1433

Nome database: specifica il nome del database nel server.

Server user account name (Nome dell'account utente del server): specifica un nome utente per un account con autorizzazioni di accesso per il database.

Server user account password (Password dell'account utente del server): specifica la password per l'account utente.

Accept any server certificate (Accetta qualsiasi certificato server): usare questa opzione, meno sicura, se si vuole evitare di esaminare il certificato del sito prima di leggere i dati.

Query database: immettere un'istruzione SQL che descriva i dati da leggere.
Database SQL locale Legge i dati archiviati in un database SQL locale. Gateway dati: specifica il nome del gateway di gestione dati installato in un computer in cui può accedere al database SQL Server. Per informazioni sulla configurazione del gateway, vedere Eseguire analisi avanzate con Azure Machine Learning usando i dati di un database SQL Server locale.

Nome server di database: specifica il nome del server in cui il database è in esecuzione.

Nome database: specifica il nome del database nel server.

Server user account name (Nome dell'account utente del server): specifica un nome utente per un account con autorizzazioni di accesso per il database.

Nome utente password: fare clic su Enter values (Immettere i valori) per immettere le credenziali del database. È possibile usare Autenticazione integrata di Windows o Autenticazione di SQL Server, in base al tipo di configurazione del database SQL Server locale.

Query database: immettere un'istruzione SQL che descriva i dati da leggere.
tabella di Azure Legge i dati dal servizio tabelle nell'Archiviazione di Azure Storage.

Se si leggono raramente quantità elevate di dati, usare il servizio tabelle di Azure. Offre una soluzione di archiviazione flessibile, non relazionale (NoSQL), a scalabilità elevata, poco costosa e a disponibilità elevata.
Le opzioni disponibili nel modulo Import Data dipendono dal tipo di informazioni a cui si accede, ovvero informazioni pubbliche o un account di archiviazione privato che richiede credenziali di accesso. Questo aspetto è determinato da Authentication Type, che può avere un valore "PublicOrSAS" o "Account", ognuno dei quali ha un set di parametri specifico.

URI pubblico o di firma di accesso condiviso. I parametri sono i seguenti:

    Table URI (URI della tabella): specifica l'URL pubblico o di firma di accesso condiviso per la tabella.

    Rows to scan for property names (Righe in cui cercare i nomi di proprietà): i valori sono TopN (Prime N), per analizzare il numero di righe specificato, o ScanAll (Tutte) per ottenere tutte le righe nella tabella.

    Se i dati sono omogenei e prevedibili, è consigliabile selezionare TopN (Prime N) e immettere un numero per N. Per tabelle di grandi dimensioni, questo permette di ottenere tempi di lettura più rapidi.

    Se i dati sono strutturati con set di proprietà che variano in base alla profondità e alla posizione della tabella, scegliere l'opzione ScanAll (Tutte) per analizzare tutte le righe. Ciò garantisce l'integrità della conversione di metadati e proprietà risultante.

Account di archiviazione privato. I parametri sono i seguenti:

    Nome account: specifica il nome dell'account che contiene la tabella da leggere.

    Chiave dell'account: specifica la chiave di archiviazione associata all'account.

    Nome tabella: specifica il nome della tabella che contiene i dati da leggere.

    Rows to scan for property names (Righe in cui cercare i nomi di proprietà): i valori sono TopN (Prime N), per analizzare il numero di righe specificato, o ScanAll (Tutte) per ottenere tutte le righe nella tabella.

    Se i dati sono omogenei e prevedibili, è consigliabile selezionare TopN (Prime N) e immettere un numero per N. Per tabelle di grandi dimensioni, questo permette di ottenere tempi di lettura più rapidi.

    Se i dati sono strutturati con set di proprietà che variano in base alla profondità e alla posizione della tabella, scegliere l'opzione ScanAll (Tutte) per analizzare tutte le righe. Ciò garantisce l'integrità della conversione di metadati e proprietà risultante.

Archiviazione BLOB di Azure Legge i dati archiviati nel servizio BLOB dell'Archiviazione di Azure, incluse immagini, testo non strutturato o dati binari.

È possibile usare il servizio BLOB per esporre pubblicamente i dati o per archiviare privatamente i dati dell'applicazione. È possibile accedere ai dati da qualsiasi posizione mediante connessioni HTTP o HTTPS.
Le opzioni disponibili nel modulo Import Data dipendono dal tipo di informazioni a cui si accede, ovvero informazioni pubbliche o un account di archiviazione privato che richiede credenziali di accesso. Ciò è dovuto al tipo di autenticazione, che può avere valore "PublicOrSAS" o "Account".

URI pubblico o di firma di accesso condiviso. I parametri sono i seguenti:

    URI: specifica l'URL pubblico o di firma di accesso condiviso per l'archivio BLOB.

    Formato file: specifica il formato dei dati nel servizio BLOB. I formati supportati sono CSV, TSV e ARFF.

Account di archiviazione privato. I parametri sono i seguenti:

    Nome account: specifica il nome dell'account che contiene il BLOB da leggere.

    Chiave dell'account: specifica la chiave di archiviazione associata all'account.

    Path to container, directory, or blob (Percorso del contenitore, della directory o del BLOB): specifica il nome del BLOB che contiene i dati da leggere.

    Formato del file BLOB: specifica il formato dei dati nel servizio BLOB. I formati di dati supportati sono CSV, TSV, ARFF, CSV con una codifica specificata, ed Excel.

      Se il formato è CSV o TSV, assicurarsi di indicare se il file contiene una riga di intestazione.

      È possibile usare l'opzione Excel per leggere dati dalle cartelle di lavoro di Excel. Nell'opzioneExcel data format indicare se i dati si trovano in un intervallo di foglio di lavoro di Excel o in una tabella di Excel. Nell'opzione Excel sheet or embedded table (Foglio di Excel o tabella incorporata) specificare il nome del foglio o della tabella da cui leggere i dati.

Provider di feed di dati Legge dati da un provider di feed supportato. È attualmente supportato solo il formato OData (Open Data Protocol). Data content type (Tipo di contenuto dei dati): specifica il formato OData.

URL di origine: specifica l'URL completo per il feed di dati.
Ad esempio, l'URL seguente legge dal database di esempio Northwind: http://services.odata.org/northwind/northwind.svc/

Passaggi successivi

Distribuzione di servizi di Web Azure ML che usano i moduli Import Data ed Export Data