Copiare attività Guida alle prestazioni e ottimizzazioneCopy activity performance and tuning guide

L'attività di copia di Azure Data Factory offre un'eccellente protetto, affidabili e ad alte prestazioni caricamento dati soluzione.The Azure Data Factory copy activity delivers a first-class secure, reliable, and high-performance data loading solution. È possibile utilizzarlo per copiare decine di terabyte di dati ogni giorno in un'ampia gamma di archivi dati cloud e locali.You can use it to copy tens of terabytes of data every day across a rich variety of cloud and on-premises data stores. Rapido caricamento dei dati delle prestazioni sono fondamentali per garantire che è possibile concentrarsi sul problema principali dei big data: creazione di soluzioni avanzate di analitica e ricevere informazioni approfondite da tutti i dati.Fast data-loading performance is key to ensure that you can focus on the core big data problem: building advanced analytics solutions and getting deep insights from all that data.

Azure offre un set di livello aziendale di soluzioni di data archiviazione e data warehouse.Azure provides a set of enterprise-grade data storage and data warehouse solutions. L'attività di copia offre un'esperienza semplice da configurare e impostare di caricamento di dati altamente ottimizzati.The copy activity offers a highly optimized data loading experience that's easy to configure and set up. Con una singola attività di copia, è possibile caricare i dati in:With a single copy activity, you can load data into:

  • Azure SQL Data Warehouse a 1,2 GBps.Azure SQL Data Warehouse at 1.2 GBps.
  • Archiviazione Blob di Azure a 1,0 GBps.Azure Blob storage at 1.0 GBps.
  • Azure Data Lake Store a 1,0 GBps.Azure Data Lake Store at 1.0 GBps.

L'articolo illustra:This article describes:

Nota

Se non si ha familiarità con l'attività di copia in generale, vedere la panoramica dell'attività di copia prima di leggere questo articolo.If you aren't familiar with the copy activity in general, see the copy activity overview before you read this article.

Informazioni di riferimento sulle prestazioniPerformance reference

Come riferimento, nella tabella seguente mostra la velocità effettiva di copia in MBps per l'origine specificata e coppie di sink nell'esecuzione di un'attività di copia singola basato su test interni.As a reference, the following table shows the copy throughput number in MBps for the given source and sink pairs in a single copy activity run based on in-house testing. Per il confronto, viene inoltre illustrato come diverse impostazioni dei integrazione di Data Unit oppure self-hosted scalabilità del runtime di integrazione (nodi multipli) possono migliorare le prestazioni di copia.For comparison, it also demonstrates how different settings of Data Integration Units or self-hosted integration runtime scalability (multiple nodes) can help on copy performance.

Matrice delle prestazioni

Importante

Quando l'attività di copia viene eseguita in un runtime di integrazione di Azure, le unità di integrazione di dati consentiti minimo (precedentemente noto come unità di spostamento dati) è due.When the copy activity runs on an Azure integration runtime, the minimal allowed Data Integration Units (formerly known as Data Movement Units) is two. Se non specificato, vedere le unità di integrazione dei dati predefinite usate nel unità di integrazione dati.If not specified, see the default Data Integration Units being used in Data Integration Units.

Punti da notare:Points to note:

  • Velocità effettiva viene calcolata utilizzando la formula seguente: [dimensione dei dati letti dall'origine] / [durata dell'esecuzione di attività di copia].Throughput is calculated by using the following formula: [size of data read from source]/[copy activity run duration].
  • I numeri di riferimento prestazioni nella tabella sono stati misurati usando un TPC-H set di dati in un'attività di copia singola esecuzione.The performance reference numbers in the table were measured by using a TPC-H dataset in a single copy activity run. File di test per gli archivi basati su file sono più file con 10 GB di dimensioni.Test files for file-based stores are multiple files with 10 GB in size.
  • Nel caso degli archivi dati di Azure, l'origine e il sink si trovano nella stessa area di Azure.In Azure data stores, the source and sink are in the same Azure region.
  • Per la copia ibrida tra origini locali e cloud gli archivi dati, ogni nodo del runtime di integrazione self-hosted era in esecuzione in un computer separato dall'archivio dati, con la specifica seguente.For hybrid copy between on-premises and cloud data stores, each self-hosted integration runtime node was running on a machine that was separate from the data store with the following specification. Durante l'esecuzione di una singola attività, l'operazione di copia ha usato solo una piccola parte della CPU, della memoria o della larghezza di banda di rete del computer di test.When a single activity was running, the copy operation consumed only a small portion of the test machine's CPU, memory, or network bandwidth.
    CPUCPU Intel Xeon E5-2660 v2 da 32 core a 2,20 GHz32 cores 2.20 GHz Intel Xeon E5-2660 v2
    MemoriaMemory 128 GB128 GB
    ReteNetwork Interfaccia Internet: 10 Gbps, interfaccia Intranet: 40 GbpsInternet interface: 10 Gbps; intranet interface: 40 Gbps

Suggerimento

È possibile ottenere una velocità effettiva usando DIUs altre.You can achieve higher throughput by using more DIUs. Con 100 DIUs, ad esempio, è possibile copiare dati da archiviazione Blob di Azure in Azure Data Lake Store a 1,0 GBps.For example, with 100 DIUs, you can copy data from Azure Blob storage into Azure Data Lake Store at 1.0 GBps. Per altre informazioni su questa funzionalità e sullo scenario supportato, vedere la unità di integrazione dati sezione.For more information about this feature and the supported scenario, see the Data Integration Units section.

Unità di integrazione datiData Integration Units

Un'unità di integrazione dei dati è una misura che rappresenta la potenza (una combinazione di CPU, memoria e allocazione di risorse di rete) di una singola unità in Azure Data Factory.A Data Integration Unit is a measure that represents the power (a combination of CPU, memory, and network resource allocation) of a single unit in Azure Data Factory. Integrazione di Data Unit si applica solo ai runtime di integrazione di Azure, ma non runtime di integrazione self-hosted.Data Integration Unit only applies to Azure integration runtime, but not self-hosted integration runtime.

Il minimo DIUs per consentire l'esecuzione di un'attività di copia è due.The minimal DIUs to empower a copy activity run is two. Se non specificato, nella tabella seguente sono elencate le unità di integrazione dati predefinite usate in diversi scenari di copia:If not specified, the following table lists the default DIUs used in different copy scenarios:

Scenario di copiaCopy scenario Numero di unità di integrazione dati predefinite determinato dal servizioDefault DIUs determined by service
Copiare dati tra archivi basati su fileCopy data between file-based stores Tra 4 e 32 a seconda del numero e dimensioni dei fileBetween 4 and 32 depending on the number and size of the files
Copiare i dati in Database SQL di Azure o Azure Cosmos DBCopy data to Azure SQL Database or Azure Cosmos DB Tra 4 e 16 in base al sink di livello del Database SQL di Azure o Cosmos DB (numero di Dtu/UR)Between 4 and 16 depending on the sink Azure SQL Database's or Cosmos DB's tier (number of DTUs/RUs)
Tutti gli altri scenari di copiaAll the other copy scenarios 44

Per ignorare l'impostazione predefinita, è possibile specificare un valore per la proprietà dataIntegrationUnits procedendo come segue.To override this default, specify a value for the dataIntegrationUnits property as follows. Il i valori consentiti per il dataIntegrationUnits proprietà è fino a 256.The allowed values for the dataIntegrationUnits property is up to 256. Il numero effettivo di unità di integrazione dati usate dall'operazione di copia in fase di esecuzione è minore o uguale al valore configurato, a seconda del modello di dati.The actual number of DIUs that the copy operation uses at run time is equal to or less than the configured value, depending on your data pattern. Per informazioni sul livello di miglioramento delle prestazioni che è possibile ottenere quando si configurano più unità per un sink e un'origine della copia specifici, vedere la sezione Informazioni di riferimento sulle prestazioni.For information about the level of performance gain you might get when you configure more units for a specific copy source and sink, see the performance reference.

È possibile visualizzare il DIUs usato per ogni esecuzione della copia nell'output di attività di copia quando si monitora un'esecuzione di attività.You can see the DIUs used for each copy run in the copy activity output when you monitor an activity run. Per altre informazioni, vedere Monitoraggio attività di copia.For more information, see Copy activity monitoring.

Nota

Impostazione di DIUs maggiori quattro attualmente si applica solo quando si copiano più file da archiviazione di Azure, Azure Data Lake Store, Amazon S3, Google Cloud Storage, cloud FTP o SFTP da cloud a qualsiasi altro archivio dati cloud.Setting of DIUs larger than four currently applies only when you copy multiple files from Azure Storage, Azure Data Lake Storage, Amazon S3, Google Cloud Storage, cloud FTP, or cloud SFTP to any other cloud data stores.

EsempioExample

"activities":[
    {
        "name": "Sample copy activity",
        "type": "Copy",
        "inputs": [...],
        "outputs": [...],
        "typeProperties": {
            "source": {
                "type": "BlobSource",
            },
            "sink": {
                "type": "AzureDataLakeStoreSink"
            },
            "dataIntegrationUnits": 32
        }
    }
]

Impatto sulla fatturazione delle unità di integrazione datiData Integration Units billing impact

Tenere presente che addebiti sono basati sul tempo totale dell'operazione di copia.Remember that you're charged based on the total time of the copy operation. La durata totale che costi vengono addebitati per lo spostamento dei dati è la somma della durata tra DIUs.The total duration you're billed for data movement is the sum of duration across DIUs. Se un processo di copia impiegava un'ora con due unità cloud e ora richiede 15 minuti con otto unità cloud, la fattura complessiva rimane pressoché identica.If a copy job used to take one hour with two cloud units and now it takes 15 minutes with eight cloud units, the overall bill remains almost the same.

Copia parallelaParallel copy

È possibile usare la parallelCopies proprietà per indicare il parallelismo che l'attività di copia da utilizzare.You can use the parallelCopies property to indicate the parallelism that you want the copy activity to use. È possibile considerare questa proprietà come il numero massimo di thread all'interno dell'attività di copia di lettura dall'origine o la scrittura agli archivi dati sink in parallelo.You can think of this property as the maximum number of threads within the copy activity that can read from your source or write to your sink data stores in parallel.

Per ogni esecuzione attività di copia, Data Factory di Azure determina il numero di copie parallele da usare per copiare dati dall'origine archivio dati e per i dati di destinazione di archiviazione.For each copy activity run, Azure Data Factory determines the number of parallel copies to use to copy data from the source data store and to the destination data store. Il numero predefinito di copie parallele usate dipende dal tipo di origine e sink in uso.The default number of parallel copies that it uses depends on the type of source and sink that you use.

Scenario di copiaCopy scenario Numero predefinito di copie parallele determinato dal servizioDefault parallel copy count determined by service
Copiare dati tra archivi basati su fileCopy data between file-based stores Dipende dalle dimensioni dei file e il numero di DIUs utilizzate per copiare dati tra due archivi dati cloud oppure dalla configurazione fisica del computer del runtime di integrazione self-hosted.Depends on the size of the files and the number of DIUs used to copy data between two cloud data stores, or the physical configuration of the self-hosted integration runtime machine.
Copiare dati da qualsiasi archivio di origine in archiviazione tabelle di AzureCopy data from any source store to Azure Table storage 44
Tutti gli altri scenari di copiaAll other copy scenarios 11

Suggerimento

Quando si copiano dati tra archivi basati su file, il comportamento predefinito in genere offre la massima velocità effettiva.When you copy data between file-based stores, the default behavior usually gives you the best throughput. Il comportamento predefinito viene determinato automaticamente base al modello di file di origine.The default behavior is auto-determined based on your source file pattern.

Per controllare il carico sui computer che ospitano i dati vengono archiviati, o per ottimizzare le prestazioni di copia, è possibile sostituire il valore predefinito e specificare un valore per il parallelCopies proprietà.To control the load on machines that host your data stores, or to tune copy performance, you can override the default value and specify a value for the parallelCopies property. Il valore deve essere un numero intero maggiore o uguale a 1.The value must be an integer greater than or equal to 1. In fase di esecuzione per ottenere prestazioni ottimali, l'attività di copia Usa un valore che è minore o uguale al valore impostato.At run time, for the best performance, the copy activity uses a value that is less than or equal to the value that you set.

"activities":[
    {
        "name": "Sample copy activity",
        "type": "Copy",
        "inputs": [...],
        "outputs": [...],
        "typeProperties": {
            "source": {
                "type": "BlobSource",
            },
            "sink": {
                "type": "AzureDataLakeStoreSink"
            },
            "parallelCopies": 32
        }
    }
]

Punti da notare:Points to note:

  • Quando si copiano dati tra archivi basati su file, parallelCopies determina il parallelismo a livello di file.When you copy data between file-based stores, parallelCopies determines the parallelism at the file level. La suddivisione in blocchi all'interno di un singolo file succede dietro le quinte automatico e trasparente.The chunking within a single file happens underneath automatically and transparently. È progettato per usare il più adatto blocco dimensione per un tipo di archivio dati di origine specificato caricare i dati in parallelo e ortogonale a parallelCopies.It's designed to use the best suitable chunk size for a given source data store type to load data in parallel and orthogonal to parallelCopies. Il numero effettivo di copie parallele usate dal servizio di spostamento dati per l'operazione di copia in fase di esecuzione non è maggiore del numero di file disponibili.The actual number of parallel copies the data movement service uses for the copy operation at run time is no more than the number of files you have. Se è il comportamento di copia mergeFile, l'attività di copia non può trarre vantaggio dal parallelismo a livello di file.If the copy behavior is mergeFile, the copy activity can't take advantage of file-level parallelism.
  • Quando si copiano dati da archivi non basati su file (ad eccezione di database Oracle come origine dati il partizionamento abilitato) in archivi basati su file, il servizio di spostamento dati ignora la parallelCopies proprietà.When you copy data from stores that aren't file-based (except Oracle database as source with data partitioning enabled) to stores that are file-based, the data movement service ignores the parallelCopies property. Anche se viene specificato, in questo caso il parallelismo non viene applicato.Even if parallelism is specified, it's not applied in this case.
  • Il parallelCopies proprietà è ortogonale a dataIntegrationUnits.The parallelCopies property is orthogonal to dataIntegrationUnits. La prima viene conteggiata su tutte le unità di integrazione dati.The former is counted across all the Data Integration Units.
  • Quando si specifica un valore per il parallelCopies proprietà, prendere in considerazione l'aumento del carico nell'origine e archivi dati sink.When you specify a value for the parallelCopies property, consider the load increase on your source and sink data stores. Anche prendere in considerazione l'aumento del carico per il runtime di integrazione self-hosted se l'attività di copia viene ottimizzata da quest, ad esempio, per la copia ibrida.Also consider the load increase to the self-hosted integration runtime if the copy activity is empowered by it, for example, for hybrid copy. Questo aumento del carico si verifica in particolare quando sono presenti più attività o esecuzioni simultanee delle stesse attività che vengono eseguiti a fronte dell'archivio dati stesso.This load increase happens especially when you have multiple activities or concurrent runs of the same activities that run against the same data store. Se si nota un sovraccarico quando il carico è l'archivio dati o il runtime di integrazione self-hosted, diminuire la parallelCopies valore per alleggerirlo.If you notice that either the data store or the self-hosted integration runtime is overwhelmed with the load, decrease the parallelCopies value to relieve the load.

copia di stagingStaged copy

Quando si copiano dati da un archivio dati di origine a un archivio dati sink, è possibile scegliere di usare un archivio BLOB come archivio di staging provvisorio.When you copy data from a source data store to a sink data store, you might choose to use Blob storage as an interim staging store. La funzionalità di staging è particolarmente utile nei casi seguenti:Staging is especially useful in the following cases:

  • Si desidera inserire i dati da diversi archivi dati in SQL Data Warehouse tramite PolyBase.You want to ingest data from various data stores into SQL Data Warehouse via PolyBase. SQL Data Warehouse fa uso di PolyBase come meccanismo a velocità effettiva elevata per il caricamento di grandi quantità di dati in SQL Data Warehouse.SQL Data Warehouse uses PolyBase as a high-throughput mechanism to load a large amount of data into SQL Data Warehouse. I dati di origine devono essere nell'archivio Blob o Azure Data Lake Store, e devono soddisfare criteri aggiuntivi.The source data must be in Blob storage or Azure Data Lake Store, and it must meet additional criteria. Quando si caricano dati da un archivio dati non BLOB o Azure Data Lake Store, è possibile attivare la copia di dati tramite un'archiviazione BLOB di staging provvisoria.When you load data from a data store other than Blob storage or Azure Data Lake Store, you can activate data copying via interim staging Blob storage. In tal caso, Azure Data Factory esegue le trasformazioni di dati necessari per assicurarsi che vengano soddisfatti i requisiti di PolyBase.In that case, Azure Data Factory performs the required data transformations to ensure that it meets the requirements of PolyBase. Quindi usa PolyBase per caricare in modo efficiente i dati in SQL Data Warehouse.Then it uses PolyBase to load data into SQL Data Warehouse efficiently. Per altre informazioni, vedere la sezione Usare PolyBase per caricare dati in Azure SQL Data Warehouse.For more information, see Use PolyBase to load data into Azure SQL Data Warehouse.
  • A volte occorre tempo per eseguire uno spostamento dati ibrido (vale a dire, per copiare da un locale archivio dati a un archivio dati cloud) tramite una connessione di rete lenta.Sometimes it takes a while to perform a hybrid data movement (that is, to copy from an on-premises data store to a cloud data store) over a slow network connection. Per migliorare le prestazioni, è possibile utilizzare una copia di staging per comprimere i dati in locale in modo che sia necessario meno tempo per spostare i dati nell'archivio di staging dei dati nel cloud.To improve performance, you can use staged copy to compress the data on-premises so that it takes less time to move data to the staging data store in the cloud. È quindi possibile decomprimere i dati nell'archivio di staging prima del caricamento nell'archivio dati di destinazione.Then you can decompress the data in the staging store before you load into the destination data store.
  • Non si desidera aprire porte diverse dalle porte 80 e 443 nel firewall a causa dei criteri IT aziendali.You don't want to open ports other than port 80 and port 443 in your firewall because of corporate IT policies. Ad esempio, quando si copiano dati da un archivio dati locale a un sink del database SQL di Azure o un sink di Azure SQL Data Warehouse, è necessario attivare le comunicazioni TCP in uscita sulla porta 1433 per Windows Firewall e per il firewall aziendale.For example, when you copy data from an on-premises data store to an Azure SQL Database sink or an Azure SQL Data Warehouse sink, you need to activate outbound TCP communication on port 1433 for both the Windows firewall and your corporate firewall. In questo scenario, una copia di staging può sfruttare i vantaggi del runtime di integrazione self-hosted innanzitutto copiare dati in un archivio Blob di staging istanza tramite HTTP o HTTPS sulla porta 443.In this scenario, staged copy can take advantage of the self-hosted integration runtime to first copy data to a Blob storage staging instance over HTTP or HTTPS on port 443. Quindi possibile caricare i dati nel Database SQL o SQL Data Warehouse dall'archivio Blob di staging.Then it can load the data into SQL Database or SQL Data Warehouse from Blob storage staging. In questo flusso non è necessario abilitare la porta 1433.In this flow, you don't need to enable port 1433.

Come funziona la copia di stagingHow staged copy works

Quando si attiva la funzionalità di staging, i dati vengono prima copiati dall'archivio dati di origine nell'archivio BLOB di staging personale.When you activate the staging feature, first the data is copied from the source data store to the staging Blob storage (bring your own). Successivamente, vengono copiati dall'archivio dati di staging nell'archivio dati sink.Next, the data is copied from the staging data store to the sink data store. Azure Data Factory gestisce automaticamente il flusso in due fasi per l'utente.Azure Data Factory automatically manages the two-stage flow for you. Azure Data Factory ed elimina i dati temporanei dall'archivio di staging dopo lo spostamento dei dati è stata completata.Azure Data Factory also cleans up temporary data from the staging storage after the data movement is complete.

copia di staging

Quando si attiva lo spostamento dei dati tramite un archivio di staging, è possibile specificare se si desidera archiviano i dati deve essere compresso prima di spostare i dati dall'origine dati per un provvisorio o archivio dati di staging e poi decompressi prima dello spostamento dei dati da un dat staging o provvisorio un archivio all'archivio dati sink.When you activate data movement by using a staging store, you can specify whether you want the data to be compressed before you move data from the source data store to an interim or staging data store and then decompressed before you move data from an interim or staging data store to the sink data store.

Attualmente, è possibile copiare dati tra due archivi dati che sono connessi tramite Self-Hosted runtime di integrazione diversi, con né senza una copia di staging.Currently, you can't copy data between two data stores that are connected via different Self-hosted IRs, neither with nor without staged copy. Per questo scenario, è possibile configurare due attività di copia in modo esplicito concatenate per copiare dall'origine alla gestione temporanea, quindi da quello di gestione temporanea per effettuare il sink.For such scenario, you can configure two explicitly chained copy activity to copy from source to staging then from staging to sink.

ConfigurazioneConfiguration

Configurare il enableStaging impostazione nell'attività di copia per specificare se si desidera che i dati vengano aggiunti temporaneamente in archiviazione Blob, prima di caricarli in un archivio dati di destinazione.Configure the enableStaging setting in the copy activity to specify whether you want the data to be staged in Blob storage before you load it into a destination data store. Quando si imposta enableStaging a TRUE, specificare le proprietà aggiuntive elencate nella tabella seguente.When you set enableStaging to TRUE, specify the additional properties listed in the following table. È anche necessario creare una risorsa di archiviazione di Azure o l'archiviazione condivisa servizio collegato di firma di accesso per la gestione temporanea se non hai uno.You also need to create an Azure Storage or Storage shared access signature-linked service for staging if you don’t have one.

ProprietàProperty DescrizioneDescription Valore predefinitoDefault value ObbligatorioRequired
enableStagingenableStaging Specificare se si vuole copiare i dati tramite un archivio di staging provvisorio.Specify whether you want to copy data via an interim staging store. FalseFalse NoNo
linkedServiceNamelinkedServiceName Specificare il nome di un servizio collegato AzureStorage che fa riferimento all'istanza di archiviazione usata come archivio di staging provvisorio.Specify the name of an AzureStorage linked service, which refers to the instance of Storage that you use as an interim staging store.

È non è possibile usare l'archiviazione con firma di accesso condiviso per caricare dati in SQL Data Warehouse tramite PolyBase.You can't use Storage with a shared access signature to load data into SQL Data Warehouse via PolyBase. Può essere usata in tutti gli altri scenari.You can use it in all other scenarios.
N/DN/A Sì, quando enableStaging è impostato su TRUEYes, when enableStaging is set to TRUE
pathpath Specificare il percorso dell'archivio BLOB che deve contenere i dati di staging.Specify the Blob storage path that you want to contain the staged data. Se non si specifica un percorso, il servizio crea un contenitore per archiviare dati temporanei.If you don't provide a path, the service creates a container to store temporary data.

Specificare un percorso solo se si usa l'archiviazione con una firma di accesso condiviso o se i dati temporanei devono trovarsi in un percorso specifico.Specify a path only if you use Storage with a shared access signature, or you require temporary data to be in a specific location.
N/DN/A NoNo
enableCompressionenableCompression Specifica se i dati devono essere compressi prima di copiarli nella destinazione.Specifies whether data should be compressed before it's copied to the destination. Questa impostazione ridurre il volume dei dati da trasferire.This setting reduces the volume of data being transferred. FalseFalse NoNo

Nota

Se si usa una copia di staging con compressione abilitata, l'entità servizio o autenticazione del servizio gestito per la gestione temporanea del servizio blob collegato non è supportato.If you use staged copy with compression enabled, the service principal or MSI authentication for staging blob linked service isn't supported.

Ecco una definizione di esempio di un'attività di copia con le proprietà descritte nella tabella precedente:Here's a sample definition of a copy activity with the properties that are described in the preceding table:

"activities":[
    {
        "name": "Sample copy activity",
        "type": "Copy",
        "inputs": [...],
        "outputs": [...],
        "typeProperties": {
            "source": {
                "type": "SqlSource",
            },
            "sink": {
                "type": "SqlSink"
            },
            "enableStaging": true,
            "stagingSettings": {
                "linkedServiceName": {
                    "referenceName": "MyStagingBlob",
                    "type": "LinkedServiceReference"
                },
                "path": "stagingcontainer/path",
                "enableCompression": true
            }
        }
    }
]

Impatto della copia di staging sulla fatturazioneStaged copy billing impact

Ti viene addebitata in base alle due passaggi: durata della copia e tipo di copia.You're charged based on two steps: copy duration and copy type.

  • Quando si usa staging durante una copia nel cloud, che sta copiando i dati da un archivio dati cloud a un altro archivio dati cloud, entrambe fasi attivate dal runtime di integrazione di Azure, ti viene addebitata [somma della durata della copia per i passaggi 1 e 2] x [prezzo unitario della copia cloud].When you use staging during a cloud copy, which is copying data from a cloud data store to another cloud data store, both stages empowered by Azure integration runtime, you're charged the [sum of copy duration for step 1 and step 2] x [cloud copy unit price].
  • Quando si utilizzano staging durante una copia ibrida, che sta copiando i dati da un archivio dati locale a un archivio dati cloud, un'unica fase abilitata da un runtime di integrazione self-hosted, viene addebitato [durata della copia ibrida] x [prezzo unitario della copia ibrida] + [durata della copia nel cloud] x [prezzo unitario della copia cloud].When you use staging during a hybrid copy, which is copying data from an on-premises data store to a cloud data store, one stage empowered by a self-hosted integration runtime, you're charged for [hybrid copy duration] x [hybrid copy unit price] + [cloud copy duration] x [cloud copy unit price].

Procedura di ottimizzazione delle prestazioniPerformance tuning steps

Eseguire questi passaggi per ottimizzare le prestazioni del servizio Azure Data Factory con l'attività di copia.Take these steps to tune the performance of your Azure Data Factory service with the copy activity.

  1. Stabilire una linea di base.Establish a baseline. Durante la fase di sviluppo, testare la pipeline usando l'attività di copia su un campione di dati rappresentativo.During the development phase, test your pipeline by using the copy activity against a representative data sample. Raccogliere i dettagli di esecuzione e le caratteristiche di prestazioni seguendo Monitoraggio attività di copia.Collect execution details and performance characteristics following copy activity monitoring.

  2. Diagnosticare e ottimizzare le prestazioni.Diagnose and optimize performance. Se le prestazioni osservate non soddisfano le aspettative, identificare eventuali colli di bottiglia.If the performance you observe doesn't meet your expectations, identify performance bottlenecks. e quindi ottimizzare le prestazioni per rimuovere o ridurre l'effetto dei colli di bottiglia.Then, optimize performance to remove or reduce the effect of bottlenecks.

    In alcuni casi, quando si esegue un'attività di copia in Azure Data Factory, viene visualizzato un messaggio "Suggerimenti sull'ottimizzazione delle prestazioni" in cima il pagina Monitoraggio attività di copia, come illustrato nell'esempio seguente.In some cases, when you run a copy activity in Azure Data Factory, you see a "Performance tuning tips" message on top of the copy activity monitoring page, as shown in the following example. Il messaggio indica un collo di bottiglia che è stata identificata per l'esecuzione di copia specificata.The message tells you the bottleneck that was identified for the given copy run. Vengono inoltre sulle operazioni da passare alla velocità effettiva di copia di boost.It also guides you on what to change to boost copy throughput. I suggerimenti di ottimizzazione delle prestazioni è attualmente forniscono, ad esempio suggerimenti:The performance tuning tips currently provide suggestions like:

    • Usare PolyBase, quando si copiano dati in Azure SQL Data Warehouse.Use PolyBase when you copy data into Azure SQL Data Warehouse.
    • Aumentare le unità di richiesta di Azure Cosmos DB o Azure SQL Database Dtu (Database Throughput Unit) quando la risorsa sul lato dell'archivio di dati è il collo di bottiglia.Increase Azure Cosmos DB Request Units or Azure SQL Database DTUs (Database Throughput Units) when the resource on the data store side is the bottleneck.
    • Rimuovere la copia di staging non necessaria.Remove the unnecessary staged copy.

    Anche le regole di ottimizzazione delle prestazioni verranno gradualmente migliorate.The performance tuning rules will be gradually enriched as well.

    Esempio: Copiare nel Database SQL di Azure con suggerimenti per l'ottimizzazione delle prestazioniExample: Copy into Azure SQL Database with performance tuning tips

    In questo esempio, durante una copia di eseguire, Azure Data Factory rileva il sink che Azure SQL Database raggiunge elevato utilizzo di DTU, rallentando così le operazioni di scrittura.In this sample, during a copy run, Azure Data Factory notices the sink Azure SQL Database reaches high DTU utilization, which slows down the write operations. Il suggerimento consiste nell'aumentare il livello di Database SQL di Azure con più Dtu.The suggestion is to increase the Azure SQL Database tier with more DTUs.

    Monitoraggio della copia con suggerimenti per l'ottimizzazione delle prestazioni

    Si riportano inoltre le considerazioni comuni seguenti.In addition, the following are some common considerations. Una descrizione completa della diagnosi delle prestazioni non rientra nell'ambito di questo articolo.A full description of performance diagnosis is beyond the scope of this article.

  3. Espandere la configurazione per l'intero set di dati.Expand the configuration to your entire dataset. Quando è soddisfatti delle prestazioni e risultati di esecuzione, è possibile espandere la definizione e la pipeline per coprire l'intero set di dati.When you're satisfied with the execution results and performance, you can expand the definition and pipeline to cover your entire dataset.

Considerazioni per il runtime di integrazione self-hostedConsiderations for self-hosted integration runtime

Se l'attività di copia viene eseguita in un runtime di integrazione self-hosted, tenere presente quanto segue:If your copy activity runs on a self-hosted integration runtime, note the following:

Configurazione: È consigliabile usare un computer dedicato per il runtime di integrazione di host.Setup: We recommend that you use a dedicated machine to host integration runtime. Visualizzare considerazioni sull'uso del runtime di integrazione self-hosted.See Considerations for using self-hosted integration runtime.

Aumentare il numero di istanze: Un runtime di integrazione self-hosted logico singolo con uno o più nodi può servire più esecuzioni di attività di copia nello stesso momento contemporaneamente.Scale out: A single logical self-hosted integration runtime with one or more nodes can serve multiple copy activity runs at the same time concurrently. Se si hanno necessità complesse di spostamento di dati ibridi con un numero elevato di esecuzioni di attività di copia simultanee o con una quantità notevole di dati da copiare, prendere in considerazione scalabilità orizzontale di runtime di integrazione self-hosted effettuare il provisioning di altre risorse per supporto della copia.If you have heavy need on hybrid data movement either with a large number of concurrent copy activity runs or with a large volume of data to copy, consider scaling out the self-hosted integration runtime to provision more resources to empower copy.

Considerazioni sull'origineConsiderations for the source

GeneraleGeneral

Assicurarsi che l'archivio dati sottostante non viene sovraccaricato di altri carichi di lavoro in esecuzione su o su di esso.Be sure that the underlying data store isn't overwhelmed by other workloads that are running on or against it.

Per gli archivi dati di Microsoft, vedere di monitoraggio e ottimizzazione argomenti che sono specifiche per gli archivi dati.For Microsoft data stores, see monitoring and tuning topics that are specific to data stores. per comprendere meglio le caratteristiche delle prestazioni degli archivi dati e come ridurre al minimo i tempi di risposta e ottimizzare la velocità effettiva.These topics can help you understand data store performance characteristics and how to minimize response times and maximize throughput.

Archivi dati basati su fileFile-based data stores

  • Dimensioni medie dei file e numero medio di file: L'attività di copia trasferisce i file di dati di uno alla volta.Average file size and file count: The copy activity transfers data one file at a time. Con la stessa quantità di dati da spostare, la velocità effettiva generale risulta inferiore se i dati sono costituiti da un numero elevato di file piccoli anziché da pochi file di grandi dimensioni. Ciò è dovuto alla fase di bootstrap necessaria per ogni file.With the same amount of data to be moved, the overall throughput is lower if the data consists of many small files rather than a few large files due to the bootstrap phase for each file. Se possibile, combinare file di piccole dimensioni in file più grandi per ottenere una velocità effettiva superiore.If possible, combine small files into larger files to gain higher throughput.
  • Formato di file e compressione: per altre informazioni su come migliorare le prestazioni, vedere le sezioni Considerazioni sulla serializzazione e deserializzazione e Considerazioni sulla compressione.File format and compression: For more ways to improve performance, see the Considerations for serialization and deserialization and Considerations for compression sections.

Archivi dati relazionaliRelational data stores

  • Modello di dati: Lo schema di tabella influisce sulla velocità effettiva di copia.Data pattern: Your table schema affects copy throughput. Dimensioni di riga grandi offrono prestazioni migliori rispetto a una riga di piccole dimensioni per copiare la stessa quantità di dati.A large row size gives you better performance than a small row size to copy the same amount of data. Questo perché il database è in grado di recuperare in modo più efficiente un minor numero di batch di dati che contengono meno righe.The reason is that the database can more efficiently retrieve fewer batches of data that contain fewer rows.
  • Query o stored procedure: Ottimizzare la logica della query o stored procedure specificate nell'origine dell'attività di copia per recuperare i dati in modo più efficiente.Query or stored procedure: Optimize the logic of the query or stored procedure you specify in the copy activity source to fetch data more efficiently.

Considerazioni sul sinkConsiderations for the sink

GeneraleGeneral

Assicurarsi che l'archivio dati sottostante non viene sovraccaricato di altri carichi di lavoro in esecuzione su o su di esso.Be sure that the underlying data store isn't overwhelmed by other workloads that are running on or against it.

Per gli archivi dati di Microsoft, vedere di monitoraggio e ottimizzazione argomenti che sono specifiche per gli archivi dati.For Microsoft data stores, see monitoring and tuning topics that are specific to data stores. per comprendere meglio le caratteristiche delle prestazioni degli archivi dati e come ridurre al minimo i tempi di risposta e ottimizzare la velocità effettiva.These topics can help you understand data store performance characteristics and how to minimize response times and maximize throughput.

Archivi dati basati su fileFile-based data stores

  • Comportamento di copia: Se si copiano dati da un archivio dati basato su file differente, l'attività di copia è disponibili tre opzioni tramite il copyBehavior proprietà.Copy behavior: If you copy data from a different file-based data store, the copy activity has three options via the copyBehavior property. mantenere la gerarchia, rendere flat la gerarchia e unire i file.It preserves hierarchy, flattens hierarchy, or merges files. Conservare o rendere flat la gerarchia comporta un overhead delle prestazioni minimo, mentre unire i file provoca un aumento dell'overhead delle prestazioni.Either preserving or flattening hierarchy has little or no performance overhead, but merging files causes performance overhead to increase.
  • Formato di file e compressione: per altre informazioni su come migliorare le prestazioni, vedere le sezioni Considerazioni sulla serializzazione e deserializzazione e Considerazioni sulla compressione.File format and compression: For more ways to improve performance, see the Considerations for serialization and deserialization and Considerations for compression sections.

Archivi dati relazionaliRelational data stores

  • Copiare implicazione di comportamento e le prestazioni: Esistono diversi modi per scrivere dati in un sink SQL.Copy behavior and performance implication: There are different ways to write data into a SQL sink. Altre informazioni, vedere procedure consigliate per il caricamento dei dati nel Database SQL di Azure.Learn more from Best practice for loading data into Azure SQL Database.

  • Modello di dati e dimensioni batch:Data pattern and batch size:

    • Lo schema di tabella influisce sulla velocità effettiva di copia.Your table schema affects copy throughput. Per copiare la stessa quantità di dati, dimensioni di riga grandi offrono prestazioni migliori rispetto a dimensioni di riga piccole, perché il database può eseguire in modo più efficiente il commit di un numero inferiore di batch di dati.To copy the same amount of data, a large row size gives you better performance than a small row size because the database can more efficiently commit fewer batches of data.
    • L'attività di copia inserisce i dati in una serie di batch.The copy activity inserts data in a series of batches. Per impostare il numero di righe in un batch è possibile usare la proprietà writeBatchSize .You can set the number of rows in a batch by using the writeBatchSize property. Se le righe dei dati sono di piccole dimensioni, è possibile impostare la proprietà writeBatchSize con un valore più elevato per sfruttare l'overhead di un numero minore di batch e aumentare la velocità effettiva.If your data has small rows, you can set the writeBatchSize property with a higher value to benefit from lower batch overhead and higher throughput. Se le righe sono di grandi dimensioni, prestare attenzione quando si aumenta il valore di writeBatchSize.If the row size of your data is large, be careful when you increase writeBatchSize. Un valore elevato può causare un errore di copia dovuto a un sovraccarico del database.A high value might lead to a copy failure caused by overloading the database.

Archivi NoSQLNoSQL stores

  • Per gli archivi tabelle:For Table storage:
    • Partizione: scrivere i dati nelle partizioni con interleave riduce drasticamente le prestazioni.Partition: Writing data to interleaved partitions dramatically degrades performance. Per ordinare i dati di origine chiave di partizione in modo che i dati vengono inseriti in modo efficiente in una partizione dopo l'altra.Sort your source data by partition key so that the data is inserted efficiently into one partition after another. In alternativa, è possibile regolare la logica per scrivere i dati in una singola partizione.Or, you can adjust the logic to write the data to a single partition.

Considerazioni sulla serializzazione e deserializzazioneConsiderations for serialization and deserialization

Serializzazione e deserializzazione possono verificarsi quando il set di dati di input o di un set di dati di output è un file.Serialization and deserialization can occur when your input dataset or output dataset is a file. Per altre informazioni sui formati di file supportati dall'attività di copia, vedere formati di file e di compressione supportati.For more information on supported file formats by copy activity, see Supported file and compression formats.

Comportamento di copia:Copy behavior:

  • Copia di file tra archivi dati basati su file:Copying files between file-based data stores:
    • Quando dispone di input e output i set di dati sia lo stesso o nessuna impostazione di formato di file, il servizio di spostamento dati esegue una copia binaria senza alcuna serializzazione o deserializzazione.When input and output datasets both have the same or no file format settings, the data movement service executes a binary copy without any serialization or deserialization. La velocità effettiva è superiore rispetto allo scenario, in cui le impostazioni del formato di file di origine e del sink sono diverse tra loro.You see a higher throughput compared to the scenario, in which the source and sink file format settings are different from each other.
    • Se l'input e output i set di dati entrambi sono in formato testo e solo la codifica del tipo è diverso, il servizio di spostamento dati esegue solo la conversione di codifica.When input and output datasets both are in text format and only the encoding type is different, the data movement service only does encoding conversion. Non esegue alcuna operazione di serializzazione o deserializzazione e questo dà luogo a un certo overhead delle prestazioni rispetto alla copia binaria.It doesn't do any serialization and deserialization, which causes some performance overhead compared to a binary copy.
    • Quando dispone di input e output i set di dati entrambi formati di file diversi o configurazioni diverse, ad esempio i delimitatori, il servizio di spostamento dati deserializza i dati di origine per trasmettere, trasformarli e quindi serializzarli nel formato di output indicato.When input and output datasets both have different file formats or different configurations, like delimiters, the data movement service deserializes source data to stream, transform, and then serialize it into the output format you indicated. Questa operazione comporta un overhead delle prestazioni decisamente maggiore rispetto ad altri scenari.This operation results in a much more significant performance overhead compared to other scenarios.
  • Quando si copiano file da o verso un archivio dati che non è file di base, ad esempio, da un archivio basato su file a un archivio relazionale, è necessario il passaggio di serializzazione o deserializzazione.When you copy files to or from a data store that isn't file based, for example, from a file-based store to a relational store, the serialization or deserialization step is required. Questo passaggio comporta un notevole overhead delle prestazioni.This step results in significant performance overhead.

Formato di file: il formato di file scelto può influire sulle prestazioni di copia.File format: The file format you choose might affect copy performance. Ad esempio, Avro è un formato binario compresso che archivia i metadati con i dati.For example, Avro is a compact binary format that stores metadata with data. È ampiamente supportato nell'ecosistema di Hadoop per l'elaborazione e l'esecuzione di query.It has broad support in the Hadoop ecosystem for processing and querying. Avro è più costosa per la serializzazione e deserializzazione, con conseguente velocità effettiva di copia inferiore rispetto al formato di testo.Avro is more expensive for serialization and deserialization, which results in lower copy throughput compared to text format.

Scegliere il formato di file per tutto il flusso di elaborazione a livello globale.Make your choice of file format throughout the processing flow holistically. Iniziare con:Start with:

  • Formato in cui i dati verrà archiviato in archivi dati di origine o devono essere estratti dai sistemi esterni.What form the data is stored in, source data stores or to be extracted from external systems.
  • Il formato migliore per l'archiviazione, elaborazione analitica e l'esecuzione di query.The best format for storage, analytical processing, and querying.
  • In quale formato di dati devono essere esportati nei data mart per gli strumenti di visualizzazione e creazione di report.In what format the data should be exported into data marts for reporting and visualization tools.

A volte un formato di file non ottimale dal punto di vista delle prestazioni di lettura e scrittura può invece essere una buona scelta dal punto di vista del processo analitico generale.Sometimes a file format that is suboptimal for read and write performance might be a good choice when you consider the overall analytical process.

Considerazioni sulla compressioneConsiderations for compression

Quando il set di dati di input o output è un file, è possibile impostare l'attività di copia per eseguire la compressione o decompressione durante la scrittura dei dati nella destinazione.When your input or output dataset is a file, you can set the copy activity to perform compression or decompression as it writes data to the destination. La scelta della compressione comporta un compromesso tra input/output (I/O) e CPU.When you choose compression, you make a tradeoff between input/output (I/O) and CPU. La compressione dei dati ha un costo maggiore in termini di risorse di calcolo,Compressing the data costs extra in compute resources. ma riduce l'I/O di rete e l'archiviazione.But in return, it reduces network I/O and storage. A seconda dei dati, si potrebbe riscontrare un aumento di velocità effettiva di copia complessiva.Depending on your data, you might see a boost in overall copy throughput.

Codec: Ogni codec di compressione presenta dei vantaggi.Codec: Each compression codec has advantages. Ad esempio, bzip2 ha la velocità effettiva copia più bassa, ma offre prestazioni di query Hive migliori perché permette di dividerle per l'elaborazione.For example, bzip2 has the lowest copy throughput, but you get the best Hive query performance with bzip2 because you can split it for processing. Gzip è l'opzione più bilanciata, e ha utilizzato più spesso.Gzip is the most balanced option, and it's used the most often. Scegliere il codec più adatto allo scenario end-to-end personalizzato.Choose the codec that best suits your end-to-end scenario.

Livello: per ogni codec di compressione è possibile scegliere tra due opzioni, la compressione più veloce e la compressione ottimale.Level: You can choose from two options for each compression codec: fastest compressed and optimally compressed. L'opzione di compressione più veloce comprime i dati più rapidamente possibile, anche se il file risultante non viene compresso in modo ottimale.The fastest compressed option compresses the data as quickly as possible, even if the resulting file isn't optimally compressed. L'opzione di compressione ottimale impiega più tempo per la compressione e restituisce una quantità minima di dati.The optimally compressed option spends more time on compression and yields a minimal amount of data. È possibile testare entrambe le opzioni per verificare quale offra le migliori prestazioni complessive in base alle proprie esigenze.You can test both options to see which provides better overall performance in your case.

Una considerazione: per copiare una grande quantità di dati tra un archivio locale e il cloud, è consigliabile usare una copia di staging con compressione abilitata.A consideration: To copy a large amount of data between an on-premises store and the cloud, consider using Staged copy with compression enabled. Uso di archivio provvisorio risulta utile quando la larghezza di banda della rete azienda e i servizi di Azure è il fattore limitante e si desidera il set di dati di input e output i set di dati sia per essere in formato non compresso.Using interim storage is helpful when the bandwidth of your corporate network and your Azure services is the limiting factor, and you want the input dataset and output dataset both to be in uncompressed form.

Considerazioni sul mapping di colonneConsiderations for column mapping

È possibile impostare il columnMappings proprietà nell'attività di copia per tutti i mapping oppure un subset delle colonne di input alle colonne di output.You can set the columnMappings property in a copy activity to map all or a subset of the input columns to the output columns. Dopo aver letto i dati dall'origine, il servizio di spostamento dati deve eseguire il mapping delle colonne sui dati prima di scriverli nel sink.After the data movement service reads the data from the source, it needs to perform column mapping on the data before it writes the data to the sink. Questa ulteriore elaborazione riduce la velocità effettiva di copia.This extra processing reduces copy throughput.

Se l'archivio dati di origine è disponibile per query, ad esempio nel caso di un archivio relazionale come il database SQL o SQL Server, oppure nel caso di un archivio NoSQL come un archivio tabelle o Azure Cosmos DB, è consigliabile eseguire il push della logica di filtro e riordinamento colonne per la proprietà query anziché usare il mapping colonne.If your source data store is queryable, for example, if it's a relational store like SQL Database or SQL Server, or if it's a NoSQL store like Table storage or Azure Cosmos DB, consider pushing the column filtering and reordering logic to the query property instead of using column mapping. In questo modo, la proiezione si verifica quando il servizio di spostamento dati legge i dati dall'archivio dati di origine, in cui è molto più efficiente.This way, the projection occurs while the data movement service reads data from the source data store, where it's much more efficient.

Altre informazioni, vedere mapping dello schema di attività di copia.Learn more from Copy activity schema mapping.

Altre considerazioniOther considerations

Se le dimensioni dei dati da copiare sono grande, è possibile modificare la logica di business per partizionare ulteriormente i dati.If the size of data you want to copy is large, you can adjust your business logic to further partition the data. È possibile pianificare l'attività di copia venga eseguita più frequentemente per ridurre le dimensioni dei dati per ogni attività di copia che viene eseguito.You can schedule the copy activity to run more frequently to reduce the data size for each copy activity that runs.

Prestare attenzione il numero di set di dati e copiare le attività che richiedono Azure Data Factory per connettersi allo stesso archivio dati nello stesso momento.Be cautious about the number of datasets and copy activities that require Azure Data Factory to connect to the same data store at the same time. Molti processi di copia simultanei possono limitare un archivio dati e causare un peggioramento delle prestazioni, nuovi tentativi interni dei processi di copia e, in alcuni casi, errori di esecuzione.Many concurrent copy jobs might throttle a data store and lead to degraded performance, copy job internal retries, and in some cases, execution failures.

Scenario di esempio: Copiare da un server SQL in locale nell'archiviazione BlobSample scenario: Copy from an on-premises SQL server to Blob storage

Scenario: Viene compilata una pipeline per copiare dati da un server SQL in locale nell'archiviazione Blob in formato CSV.Scenario: A pipeline is built to copy data from an on-premises SQL server to Blob storage in CSV format. Per velocizzare il processo di copia, i file CSV devono essere compressi in formato bzip2.To make the copy job faster, the CSV files should be compressed into bzip2 format.

Test e analisi: La velocità effettiva dell'attività di copia è minore di 2 MBps, che risulta decisamente più lento rispetto al benchmark delle prestazioni.Test and analysis: The throughput of the copy activity is less than 2 MBps, which is much slower than the performance benchmark.

Analisi e ottimizzazione delle prestazioni: per risolvere il problema delle prestazioni, occorre vedere prima di tutto come vengono elaborati e spostati i dati.Performance analysis and tuning: To troubleshoot the performance issue, let’s look at how the data is processed and moved.

  • Lettura dei dati: Il runtime di integrazione apre una connessione a SQL Server e invia la query.Read data: The integration runtime opens a connection to SQL Server and sends the query. SQL Server risponde inviando il flusso di dati per il runtime di integrazione tramite intranet.SQL Server responds by sending the data stream to the integration runtime via the intranet.
  • Serializzazione e compressione dei dati: Il runtime di integrazione serializza il flusso di dati in formato CSV e comprime i dati in un flusso bzip2.Serialize and compress data: The integration runtime serializes the data stream to CSV format and compresses the data to a bzip2 stream.
  • Scrittura dei dati: Il runtime di integrazione carica il flusso bzip2 in archiviazione Blob tramite internet.Write data: The integration runtime uploads the bzip2 stream to Blob storage via the internet.

Come può notare, i dati vengono elaborati e spostati in un flusso sequenziale: SQL Server > LAN > Runtime di integrazione > WAN > Archiviazione BLOB.As you can see, the data is processed and moved in a streaming sequential manner: SQL Server > LAN > Integration runtime > WAN > Blob storage. Le prestazioni complessive vengono controllate dalla velocità effettiva minima in tutta la pipeline.The overall performance is gated by the minimum throughput across the pipeline.

Flusso di dati

Uno o più dei fattori seguenti possono provocare un collo di bottiglia nelle prestazioni:One or more of the following factors might cause the performance bottleneck:

  • Origine: SQL Server ha di per sé una velocità effettiva bassa a causa dei carichi elevati.Source: SQL Server itself has low throughput because of heavy loads.
  • Runtime di integrazione self-hosted:Self-hosted integration runtime:
    • LAN: il runtime di integrazione è distante da SQL Server con una connessione a larghezza di banda bassa.LAN: Integration runtime is located far from the SQL Server machine and has a low-bandwidth connection.
    • Runtime di integrazione: il runtime di integrazione ha raggiunto i relativi limiti di carico per eseguire queste operazioni:Integration runtime: Integration runtime has reached its load limitations to perform the following operations:
      • Serializzazione: la serializzazione del flusso di dati in formato CSV ha una velocità effettiva bassa.Serialization: Serializing the data stream to CSV format has slow throughput.
      • Compressione: Si è scelto un codec di compressione lenta, ad esempio, bzip2, ovvero 2,8 MBps con Core i7.Compression: You chose a slow compression codec, for example, bzip2, which is 2.8 MBps with Core i7.
    • WAN: La larghezza di banda tra la rete aziendale e i servizi di Azure è bassa, ad esempio T1 = 1.544 kbps; T2 = 6.312 kbps.WAN: The bandwidth between the corporate network and your Azure services is low, for example, T1 = 1,544 kbps; T2 = 6,312 kbps.
  • Sink: l'archivio BLOB ha una velocità effettiva bassa.Sink: Blob storage has low throughput. Questo scenario è poco probabile perché il contratto di servizio (SLA) garantisce un minimo di 60 MBps.This scenario is unlikely because its service-level agreement (SLA) guarantees a minimum of 60 MBps.

In tal caso, la compressione dati bzip2 potrebbe rallentare l'intera pipeline.In this case, bzip2 data compression might be slowing down the entire pipeline. Il passaggio al codec di compressione gzip può ridurre questo collo di bottiglia.Switching to a gzip compression codec might ease this bottleneck.

RiferimentiReferences

Di seguito sono riportati alcuni riferimenti sul monitoraggio e l'ottimizzazione delle prestazioni per alcuni degli archivi dati supportati:Here are performance monitoring and tuning references for some of the supported data stores:

Passaggi successiviNext steps

Vedere gli altri articoli di attività di copia:See the other copy activity articles: