Copiar dados de e para o Oracle usando o Azure Data Factory ou o Azure Synapse Analytics

APLICA-SE A: Azure Data Factory Azure Synapse Analytics

Dica

Experimente o Data Factory no Microsoft Fabric, uma solução de análise tudo-em-um para empresas. O Microsoft Fabric abrange desde movimentação de dados até ciência de dados, análise em tempo real, business intelligence e relatórios. Saiba como iniciar uma avaliação gratuita!

Este artigo descreve como usar a atividade de cópia no Azure Data Factory para copiar dados de/para um banco de dados Oracle. Ele se baseia na Visão geral da Atividade de Cópia.

Funcionalidades com suporte

Há suporte para este conector do Oracle para as seguintes funcionalidades:

Funcionalidades com suporte IR
Atividade de cópia (origem/coletor) 6/6
Atividade de pesquisa 6/6
Atividade de Script 6/6

① Runtime de integração do Azure ② Runtime de integração auto-hospedada

Para obter uma lista de armazenamentos de dados que têm suporte como fontes ou coletores da atividade de cópia, confira a tabela Armazenamentos de dados com suporte.

Especificamente, este conector Oracle suporta:

  • As seguintes versões de um banco de dados Oracle:
    • Oracle 19c R1 (19.1) e superior
    • Oracle 18c R1 (18.1) e superior
    • Oracle 12c R1 (12.1) e superior
    • Oracle 11g R1 (11.1) e superior
    • Oracle 10g R1 (10.1) e superior
    • Oracle 9i R2 (9.2) e superior
    • Oracle 8i R3 (8.1.7) e superior
    • Serviço Oracle Database Cloud Exadata
  • Cópia paralela de uma origem do Oracle. Veja a seção Cópia paralela da Oracle para obter detalhes.

Observação

Não há suporte para servidor proxy do Oracle.

Pré-requisitos

Se o armazenamento de dados estiver localizado dentro de uma rede local, em uma rede virtual do Azure ou na Amazon Virtual Private Cloud, você precisará configurar um runtime de integração auto-hospedada para se conectar a ele.

Se o armazenamento de dados for um serviço de dados de nuvem gerenciado, você poderá usar o Azure Integration Runtime. Se o acesso for restrito aos IPs que estão aprovados nas regras de firewall, você poderá adicionar IPs do Azure Integration Runtime à lista de permissões.

Você também pode usar o recurso de runtime de integração da rede virtual gerenciada no Azure Data Factory para acessar a rede local sem instalar e configurar um runtime de integração auto-hospedada.

Para obter mais informações sobre os mecanismos de segurança de rede e as opções compatíveis com o Data Factory, consulte Estratégias de acesso a dados.

O integration runtime fornece um driver interno do Oracle. Portanto, você não precisa instalar manualmente um driver quando você copia dados de e para Oracle.

Introdução

Para executar a atividade de Cópia com um pipeline, será possível usar as ferramentas ou os SDKs abaixo:

Criar um serviço vinculado ao Oracle usando a interface do usuário

Use as etapas a seguir para criar um serviço vinculado ao Oracle na interface do usuário do portal do Microsoft Azure.

  1. Navegue até a guia Gerenciar em seu espaço de trabalho do Azure Data Factory ou do Synapse e selecione Serviços Vinculados, em seguida, clique em Novo:

  2. Pesquise por Oracle e selecione o conector Oracle.

    Screenshot of the Oracle connector.

  3. Configure os detalhes do serviço, teste a conexão e crie o novo serviço vinculado.

    Screenshot of linked service configuration for Oracle.

Detalhes da configuração do conector

As seções a seguir fornecem detalhes sobre as propriedades usadas para definir entidades específicas do conector Oracle.

Propriedades do serviço vinculado

O serviço vinculado do Oracle oferece suporte às seguintes propriedades:

Propriedade Descrição Obrigatório
type A propriedade type deve ser definida como: Oracle. Sim
connectionString Especifica as informações necessárias para se conectar à instância do Banco de Dados Oracle.
Você também pode colocar uma senha no Azure Key Vault e extrair a configuração password da cadeia de conexão. Veja os exemplos a seguir e Armazenar credenciais no Azure Key Vault para obter mais detalhes.

Tipo de conexão com suporte: você pode optar por usar a Oracle SID ou o Oracle Service Name para identificar o banco de dados:
-Se você usar a SID:Host=<host>;Port=<port>;Sid=<sid>;User Id=<username>;Password=<password>;
-Se você usar Service Name:Host=<host>;Port=<port>;ServiceName=<servicename>;User Id=<username>;Password=<password>;
Para opções avançadas de conexão nativa do Oracle, adicione uma entrada no arquivoTNSNAMES.ORA no servidor Oracle e, no serviço vinculado do Oracle, use o tipo de conexão do nome do serviço Oracle e configure o nome do serviço correspondente.
Sim
connectVia O runtime de integração a ser usado para se conectar ao armazenamento de dados. Saiba mais na seção Pré-requisitos. Se não especificado, o Azure Integration Runtime padrão será usado. Não

Dica

Se você receber um erro, “ORA-01025: parâmetro UPI fora do intervalo” e se a versão do Oracle for 8i, adicione WireProtocolMode=1 à cadeia de conexão. Em seguida, tente novamente.

Se tiver várias instâncias do Oracle para o cenário de failover, você poderá criar o serviço vinculado do Oracle e preencher o host primário, a porta, o nome de usuário, a senha, etc., e adicionar novas “Propriedades de conexão adicionais” com o nome de propriedade sendo AlternateServers e o valor sendo (HostName=<secondary host>:PortNumber=<secondary port>:ServiceName=<secondary service name>). Preste atenção aos colchetes e aos dois pontos (:) como separador. Por exemplo, o seguinte valor de servidores alternativos define dois servidores de banco de dados alternativos para failover de conexão: (HostName=AccountingOracleServer:PortNumber=1521:SID=Accounting,HostName=255.201.11.24:PortNumber=1522:ServiceName=ABackup.NA.MyCompany).

Mais propriedades de conexão que você pode definir na cadeia de conexão de acordo com o caso:

Propriedade Descrição Valores permitidos
ArraySize O número de bytes que o conector pode buscar em uma única viagem de ida e volta na rede. Por exemplo, ArraySize=‭10485760‬.

Valores mais altos aumentam a taxa de transferência, reduzindo o número de vezes para buscar dados na rede. Valores mais baixos aumentam o tempo de resposta, pois a espera para o servidor transmitir dados é mais curta.
Um inteiro de 1 a 4294967296 (4 GB). O valor padrão é 60000. O valor 1 não define o número de bytes, mas indica alocar espaço para exatamente uma linha de dados.

Para habilitar a criptografia na conexão do Oracle, há duas opções:

  • Para usar criptografia DES triplo (3DES) e criptografia AES (Advanced Encryption Standard) , no lado do servidor Oracle, vá para Oracle Advanced Security (OAS) e defina as configurações de criptografia. Para obter detalhes, veja esta documentação da Oracle. O conector Oracle ADF (Application Development Framework) negocia automaticamente o método de criptografia para usar aquele que você configura no OAS ao estabelecer a conexão com o Oracle.

  • Para usar o TLS:

    1. Obtenha as informações do certificado TLS/SSL. Obtenha as informações de certificado codificado em DER (Distinguished Encoding Rules) do certificado TLS/SSL e salve a saída (----- Begin Certificate … End Certificate -----) como um arquivo de texto.

      openssl x509 -inform DER -in [Full Path to the DER Certificate including the name of the DER Certificate] -text
      

      Exemplo: extrair informações de certificado de DERcert.cer; em seguida, salvar a saída em cert.txt.

      openssl x509 -inform DER -in DERcert.cer -text
      Output:
      -----BEGIN CERTIFICATE-----
      XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
      XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
      XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
      XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
      XXXXXXXXX
      -----END CERTIFICATE-----
      
    2. Crie o keystore ou o truststore. O comando a seguir cria o arquivo truststore, com ou sem uma senha no formato PKCS-12.

      openssl pkcs12 -in [Path to the file created in the previous step] -out [Path and name of TrustStore] -passout pass:[Keystore PWD] -nokeys -export
      

      Exemplo: crie um arquivo truststore, PKCS12 denominado MyTrustStoreFile com uma senha.

      openssl pkcs12 -in cert.txt -out MyTrustStoreFile -passout pass:ThePWD -nokeys -export  
      
    3. Coloque o arquivo truststore no computador IR auto-hospedado. Por exemplo, coloque o arquivo em C:\MyTrustStoreFile.

    4. No serviço, configure a cadeia de conexão Oracle com EncryptionMethod=1 e o valor correspondente de TrustStore/TrustStorePassword. Por exemplo, Host=<host>;Port=<port>;Sid=<sid>;User Id=<username>;Password=<password>;EncryptionMethod=1;TrustStore=C:\\MyTrustStoreFile;TrustStorePassword=<trust_store_password>.

Exemplo:

{
    "name": "OracleLinkedService",
    "properties": {
        "type": "Oracle",
        "typeProperties": {
            "connectionString": "Host=<host>;Port=<port>;Sid=<sid>;User Id=<username>;Password=<password>;"
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Exemplo: armazenar a senha no Azure Key Vault

{
    "name": "OracleLinkedService",
    "properties": {
        "type": "Oracle",
        "typeProperties": {
            "connectionString": "Host=<host>;Port=<port>;Sid=<sid>;User Id=<username>;",
            "password": { 
                "type": "AzureKeyVaultSecret", 
                "store": { 
                    "referenceName": "<Azure Key Vault linked service name>", 
                    "type": "LinkedServiceReference" 
                }, 
                "secretName": "<secretName>" 
            }
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Propriedades do conjunto de dados

Esta seção fornece uma lista das propriedades com suporte pelo conjunto de dados do Oracle. Para obter uma lista completa das seções e propriedades disponíveis para definir os conjuntos de dados, confira Conjuntos de dados.

Para copiar dados do/para o Oracle, defina a propriedade type do conjunto de dados como OracleTable. Há suporte para as seguintes propriedades.

Propriedade Descrição Obrigatório
type A propriedade type do conjunto de dados deve ser definida como OracleTable. Sim
esquema Nome do esquema. Não para fonte, Sim para o coletor
tabela Nome da tabela/exibição. Não para fonte, Sim para o coletor
tableName Nome da tabela/exibição com esquema. Essa propriedade é compatível com versões anteriores. Para uma nova carga de trabalho, use schema e table. Não para fonte, Sim para o coletor

Exemplo:

{
    "name": "OracleDataset",
    "properties":
    {
        "type": "OracleTable",
        "schema": [],
        "typeProperties": {
            "schema": "<schema_name>",
            "table": "<table_name>"
        },
        "linkedServiceName": {
            "referenceName": "<Oracle linked service name>",
            "type": "LinkedServiceReference"
        }
    }
}

Propriedades da atividade de cópia

Esta seção fornece uma lista das propriedades com suporte pela fonte e pelo coletor Oracle. Para obter uma lista completa das seções e propriedades disponíveis para definir as atividades, veja Pipelines.

Oracle como fonte

Dica

Para carregar dados do Oracle com eficiência usando o particionamento de dados, saiba mais na seção Cópia paralela do Oracle.

Para copiar dados do Oracle, defina o tipo de fonte na atividade de cópia como OracleSource. As propriedades a seguir têm suporte na seção source da atividade de cópia.

Propriedade Descrição Obrigatório
type A propriedade type da fonte da atividade Copy deve ser definida como OracleSource. Sim
oracleReaderQuery Utiliza a consulta SQL personalizada para ler os dados. Um exemplo é "SELECT * FROM MyTable".
Ao habilitar a carga particionada, você precisa vincular todos os parâmetros de partição internos correspondentes na consulta. Confira a seção Cópia paralela do Oracle para ver exemplos.
Não
convertDecimalToInteger O tipo Oracle NUMBER com escala zero ou não especificada será convertido em inteiro correspondente. Os valores permitidos são true e false (padrão). Não
partitionOptions Especifica as opções de particionamento de dados usadas para carregar dados do Oracle.
Os valores permitidos são: None (padrão), PhysicalPartitionsOfTable e DynamicRange.
Quando uma opção de partição está habilitada (ou seja, não None), o grau de paralelismo para carregar dados simultaneamente do Banco de Dados Oracle é controlado pela configuração parallelCopies na atividade de cópia.
Não
partitionSettings Especifique o grupo de configurações para o particionamento de dados.
Aplicar quando a opção de partição não for None.
No
partitionNames A lista de partições físicas que precisam ser copiadas.
Aplicar quando a opção de partição for PhysicalPartitionsOfTable. Se você usar uma consulta para recuperar os dados de origem, conecte ?AdfTabularPartitionName na cláusula WHERE. Para obter um exemplo, veja a seção Cópia paralela do Oracle.
Não
partitionColumnName Especifique o nome da coluna de origem no tipo de inteiro que será usado pelo particionamento de intervalo para cópia paralela. Se não especificado, a chave primária da tabela será detectada automaticamente e usada como a coluna de partição.
Aplicar quando a opção de partição for DynamicRange. Se você usar uma consulta para recuperar os dados de origem, conecte ?AdfRangePartitionColumnName na cláusula WHERE. Para obter um exemplo, veja a seção Cópia paralela do Oracle.
Não
partitionUpperBound O valor máximo da coluna de partição para copiar dados.
Aplicar quando a opção de partição for DynamicRange. Se você usar uma consulta para recuperar os dados de origem, conecte ?AdfRangePartitionUpbound na cláusula WHERE. Para obter um exemplo, veja a seção Cópia paralela do Oracle.
Não
partitionLowerBound O valor mínimo da coluna de partição para copiar dados.
Aplicar quando a opção de partição for DynamicRange. Se você usar uma consulta para recuperar os dados de origem, conecte ?AdfRangePartitionLowbound na cláusula WHERE. Para obter um exemplo, veja a seção Cópia paralela do Oracle.
No

Exemplo: copiar dados usando uma consulta básica sem partição

"activities":[
    {
        "name": "CopyFromOracle",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<Oracle input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "OracleSource",
                "convertDecimalToInteger": false,
                "oracleReaderQuery": "SELECT * FROM MyTable"
            },
            "sink": {
                "type": "<sink type>"
            }
        }
    }
]

Oracle como coletor

Para copiar dados para o Oracle, defina o tipo de coletor na atividade de cópia como OracleSink. As propriedades a seguir têm suporte na seção sink da atividade de cópia.

Propriedade Descrição Obrigatório
type A propriedade do tipo do coletor de atividade de cópia deve ser definida como OracleSink. Sim
writeBatchSize Insere dados na tabela SQL quando o tamanho do buffer atinge writeBatchSize.
Os valores permitidos são inteiro (número de linhas).
Não (o padrão é 10.000)
writeBatchTimeout O tempo de espera para a operação de inserção em lotes a ser concluída antes de atingir o tempo limite.
Os valores permitidos são período. Um exemplo é 00:30:00 (30 minutos).
No
preCopyScript Especificar uma consulta SQL para a atividade de cópia ser executada antes de gravar dados no Oracle em cada execução. Você pode usar essa propriedade para limpar os dados previamente carregados. Não
 maxConcurrentConnections O limite superior de conexões simultâneas estabelecidas com o armazenamento de dados durante a execução da atividade. Especifique um valor somente quando desejar limitar as conexões simultâneas.  Nenhum

Exemplo:

"activities":[
    {
        "name": "CopyToOracle",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<Oracle output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "<source type>"
            },
            "sink": {
                "type": "OracleSink"
            }
        }
    }
]

Cópia paralela do Oracle

O conector do Oracle fornece particionamento de dados interno para copiar dados do Oracle em paralelo. Você pode encontrar opções de particionamento de dados na guia Origem da atividade de cópia.

Screenshot of partition options

Quando você habilita a cópia particionada, o serviço executa consultas paralelas com relação à sua fonte do Oracle para carregar dados por partições. O grau paralelo é controlado pela configuração do parallelCopies na atividade de cópia. Por exemplo, ao definir parallelCopies como quatro, o serviço gera e executa simultaneamente quatro consultas com base na opção de partição especificada e nas configurações, e cada consulta recupera uma parte dos dados do banco de dados do Oracle.

É recomendável habilitar a cópia paralela com o particionamento de dados, especialmente quando você carrega grandes quantidades de dados do banco de dados Oracle. Veja a seguir as configurações sugeridas para cenários diferentes. Ao copiar dados para o armazenamento de dados baseado em arquivo, recomendamos gravá-los em uma pasta como vários arquivos (apenas especifique o nome da pasta) para obter um desempenho melhor do que gravar em um arquivo.

Cenário Configurações sugeridas
Carregamento completo de uma tabela grande com partições físicas. Opção de partição: partições físicas da tabela.

Durante a execução, o serviço detecta automaticamente as partições físicas e copia os dados por partição.
Carregamento completo de uma tabela grande, sem partições físicas e com uma coluna de inteiro ou para o particionamento de dados. Opções de partição: partição de intervalo dinâmico.
Coluna de partição: especifique a coluna usada para particionar dados. Se não for especificada, a coluna de chave primária será usada.
Carregue uma grande quantidade de dados usando uma consulta personalizada, com partições físicas. Opção de partição: partições físicas da tabela.
Consulta: SELECT * FROM <TABLENAME> PARTITION("?AdfTabularPartitionName") WHERE <your_additional_where_clause>.
Nome da partição: especifique os nomes de partição dos quais copiar dados. Se não for especificado, o serviço detectará automaticamente as partições físicas na tabela que você especificou no conjunto de dados do Oracle.

Durante a execução, o serviço substitui ?AdfTabularPartitionName pelo nome real da partição e envia ao Oracle.
Carregue uma grande quantidade de dados usando uma consulta personalizada, sem partições físicas, com uma coluna de inteiro para o particionamento de dados. Opções de partição: partição de intervalo dinâmico.
Consulta: SELECT * FROM <TABLENAME> WHERE ?AdfRangePartitionColumnName <= ?AdfRangePartitionUpbound AND ?AdfRangePartitionColumnName >= ?AdfRangePartitionLowbound AND <your_additional_where_clause>.
Coluna de partição: especifique a coluna usada para particionar dados. Você pode particionar em relação à coluna com tipo de dados Integer.
Limite superior da partição e Limite inferior da partição: especifique se quiser filtrar a coluna de partição para recuperar dados somente entre os intervalos inferior e superior.

Durante a execução, o serviço substitui ?AdfRangePartitionColumnName, ?AdfRangePartitionUpbound e ?AdfRangePartitionLowbound pelo nome real da coluna e os intervalos de valores de cada partição e envia ao Oracle.
Por exemplo, se a coluna de partição "ID" for definida com o limite inferior de 1 e o limite superior de 80, com a cópia paralela definida como 4, o serviço recuperará dados por 4 partições. Suas IDs estão entre [1, 20], [21, 40], [41, 60] e [61, 80], respectivamente.

Dica

Ao copiar dados de uma tabela não particionada, você pode usar a opção de partição “Intervalo dinâmico” para particionar em uma coluna de inteiros. Se os dados de origem não tiverem esse tipo de coluna, você poderá aproveitar a função ORA_HASH na consulta de origem para gerar uma coluna e usá-la como coluna de partição.

Exemplo: consulta com partições físicas

"source": {
    "type": "OracleSource",
    "query": "SELECT * FROM <TABLENAME> PARTITION(\"?AdfTabularPartitionName\") WHERE <your_additional_where_clause>",
    "partitionOption": "PhysicalPartitionsOfTable",
    "partitionSettings": {
        "partitionNames": [
            "<partitionA_name>",
            "<partitionB_name>"
        ]
    }
}

Exemplo: consulta com a partição do intervalo dinâmico

"source": {
    "type": "OracleSource",
    "query": "SELECT * FROM <TABLENAME> WHERE ?AdfRangePartitionColumnName <= ?AdfRangePartitionUpbound AND ?AdfRangePartitionColumnName >= ?AdfRangePartitionLowbound AND <your_additional_where_clause>",
    "partitionOption": "DynamicRange",
    "partitionSettings": {
        "partitionColumnName": "<partition_column_name>",
        "partitionUpperBound": "<upper_value_of_partition_column>",
        "partitionLowerBound": "<lower_value_of_partition_column>"
    }
}

Mapeamento de tipo de dados para o Oracle

Quando você copia dados de e para o Oracle, os mapeamentos de tipo de dados provisórios a seguir são usados no serviço. Para saber mais sobre como a atividade de cópia mapeia o tipo de dados e esquema de origem para o coletor, consulte Mapeamentos de tipo de dados e esquema.

Tipo de dados de Oracle Tipo de dados provisórios
BFILE Byte[]
BLOB Byte[]
(só tem suporte no Oracle 10g e superior)
CHAR String
CLOB String
DATE Datetime
FLOAT Decimal, cadeia de caracteres (se precisão > 28)
INTEGER Decimal, cadeia de caracteres (se precisão > 28)
LONG String
LONG RAW Byte[]
NCHAR String
NCLOB String
NUMBER (p,s) Decimal, String (se p > 28)
NÚMERO sem precisão e escala Double
NVARCHAR2 String
RAW Byte[]
ROWID String
timestamp Datetime
TIMESTAMP WITH LOCAL TIME ZONE String
TIMESTAMP WITH TIME ZONE String
UNSIGNED INTEGER Número
VARCHAR2 String
XML String

Observação

Os tipo de dados INTERVAL YEAR TO MONTH e INTERVAL DAY TO SECOND não têm suporte.

Pesquisar propriedades de atividade

Para saber detalhes sobre as propriedades, verifique Pesquisar atividade.

Para obter uma lista dos armazenamentos de dados com suporte como coletores e fontes da atividade de cópia, confira os Armazenamentos de dados com suporte.