Copiar dados do Impala usando o Azure Data FactoryCopy data from Impala by using Azure Data Factory

APLICA-SE A: Azure Data Factory Azure Synapse Analytics

Este artigo descreve como usar atividade de cópia no Azure Data Factory para copiar dados de e para o Impala.This article outlines how to use Copy Activity in Azure Data Factory to copy data from Impala. Ele amplia o artigo Visão geral da Atividade de Cópia que apresenta uma visão geral da atividade de cópia.It builds on the Copy Activity overview article that presents a general overview of the copy activity.

Funcionalidades com suporteSupported capabilities

Este conector do Impala tem suporte para as seguintes atividades:This Impala connector is supported for the following activities:

Você pode copiar dados do Impala para qualquer repositório de dados de coletor com suporte.You can copy data from Impala to any supported sink data store. Para obter uma lista de armazenamentos de dados que têm suporte como fontes ou coletores da atividade de cópia, confira a tabela Armazenamentos de dados com suporte.For a list of data stores that are supported as sources or sinks by the copy activity, see the Supported data stores table.

Data Factory fornece um driver interno para habilitar a conectividade.Data Factory provides a built-in driver to enable connectivity. Portanto, você não precisa instalar manualmente um driver para usar esse conector.Therefore, you don't need to manually install a driver to use this connector.

Pré-requisitosPrerequisites

Se o armazenamento de dados estiver localizado dentro de uma rede local, em uma rede virtual do Azure ou na Amazon Virtual Private Cloud, você precisará configurar um runtime de integração auto-hospedada para se conectar a ele.If your data store is located inside an on-premises network, an Azure virtual network, or Amazon Virtual Private Cloud, you need to configure a self-hosted integration runtime to connect to it.

Por outro lado, se o armazenamento de dados for um serviço de dados de nuvem gerenciado, você poderá usar o Azure Integration Runtime.Alternatively, if your data store is a managed cloud data service, you can use Azure integration runtime. Se o acesso for restrito aos IPs que estão aprovados nas regras de firewall, você poderá adicionar IPs do Azure Integration Runtime à lista de permissões.If the access is restricted to IPs that are approved in the firewall rules, you can add Azure Integration Runtime IPs into the allow list.

Para obter mais informações sobre os mecanismos de segurança de rede e as opções compatíveis com o Data Factory, consulte Estratégias de acesso a dados.For more information about the network security mechanisms and options supported by Data Factory, see Data access strategies.

IntroduçãoGet started

Para executar a atividade de Cópia com um pipeline, será possível usar as ferramentas ou os SDKs abaixo:To perform the Copy activity with a pipeline, you can use one of the following tools or SDKs:

As seções a seguir fornecem detalhes sobre as propriedades usadas para definir entidades do Data Factory específicas ao conector do Impala.The following sections provide details about properties that are used to define Data Factory entities specific to the Impala connector.

Propriedades do serviço vinculadoLinked service properties

As propriedades a seguir têm suporte no serviço vinculado do Impala.The following properties are supported for Impala linked service.

PropriedadeProperty DescriçãoDescription ObrigatórioRequired
typetype A propriedade Type deve ser definida como Impala.The type property must be set to Impala. SimYes
hosthost O endereço IP ou nome do host do servidor Impala (que é 192.168.222.160).The IP address or host name of the Impala server (that is, 192.168.222.160). SimYes
portaport A porta TCP usada pelo servidor Impala para ouvir conexões de cliente.The TCP port that the Impala server uses to listen for client connections. O valor padrão é 21050.The default value is 21050. NãoNo
authenticationTypeauthenticationType O tipo de autenticação a ser usado.The authentication type to use.
Valores permitidos são: Anônimo, SASLUsername e UsernameAndPassword.Allowed values are Anonymous, SASLUsername, and UsernameAndPassword.
SimYes
Nome de Usuáriousername O nome de usuário usado para acessar o servidor Impala.The user name used to access the Impala server. O valor padrão é anônimo quando você usa SASLUsername.The default value is anonymous when you use SASLUsername. NãoNo
passwordpassword A senha que corresponde ao nome de usuário quando você usa UsernameAndPassword.The password that corresponds to the user name when you use UsernameAndPassword. Marque este campo como uma SecureString para armazená-la com segurança no Data Factory ou faça referência a um segredo armazenado no Azure Key Vault.Mark this field as a SecureString to store it securely in Data Factory, or reference a secret stored in Azure Key Vault. NãoNo
enableSslenableSsl Especifica se as conexões com o servidor são criptografadas usando TLS.Specifies whether the connections to the server are encrypted by using TLS. O valor padrão é false.The default value is false. NãoNo
trustedCertPathtrustedCertPath O caminho completo do arquivo. pem que contém certificados de AC confiáveis usados para verificar o servidor quando você se conecta por TLS.The full path of the .pem file that contains trusted CA certificates used to verify the server when you connect over TLS. Essa propriedade só pode ser definida quando você usa o TLS em Integration Runtime hospedados internamente.This property can be set only when you use TLS on Self-hosted Integration Runtime. O valor padrão é o arquivo de cacerts.pem instalado com o runtime de integração.The default value is the cacerts.pem file installed with the integration runtime. NãoNo
useSystemTrustStoreuseSystemTrustStore Especifica se deve usar um certificado de autoridade de certificação do repositório de confiança de sistema ou de um arquivo PEM especificado.Specifies whether to use a CA certificate from the system trust store or from a specified PEM file. O valor padrão é false.The default value is false. NãoNo
allowHostNameCNMismatchallowHostNameCNMismatch Especifica se deve ser necessário um nome de certificado TLS/SSL emitido pela autoridade de certificação para corresponder ao nome de host do servidor quando você se conectar por TLS.Specifies whether to require a CA-issued TLS/SSL certificate name to match the host name of the server when you connect over TLS. O valor padrão é false.The default value is false. NãoNo
allowSelfSignedServerCertallowSelfSignedServerCert Especifica se deve permitir os certificados autoassinados do servidor.Specifies whether to allow self-signed certificates from the server. O valor padrão é false.The default value is false. NãoNo
connectViaconnectVia O runtime de integração a ser usado para se conectar ao armazenamento de dados.The integration runtime to be used to connect to the data store. Saiba mais na seção Pré-requisitos.Learn more from Prerequisites section. Se não for especificado, ele usa o Integration Runtime padrão do Azure.If not specified, it uses the default Azure Integration Runtime. NãoNo

Exemplo:Example:

{
    "name": "ImpalaLinkedService",
    "properties": {
        "type": "Impala",
        "typeProperties": {
            "host" : "<host>",
            "port" : "<port>",
            "authenticationType" : "UsernameAndPassword",
            "username" : "<username>",
            "password": {
                "type": "SecureString",
                "value": "<password>"
            }
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Propriedades do conjunto de dadosDataset properties

Para obter uma lista completa das seções e propriedades disponíveis para definir os conjuntos de dados, confira o artigo sobre Conjuntos de Dados.For a full list of sections and properties available for defining datasets, see the Datasets article. Esta seção fornece uma lista das propriedades com suporte pelo conjunto de dados do Impala.This section provides a list of properties supported by the Impala dataset.

Para copiar dados do Impala, defina a propriedade type do conjunto de dados como ApacheImpalaObject.To copy data from Impala, set the type property of the dataset to ImpalaObject. Há suporte para as seguintes propriedades:The following properties are supported:

PropriedadeProperty DescriçãoDescription ObrigatórioRequired
typetype A propriedade Type do conjunto de conjuntos deve ser definida como: apacheimpalaobjectThe type property of the dataset must be set to: ImpalaObject SimYes
esquemaschema Nome do esquema.Name of the schema. Não (se "query" na fonte da atividade for especificada)No (if "query" in activity source is specified)
tabelatable Nome da tabela.Name of the table. Não (se "query" na fonte da atividade for especificada)No (if "query" in activity source is specified)
tableNametableName Nome da tabela com esquema.Name of the table with schema. Essa propriedade é compatível com versões anteriores.This property is supported for backward compatibility. Use schema e table para uma nova carga de trabalho.Use schema and table for new workload. Não (se "query" na fonte da atividade for especificada)No (if "query" in activity source is specified)

ExemploExample

{
    "name": "ImpalaDataset",
    "properties": {
        "type": "ImpalaObject",
        "typeProperties": {},
        "schema": [],
        "linkedServiceName": {
            "referenceName": "<Impala linked service name>",
            "type": "LinkedServiceReference"
        }
    }
}

Propriedades da atividade de cópiaCopy activity properties

Para obter uma lista completa das seções e propriedades disponíveis para definir atividades, confia o artigo Pipelines.For a full list of sections and properties available for defining activities, see the Pipelines article. Esta seção fornece uma lista das propriedades com suporte pelo tipo de fonte do Impala.This section provides a list of properties supported by the Impala source type.

Impala como um tipo de fonteImpala as a source type

Para copiar dados do Impala, defina o tipo de fonte na atividade de cópia como ImpalaSource.To copy data from Impala, set the source type in the copy activity to ImpalaSource. As propriedades a seguir têm suporte na seção source da atividade de cópia.The following properties are supported in the copy activity source section.

PropriedadeProperty DescriçãoDescription ObrigatórioRequired
typetype A propriedade type da fonte da atividade de cópia deve ser definida como ImpalaSource.The type property of the copy activity source must be set to ImpalaSource. SimYes
Consultaquery Utiliza a consulta SQL personalizada para ler os dados.Use the custom SQL query to read data. Um exemplo é "SELECT * FROM MyTable".An example is "SELECT * FROM MyTable". Não (se "tableName" no conjunto de dados for especificado)No (if "tableName" in dataset is specified)

Exemplo:Example:

"activities":[
    {
        "name": "CopyFromImpala",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<Impala input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "ImpalaSource",
                "query": "SELECT * FROM MyTable"
            },
            "sink": {
                "type": "<sink type>"
            }
        }
    }
]

Pesquisar propriedades de atividadeLookup activity properties

Para saber detalhes sobre as propriedades, verifique Pesquisar atividade.To learn details about the properties, check Lookup activity.

Próximas etapasNext steps

Para obter uma lista de armazenamentos de dados com suporte como origens e coletores pela atividade de cópia no Data Factory, consulte Armazenamentos de dados com suporte.For a list of data stores supported as sources and sinks by the copy activity in Data Factory, see Supported data stores.