Utiliser Apache Sqoop pour échanger des données entre Apache Hadoop sur HDInsight et Azure SQL Database

Article
08/21/2023

Apprenez à utiliser Apache Sqoop pour échanger des données entre un cluster Apache Hadoop dans Azure HDInsight et Azure SQL Database ou Microsoft SQL Server. Les étapes décrites dans ce document utilisent la commande sqoop directement à partir du nœud principal du cluster Hadoop. Vous utilisez SSH pour vous connecter au nœud principal et exécutez les commandes décrites dans ce document. Cet article est la suite de Utiliser Apache Sqoop avec Hadoop dans HDInsight.

Prérequis

Avoir effectué Configurer un environnement de test dans Utiliser Apache Sqoop avec Hadoop dans HDInsight.
Un client SSH. Pour plus d’informations, consultez Se connecter à HDInsight (Apache Hadoop) à l’aide de SSH.
Vous êtes familiarisé avec Sqoop. Pour plus d’informations, consultez le Guide de l’utilisateur Sqoop.

Configurer

Utilisez la commande ssh pour vous connecter à votre cluster. Modifiez la commande ci-dessous en remplaçant CLUSTERNAME par le nom de votre cluster, puis entrez la commande :
```
ssh sshuser@CLUSTERNAME-ssh.azurehdinsight.net
```

Pour faciliter l’utilisation, définissez des variables. Remplacez PASSWORD, MYSQLSERVERet MYDATABASE par les valeurs pertinentes, puis entrez les commandes suivantes :

export PASSWORD='PASSWORD'
export SQL_SERVER="MYSQLSERVER"
export DATABASE="MYDATABASE"


export SERVER_CONNECT="jdbc:sqlserver://$SQL_SERVER.database.windows.net:1433;user=sqluser;password=$PASSWORD"
export SERVER_DB_CONNECT="jdbc:sqlserver://$SQL_SERVER.database.windows.net:1433;user=sqluser;password=$PASSWORD;database=$DABATASE"

Exportation de Sqoop

De Hive vers SQL.

Pour vérifier que Sqoop peut voir votre base de données, entrez la commande ci-dessous dans votre connexion SSH ouverte. Cette commande retourne une liste de bases de données.
```
sqoop list-databases --connect $SERVER_CONNECT
```
Entrez la commande suivante pour afficher une liste des tables de la base de données spécifiée :
```
sqoop list-tables --connect $SERVER_DB_CONNECT
```
Pour exporter des données depuis la table Hive hivesampletable vers la table mobiledata dans votre base de données, entrez la commande ci-dessous dans votre connexion SSH ouverte :
```
sqoop export --connect $SERVER_DB_CONNECT \
-table mobiledata \
--hcatalog-table hivesampletable
```

Pour vérifier que les données ont été exportées, exécutez les requêtes suivantes à partir de votre connexion SSH pour voir les données exportées :

sqoop eval --connect $SERVER_DB_CONNECT \
--query "SELECT COUNT(*) from dbo.mobiledata WITH (NOLOCK)"


sqoop eval --connect $SERVER_DB_CONNECT \
--query "SELECT TOP(10) * from dbo.mobiledata WITH (NOLOCK)"

Importation de Sqoop

De SQL vers le stockage Azure.

Entrez la commande ci-dessous dans votre connexion SSH ouverte pour importer des données de la table mobiledata dans SQL vers le répertoire wasbs:///tutorials/usesqoop/importeddata sur HDInsight. Les champs dans les données sont séparés par un caractère de tabulation et les lignes se terminent par un caractère de nouvelle ligne.
```
sqoop import --connect $SERVER_DB_CONNECT \
--table mobiledata \
--target-dir 'wasb:///tutorials/usesqoop/importeddata' \
--fields-terminated-by '\t' \
--lines-terminated-by '\n' -m 1
```

Vous pouvez aussi spécifier une table Hive :

sqoop import --connect $SERVER_DB_CONNECT \
--table mobiledata \
--target-dir 'wasb:///tutorials/usesqoop/importeddata2' \
--fields-terminated-by '\t' \
--lines-terminated-by '\n' \
--create-hive-table \
--hive-table mobiledata_imported2 \
--hive-import -m 1

Une fois l’importation terminée, entrez la commande suivante dans votre connexion SSH ouverte pour lister les données dans le nouveau répertoire :
```
hadoop fs -tail /tutorials/usesqoop/importeddata/part-m-00000
```

Utilisez beeline pour vérifier que la table a été créée dans Hive.

Se connecter

beeline -u 'jdbc:hive2://headnodehost:10001/;transportMode=http'

Exécutez les requêtes suivantes l’une après l’autre et examinez la sortie :

show tables;
describe mobiledata_imported2;
SELECT COUNT(*) FROM mobiledata_imported2;
SELECT * FROM mobiledata_imported2 LIMIT 10;

Quittez beeline en exécutant !exit.

Limites

Exportation en bloc : avec HDInsight sous Linux, le connecteur Sqoop utilisé pour exporter des données vers SQL ne prend pas en charge les insertions en bloc.
Traitement par lots : avec HDInsight sous Linux, lorsque vous utilisez le commutateur -batch pour effectuer des insertions, Sqoop effectue plusieurs insertions plutôt qu’un traitement par lots des opérations d’insertion.

Points importants à prendre en compte

HDInsight et SQL Server doivent figurer sur le même réseau Azure Virtual Network.

Pour voir un exemple, consultez le document Connecter HDInsight à votre réseau local.

Pour plus d’informations sur l’utilisation de HDInsight avec Azure Virtual Network, voir le document Étendre HDInsight avec Azure Virtual Network. Pour plus d’informations sur Azure Virtual Network, voir Présentation du réseau virtuel.
Le serveur SQL Server doit également être configuré pour autoriser l’authentification SQL. Pour plus d’informations, consultez le document Choisir un mode d’authentification.
Vous devez configurer SQL Server pour qu’il accepte les connexions à distance. Pour plus d’informations, consultez le document Résolution des problèmes de connexion au moteur de base de données SQL Server.

Étapes suivantes

Vous maîtrisez à présent l’utilisation de Sqoop. Pour plus d'informations, consultez les rubriques suivantes :

Utiliser Apache Oozie avec HDInsight : Utilisez l’action Sqoop dans un workflow Oozie.
Analyser des données sur les retards de vol avec HDInsight : Utilisez Interactive Query pour analyser des données sur les retards de vol, puis utilisez Sqoop pour exporter ces données vers une base de données dans Azure.
Chargez des données dans HDInsight : Découvrez d’autres méthodes pour charger des données dans HDInsight ou le stockage Blob Azure.