Détecter les langues

Important

Le support de Machine Learning Studio (classique) prend fin le 31 août 2024. Nous vous recommandons de passer à Azure Machine Learning avant cette date.

À partir du 1er décembre 2021, vous ne pourrez plus créer de nouvelles ressources Machine Learning Studio (classique). Jusqu’au 31 août 2024, vous pouvez continuer à utiliser les ressources Machine Learning Studio (classique) existantes.

La documentation ML Studio (classique) est en cours de retrait et ne sera probablement plus mise à jour.

Détecte la langue de chaque ligne du fichier d’entrée

catégorie : Analyse de texte

Notes

s’applique à: Machine Learning Studio (classic) uniquement

Des modules par glisser-déposer similaires sont disponibles dans Concepteur Azure Machine Learning.

Vue d’ensemble du module

cet article explique comment utiliser le module détecter les langues dans Machine Learning Studio (classic) pour analyser l’entrée de texte et identifier la langue associée à chaque enregistrement dans l’entrée.

L’algorithme de détection de langage peut identifier de nombreuses langues différentes. Il vous suffit de spécifier la colonne de chaîne à analyser et le nombre total de langues à détecter. L’algorithme analyse chaque ligne de texte et attribue un score de probabilité pour chaque langue. La langue de la première colonne de résultats est celle qui a obtenu le score le plus élevé.

Comment configurer la fonctionnalité détecter les langues

  1. ajoutez le jeu de données contenant le texte que vous souhaitez analyser à une expérience dans Machine Learning Studio (classic). La colonne contenant le texte à analyser doit être du type de données chaîne.

    Le DataSet ne doit pas contenir de colonne d’étiquette ; l’algorithme de détection de langage fonctionne exclusivement sur les fonctionnalités linguistiques des langues prises en charge.

    Si vous importez de nouvelles données, assurez-vous que vos données sont enregistrées au format UTF-8. Les autres formats Unicode ne sont pas pris en charge.

  2. Ajoutez le module détecter les langues à votre expérience et connectez le jeu de données avec le texte de la détection de la langue.

  3. Pour colonne de texte, choisissez la colonne que vous souhaitez analyser.

  4. Pour la limite supérieure du nombre de langues à détecter, indiquez le nombre maximal de langues à détecter.

    La définition d’une limite supérieure pour le nombre de langues peut améliorer les performances.

  5. Exécutez l’expérience.

Résultats

Le module détecter les langues génère un identificateur de langue et un score pour chaque ligne.

Par exemple, le tableau suivant contient un exemple d’analyse sur les données de test.

  • Les deux premières colonnes col1 et étiquette de langue sont des colonnes transmises à partir du jeu de données d’entrée. Dans cet exemple, étant donné que le jeu de données d’entrée a été conçu pour tester le module, le langage attendu était déjà connu et est fourni dans la colonne étiquette.

  • Les colonnes restantes sont générées par le module détecter les langages . S’il existe des correspondances de langue probable, plusieurs langues peuvent être répertoriées, avec un score pour chacun d’entre eux. Dans ce cas, le module prédit une seule langue pour chaque ligne, ainsi que le score de probabilité pour cette langue.

    Si le module ne parvient pas à détecter de langage avec un score suffisamment élevé, le résultat (inconnu) avec un score de 0 correspond à la sortie. Toutefois, les langues prises en charge par le module peuvent changer au fil du temps, à mesure que l’API est mise à jour.

Col1 Étiquette de langue Langage col1 Col1 Iso6391 langage) Score du langage de Iso6391 col1
Il s’agissait d’un hôtel merveilleux avec un personnel convivial et un bon service Anglais Anglais en 100
Es War Ein wunderbares Hotel mit freundlichem Personal und guter Service Allemand Allemand de 100
C’est un magnifique hôtel pour le non-personnel sympathique et le non-service de qualité Français Français fr 100
Det var et Dejligt Hotel med et venligt personaler og service Danois Danois nl 100
Va un magnífic Hotel AMB non Personal Amable Catalan Catalan ca 92,30769348
とても素敵なホテルで、スタッフは親切で、サービスもよかった Japonais (Inconnu) 0
qu mebpa’mey naQ convivial QaQ chavmoH-je Klingon Français fr 77,5

Exemples

Pour obtenir des exemples d’utilisation du module détecter les langues dans une expérience, consultez la Azure ai Gallery:

  • Filtrer les titres de film par langue: détecte la langue utilisée dans les noms de films, puis utilise l’identificateur de langue pour fractionner le jeu de données en films anglais et non anglais.

Notes techniques

pour une idée générale des langues qui peuvent potentiellement être détectées, reportez-vous à Bing Traduction.

il est possible de détecter beaucoup plus de langues que Machine Learning actuellement prises en charge pour l’analyse de texte avancée. Nous vous recommandons d’utiliser les résultats de la détection des langues pour filtrer les résultats que vous envoyez à d’autres modules qui requièrent un traitement spécifique à la langue.

les services linguistiques sous-jacents sont également utilisés par le service Analyse de texte dans Azure Cognitive Services.

Entrées attendues

Nom Type Description
Dataset Table de données Entrée

Paramètres du module

Nom Type Plage Facultatif Default Description
Limite supérieure du nombre de langues à détecter Integer [1 ; 184] Obligatoire 1 Limite supérieure du nombre de langues à détecter.
Colonne de texte ColumnSelection Obligatoire Nom ou index de base un de la colonne de texte.

Sorties

Nom Type Description
Jeu de données de résultats Table de données Le résultat

Exceptions

Exception Description
Erreur 0003 Cette exception se produit si une ou plusieurs entrées sont null ou vide.
Erreur 0010 Une exception se produit si les jeux de données d’entrée possèdent des noms de colonnes qui ne correspondent pas alors qu’ils le devraient correspondre.
Erreur 0016 Une exception se produit si des jeux de données d’entrée transmis au module possèdent des types de colonnes incompatibles les uns avec les autres.
Erreur 0008 Une exception se produit si le paramètre n’est pas dans la plage.

pour obtenir la liste des erreurs spécifiques aux modules Studio (classiques), consultez Machine Learning codes d’erreur.

pour obtenir la liste des exceptions d’api, consultez Machine Learning les Codes d’erreur de l' api REST.

Voir aussi

Analyse de texte
Liste alphabétique des modules