Talen detecteren

Belangrijk

De ondersteuning voor Azure Machine Learning-studio (klassiek) eindigt op 31 augustus 2024. U wordt aangeraden om vóór die datum over te stappen naar Azure Machine Learning.

Vanaf 1 december 2021 kunt u geen nieuwe resources voor Azure Machine Learning-studio (klassiek) meer maken. Tot en met 31 augustus 2024 kunt u de bestaande resources van Azure Machine Learning-studio (klassiek) blijven gebruiken.

De documentatie van ML-studio (klassiek) wordt buiten gebruik gesteld en wordt in de toekomst mogelijk niet meer bijgewerkt.

Detecteert de taal van elke regel in het invoerbestand

Categorie: Text Analytics

Notitie

Van toepassing op: Machine Learning Studio (klassiek)

Vergelijkbare modules voor slepen en neerzetten zijn beschikbaar in Azure Machine Learning designer.

Moduleoverzicht

In dit artikel wordt beschreven hoe u de module Detect Languages in Machine Learning Studio (klassiek) gebruikt om tekstinvoer te analyseren en de taal te identificeren die is gekoppeld aan elke record in de invoer.

Het taaldetectiealgoritme kan veel verschillende talen identificeren. Geef alleen de tekenreekskolom op die moet worden geanalyseerd en het totale aantal talen dat moet worden gedetecteerd. Het algoritme analyseert elke rij tekst en wijst een waarschijnlijkheidsscore toe voor elke taal. De taal in de kolom met het eerste resultaat is de taal die de hoogste score heeft.

Talen detecteren configureren

  1. Voeg de gegevensset met de tekst die u wilt analyseren toe aan een experiment in Machine Learning Studio (klassiek). De kolom met de tekst die moet worden geanalyseerd, moet het gegevenstype tekenreeks zijn.

    De datset hoeft geen labelkolom te bevatten; Het taaldetectiealgoritme werkt uitsluitend op taalkundige functies van de ondersteunde talen.

    Als u nieuwe gegevens importeert, moet u ervoor zorgen dat uw gegevens zijn opgeslagen in de UTF-8-indeling. Andere Unicode-indelingen worden niet ondersteund.

  2. Voeg de module Detect Languages toe aan uw experiment en verbind de gegevensset met de tekst voor taaldetectie.

  3. Kies bij Tekstkolom de kolom die u wilt analyseren.

  4. Geef voor Bovengrens voor het aantal talen dat moet worden gedetecteerd het maximum aantal talen aan dat moet worden gedetecteerd.

    Het instellen van een bovengrens voor het aantal talen kan de prestaties verbeteren.

  5. Voer het experiment uit.

Resultaten

De module Talen detecteren geeft een taal-id en score voor elke rij weer.

De volgende tabel bevat bijvoorbeeld een voorbeeldanalyse van testgegevens.

  • De eerste twee kolommen col1 en taallabel zijn kolommen die worden doorgegeven vanuit de invoerset. Omdat in dit voorbeeld de invoerset is ontworpen voor het testen van de module, was de verwachte taal al bekend en wordt deze opgegeven in de labelkolom.

  • De resterende kolommen worden gegenereerd door de module Talen detecteren. Als er equivalente taal matches zijn, kunnen er verschillende talen worden vermeld, met een score voor elke taal. In dit geval voorspelt de module slechts één taal voor elke rij, samen met de waarschijnlijkheidsscore voor die taal.

    Als de module geen taal met een voldoende hoge score kan detecteren, wordt een resultaat van (Onbekend) met een score van 0 uitgevoerd. De talen die door de module worden ondersteund, kunnen echter na een periode veranderen wanneer de API wordt bijgewerkt.

Kolom 1 Taallabel Col1-taal Col1 Iso6391 Language Col1 Iso6391 Language Score
Het was een fantastisch hotel met een vriendelijke medewerkers en een goede service Engels Engels en 100
Es war ein wunderbares Hotel mit freundlichem Personal und guter service Duits Duits de 100
C'est un magnifique hötel avec un personnelique et un service de qualique Frans Frans fr 100
Det var et dejligt hotel med et venligt personale nv service Deens Deens nl 100
Va ser un magnvufic hotel amb un personal amable i bon servei Catalaans Catalaans ca 92.30769348
とても素敵なホテルで、スタッフは親切で、サービスもよかった Japans (Onbekend) 0
qu mebpa'mey naQ friendly QaQ chavmoH je Klingon Frans fr 77.5

Voorbeelden

Voor voorbeelden van hoe de module Detect Languages wordt gebruikt in een experiment, zie de Azure AI Gallery:

  • Filmtitels filteren op taal: detecteert de taal die wordt gebruikt in filmnamen en gebruikt vervolgens de taal-id om de gegevensset te splitsen in Engelse versus niet-Engelse films.

Technische opmerkingen

Voor een algemeen idee van de talen die mogelijk kunnen worden gedetecteerd, raadpleegt u Bing Vertalen.

Er kunnen veel meer talen worden gedetecteerd dan Machine Learning momenteel wordt ondersteund voor geavanceerde tekstanalyse. U wordt aangeraden de resultaten van Talen detecteren te gebruiken om de resultaten te filteren die u naar andere modules verzendt waarvoor taalspecifieke verwerking is vereist.

De onderliggende taalkundige services worden ook gebruikt door de Text Analytics service in Azure Cognitive Services.

Verwachte invoer

Naam Type Description
Gegevensset Gegevenstabel De invoer

Moduleparameters

Naam Type Bereik Optioneel Standaard Beschrijving
Bovengrens voor het aantal talen dat moet worden gedetecteerd Geheel getal [1;184] Vereist 1 Bovengrens voor het aantal talen dat moet worden gedetecteerd.
Tekstkolom ColumnSelection Vereist Naam of een op één gebaseerde index van tekstkolom.

Uitvoerwaarden

Naam Type Description
Gegevensset met resultaten Gegevenstabel Het resultaat

Uitzonderingen

Uitzondering Description
Fout 0003 Uitzondering treedt op als een of meer invoer null of leeg zijn.
Fout 0010 Uitzondering treedt op als invoersets kolomnamen hebben die wel overeenkomen, maar niet.
Fout 0016 Uitzondering treedt op als invoersets die aan de module worden doorgegeven compatibele kolomtypen moeten hebben, maar niet.
Fout 0008 Uitzondering treedt op als parameter zich niet binnen het bereik.

Zie Foutcodes voor een lijst met fouten die specifiek zijn Machine Learning voor Studio-modules (klassiek).

Zie Foutcodes voor een lijst Machine Learning REST API API-uitzonderingen.

Zie ook

Tekstanalyse
Lijst met A-Z-modules