Talen detecteren

Detecteert de taal van elke regel in het invoer bestand

Categorie: Text Analytics

Notitie

Van toepassing op : machine learning Studio (klassiek)

Deze inhoud is alleen van toepassing op Studio (klassiek). Er zijn Vergelijk bare modules voor slepen en neerzetten toegevoegd aan Azure Machine Learning Designer. In dit artikel vindt u meer informatie over de twee versies.

Moduleoverzicht

In dit artikel wordt beschreven hoe u de module talen detecteren in azure machine learning Studio (klassiek) kunt gebruiken om tekst invoer te analyseren en de taal te identificeren die is gekoppeld aan elke record in de invoer.

Met het algoritme voor taal detectie kunnen veel verschillende talen worden geïdentificeerd. Geef de teken reeks kolom op die u wilt analyseren en het totale aantal talen dat moet worden gedetecteerd. De algoritme analyseert elke rij tekst en wijst een waarschijnlijkheids Score toe voor elke taal. De taal in de eerste resultaten kolom is de taal die de hoogste score heeft gekregen.

Detectie talen configureren

  1. Voeg de gegevensset met de tekst die u wilt analyseren toe aan een experiment in Azure Machine Learning Studio (klassiek). De kolom met de te analyseren tekst moet het teken reeks gegevens type zijn.

    De datset hoeft geen kolom label te bevatten. het taal detectie algoritme werkt uitsluitend op taal kundige kenmerken van de ondersteunde talen.

    Als u nieuwe gegevens importeert, moet u ervoor zorgen dat uw gegevens worden opgeslagen in de UTF-8-indeling. Andere Unicode-indelingen worden niet ondersteund.

  2. Voeg de module talen detecteren toe aan uw experiment en verbind de gegevensset met de tekst voor taal detectie.

  3. Kies voor tekst kolomde kolom die u wilt analyseren.

  4. Voor een bovengrens voor het aantal talen dat moet worden gedetecteerd, geeft u het maximum aantal talen op dat moet worden gedetecteerd.

    Het instellen van een bovengrens voor het aantal talen kan de prestaties verbeteren.

  5. Voer het experiment uit.

Resultaten

De module detectie talen levert een taal-id en score voor elke rij.

De volgende tabel bevat bijvoorbeeld een voorbeeld analyse op test gegevens.

  • De eerste twee kolommen Kol1 en taal label zijn kolommen die via de invoer gegevensset worden door gegeven. In dit voor beeld, omdat de invoer-gegevensset is ontworpen voor het testen van de module, de verwachte taal al bekend is en is opgegeven in de kolom Label.

  • De overige kolommen worden gegenereerd door de module talen detecteren . Als er equi-mogelijke taal overeenkomsten zijn, kunnen er verschillende talen worden weer gegeven, met een score voor elk. In dit geval wordt voor elke rij in de module slechts één taal voor speld, samen met de waarschijnlijkheids score voor die taal.

    Als de module geen taal detecteert met een voldoende hoge score, wordt een resultaat van (onbekend) met een Score van 0 uitgevoerd. De talen die door de module worden ondersteund, kunnen echter na verloop van tijd veranderen wanneer de API wordt bijgewerkt.

Kolom 1 Taal label Kol1 taal Kol1 Iso6391 taal Score voor Kol1 Iso6391 taal
Het was een fantastische hotel met een vriendelijk personeel en goede service Engels Engels en 100
Es ein wunderbares Hotel mit freundlichem Personal und guter Service Duits Duits de 100
C'est magnifique Hôtel avec onbevoegde sympathique et de qualité verwijderen Frans Frans fr 100
Det var et dejligt hotel med et venligt Personal ogboek niet service Deens Deens nl 100
VA ser magnífic Hotel amb onpersoonlijk amable ik bop servei Catalaans Catalaans ca 92,30769348
とても素敵なホテルで、スタッフは親切で、サービスもよかった Japans Herkend 0
qu mebpa'mey naQ vriendelijke QaQ chavmoH je Klingon Frans fr 77,5

Voorbeelden

Voor voor beelden van hoe de module detectie talen wordt gebruikt in een experiment, raadpleegt u de Azure AI Gallery:

  • Film titels filteren op taal: detecteert de taal die wordt gebruikt in film namen en gebruikt vervolgens de taal-id om de gegevensset te splitsen in het Engels en niet-Engelse films.

Technische opmerkingen

Raadpleeg Bing Translatorvoor een algemeen idee van de talen die mogelijk kunnen worden gedetecteerd.

Er kunnen nog veel meer talen worden gedetecteerd dan Azure Machine Learning die momenteel worden ondersteund voor geavanceerde tekst analyse. We raden u aan de resultaten van het detecteren van talen te gebruiken om de resultaten te filteren die u naar andere modules verzendt die taalspecifieke verwerking vereisen.

De onderliggende taal kundige services worden ook gebruikt door de Text Analytics -service in Azure Cognitive Services.

Verwachte invoer

Naam Type Beschrijving
Gegevensset Gegevens tabel De invoer

Module parameters

Naam Type Bereik Optioneel Standaard Beschrijving
Bovengrens voor het aantal talen dat moet worden gedetecteerd Geheel getal [1; 184] Vereist 1 De bovengrens voor het aantal talen dat moet worden gedetecteerd.
Tekst kolom ColumnSelection Vereist Naam of een index van tekst kolom.

Outputs

Naam Type Beschrijving
Gegevensset voor resultaten Gegevens tabel Het resultaat

Uitzonderingen

Uitzondering Beschrijving
Fout 0003 Uitzonde ring treedt op als een of meer invoer waarden null of leeg zijn.
Fout 0010 Uitzonde ring treedt op als invoer gegevens sets kolom namen bevatten die moeten overeenkomen, maar niet.
Fout 0016 Uitzonde ring treedt op als invoer gegevens sets die zijn door gegeven aan de module compatibele kolom typen moeten hebben, maar dat niet.
Fout 0008 Uitzonde ring treedt op als de para meter niet binnen het bereik valt.

Zie machine learning fout codesvoor een lijst met fouten die specifiek zijn voor Studio-modules (Classic).

Zie Machine Learning rest API fout codesvoor een lijst met API-uitzonde ringen.

Zie ook

Text Analytics
Module lijst a-Z