Talen detecteren

Artikel
07/03/2019

Belangrijk

De ondersteuning voor Azure Machine Learning-studio (klassiek) eindigt op 31 augustus 2024. U wordt aangeraden om vóór die datum over te stappen naar Azure Machine Learning.

Vanaf 1 december 2021 kunt u geen nieuwe resources voor Azure Machine Learning-studio (klassiek) meer maken. Tot en met 31 augustus 2024 kunt u de bestaande resources van Azure Machine Learning-studio (klassiek) blijven gebruiken.

Zie informatie over het verplaatsen machine learning van ML Studio (klassiek) naar Azure Machine Learning.
Meer informatie over Azure Machine Learning.

De documentatie van ML-studio (klassiek) wordt buiten gebruik gesteld en wordt in de toekomst mogelijk niet meer bijgewerkt.

Detecteert de taal van elke regel in het invoerbestand

Categorie: Text Analytics

Notitie

Van toepassing op: Machine Learning Studio (klassiek)

Vergelijkbare modules voor slepen en neerzetten zijn beschikbaar in Azure Machine Learning designer.

Moduleoverzicht

In dit artikel wordt beschreven hoe u de module Detect Languages in Machine Learning Studio (klassiek) gebruikt om tekstinvoer te analyseren en de taal te identificeren die is gekoppeld aan elke record in de invoer.

Het taaldetectiealgoritme kan veel verschillende talen identificeren. Geef alleen de tekenreekskolom op die moet worden geanalyseerd en het totale aantal talen dat moet worden gedetecteerd. Het algoritme analyseert elke rij tekst en wijst een waarschijnlijkheidsscore toe voor elke taal. De taal in de kolom met het eerste resultaat is de taal die de hoogste score heeft.

Talen detecteren configureren

Voeg de gegevensset met de tekst die u wilt analyseren toe aan een experiment in Machine Learning Studio (klassiek). De kolom met de tekst die moet worden geanalyseerd, moet het gegevenstype tekenreeks zijn.

De datset hoeft geen labelkolom te bevatten; Het taaldetectiealgoritme werkt uitsluitend op taalkundige functies van de ondersteunde talen.

Als u nieuwe gegevens importeert, moet u ervoor zorgen dat uw gegevens zijn opgeslagen in de UTF-8-indeling. Andere Unicode-indelingen worden niet ondersteund.
Voeg de module Detect Languages toe aan uw experiment en verbind de gegevensset met de tekst voor taaldetectie.
Kies bij Tekstkolom de kolom die u wilt analyseren.
Geef voor Bovengrens voor het aantal talen dat moet worden gedetecteerd het maximum aantal talen aan dat moet worden gedetecteerd.

Het instellen van een bovengrens voor het aantal talen kan de prestaties verbeteren.
Voer het experiment uit.

Resultaten

De module Talen detecteren geeft een taal-id en score voor elke rij weer.

De volgende tabel bevat bijvoorbeeld een voorbeeldanalyse van testgegevens.

De eerste twee kolommen col1 en taallabel zijn kolommen die worden doorgegeven vanuit de invoerset. Omdat in dit voorbeeld de invoerset is ontworpen voor het testen van de module, was de verwachte taal al bekend en wordt deze opgegeven in de labelkolom.
De resterende kolommen worden gegenereerd door de module Talen detecteren. Als er equivalente taal matches zijn, kunnen er verschillende talen worden vermeld, met een score voor elke taal. In dit geval voorspelt de module slechts één taal voor elke rij, samen met de waarschijnlijkheidsscore voor die taal.

Als de module geen taal met een voldoende hoge score kan detecteren, wordt een resultaat van (Onbekend) met een score van 0 uitgevoerd. De talen die door de module worden ondersteund, kunnen echter na een periode veranderen wanneer de API wordt bijgewerkt.

Kolom 1	Taallabel	Col1-taal	Col1 Iso6391 Language	Col1 Iso6391 Language Score
Het was een fantastisch hotel met een vriendelijke medewerkers en een goede service	Engels	Engels	en	100
Es war ein wunderbares Hotel mit freundlichem Personal und guter service	Duits	Duits	de	100
C'est un magnifique hötel avec un personnelique et un service de qualique	Frans	Frans	fr	100
Det var et dejligt hotel med et venligt personale nv service	Deens	Deens	nl	100
Va ser un magnvufic hotel amb un personal amable i bon servei	Catalaans	Catalaans	ca	92.30769348
とても素敵なホテルで、スタッフは親切で、サービスもよかった	Japans	(Onbekend)		0
qu mebpa'mey naQ friendly QaQ chavmoH je	Klingon	Frans	fr	77.5

Voorbeelden

Voor voorbeelden van hoe de module Detect Languages wordt gebruikt in een experiment, zie de Azure AI Gallery:

Filmtitels filteren op taal: detecteert de taal die wordt gebruikt in filmnamen en gebruikt vervolgens de taal-id om de gegevensset te splitsen in Engelse versus niet-Engelse films.

Technische opmerkingen

Voor een algemeen idee van de talen die mogelijk kunnen worden gedetecteerd, raadpleegt u Bing Vertalen.

Er kunnen veel meer talen worden gedetecteerd dan Machine Learning momenteel wordt ondersteund voor geavanceerde tekstanalyse. U wordt aangeraden de resultaten van Talen detecteren te gebruiken om de resultaten te filteren die u naar andere modules verzendt waarvoor taalspecifieke verwerking is vereist.

De onderliggende taalkundige services worden ook gebruikt door de Text Analytics service in Azure Cognitive Services.

Verwachte invoer

Naam	Type	Description
Gegevensset	Gegevenstabel	De invoer

Moduleparameters

Naam	Type	Bereik	Optioneel	Standaard	Beschrijving
Bovengrens voor het aantal talen dat moet worden gedetecteerd	Geheel getal	[1;184]	Vereist	1	Bovengrens voor het aantal talen dat moet worden gedetecteerd.
Tekstkolom	ColumnSelection		Vereist		Naam of een op één gebaseerde index van tekstkolom.

Uitvoerwaarden

Naam	Type	Description
Gegevensset met resultaten	Gegevenstabel	Het resultaat

Uitzonderingen

Uitzondering	Description
Fout 0003	Uitzondering treedt op als een of meer invoer null of leeg zijn.
Fout 0010	Uitzondering treedt op als invoersets kolomnamen hebben die wel overeenkomen, maar niet.
Fout 0016	Uitzondering treedt op als invoersets die aan de module worden doorgegeven compatibele kolomtypen moeten hebben, maar niet.
Fout 0008	Uitzondering treedt op als parameter zich niet binnen het bereik.

Zie Foutcodes voor een lijst met fouten die specifiek zijn Machine Learning voor Studio-modules (klassiek).

Zie Foutcodes voor een lijst Machine Learning REST API API-uitzonderingen.

Zie ook

Tekstanalyse
Lijst met A-Z-modules