Identifiera språk

Artikel
07/03/2019

Viktigt

Stödet för Machine Learning Studio (klassisk) upphör den 31 augusti 2024. Vi rekommenderar att du byter till Azure Machine Learning innan dess.

Från och med den 1 december 2021 kan du inte längre skapa nya Machine Learning Studio-resurser (klassisk). Du kan fortsätta att använda befintliga Machine Learning Studio-resurser (klassisk) till och med den 31 augusti 2024.

Dokumentationen om ML Studio (klassisk) håller på att dras tillbaka och kanske inte uppdateras i framtiden.

Identifierar språket för varje rad i indatafilen

Kategori: Textanalys

Anteckning

Gäller endast för: Machine Learning Studio (klassisk)

Liknande dra och släpp-moduler är tillgängliga i Azure Machine Learning designer.

Modulöversikt

Den här artikeln beskriver hur du använder modulen Identifiera språk i Machine Learning Studio (klassisk) för att analysera textinmatning och identifiera det språk som är associerat med varje post i indata.

Språkidentifieringsalgoritmen kan identifiera många olika språk. Ange bara strängkolumnen som ska analyseras och det totala antalet språk som ska identifieras. Algoritmen analyserar varje rad med text och tilldelar en sannolikhetspoäng för varje språk. Språket i den första resultatkolumnen är det språk som fick högst poäng.

Så här konfigurerar du språk för identifiering

Lägg till datauppsättningen som innehåller den text som du vill analysera till ett experiment i Machine Learning Studio (klassisk). Kolumnen med den text som ska analyseras måste vara strängdatatypen.

Datset behöver inte innehålla en etikettkolumn. Algoritmen för språkidentifiering fungerar enbart på språkfunktioner i de språk som stöds.

Om du importerar nya data kontrollerar du att dina data har sparats i UTF-8-format. Andra Unicode-format stöds inte.
Lägg till modulen Identifiera språk i experimentet och anslut datauppsättningen med texten för språkidentifiering.
För Textkolumn väljer du den kolumn som du vill analysera.
För Övre gräns för antalet språk som ska identifieras anger du det maximala antalet språk som ska identifieras.

Att ange en övre gräns för antalet språk kan förbättra prestandan.
Kör experimentet.

Resultat

Modulen Identifiera språk matar ut en språkidentifierare och poäng för varje rad.

Följande tabell innehåller till exempel en exempelanalys på testdata.

De första två kolumnerna col1och språketiketten är kolumner som skickas från indatauppsättningen. Eftersom indatauppsättningen i det här exemplet utformades för att testa modulen var det förväntade språket redan känt och anges i etikettkolumnen.
De återstående kolumnerna genereras av modulen Identifiera språk. Om det finns tvetydiga språkmatchning kan flera språk visas, med en poäng för var och en. I det här fallet förutsäger modulen bara ett språk för varje rad, tillsammans med sannolikhetspoängen för det språket.

Om modulen inte kan identifiera något språk med tillräckligt höga poäng blir resultatet (Okänt) med poängen 0 utdata. Språken som stöds av modulen kan dock ändras med tiden när API:et uppdateras.

Col1	Språketikett	Col1-språk	Col1 Iso6391 Language	Språkpoäng för Col1 Iso6391
Det var ett fantastiskt hotell med en vänlig personal och bra service	Engelska	Engelska	en	100
Es war wunderbares Hotel mit freundlichem Personal guter service	Tyska	Tyska	de	100
C'est un förstoringsglas hçtel avec un personnelique et un service de qualique	Franska	Franska	fr	100
Det var et dejligt hotel med et venligt personalemedie god service	Danska	Danska	nl	100
Va ser un magnçfic hotel amb un personal amable i bon servei	Katalanska	Katalanska	ca	92.30769348
とても素敵なホテルで、スタッフは親切で、サービスもよかった	Japanska	(Okänd)		0
qu mebpa'mey naQ friendly QaQ chavmoH je	Klingonska	Franska	fr	77.5

Exempel

Exempel på hur modulen Identifiera språk används i ett experiment finns i Azure AI Gallery:

Filtrera filmtitlar efter språk: Identifierar det språk som används i filmnamn och använder sedan språkidentifieraren för att dela upp datamängden i engelska kontra icke-engelska filmer.

Teknisk information

En allmän uppfattning om de språk som potentiellt kan identifieras finns i Bing-översättare.

Många fler språk kan identifieras än vad Machine Learning stöder för närvarande för avancerad textanalys. Vi rekommenderar att du använder resultaten från Identifiera språk för att filtrera resultaten som du skickar till andra moduler som kräver språkspecifik bearbetning.

De underliggande språktjänsterna används också av Textanalys i Azure Cognitive Services.

Förväntade indata

Namn	Typ	Description
Datamängd	Datatabell	Indata

Modulparametrar

Namn	Typ	Intervall	Valfritt	Standardvärde	Description
Övre gräns för antalet språk som ska identifieras	Integer	[1;184]	Obligatorisk	1	Övre gräns för antalet språk som ska identifieras.
Textkolumn	ColumnSelection		Obligatorisk		Namn eller ett baserat index för textkolumnen.

Utdata

Namn	Typ	Description
Resultatdatauppsättning	Datatabell	Resultatet

Undantag

Undantag	Description
Fel 0003	Undantag inträffar om en eller flera indata är null eller tomma.
Fel 0010	Undantag inträffar om indatauppsättningar har kolumnnamn som ska matcha men inte.
Fel 0016	Undantaget inträffar om indatauppsättningar som skickas till modulen ska ha kompatibla kolumntyper men inte göra det.
Fel 0008	Undantaget inträffar om parametern inte är inom intervallet.

En lista över fel som är specifika för Studio-moduler (klassisk) finns i Machine Learning felkoder.

En lista över API-undantag finns i Machine Learning REST API felkoder.

Se även

Textanalys
A-Z-modullista