Identifiera språk

Viktigt

Stödet för Machine Learning Studio (klassisk) upphör den 31 augusti 2024. Vi rekommenderar att du byter till Azure Machine Learning innan dess.

Från och med den 1 december 2021 kan du inte längre skapa nya Machine Learning Studio-resurser (klassisk). Du kan fortsätta att använda befintliga Machine Learning Studio-resurser (klassisk) till och med den 31 augusti 2024.

Dokumentationen om ML Studio (klassisk) håller på att dras tillbaka och kanske inte uppdateras i framtiden.

Identifierar språket för varje rad i indatafilen

Kategori: Textanalys

Anteckning

Gäller endast för: Machine Learning Studio (klassisk)

Liknande dra och släpp-moduler är tillgängliga i Azure Machine Learning designer.

Modulöversikt

Den här artikeln beskriver hur du använder modulen Identifiera språk i Machine Learning Studio (klassisk) för att analysera textinmatning och identifiera det språk som är associerat med varje post i indata.

Språkidentifieringsalgoritmen kan identifiera många olika språk. Ange bara strängkolumnen som ska analyseras och det totala antalet språk som ska identifieras. Algoritmen analyserar varje rad med text och tilldelar en sannolikhetspoäng för varje språk. Språket i den första resultatkolumnen är det språk som fick högst poäng.

Så här konfigurerar du språk för identifiering

  1. Lägg till datauppsättningen som innehåller den text som du vill analysera till ett experiment i Machine Learning Studio (klassisk). Kolumnen med den text som ska analyseras måste vara strängdatatypen.

    Datset behöver inte innehålla en etikettkolumn. Algoritmen för språkidentifiering fungerar enbart på språkfunktioner i de språk som stöds.

    Om du importerar nya data kontrollerar du att dina data har sparats i UTF-8-format. Andra Unicode-format stöds inte.

  2. Lägg till modulen Identifiera språk i experimentet och anslut datauppsättningen med texten för språkidentifiering.

  3. För Textkolumn väljer du den kolumn som du vill analysera.

  4. För Övre gräns för antalet språk som ska identifieras anger du det maximala antalet språk som ska identifieras.

    Att ange en övre gräns för antalet språk kan förbättra prestandan.

  5. Kör experimentet.

Resultat

Modulen Identifiera språk matar ut en språkidentifierare och poäng för varje rad.

Följande tabell innehåller till exempel en exempelanalys på testdata.

  • De första två kolumnerna col1och språketiketten är kolumner som skickas från indatauppsättningen. Eftersom indatauppsättningen i det här exemplet utformades för att testa modulen var det förväntade språket redan känt och anges i etikettkolumnen.

  • De återstående kolumnerna genereras av modulen Identifiera språk. Om det finns tvetydiga språkmatchning kan flera språk visas, med en poäng för var och en. I det här fallet förutsäger modulen bara ett språk för varje rad, tillsammans med sannolikhetspoängen för det språket.

    Om modulen inte kan identifiera något språk med tillräckligt höga poäng blir resultatet (Okänt) med poängen 0 utdata. Språken som stöds av modulen kan dock ändras med tiden när API:et uppdateras.

Col1 Språketikett Col1-språk Col1 Iso6391 Language Språkpoäng för Col1 Iso6391
Det var ett fantastiskt hotell med en vänlig personal och bra service Engelska Engelska en 100
Es war wunderbares Hotel mit freundlichem Personal guter service Tyska Tyska de 100
C'est un förstoringsglas hçtel avec un personnelique et un service de qualique Franska Franska fr 100
Det var et dejligt hotel med et venligt personalemedie god service Danska Danska nl 100
Va ser un magnçfic hotel amb un personal amable i bon servei Katalanska Katalanska ca 92.30769348
とても素敵なホテルで、スタッフは親切で、サービスもよかった Japanska (Okänd) 0
qu mebpa'mey naQ friendly QaQ chavmoH je Klingonska Franska fr 77.5

Exempel

Exempel på hur modulen Identifiera språk används i ett experiment finns i Azure AI Gallery:

  • Filtrera filmtitlar efter språk: Identifierar det språk som används i filmnamn och använder sedan språkidentifieraren för att dela upp datamängden i engelska kontra icke-engelska filmer.

Teknisk information

En allmän uppfattning om de språk som potentiellt kan identifieras finns i Bing-översättare.

Många fler språk kan identifieras än vad Machine Learning stöder för närvarande för avancerad textanalys. Vi rekommenderar att du använder resultaten från Identifiera språk för att filtrera resultaten som du skickar till andra moduler som kräver språkspecifik bearbetning.

De underliggande språktjänsterna används också av Textanalys i Azure Cognitive Services.

Förväntade indata

Namn Typ Description
Datamängd Datatabell Indata

Modulparametrar

Namn Typ Intervall Valfritt Standardvärde Description
Övre gräns för antalet språk som ska identifieras Integer [1;184] Obligatorisk 1 Övre gräns för antalet språk som ska identifieras.
Textkolumn ColumnSelection Obligatorisk Namn eller ett baserat index för textkolumnen.

Utdata

Namn Typ Description
Resultatdatauppsättning Datatabell Resultatet

Undantag

Undantag Description
Fel 0003 Undantag inträffar om en eller flera indata är null eller tomma.
Fel 0010 Undantag inträffar om indatauppsättningar har kolumnnamn som ska matcha men inte.
Fel 0016 Undantaget inträffar om indatauppsättningar som skickas till modulen ska ha kompatibla kolumntyper men inte göra det.
Fel 0008 Undantaget inträffar om parametern inte är inom intervallet.

En lista över fel som är specifika för Studio-moduler (klassisk) finns i Machine Learning felkoder.

En lista över API-undantag finns i Machine Learning REST API felkoder.

Se även

Textanalys
A-Z-modullista