Talen detecteren
Belangrijk
De ondersteuning voor Azure Machine Learning-studio (klassiek) eindigt op 31 augustus 2024. U wordt aangeraden om vóór die datum over te stappen naar Azure Machine Learning.
Vanaf 1 december 2021 kunt u geen nieuwe resources voor Azure Machine Learning-studio (klassiek) meer maken. Tot en met 31 augustus 2024 kunt u de bestaande resources van Azure Machine Learning-studio (klassiek) blijven gebruiken.
- Zie informatie over het verplaatsen machine learning van ML Studio (klassiek) naar Azure Machine Learning.
- Meer informatie over Azure Machine Learning.
De documentatie van ML-studio (klassiek) wordt buiten gebruik gesteld en wordt in de toekomst mogelijk niet meer bijgewerkt.
Detecteert de taal van elke regel in het invoerbestand
Categorie: Text Analytics
Notitie
Van toepassing op: Machine Learning Studio (klassiek)
Vergelijkbare modules voor slepen en neerzetten zijn beschikbaar in Azure Machine Learning designer.
Moduleoverzicht
In dit artikel wordt beschreven hoe u de module Detect Languages in Machine Learning Studio (klassiek) gebruikt om tekstinvoer te analyseren en de taal te identificeren die is gekoppeld aan elke record in de invoer.
Het taaldetectiealgoritme kan veel verschillende talen identificeren. Geef alleen de tekenreekskolom op die moet worden geanalyseerd en het totale aantal talen dat moet worden gedetecteerd. Het algoritme analyseert elke rij tekst en wijst een waarschijnlijkheidsscore toe voor elke taal. De taal in de kolom met het eerste resultaat is de taal die de hoogste score heeft.
Talen detecteren configureren
Voeg de gegevensset met de tekst die u wilt analyseren toe aan een experiment in Machine Learning Studio (klassiek). De kolom met de tekst die moet worden geanalyseerd, moet het gegevenstype tekenreeks zijn.
De datset hoeft geen labelkolom te bevatten; Het taaldetectiealgoritme werkt uitsluitend op taalkundige functies van de ondersteunde talen.
Als u nieuwe gegevens importeert, moet u ervoor zorgen dat uw gegevens zijn opgeslagen in de UTF-8-indeling. Andere Unicode-indelingen worden niet ondersteund.
Voeg de module Detect Languages toe aan uw experiment en verbind de gegevensset met de tekst voor taaldetectie.
Kies bij Tekstkolom de kolom die u wilt analyseren.
Geef voor Bovengrens voor het aantal talen dat moet worden gedetecteerd het maximum aantal talen aan dat moet worden gedetecteerd.
Het instellen van een bovengrens voor het aantal talen kan de prestaties verbeteren.
Voer het experiment uit.
Resultaten
De module Talen detecteren geeft een taal-id en score voor elke rij weer.
De volgende tabel bevat bijvoorbeeld een voorbeeldanalyse van testgegevens.
De eerste twee kolommen col1 en taallabel zijn kolommen die worden doorgegeven vanuit de invoerset. Omdat in dit voorbeeld de invoerset is ontworpen voor het testen van de module, was de verwachte taal al bekend en wordt deze opgegeven in de labelkolom.
De resterende kolommen worden gegenereerd door de module Talen detecteren. Als er equivalente taal matches zijn, kunnen er verschillende talen worden vermeld, met een score voor elke taal. In dit geval voorspelt de module slechts één taal voor elke rij, samen met de waarschijnlijkheidsscore voor die taal.
Als de module geen taal met een voldoende hoge score kan detecteren, wordt een resultaat van (Onbekend) met een score van 0 uitgevoerd. De talen die door de module worden ondersteund, kunnen echter na een periode veranderen wanneer de API wordt bijgewerkt.
Kolom 1 | Taallabel | Col1-taal | Col1 Iso6391 Language | Col1 Iso6391 Language Score |
---|---|---|---|---|
Het was een fantastisch hotel met een vriendelijke medewerkers en een goede service | Engels | Engels | en | 100 |
Es war ein wunderbares Hotel mit freundlichem Personal und guter service | Duits | Duits | de | 100 |
C'est un magnifique hötel avec un personnelique et un service de qualique | Frans | Frans | fr | 100 |
Det var et dejligt hotel med et venligt personale nv service | Deens | Deens | nl | 100 |
Va ser un magnvufic hotel amb un personal amable i bon servei | Catalaans | Catalaans | ca | 92.30769348 |
とても素敵なホテルで、スタッフは親切で、サービスもよかった | Japans | (Onbekend) | 0 | |
qu mebpa'mey naQ friendly QaQ chavmoH je | Klingon | Frans | fr | 77.5 |
Voorbeelden
Voor voorbeelden van hoe de module Detect Languages wordt gebruikt in een experiment, zie de Azure AI Gallery:
- Filmtitels filteren op taal: detecteert de taal die wordt gebruikt in filmnamen en gebruikt vervolgens de taal-id om de gegevensset te splitsen in Engelse versus niet-Engelse films.
Technische opmerkingen
Voor een algemeen idee van de talen die mogelijk kunnen worden gedetecteerd, raadpleegt u Bing Vertalen.
Er kunnen veel meer talen worden gedetecteerd dan Machine Learning momenteel wordt ondersteund voor geavanceerde tekstanalyse. U wordt aangeraden de resultaten van Talen detecteren te gebruiken om de resultaten te filteren die u naar andere modules verzendt waarvoor taalspecifieke verwerking is vereist.
De onderliggende taalkundige services worden ook gebruikt door de Text Analytics service in Azure Cognitive Services.
Verwachte invoer
Naam | Type | Description |
---|---|---|
Gegevensset | Gegevenstabel | De invoer |
Moduleparameters
Naam | Type | Bereik | Optioneel | Standaard | Beschrijving |
---|---|---|---|---|---|
Bovengrens voor het aantal talen dat moet worden gedetecteerd | Geheel getal | [1;184] | Vereist | 1 | Bovengrens voor het aantal talen dat moet worden gedetecteerd. |
Tekstkolom | ColumnSelection | Vereist | Naam of een op één gebaseerde index van tekstkolom. |
Uitvoerwaarden
Naam | Type | Description |
---|---|---|
Gegevensset met resultaten | Gegevenstabel | Het resultaat |
Uitzonderingen
Uitzondering | Description |
---|---|
Fout 0003 | Uitzondering treedt op als een of meer invoer null of leeg zijn. |
Fout 0010 | Uitzondering treedt op als invoersets kolomnamen hebben die wel overeenkomen, maar niet. |
Fout 0016 | Uitzondering treedt op als invoersets die aan de module worden doorgegeven compatibele kolomtypen moeten hebben, maar niet. |
Fout 0008 | Uitzondering treedt op als parameter zich niet binnen het bereik. |
Zie Foutcodes voor een lijst met fouten die specifiek zijn Machine Learning voor Studio-modules (klassiek).
Zie Foutcodes voor een lijst Machine Learning REST API API-uitzonderingen.