Zpracování přirozeného jazyka (NLP) se používá pro úlohy, jako je analýza mínění, detekce témat, rozpoznávání jazyka, extrakce klíčových frází a kategorizace dokumentů.
NLP lze použít ke klasifikaci dokumentů, jako je označování dokumentů jako citlivých nebo spamu. Výstup NLP lze použít pro následné zpracování nebo vyhledávání. Dalším použitím NLP je sumarizace textu tím, že identifikujete entity, které jsou přítomné v dokumentu. Tyto entity lze použít také k označování dokumentů klíčovými slovy, což umožňuje vyhledávání a načítání na základě obsahu. Entity se můžou kombinovat do témat se souhrny, které popisují důležitá témata obsažená v jednotlivých dokumentech. Zjištěná témata mohou být použita ke kategorizaci dokumentů pro navigaci nebo k vytvoření výčtu souvisejících dokumentů s vybraným tématem. Dalším použitím NLP je skóre textu pro mínění, vyhodnocení pozitivního nebo negativního tónu dokumentu. Tyto přístupy používají mnoho technik zpracování přirozeného jazyka, například:
- Tokenizátor. Rozdělení textu na slova nebo fráze
- Stemming a lemmatization. Normalizace slov tak, aby se různé formuláře mapovat na kanonické slovo se stejným významem. Například "running" a "run" map na "run".
- Extrakce entit. Identifikace témat v textu
- Část detekce řeči Identifikace textu jako slovesa, podstatného jména, participle, slovesné fráze atd.
- Detekce hranic vět. Detekce úplných vět v odstavcích textu
Při použití NLP k extrakci informací a přehledu z volného textu je výchozím bodem obvykle nezpracované dokumenty uložené v úložišti objektů, jako je Azure Storage nebo Azure Data Lake Store.
Výzvy
- Zpracování kolekce volných textových dokumentů je obvykle výpočetně náročné na prostředky a také časově náročné.
- Bez standardizovaného formátu dokumentu může být obtížné dosáhnout konzistentně přesných výsledků pomocí bezplatného zpracování textu k extrakci konkrétních faktů z dokumentu. Představte si například textovou reprezentaci faktury – může být obtížné vytvořit proces, který správně extrahuje číslo faktury a datum faktury pro faktury napříč libovolným počtem dodavatelů.
Jaké máte možnosti při výběru služby NLP?
V Azure poskytují následující služby možnosti zpracování přirozeného jazyka (NLP):
Kritéria výběru klíče
Pokud chcete zúžit možnosti, začněte zodpovězením těchto otázek:
Chcete použít předem připravené modely? Pokud ano, zvažte použití rozhraní API nabízených službou Microsoft Cognitive Services.
Potřebujete vytrénovat vlastní modely s velkým korpusem textových dat? Pokud ano, zvažte použití Služby Azure HDInsight se sparkem MLlib a NLP Sparku.
Potřebujete nízkoúrovňové funkce NLP, jako jsou tokenizace, stemming, lemmatizace a frekvence/inverzní frekvence dokumentů (TF/IDF)? Pokud ano, zvažte použití Služby Azure HDInsight se sparkem MLlib a NLP Sparku.
Potřebujete jednoduché funkce NLP vysoké úrovně, jako je identifikace entit a záměrů, detekce témat, kontrola pravopisu nebo analýza mínění? Pokud ano, zvažte použití rozhraní API nabízených službou Microsoft Cognitive Services.
Matice schopností
Následující tabulky shrnují klíčové rozdíly v možnostech.
Obecné možnosti
Schopnost | Azure HDInsight | Microsoft Cognitive Services |
---|---|---|
Poskytuje předem natrénované modely jako službu. | No | Yes |
REST API | Yes | Yes |
Programovatelnost | Python, Scala, Java | C#, Java, Node.js, Python, PHP, Ruby |
Podpora zpracování sad velkých objemů dat a velkých dokumentů | Yes | No |
Možnosti zpracování přirozeného jazyka nízké úrovně
Schopnost | Azure HDInsight | Microsoft Cognitive Services |
---|---|---|
Tokenizátor | Ano (Spark NLP) | Ano (rozhraní API lingvistické analýzy) |
Stemmer | Ano (Spark NLP) | No |
Lemmatizer | Ano (Spark NLP) | No |
Část označování řeči | Ano (Spark NLP) | Ano (rozhraní API lingvistické analýzy) |
Frekvence termínů /frekvence inverzního dokumentu (TF/IDF) | Ano (Spark MLlib) | No |
Podobnost řetězců – úprava výpočtu vzdálenosti | Ano (Spark MLlib) | No |
Výpočet N-gramu | Ano (Spark MLlib) | No |
Zastavení odebrání slova | Ano (Spark MLlib) | No |
Možnosti zpracování přirozeného jazyka vysoké úrovně
Schopnost | Azure HDInsight | Microsoft Cognitive Services |
---|---|---|
Identifikace a extrakce entit a záměrů | No | Ano (rozhraní API služby LUIS (Language Understanding Intelligent Service) |
Detekce témat | Ano (Spark NLP) | Ano (rozhraní API Analýza textu) |
Kontrolu pravopisu | Ano (Spark NLP) | Ano (rozhraní API pro kontrolu pravopisu Bing) |
Analýza mínění | Ano (Spark NLP) | Ano (rozhraní API Analýza textu) |
Rozpoznávání jazyka | No | Ano (rozhraní API Analýza textu) |
Podporuje více jazyků kromě angličtiny. | No | Ano (liší se podle rozhraní API) |