Technologie zpracování přirozeného jazyka

HDInsight
Databricks
Data Lake
Storage

Zpracování přirozeného jazyka (NLP) se používá pro úlohy, jako je analýza mínění, detekce témat, rozpoznávání jazyka, extrakce klíčových frází a kategorizace dokumentů.

Diagram of a natural language processing pipeline

NLP lze použít ke klasifikaci dokumentů, jako je označování dokumentů jako citlivých nebo spamu. Výstup NLP lze použít pro následné zpracování nebo vyhledávání. Dalším použitím NLP je sumarizace textu tím, že identifikujete entity, které jsou přítomné v dokumentu. Tyto entity lze použít také k označování dokumentů klíčovými slovy, což umožňuje vyhledávání a načítání na základě obsahu. Entity se můžou kombinovat do témat se souhrny, které popisují důležitá témata obsažená v jednotlivých dokumentech. Zjištěná témata mohou být použita ke kategorizaci dokumentů pro navigaci nebo k vytvoření výčtu souvisejících dokumentů s vybraným tématem. Dalším použitím NLP je skóre textu pro mínění, vyhodnocení pozitivního nebo negativního tónu dokumentu. Tyto přístupy používají mnoho technik zpracování přirozeného jazyka, například:

  • Tokenizátor. Rozdělení textu na slova nebo fráze
  • Stemming a lemmatization. Normalizace slov tak, aby se různé formuláře mapovat na kanonické slovo se stejným významem. Například "running" a "run" map na "run".
  • Extrakce entit. Identifikace témat v textu
  • Část detekce řeči Identifikace textu jako slovesa, podstatného jména, participle, slovesné fráze atd.
  • Detekce hranic vět. Detekce úplných vět v odstavcích textu

Při použití NLP k extrakci informací a přehledu z volného textu je výchozím bodem obvykle nezpracované dokumenty uložené v úložišti objektů, jako je Azure Storage nebo Azure Data Lake Store.

Výzvy

  • Zpracování kolekce volných textových dokumentů je obvykle výpočetně náročné na prostředky a také časově náročné.
  • Bez standardizovaného formátu dokumentu může být obtížné dosáhnout konzistentně přesných výsledků pomocí bezplatného zpracování textu k extrakci konkrétních faktů z dokumentu. Představte si například textovou reprezentaci faktury – může být obtížné vytvořit proces, který správně extrahuje číslo faktury a datum faktury pro faktury napříč libovolným počtem dodavatelů.

Jaké máte možnosti při výběru služby NLP?

V Azure poskytují následující služby možnosti zpracování přirozeného jazyka (NLP):

Kritéria výběru klíče

Pokud chcete zúžit možnosti, začněte zodpovězením těchto otázek:

  • Chcete použít předem připravené modely? Pokud ano, zvažte použití rozhraní API nabízených službou Microsoft Cognitive Services.

  • Potřebujete vytrénovat vlastní modely s velkým korpusem textových dat? Pokud ano, zvažte použití Služby Azure HDInsight se sparkem MLlib a NLP Sparku.

  • Potřebujete nízkoúrovňové funkce NLP, jako jsou tokenizace, stemming, lemmatizace a frekvence/inverzní frekvence dokumentů (TF/IDF)? Pokud ano, zvažte použití Služby Azure HDInsight se sparkem MLlib a NLP Sparku.

  • Potřebujete jednoduché funkce NLP vysoké úrovně, jako je identifikace entit a záměrů, detekce témat, kontrola pravopisu nebo analýza mínění? Pokud ano, zvažte použití rozhraní API nabízených službou Microsoft Cognitive Services.

Matice schopností

Následující tabulky shrnují klíčové rozdíly v možnostech.

Obecné možnosti

Schopnost Azure HDInsight Microsoft Cognitive Services
Poskytuje předem natrénované modely jako službu. No Yes
REST API Yes Yes
Programovatelnost Python, Scala, Java C#, Java, Node.js, Python, PHP, Ruby
Podpora zpracování sad velkých objemů dat a velkých dokumentů Yes No

Možnosti zpracování přirozeného jazyka nízké úrovně

Schopnost Azure HDInsight Microsoft Cognitive Services
Tokenizátor Ano (Spark NLP) Ano (rozhraní API lingvistické analýzy)
Stemmer Ano (Spark NLP) No
Lemmatizer Ano (Spark NLP) No
Část označování řeči Ano (Spark NLP) Ano (rozhraní API lingvistické analýzy)
Frekvence termínů /frekvence inverzního dokumentu (TF/IDF) Ano (Spark MLlib) No
Podobnost řetězců – úprava výpočtu vzdálenosti Ano (Spark MLlib) No
Výpočet N-gramu Ano (Spark MLlib) No
Zastavení odebrání slova Ano (Spark MLlib) No

Možnosti zpracování přirozeného jazyka vysoké úrovně

Schopnost Azure HDInsight Microsoft Cognitive Services
Identifikace a extrakce entit a záměrů No Ano (rozhraní API služby LUIS (Language Understanding Intelligent Service)
Detekce témat Ano (Spark NLP) Ano (rozhraní API Analýza textu)
Kontrolu pravopisu Ano (Spark NLP) Ano (rozhraní API pro kontrolu pravopisu Bing)
Analýza mínění Ano (Spark NLP) Ano (rozhraní API Analýza textu)
Rozpoznávání jazyka No Ano (rozhraní API Analýza textu)
Podporuje více jazyků kromě angličtiny. No Ano (liší se podle rozhraní API)

Další kroky