Természetes nyelvek feldolgozása

Cikk
04/19/2024

Az Azure Databricksben olyan népszerű nyílt forráskód kódtárak, mint például a Spark ML és a Spark-nlp vagy a védett kódtárak használatával végezhet természetes nyelvi feldolgozási feladatokat az Azure Databricksben a John Snow Labsszel kötött Azure Databricks-partnerségen keresztül.

Példák az ölelő arcú NLP-re, lásd: További erőforrások

Funkció létrehozása szövegből a Spark ML használatával

A Spark ML számos szövegfeldolgozó eszközt tartalmaz a szövegoszlopok funkcióinak létrehozásához. A Spark ML-folyamatokban közvetlenül a Spark ML-folyamatokban szövegből hozhat létre bemeneti funkciókat a modellbetanítási algoritmusokhoz a Spark ML használatával. A Spark ML számos szövegfeldolgozót támogat, beleértve a tokenizálást, a szövegmegállítást, a word2vec-et és a funkciók kivonatolását.

Betanítás és következtetés a Spark NLP használatával

Számos mélytanulási módszert skálázhat fel a Spark természetes nyelvi feldolgozásához a nyílt forráskódú Spark NLP-kódtár használatával. Ez a kódtár támogatja a szabványos természetes nyelvi feldolgozási műveleteket, például a tokenizálást, az elnevezett entitásfelismerést és a vektorosítást a mellékelt széljegyzetekkel. A Spark NLP transzformátorai, például a BERT és a T5 Marion alapján számos előre betanított mélytanulási modell használatával összegzheti, végrehajthatja az elnevezett entitásfelismerést, lefordíthatja és szövegeket hozhat létre.

Következtetés végrehajtása kötegben a Spark NLP használatával CPU-kon

A Spark NLP számos előre betanított modellt biztosít, amelyet minimális kóddal használhat. Ez a szakasz a Marian Transformer gépi fordításhoz való használatát szemlélteti. A példák teljes halmazát a Spark NLP dokumentációjában találja.

Követelmények

Telepítse a Spark NLP-t a fürtre a Spark NLP legújabb Maven-koordinátái, például com.johnsnowlabs.nlp:spark-nlp_2.12:4.1.0a . A fürtnek a megfelelő Spark-konfigurációs beállításokkal kell kezdődnie ahhoz, hogy ez a tár működjön.
A Spark NLP használatához a fürtnek a john snow labs-ból letöltött megfelelő .jar fájllal kell rendelkeznie. Bármilyen kompatibilis futtatókörnyezetet futtató fürtöt hozhat létre vagy használhat.

Példakód a gépi fordításhoz

Egy jegyzetfüzetcellában telepítse sparknlp a Python-kódtárakat:

%pip install sparknlp

Hozzon létre egy folyamatot a fordításhoz, és futtassa egy mintaszövegen:

from sparknlp.base import DocumentAssembler
from sparknlp.annotator import SentenceDetectorDLModel, MarianTransformer
from pyspark.ml import Pipeline

document_assembler = DocumentAssembler().setInputCol("text").setOutputCol("document")

sentence_detector = SentenceDetectorDLModel.pretrained("sentence_detector_dl", "xx") \
  .setInputCols("document").setOutputCol("sentence")

marian_transformer = MarianTransformer.pretrained() \
  .setInputCols("sentence").setOutputCol("translation")

pipeline = Pipeline().setStages([document_assembler,  sentence_detector, marian_transformer])

data = spark.createDataFrame([["You can use Spark NLP to translate text. " + \
                               "This example pipeline translates English to French"]]).toDF("text")

# Create a pipeline model that can be reused across multiple data frames
model = pipeline.fit(data)

# You can use the model on any data frame that has a “text” column
result = model.transform(data)

display(result.select("text", "translation.result"))

Példa: Elnevezett entitásfelismerési modell a Spark NLP és az MLflow használatával

A példajegyzetfüzet bemutatja, hogyan taníthat be egy elnevezett entitásfelismerési modellt a Spark NLP használatával, hogyan mentheti a modellt az MLflow-ba, és hogyan használhatja a modellt a szövegre való következtetéshez. További természetes nyelvi feldolgozási modellek betanítása a Spark NLP John Snow Labs dokumentációjában található.

Spark NLP-modell betanítása és következtetési jegyzetfüzete

Jegyzetfüzet beszerzése

Healthcare NLP és John Snow Labs partnerség

John Snow Labs Spark NLP for Healthcare egy védett könyvtár a klinikai és biomedical szövegbányászat. Ez a kódtár előre betanított modelleket biztosít a klinikai entitások, gyógyszerek, kockázati tényezők, anatómia, demográfiai adatok és bizalmas adatok felismeréséhez és kezeléséhez. Kipróbálhatja a Spark NLP for Healthcare szolgáltatást a John Snow Labs partneri Csatlakozás integrációjával. A John Snow Labs próbaverziós vagy fizetős fiókjára van szüksége az útmutatóban bemutatott parancsok kipróbálásához.

További információ a John Snow Labs Spark NLP for Healthcare teljes képességeiről és a webhelyükön használható dokumentációról.