Természetes nyelvek feldolgozása
Az Azure Databricksben olyan népszerű nyílt forráskód kódtárak, mint például a Spark ML és a Spark-nlp vagy a védett kódtárak használatával végezhet természetes nyelvi feldolgozási feladatokat az Azure Databricksben a John Snow Labsszel kötött Azure Databricks-partnerségen keresztül.
Példák az ölelő arcú NLP-re, lásd: További erőforrások
Funkció létrehozása szövegből a Spark ML használatával
A Spark ML számos szövegfeldolgozó eszközt tartalmaz a szövegoszlopok funkcióinak létrehozásához. A Spark ML-folyamatokban közvetlenül a Spark ML-folyamatokban szövegből hozhat létre bemeneti funkciókat a modellbetanítási algoritmusokhoz a Spark ML használatával. A Spark ML számos szövegfeldolgozót támogat, beleértve a tokenizálást, a szövegmegállítást, a word2vec-et és a funkciók kivonatolását.
Betanítás és következtetés a Spark NLP használatával
Számos mélytanulási módszert skálázhat fel a Spark természetes nyelvi feldolgozásához a nyílt forráskódú Spark NLP-kódtár használatával. Ez a kódtár támogatja a szabványos természetes nyelvi feldolgozási műveleteket, például a tokenizálást, az elnevezett entitásfelismerést és a vektorosítást a mellékelt széljegyzetekkel. A Spark NLP transzformátorai, például a BERT és a T5 Marion alapján számos előre betanított mélytanulási modell használatával összegzheti, végrehajthatja az elnevezett entitásfelismerést, lefordíthatja és szövegeket hozhat létre.
Következtetés végrehajtása kötegben a Spark NLP használatával CPU-kon
A Spark NLP számos előre betanított modellt biztosít, amelyet minimális kóddal használhat. Ez a szakasz a Marian Transformer gépi fordításhoz való használatát szemlélteti. A példák teljes halmazát a Spark NLP dokumentációjában találja.
Követelmények
- Telepítse a Spark NLP-t a fürtre a Spark NLP legújabb Maven-koordinátái, például
com.johnsnowlabs.nlp:spark-nlp_2.12:4.1.0
a . A fürtnek a megfelelő Spark-konfigurációs beállításokkal kell kezdődnie ahhoz, hogy ez a tár működjön. - A Spark NLP használatához a fürtnek a john snow labs-ból letöltött megfelelő
.jar
fájllal kell rendelkeznie. Bármilyen kompatibilis futtatókörnyezetet futtató fürtöt hozhat létre vagy használhat.
Példakód a gépi fordításhoz
Egy jegyzetfüzetcellában telepítse sparknlp
a Python-kódtárakat:
%pip install sparknlp
Hozzon létre egy folyamatot a fordításhoz, és futtassa egy mintaszövegen:
from sparknlp.base import DocumentAssembler
from sparknlp.annotator import SentenceDetectorDLModel, MarianTransformer
from pyspark.ml import Pipeline
document_assembler = DocumentAssembler().setInputCol("text").setOutputCol("document")
sentence_detector = SentenceDetectorDLModel.pretrained("sentence_detector_dl", "xx") \
.setInputCols("document").setOutputCol("sentence")
marian_transformer = MarianTransformer.pretrained() \
.setInputCols("sentence").setOutputCol("translation")
pipeline = Pipeline().setStages([document_assembler, sentence_detector, marian_transformer])
data = spark.createDataFrame([["You can use Spark NLP to translate text. " + \
"This example pipeline translates English to French"]]).toDF("text")
# Create a pipeline model that can be reused across multiple data frames
model = pipeline.fit(data)
# You can use the model on any data frame that has a “text” column
result = model.transform(data)
display(result.select("text", "translation.result"))
Példa: Elnevezett entitásfelismerési modell a Spark NLP és az MLflow használatával
A példajegyzetfüzet bemutatja, hogyan taníthat be egy elnevezett entitásfelismerési modellt a Spark NLP használatával, hogyan mentheti a modellt az MLflow-ba, és hogyan használhatja a modellt a szövegre való következtetéshez. További természetes nyelvi feldolgozási modellek betanítása a Spark NLP John Snow Labs dokumentációjában található.
Spark NLP-modell betanítása és következtetési jegyzetfüzete
Healthcare NLP és John Snow Labs partnerség
John Snow Labs Spark NLP for Healthcare egy védett könyvtár a klinikai és biomedical szövegbányászat. Ez a kódtár előre betanított modelleket biztosít a klinikai entitások, gyógyszerek, kockázati tényezők, anatómia, demográfiai adatok és bizalmas adatok felismeréséhez és kezeléséhez. Kipróbálhatja a Spark NLP for Healthcare szolgáltatást a John Snow Labs partneri Csatlakozás integrációjával. A John Snow Labs próbaverziós vagy fizetős fiókjára van szüksége az útmutatóban bemutatott parancsok kipróbálásához.
További információ a John Snow Labs Spark NLP for Healthcare teljes képességeiről és a webhelyükön használható dokumentációról.
Visszajelzés
https://aka.ms/ContentUserFeedback.
Hamarosan elérhető: 2024-ben fokozatosan kivezetjük a GitHub-problémákat a tartalom visszajelzési mechanizmusaként, és lecseréljük egy új visszajelzési rendszerre. További információ:Visszajelzés küldése és megtekintése a következőhöz: