Processamento de linguagem natural

Artigo
04/19/2024

Você pode executar tarefas de processamento de linguagem natural no Azure Databricks usando bibliotecas de código aberto populares, como Spark ML e spark-nlp ou bibliotecas proprietárias por meio da parceria do Azure Databricks com a John Snow Labs.

Para obter exemplos de PNL com Hugging Face, consulte Recursos adicionais

Criação de recursos a partir de texto usando o Spark ML

O Spark ML contém uma variedade de ferramentas de processamento de texto para criar recursos a partir de colunas de texto. Você pode criar recursos de entrada a partir de texto para algoritmos de treinamento de modelo diretamente em seus pipelines do Spark ML usando o Spark ML. O Spark ML suporta uma variedade de processadores de texto, incluindo tokenização, processamento stop-word, word2vec e hashing de recursos.

Treinamento e inferência usando Spark NLP

Você pode expandir muitos métodos de aprendizado profundo para processamento de linguagem natural no Spark usando a biblioteca de NLP do Spark de código aberto. Esta biblioteca suporta operações padrão de processamento de linguagem natural, como tokenização, reconhecimento de entidade nomeada e vetorização usando os anotadores incluídos. Você também pode resumir, executar o reconhecimento de entidades nomeadas, traduzir e gerar texto usando muitos modelos de aprendizagem profunda pré-treinados baseados nos transformadores do Spark NLP, como BERT e T5 Marion.

Executar inferência em lote usando o Spark NLP em CPUs

O Spark NLP fornece muitos modelos pré-treinados que você pode usar com o mínimo de código. Esta seção contém um exemplo do uso do transformador mariano para tradução automática. Para obter o conjunto completo de exemplos, consulte a documentação do Spark NLP.

Requisitos

Instale o Spark NLP no cluster usando as coordenadas Maven mais recentes para o Spark NLP, como com.johnsnowlabs.nlp:spark-nlp_2.12:4.1.0. O cluster deve ser iniciado com as opções de configuração do Spark apropriadas definidas para que essa biblioteca funcione.
Para usar o Spark NLP, seu cluster deve ter o arquivo correto .jar baixado do John Snow Labs. Você pode criar ou usar um cluster executando qualquer tempo de execução compatível.

Código de exemplo para tradução automática

Em uma célula de notebook, instale sparknlp bibliotecas python:

%pip install sparknlp

Construa um pipeline para tradução e execute-o em algum texto de exemplo:

from sparknlp.base import DocumentAssembler
from sparknlp.annotator import SentenceDetectorDLModel, MarianTransformer
from pyspark.ml import Pipeline

document_assembler = DocumentAssembler().setInputCol("text").setOutputCol("document")

sentence_detector = SentenceDetectorDLModel.pretrained("sentence_detector_dl", "xx") \
  .setInputCols("document").setOutputCol("sentence")

marian_transformer = MarianTransformer.pretrained() \
  .setInputCols("sentence").setOutputCol("translation")

pipeline = Pipeline().setStages([document_assembler,  sentence_detector, marian_transformer])

data = spark.createDataFrame([["You can use Spark NLP to translate text. " + \
                               "This example pipeline translates English to French"]]).toDF("text")

# Create a pipeline model that can be reused across multiple data frames
model = pipeline.fit(data)

# You can use the model on any data frame that has a “text” column
result = model.transform(data)

display(result.select("text", "translation.result"))

Exemplo: modelo de reconhecimento de entidade nomeada usando Spark NLP e MLflow

O bloco de anotações de exemplo ilustra como treinar um modelo de reconhecimento de entidade nomeada usando o Spark NLP, salvar o modelo em MLflow e usar o modelo para inferência em texto. Consulte a documentação do John Snow Labs para o Spark NLP para saber como treinar modelos adicionais de processamento de linguagem natural.

Caderno de inferência e treinamento do modelo Spark NLP

Obter o bloco de notas

PNL para cuidados de saúde com parceria com a John Snow Labs

John Snow Labs Spark NLP for Healthcare é uma biblioteca proprietária para mineração de texto clínico e biomédico. Esta biblioteca fornece modelos pré-treinados para reconhecer e trabalhar com entidades clínicas, medicamentos, fatores de risco, anatomia, demografia e dados confidenciais. Você pode experimentar o Spark NLP for Healthcare usando a integração do Partner Connect com o John Snow Labs. Você precisa de uma conta de avaliação ou paga com a John Snow Labs para experimentar os comandos demonstrados neste guia.

Leia mais sobre todos os recursos do John Snow Labs Spark NLP for Healthcare e documentação para uso em seu site.

Share via